数据集管理¶
目录结构¶
data/
├── instruments/ # 器械图像数据集
│ ├── raw/ # 原始采集图像
│ ├── labeled/ # 标注后数据(YOLO 格式)
│ └── augmented/ # 数据增强后
├── nlp/ # NLP 训练数据
│ ├── sft_train.jsonl # SFT 训练集
│ ├── sft_val.jsonl # 验证集
│ └── dpo_pairs.jsonl # DPO 偏好对
├── demonstrations/ # 遥操作演示数据(VLA 训练用)
│ ├── sim/ # 仿真采集
│ └── real/ # 真机采集
└── vocabulary/
└── instrument_vocab.json
数据标注规范¶
- 使用 Label Studio 进行 YOLO 格式标注
- 每条数据须包含:器械类别、夹取点、朝向点
- 标注完成后运行验证脚本:
python scripts/validate_labels.py
版本管理¶
数据集使用 DVC 管理,不直接提交到 Git。