感知模块¶

进行中 负责人： 李淑雅

模块目标¶

感知模块是系统的"眼睛"，负责将相机图像转化为机械臂可执行的夹取坐标。

对外承诺： 输出符合 GraspTarget 接口规范的数据结构，置信度 ≥ 0.70。

上下游接口¶

输入输出

来源	数据	说明
双目摄像头（RGB-D）	640×480 彩色图 + 深度图	30fps，USB/GigE
`InstrumentCommand`	器械名称、`instrument_id`	来自 NLP 模块，用于交叉验证

消费方	数据	说明
决策模块 / 执行模块	`GraspTarget`	夹取点坐标 + 方向 + 置信度

完整字段定义见模块接口定义。

MVP 感知策略：槽位 ROI 方案¶

雄安测试后确定，五一演示版采用此方案。

核心思路¶

护士将器械逐一放入定制支架的固定槽位，相机不再全图搜索，而是针对指定槽位的 ROI 区域进行裁剪识别，难度大幅降低。

全图搜索（原）：检测范围大、遮挡多、误识别率高
       ↓  改为
ROI 裁剪（MVP）：只看对应槽位的小区域，器械独立、无遮挡

识别流程¶

NLP 返回 instrument_id
  → 查 position_registry.json 得到 roi_image 坐标
  → 裁剪该 ROI 送入 YOLO
  → 得到检测框 + 中心点 + 朝向角
  → 修正算法：grasp_point = nominal + 视觉偏移
  → 输出 GraspTarget（置信度预期 > 0.9）

失败回退策略¶

情况	处理方式
YOLO 置信度 < 0.7	语音提示「未找到器械，请确认槽位」
ROI 内无目标	fallback 到槽位名义坐标（nominal point）
朝向角偏差 > 30°	修正算法介入，重新计算夹取角

当前状态¶

子功能	状态	说明
YOLO 器械检测	进行中	基本可用，误识别率偏高（托盘外物体）
手眼标定	进行中	流程可行但繁琐（约1h/次），半自动化开发中
夹取点修正算法	进行中	朝向识别偏差大，修正算法设计中
二维码验证	规划中	待 D-04 决策后启动

待决策问题¶

D-01：已决策 — 定制支架槽位方案

采用定制支架，每件器械对应固定槽位，相机针对 ROI 区域识别。五一演示版执行此方案，详见五一冲刺计划。

D-04：暂缓 — 二维码验证五一后引入

槽位支架已大幅降低识别难度，五一版不引入二维码，后续迭代补入。

已知瓶颈¶

P0-01：手眼标定每次约 1 小时

每次换场景或重新部署都需要重新标定，严重影响现场效率。
改进方向： hardware/hand_eye_calib.py 加入半自动流程，按钮触发自动记录标定点。

P1-01：夹取点识别偏差

YOLO 输出的中心点直接用作夹取点时偏差约 10–20mm，导致夹取失败。
改进方向： 结合识别框、夹取点标注、朝向点，用算法修正到实际夹持位置。

本周行动¶

李淑雅：完成手眼标定半自动化工具原型，可在界面按钮触发
李淑雅：整理当前 YOLO 误识别样本，制作 hard negative 数据集
李淑雅 + 任松：确认 GraspTarget 接口字段，与执行模块对齐

技术子页¶

YOLO 器械检测 — 模型选型、训练数据、评测结果
相机标定 — 手眼标定流程、标定矩阵管理
夹取点算法 — 修正算法设计、测试记录