爱数智慧数据标注规范
- 行业动态
- 2025-05-08
- 2
数据标注基本原则
- 准确性
- 标注结果需严格符合业务需求,避免主观臆断
- 采用标准化术语体系,保持标签一致性
- 可追溯性
- 记录标注人员ID、标注时间、修改记录
- 保留原始数据与标注结果的对应关系
- 效率性
- 建立标注优先级机制(如按数据价值分级)
- 采用快捷键操作提升标注速度
- 安全性
- 敏感信息脱敏处理(如身份证号、人脸特征)
- 签署保密协议,限制数据访问权限
标注流程规范
阶段 | 关键动作 |
---|---|
准备阶段 | 理解标注需求文档 参加标注培训并通过考核 领取测试集试标 |
标注阶段 | 采用”初标-复标-仲裁”三级审核制 每日提交标注日志 异常数据即时上报 |
质检阶段 | 随机抽检(比例≥5%) 争议数据多人会审 错误率>2%需返工 |
交付阶段 | 生成带元数据的标注报告 通过加密渠道传输 留存过程文件15天 |
质量控制标准
文本类数据标注要求:
| 数据类型 | 标注标准 |
|————|————————————————————————–|
| 命名实体 | 边界精确到字符级别,类型区分(人名/地名/机构名) |
| 情感分析 | 采用5级分类体系,中性样本需双人验证 |
| 意图识别 | 允许最大歧义容忍度±10%,建立意图相似度对照表 |
图像类数据标注要求:
| 标注类型 | 技术参数 |
|————|————————————————————————–|
| 目标检测 | IoU阈值≥0.8,小目标需放大验证 |
| 语义分割 | 边缘像素误差<3个像素,羽化区域特殊处理 |
| 关键点标注 | 医疗影像标注需放射科医师复核,误差容忍度≤2%身高比例 |
标注工具使用规范
工具选择原则
- 优先使用企业认证的工具平台(如LabelImg/CVAT)
- 禁止私自开发标注插件
- 定期更新工具版本并记录变更日志
标注操作规范
- 键盘操作占比≥80%(减少鼠标移动耗时)
- 批量处理功能仅用于同质化数据
- 每标注30分钟需校准工具参数
版本管理要求
| 文件类型 | 版本控制方式 |
|————–|——————————————————————————|
| 标注文件 | 每日18:00自动生成快照版本,保留最近7天历史记录 |
| 模型文件 | 每次迭代需标注负责人电子签名确认 |
| 日志文件 | 本地+云端双重备份,存储周期不少于6个月 |
特殊场景处理规范
模糊数据标注
- 建立”待定”标签类别(不超过总标注量5%)
- 48小时内组织专家会诊
- 采用多数表决机制解决争议
多模态数据关联
- 音视频需同步打时间戳(精度±200ms)
- 跨模态标注需建立ID映射表
- 三维点云数据需与二维图像坐标对齐
动态更新机制
- 每月更新标注手册(版本号规则:YYYYMMDD_X)
- 重大变更需重新培训考核
- 保留旧版本规范文档备查
【问题与解答】栏目
Q1:如何处理标注过程中发现的明显错误数据?
A1:执行”三阶纠错”流程:①立即暂停当前标注任务 → ②通过企业IM工具上报至质检组 → ③在错误登记系统记录详情(含截图/时间戳/数据ID),质检组需在2小时内响应,4小时内完成根因分析,8小时内反馈处理方案,错误数据应标记为”待修复”状态,修复后需重新走完整标注流程。
Q2:遇到不同标注人员对同一数据产生分歧时如何解决?
A2:启动”三级仲裁”机制:①首次分歧由组长组织双方复盘标注依据 → ②二次争议升级至领域专家会审 → ③最终争议提交至技术委员会决策,全程需记录分歧点、论证过程和裁决理由,形成案例库用于后续培训,对月度争议率超10%的标注人员实施专项能力