Skip to content

PRD: [数据平台产品名称]

元数据内容
文档状态[草稿 / 评审中 / 已定稿]
版本号v[0.1.0]
作者[姓名]
创建日期[YYYY-MM-DD]
最后更新[YYYY-MM-DD]
平台类型[数据标注平台 / AI 数据管线平台 / 数据质量管理平台 / 综合数据平台]

1. 产品概述

1.1 定位与愿景

[用 3-5 句话描述数据平台的定位。例如:本平台是一个面向[目标用户]的 AI 数据全生命周期管理平台,覆盖从数据采集、清洗、标注、版本管理到质量监控的完整管线,帮助团队高效构建高质量训练数据集,加速 AI 模型的迭代周期。]

1.2 目标用户

角色职责痛点
[数据工程师][数据管线搭建、ETL 维护][如:管线的搭建运维工作量大]
[数据标注员][执行标注任务、质检][如:标注工具难用、重复劳动]
[算法工程师][数据集管理、模型训练][如:数据集版本混乱、质量不可控]
[标注项目经理][标注任务分配、质量审核][如:进度不可见、质量追溯困难]
[合规官][数据隐私与合规审计][如:数据来源不明、合规风险高]

1.3 用户场景

场景 1:[场景名称]

作为[角色],我每周需要[动作],目前[当前方案]耗时[X]小时,新平台应将其缩短至[Y]分钟。

场景 2:[场景名称]

作为[角色],我在[场景]中遇到[问题],需要平台提供[解决方案]。

1.4 成功指标

指标目标值测量方式
数据交付效率从需求到可用的数据集 ≤ [X] 天[平台统计]
数据质量通过率≥ [X]%[自动质检 + 抽检]
标注一致性 (Cohen's Kappa)≥ [X][质检员间一致性]
管线自动化率≥ [X]%[无需人工介入的步骤占比]
数据资产覆盖度[X] 个数据集/季度[平台统计]

2. 数据采集

2.1 数据源接入

数据源类型接入方式支持格式同步策略
结构化数据库[JDBC / CDC (Debezium)][如:MySQL / PostgreSQL / ClickHouse][全量 + 增量]
文件存储[S3 API / SFTP / 本地挂载][如:CSV / JSON / Parquet / Avro][定时同步 / 事件触发]
API 数据[REST API / WebSocket / Webhook][JSON / Protobuf][实时拉取 / 推送]
流式数据[Kafka / Pulsar / RabbitMQ][Avro / JSON / Protobuf][实时消费]
网页抓取[Scrapy / Playwright / 自定义爬虫][HTML / Markdown][定时 + 增量]

2.2 采集配置

  • 采集频率:[如:实时 / 每小时 / 每日 / 自定义 Cron]
  • 数据范围:[如:最近 30 天数据 / 全量历史数据]
  • 限流策略:[如:每秒不超过 X 请求,避免影响源系统]
  • 断点续传:[支持/不支持],失败后从中断位置继续
  • 数据量预估:[如:初期 X GB/日,预估一年后 Y TB/日]

2.3 采集管线监控

监控项告警阈值说明
采集延迟> [X] 分钟[数据延迟到达]
采集失败率> [X]%[数据源不可达或超时]
数据量异常与基线偏差 > [X]%[突然增多/减少]
数据格式异常> [X]%[schema 不匹配]

3. 数据清洗

3.1 清洗规则引擎

清洗类型规则示例优先级自动/手动
去重[如:基于主键去重 / 相似度去重]P0[自动]
缺失值处理[如:丢弃 / 填充均值 / 填充默认值 / 插值]P0[自动]
异常值检测[如:Z-Score > 3 / IQR 规则 / 模型检测]P0[自动 + 人工确认]
格式标准化[如:统一日期格式 yyyy-MM-dd / 统一编码 UTF-8]P0[自动]
数据脱敏[如:手机号中间四位脱敏 / 邮箱脱敏]P1[自动]
噪声去除[如:过滤无关字符、HTML 标签、emoji]P1[自动]
关联数据补齐[如:通过外键关联补齐缺失字段]P2[自动]

3.2 清洗 Pipeline 配置

yaml
pipeline:
  name: [pipeline 名称]
  source: [数据源 ID]
  steps:
    - step: dedup
      params: { key: "id", strategy: "keep_first" }
    - step: fill_missing
      params: { columns: ["age"], strategy: "mean" }
    - step: normalize_date
      params: { columns: ["created_at"], format: "yyyy-MM-dd" }
    - step: outlier_detection
      params: { method: "zscore", threshold: 3, action: "flag" }
  output: [输出数据集 ID]
  schedule: "0 2 * * *"  # 每天凌晨 2 点

3.3 清洗质量报告

  • 清洗前统计:[数据总量、异常比例、缺失比例]
  • 清洗后统计:[清洗后数据量、去重数、修复数]
  • 规则命中率:[每条清洗规则命中的数据量]
  • 数据质量评分:[如:综合质量评分 0-100]

4. 数据标注

4.1 标注任务类型

标注类型适用场景工具支持难度
文本分类[情感分析、意图识别][候选列表选择][低]
实体识别 (NER)[命名实体提取][BIO 标注器、快捷键标注][中]
图像标注[目标检测、语义分割][矩形框 / 多边形 / 关键点][中高]
文本生成评估[模型输出质量评估][评分量表 + 对比排序][高]
指令数据标注[SFT 数据构建][对话编辑器 + Prompt 模板][高]
偏好数据标注[RLHF 数据][结果对比 + 排序][高]
对话数据标注[多轮对话数据][对话树编辑器][高]

4.2 标注工作流

任务创建 → 数据分配 → 标注执行 → 自动质检 → 人工抽检 → 审核通过 → 数据入库
                                                    ↓ 不通过
                                              退回修改或重新分配

4.3 标注工具需求

  • 基础标注界面:[如:Web 端标注台,支持分屏对比]
  • 快捷键支持:[如:全键盘操作,标注效率提升 X%]
  • 预标注功能:[如:使用已有模型做预标注,人工修正]
  • 协作标注:[如:多人同时标注同一批次,实时同步]
  • 标注一致性检测:[如:黄金标准题检测标注员质量]
  • 标注进度看板:[如:实时展示每位标注员进度和质量]

4.4 标注质量控制

质控手段抽检比例通过标准
自动质检100%[如:格式校验、必填字段检查]
同级互检[如:30%][如:两两一致性 > 90%]
专家抽检[如:10%][如:准确率 > 95%]
黄金标准题[如:每 20 条插入 1 条][如:准确率 > 90%,否则触发培训]

5. 数据版本管理

5.1 版本化策略

维度策略说明
数据集版本[语义化版本 vX.Y.Z][如:v1.0.0 表示正式发布版本]
数据管线版本[每次配置变更自动生成版本][如:pipeline-v2-2024-01-15]
标注版本[每次标注修改记录版本][如:label-v3]
模型版本关联[记录训练该版本数据集对应的模型版本][如:model-v2 ← data-v1.2]

5.2 版本操作

  • 创建快照:[如:对当前数据集创建不可变快照]
  • 版本对比:[如:对比 v1 和 v2 的数据分布、标注差异]
  • 版本回滚:[如:一键回退到上一版本]
  • 分支与合并:[如:从主版本创建分支进行实验标注,完成后合并回主版本]
  • 标签/注释:[如:为版本添加标签,如"训练集 v2-生产就绪"]

5.3 版本存储

存储项方案说明
数据文件[如:S3 + DVC / Git LFS][大数据量的版本化存储]
元数据[如:PostgreSQL / MongoDB][版本信息、变更记录]
标注记录[如:PostgreSQL / 标注工具内置][标注历史、修改日志]
管线配置[如:Git + YAML][配置文件版本化管理]

6. 质量监控

6.1 质量指标体系

维度指标计算方式目标值
完整性缺失率[缺失字段数 / 总字段数]≤ [X]%
准确性标注准确率[正确标注数 / 总标注数]≥ [X]%
一致性标注者间 Kappa[Cohen's Kappa 系数]≥ [X]
时效性数据延迟[采集时间 - 入库时间]≤ [X] 分钟
唯一性重复率[重复记录数 / 总记录数]≤ [X]%
规范性格式合规率[合规记录数 / 总记录数]≥ [X]%

6.2 质量监控看板

  • 实时看板:[如:Grafana 仪表盘,展示实时质量指标]
  • 质量趋势:[如:按日/周/月展示质量指标变化曲线]
  • 异常告警:[如:质量指标低于阈值时触发告警]
  • 质量热力图:[如:按数据源/标注员展示质量分布]

6.3 质量改进闭环

数据质量报告 → 问题根因分析 → 改进方案 → 实施修复 → 验证 → 更新质量标准

                                                              知识库沉淀

6.4 数据血缘追踪

  • 血缘记录:[如:记录每条数据的来源采集、清洗步骤、标注员、版本变更]
  • 血缘可视化:[如:DAG 图展示数据从源头到最终集的完整路径]
  • 影响分析:[如:修改某条源数据时,自动列出所有受影响的数据集和模型]

7. 隐私合规

7.1 数据分类分级

等级定义示例处理要求
L0:公开[可对外公开][如:公开数据集、脱敏统计][无需特殊处理]
L1:内部[仅限内部使用][如:内部标注数据][访问控制 + 水印]
L2:敏感[涉及用户隐私][如:含手机号、邮箱的数据][脱敏 + 加密 + 审计]
L3:高度敏感[涉及生物特征/金融][如:人脸数据、银行流水][脱敏 + 加密 + 不可复原 + 特殊审批]

7.2 脱敏策略

数据类型脱敏方法示例
手机号[中间四位掩码]138****1234
身份证[保留前 6 后 4]110101****1234
邮箱[@ 前部分掩码]u***@example.com
姓名[保留姓氏]张*
IP 地址[最后一段归零]192.168.1.0
坐标[精度降级 / 网格化][如:保留到小数点后 2 位]

7.3 合规清单

  • [ ] 数据来源追溯:每条数据标注其原始来源,保留采集日志
  • [ ] 用户知情同意:采集数据前获取用户授权,记录授权时间戳
  • [ ] 数据最小化:仅采集标注任务所需的最小数据范围
  • [ ] 数据保留期限:标注完成后 [X] 天内自动删除原始数据
  • [ ] 访问审计:所有数据访问记录日志,保留 [X] 天
  • [ ] 数据出境评估:涉及跨境传输时,通过安全评估
  • [ ] 合规法规:遵守 [如:个保法 / GDPR / CCPA] 要求

7.4 审计功能

审计项记录内容保留时长
数据访问日志[谁、何时、访问了哪些数据、操作类型][X] 天
数据变更日志[谁、何时、修改了哪些字段、原始值、新值][X] 天
标注操作日志[谁、何时、标注了哪些数据、标注时长][X] 天
导出日志[谁、何时、导出了哪些数据、导出方式][X] 天

8. 非功能需求

8.1 性能

指标目标值
数据采集吞吐≥ [X] GB/小时
标注界面响应≤ [X] ms
数据检索延迟P50 ≤ [X]ms, P99 ≤ [Y]ms
管线执行延迟100GB 数据全流程 ≤ [X] 小时

8.2 可用性

  • 平台可用性 SLA:≥ 99.[X]%
  • 数据持久性:≥ 99.9999% (11个9)
  • 灾备方案:[同城双活 / 异地容灾 / RPO ≤ X min, RTO ≤ Y min]

8.3 安全

  • 访问控制:[RBAC / ABAC 权限模型]
  • 传输加密:[TLS 1.3]
  • 存储加密:[AES-256 / KMS 密钥管理]
  • 安全认证:[SSO / OAuth 2.0 / LDAP 集成]

9. 实施路线图

里程碑时间交付物负责人
M1:数据采集 + 清洗YYYY-MM-DD基础 ETL 管线,支持 3 个数据源[姓名]
M2:标注平台YYYY-MM-DD文本标注功能,支持分类+NLP[姓名]
M3:版本管理YYYY-MM-DD数据集版本管理 + 快照功能[姓名]
M4:质量监控YYYY-MM-DD质量看板 + 自动质检 + 告警[姓名]
M5:隐私合规YYYY-MM-DD脱敏引擎 + 审计日志 + 合规报告[姓名]

10. 风险与缓解

风险概率影响缓解措施
[数据质量不达标影响模型效果][高/中/低][高/中/低][如:设置多级质检机制 + 自动质量评分]
[合规风险 / 数据泄露][高/中/低][高/中/低][如:前置法务评审 + 加密 + 脱敏 + 审计]
[数据管线不稳定][高/中/低][高/中/低][如:断点续传 + 自动重试 + 监控告警]
[标注员培训成本高][高/中/低][高/中/低][如:预标注降低门槛 + 自动化质检减少人工]
[存储成本超预算][高/中/低][高/中/低][如:冷热分层存储 + 定期清理过期数据]

11. 附录

11.1 相关文档

  • [数据架构设计文档]
  • [脱敏方案详情]
  • [标注规范手册]

11.2 术语表

术语定义
ETL[Extract-Transform-Load,数据抽取、转换、加载]
标注一致性 (Cohen's Kappa)[衡量多个标注者之间一致性的统计指标]
数据血缘[数据的来源、变换路径和使用去向的完整追溯]
RBAC[基于角色的访问控制]

11.3 变更日志

版本日期变更内容作者
v0.1.0YYYY-MM-DD初稿创建[姓名]

MIT License