PRD: [数据平台产品名称]
| 元数据 | 内容 |
|---|---|
| 文档状态 | [草稿 / 评审中 / 已定稿] |
| 版本号 | v[0.1.0] |
| 作者 | [姓名] |
| 创建日期 | [YYYY-MM-DD] |
| 最后更新 | [YYYY-MM-DD] |
| 平台类型 | [数据标注平台 / AI 数据管线平台 / 数据质量管理平台 / 综合数据平台] |
1. 产品概述
1.1 定位与愿景
[用 3-5 句话描述数据平台的定位。例如:本平台是一个面向[目标用户]的 AI 数据全生命周期管理平台,覆盖从数据采集、清洗、标注、版本管理到质量监控的完整管线,帮助团队高效构建高质量训练数据集,加速 AI 模型的迭代周期。]
1.2 目标用户
| 角色 | 职责 | 痛点 |
|---|---|---|
| [数据工程师] | [数据管线搭建、ETL 维护] | [如:管线的搭建运维工作量大] |
| [数据标注员] | [执行标注任务、质检] | [如:标注工具难用、重复劳动] |
| [算法工程师] | [数据集管理、模型训练] | [如:数据集版本混乱、质量不可控] |
| [标注项目经理] | [标注任务分配、质量审核] | [如:进度不可见、质量追溯困难] |
| [合规官] | [数据隐私与合规审计] | [如:数据来源不明、合规风险高] |
1.3 用户场景
场景 1:[场景名称]
作为[角色],我每周需要[动作],目前[当前方案]耗时[X]小时,新平台应将其缩短至[Y]分钟。
场景 2:[场景名称]
作为[角色],我在[场景]中遇到[问题],需要平台提供[解决方案]。
1.4 成功指标
| 指标 | 目标值 | 测量方式 |
|---|---|---|
| 数据交付效率 | 从需求到可用的数据集 ≤ [X] 天 | [平台统计] |
| 数据质量通过率 | ≥ [X]% | [自动质检 + 抽检] |
| 标注一致性 (Cohen's Kappa) | ≥ [X] | [质检员间一致性] |
| 管线自动化率 | ≥ [X]% | [无需人工介入的步骤占比] |
| 数据资产覆盖度 | [X] 个数据集/季度 | [平台统计] |
2. 数据采集
2.1 数据源接入
| 数据源类型 | 接入方式 | 支持格式 | 同步策略 |
|---|---|---|---|
| 结构化数据库 | [JDBC / CDC (Debezium)] | [如:MySQL / PostgreSQL / ClickHouse] | [全量 + 增量] |
| 文件存储 | [S3 API / SFTP / 本地挂载] | [如:CSV / JSON / Parquet / Avro] | [定时同步 / 事件触发] |
| API 数据 | [REST API / WebSocket / Webhook] | [JSON / Protobuf] | [实时拉取 / 推送] |
| 流式数据 | [Kafka / Pulsar / RabbitMQ] | [Avro / JSON / Protobuf] | [实时消费] |
| 网页抓取 | [Scrapy / Playwright / 自定义爬虫] | [HTML / Markdown] | [定时 + 增量] |
2.2 采集配置
- 采集频率:[如:实时 / 每小时 / 每日 / 自定义 Cron]
- 数据范围:[如:最近 30 天数据 / 全量历史数据]
- 限流策略:[如:每秒不超过 X 请求,避免影响源系统]
- 断点续传:[支持/不支持],失败后从中断位置继续
- 数据量预估:[如:初期 X GB/日,预估一年后 Y TB/日]
2.3 采集管线监控
| 监控项 | 告警阈值 | 说明 |
|---|---|---|
| 采集延迟 | > [X] 分钟 | [数据延迟到达] |
| 采集失败率 | > [X]% | [数据源不可达或超时] |
| 数据量异常 | 与基线偏差 > [X]% | [突然增多/减少] |
| 数据格式异常 | > [X]% | [schema 不匹配] |
3. 数据清洗
3.1 清洗规则引擎
| 清洗类型 | 规则示例 | 优先级 | 自动/手动 |
|---|---|---|---|
| 去重 | [如:基于主键去重 / 相似度去重] | P0 | [自动] |
| 缺失值处理 | [如:丢弃 / 填充均值 / 填充默认值 / 插值] | P0 | [自动] |
| 异常值检测 | [如:Z-Score > 3 / IQR 规则 / 模型检测] | P0 | [自动 + 人工确认] |
| 格式标准化 | [如:统一日期格式 yyyy-MM-dd / 统一编码 UTF-8] | P0 | [自动] |
| 数据脱敏 | [如:手机号中间四位脱敏 / 邮箱脱敏] | P1 | [自动] |
| 噪声去除 | [如:过滤无关字符、HTML 标签、emoji] | P1 | [自动] |
| 关联数据补齐 | [如:通过外键关联补齐缺失字段] | P2 | [自动] |
3.2 清洗 Pipeline 配置
yaml
pipeline:
name: [pipeline 名称]
source: [数据源 ID]
steps:
- step: dedup
params: { key: "id", strategy: "keep_first" }
- step: fill_missing
params: { columns: ["age"], strategy: "mean" }
- step: normalize_date
params: { columns: ["created_at"], format: "yyyy-MM-dd" }
- step: outlier_detection
params: { method: "zscore", threshold: 3, action: "flag" }
output: [输出数据集 ID]
schedule: "0 2 * * *" # 每天凌晨 2 点3.3 清洗质量报告
- 清洗前统计:[数据总量、异常比例、缺失比例]
- 清洗后统计:[清洗后数据量、去重数、修复数]
- 规则命中率:[每条清洗规则命中的数据量]
- 数据质量评分:[如:综合质量评分 0-100]
4. 数据标注
4.1 标注任务类型
| 标注类型 | 适用场景 | 工具支持 | 难度 |
|---|---|---|---|
| 文本分类 | [情感分析、意图识别] | [候选列表选择] | [低] |
| 实体识别 (NER) | [命名实体提取] | [BIO 标注器、快捷键标注] | [中] |
| 图像标注 | [目标检测、语义分割] | [矩形框 / 多边形 / 关键点] | [中高] |
| 文本生成评估 | [模型输出质量评估] | [评分量表 + 对比排序] | [高] |
| 指令数据标注 | [SFT 数据构建] | [对话编辑器 + Prompt 模板] | [高] |
| 偏好数据标注 | [RLHF 数据] | [结果对比 + 排序] | [高] |
| 对话数据标注 | [多轮对话数据] | [对话树编辑器] | [高] |
4.2 标注工作流
任务创建 → 数据分配 → 标注执行 → 自动质检 → 人工抽检 → 审核通过 → 数据入库
↓ 不通过
退回修改或重新分配4.3 标注工具需求
- 基础标注界面:[如:Web 端标注台,支持分屏对比]
- 快捷键支持:[如:全键盘操作,标注效率提升 X%]
- 预标注功能:[如:使用已有模型做预标注,人工修正]
- 协作标注:[如:多人同时标注同一批次,实时同步]
- 标注一致性检测:[如:黄金标准题检测标注员质量]
- 标注进度看板:[如:实时展示每位标注员进度和质量]
4.4 标注质量控制
| 质控手段 | 抽检比例 | 通过标准 |
|---|---|---|
| 自动质检 | 100% | [如:格式校验、必填字段检查] |
| 同级互检 | [如:30%] | [如:两两一致性 > 90%] |
| 专家抽检 | [如:10%] | [如:准确率 > 95%] |
| 黄金标准题 | [如:每 20 条插入 1 条] | [如:准确率 > 90%,否则触发培训] |
5. 数据版本管理
5.1 版本化策略
| 维度 | 策略 | 说明 |
|---|---|---|
| 数据集版本 | [语义化版本 vX.Y.Z] | [如:v1.0.0 表示正式发布版本] |
| 数据管线版本 | [每次配置变更自动生成版本] | [如:pipeline-v2-2024-01-15] |
| 标注版本 | [每次标注修改记录版本] | [如:label-v3] |
| 模型版本关联 | [记录训练该版本数据集对应的模型版本] | [如:model-v2 ← data-v1.2] |
5.2 版本操作
- 创建快照:[如:对当前数据集创建不可变快照]
- 版本对比:[如:对比 v1 和 v2 的数据分布、标注差异]
- 版本回滚:[如:一键回退到上一版本]
- 分支与合并:[如:从主版本创建分支进行实验标注,完成后合并回主版本]
- 标签/注释:[如:为版本添加标签,如"训练集 v2-生产就绪"]
5.3 版本存储
| 存储项 | 方案 | 说明 |
|---|---|---|
| 数据文件 | [如:S3 + DVC / Git LFS] | [大数据量的版本化存储] |
| 元数据 | [如:PostgreSQL / MongoDB] | [版本信息、变更记录] |
| 标注记录 | [如:PostgreSQL / 标注工具内置] | [标注历史、修改日志] |
| 管线配置 | [如:Git + YAML] | [配置文件版本化管理] |
6. 质量监控
6.1 质量指标体系
| 维度 | 指标 | 计算方式 | 目标值 |
|---|---|---|---|
| 完整性 | 缺失率 | [缺失字段数 / 总字段数] | ≤ [X]% |
| 准确性 | 标注准确率 | [正确标注数 / 总标注数] | ≥ [X]% |
| 一致性 | 标注者间 Kappa | [Cohen's Kappa 系数] | ≥ [X] |
| 时效性 | 数据延迟 | [采集时间 - 入库时间] | ≤ [X] 分钟 |
| 唯一性 | 重复率 | [重复记录数 / 总记录数] | ≤ [X]% |
| 规范性 | 格式合规率 | [合规记录数 / 总记录数] | ≥ [X]% |
6.2 质量监控看板
- 实时看板:[如:Grafana 仪表盘,展示实时质量指标]
- 质量趋势:[如:按日/周/月展示质量指标变化曲线]
- 异常告警:[如:质量指标低于阈值时触发告警]
- 质量热力图:[如:按数据源/标注员展示质量分布]
6.3 质量改进闭环
数据质量报告 → 问题根因分析 → 改进方案 → 实施修复 → 验证 → 更新质量标准
↓
知识库沉淀6.4 数据血缘追踪
- 血缘记录:[如:记录每条数据的来源采集、清洗步骤、标注员、版本变更]
- 血缘可视化:[如:DAG 图展示数据从源头到最终集的完整路径]
- 影响分析:[如:修改某条源数据时,自动列出所有受影响的数据集和模型]
7. 隐私合规
7.1 数据分类分级
| 等级 | 定义 | 示例 | 处理要求 |
|---|---|---|---|
| L0:公开 | [可对外公开] | [如:公开数据集、脱敏统计] | [无需特殊处理] |
| L1:内部 | [仅限内部使用] | [如:内部标注数据] | [访问控制 + 水印] |
| L2:敏感 | [涉及用户隐私] | [如:含手机号、邮箱的数据] | [脱敏 + 加密 + 审计] |
| L3:高度敏感 | [涉及生物特征/金融] | [如:人脸数据、银行流水] | [脱敏 + 加密 + 不可复原 + 特殊审批] |
7.2 脱敏策略
| 数据类型 | 脱敏方法 | 示例 |
|---|---|---|
| 手机号 | [中间四位掩码] | 138****1234 |
| 身份证 | [保留前 6 后 4] | 110101****1234 |
| 邮箱 | [@ 前部分掩码] | u***@example.com |
| 姓名 | [保留姓氏] | 张* |
| IP 地址 | [最后一段归零] | 192.168.1.0 |
| 坐标 | [精度降级 / 网格化] | [如:保留到小数点后 2 位] |
7.3 合规清单
- [ ] 数据来源追溯:每条数据标注其原始来源,保留采集日志
- [ ] 用户知情同意:采集数据前获取用户授权,记录授权时间戳
- [ ] 数据最小化:仅采集标注任务所需的最小数据范围
- [ ] 数据保留期限:标注完成后 [X] 天内自动删除原始数据
- [ ] 访问审计:所有数据访问记录日志,保留 [X] 天
- [ ] 数据出境评估:涉及跨境传输时,通过安全评估
- [ ] 合规法规:遵守 [如:个保法 / GDPR / CCPA] 要求
7.4 审计功能
| 审计项 | 记录内容 | 保留时长 |
|---|---|---|
| 数据访问日志 | [谁、何时、访问了哪些数据、操作类型] | [X] 天 |
| 数据变更日志 | [谁、何时、修改了哪些字段、原始值、新值] | [X] 天 |
| 标注操作日志 | [谁、何时、标注了哪些数据、标注时长] | [X] 天 |
| 导出日志 | [谁、何时、导出了哪些数据、导出方式] | [X] 天 |
8. 非功能需求
8.1 性能
| 指标 | 目标值 |
|---|---|
| 数据采集吞吐 | ≥ [X] GB/小时 |
| 标注界面响应 | ≤ [X] ms |
| 数据检索延迟 | P50 ≤ [X]ms, P99 ≤ [Y]ms |
| 管线执行延迟 | 100GB 数据全流程 ≤ [X] 小时 |
8.2 可用性
- 平台可用性 SLA:≥ 99.[X]%
- 数据持久性:≥ 99.9999% (11个9)
- 灾备方案:[同城双活 / 异地容灾 / RPO ≤ X min, RTO ≤ Y min]
8.3 安全
- 访问控制:[RBAC / ABAC 权限模型]
- 传输加密:[TLS 1.3]
- 存储加密:[AES-256 / KMS 密钥管理]
- 安全认证:[SSO / OAuth 2.0 / LDAP 集成]
9. 实施路线图
| 里程碑 | 时间 | 交付物 | 负责人 |
|---|---|---|---|
| M1:数据采集 + 清洗 | YYYY-MM-DD | 基础 ETL 管线,支持 3 个数据源 | [姓名] |
| M2:标注平台 | YYYY-MM-DD | 文本标注功能,支持分类+NLP | [姓名] |
| M3:版本管理 | YYYY-MM-DD | 数据集版本管理 + 快照功能 | [姓名] |
| M4:质量监控 | YYYY-MM-DD | 质量看板 + 自动质检 + 告警 | [姓名] |
| M5:隐私合规 | YYYY-MM-DD | 脱敏引擎 + 审计日志 + 合规报告 | [姓名] |
10. 风险与缓解
| 风险 | 概率 | 影响 | 缓解措施 |
|---|---|---|---|
| [数据质量不达标影响模型效果] | [高/中/低] | [高/中/低] | [如:设置多级质检机制 + 自动质量评分] |
| [合规风险 / 数据泄露] | [高/中/低] | [高/中/低] | [如:前置法务评审 + 加密 + 脱敏 + 审计] |
| [数据管线不稳定] | [高/中/低] | [高/中/低] | [如:断点续传 + 自动重试 + 监控告警] |
| [标注员培训成本高] | [高/中/低] | [高/中/低] | [如:预标注降低门槛 + 自动化质检减少人工] |
| [存储成本超预算] | [高/中/低] | [高/中/低] | [如:冷热分层存储 + 定期清理过期数据] |
11. 附录
11.1 相关文档
- [数据架构设计文档]
- [脱敏方案详情]
- [标注规范手册]
11.2 术语表
| 术语 | 定义 |
|---|---|
| ETL | [Extract-Transform-Load,数据抽取、转换、加载] |
| 标注一致性 (Cohen's Kappa) | [衡量多个标注者之间一致性的统计指标] |
| 数据血缘 | [数据的来源、变换路径和使用去向的完整追溯] |
| RBAC | [基于角色的访问控制] |
11.3 变更日志
| 版本 | 日期 | 变更内容 | 作者 |
|---|---|---|---|
| v0.1.0 | YYYY-MM-DD | 初稿创建 | [姓名] |