PRD: [数据平台产品名称]

元数据	内容
文档状态	[草稿 / 评审中 / 已定稿]
版本号	v[0.1.0]
作者	[姓名]
创建日期	[YYYY-MM-DD]
最后更新	[YYYY-MM-DD]
平台类型	[数据标注平台 / AI 数据管线平台 / 数据质量管理平台 / 综合数据平台]

1. 产品概述

1.1 定位与愿景

[用 3-5 句话描述数据平台的定位。例如：本平台是一个面向[目标用户]的 AI 数据全生命周期管理平台，覆盖从数据采集、清洗、标注、版本管理到质量监控的完整管线，帮助团队高效构建高质量训练数据集，加速 AI 模型的迭代周期。]

1.2 目标用户

角色	职责	痛点
[数据工程师]	[数据管线搭建、ETL 维护]	[如：管线的搭建运维工作量大]
[数据标注员]	[执行标注任务、质检]	[如：标注工具难用、重复劳动]
[算法工程师]	[数据集管理、模型训练]	[如：数据集版本混乱、质量不可控]
[标注项目经理]	[标注任务分配、质量审核]	[如：进度不可见、质量追溯困难]
[合规官]	[数据隐私与合规审计]	[如：数据来源不明、合规风险高]

1.3 用户场景

场景 1：[场景名称]

作为[角色]，我每周需要[动作]，目前[当前方案]耗时[X]小时，新平台应将其缩短至[Y]分钟。

场景 2：[场景名称]

作为[角色]，我在[场景]中遇到[问题]，需要平台提供[解决方案]。

1.4 成功指标

指标	目标值	测量方式
数据交付效率	从需求到可用的数据集 ≤ [X] 天	[平台统计]
数据质量通过率	≥ [X]%	[自动质检 + 抽检]
标注一致性 (Cohen's Kappa)	≥ [X]	[质检员间一致性]
管线自动化率	≥ [X]%	[无需人工介入的步骤占比]
数据资产覆盖度	[X] 个数据集/季度	[平台统计]

2. 数据采集

2.1 数据源接入

数据源类型	接入方式	支持格式	同步策略
结构化数据库	[JDBC / CDC (Debezium)]	[如：MySQL / PostgreSQL / ClickHouse]	[全量 + 增量]
文件存储	[S3 API / SFTP / 本地挂载]	[如：CSV / JSON / Parquet / Avro]	[定时同步 / 事件触发]
API 数据	[REST API / WebSocket / Webhook]	[JSON / Protobuf]	[实时拉取 / 推送]
流式数据	[Kafka / Pulsar / RabbitMQ]	[Avro / JSON / Protobuf]	[实时消费]
网页抓取	[Scrapy / Playwright / 自定义爬虫]	[HTML / Markdown]	[定时 + 增量]

2.2 采集配置

采集频率：[如：实时 / 每小时 / 每日 / 自定义 Cron]
数据范围：[如：最近 30 天数据 / 全量历史数据]
限流策略：[如：每秒不超过 X 请求，避免影响源系统]
断点续传：[支持/不支持]，失败后从中断位置继续
数据量预估：[如：初期 X GB/日，预估一年后 Y TB/日]

2.3 采集管线监控

监控项	告警阈值	说明
采集延迟	> [X] 分钟	[数据延迟到达]
采集失败率	> [X]%	[数据源不可达或超时]
数据量异常	与基线偏差 > [X]%	[突然增多/减少]
数据格式异常	> [X]%	[schema 不匹配]

3. 数据清洗

3.1 清洗规则引擎

清洗类型	规则示例	优先级	自动/手动
去重	[如：基于主键去重 / 相似度去重]	P0	[自动]
缺失值处理	[如：丢弃 / 填充均值 / 填充默认值 / 插值]	P0	[自动]
异常值检测	[如：Z-Score > 3 / IQR 规则 / 模型检测]	P0	[自动 + 人工确认]
格式标准化	[如：统一日期格式 yyyy-MM-dd / 统一编码 UTF-8]	P0	[自动]
数据脱敏	[如：手机号中间四位脱敏 / 邮箱脱敏]	P1	[自动]
噪声去除	[如：过滤无关字符、HTML 标签、emoji]	P1	[自动]
关联数据补齐	[如：通过外键关联补齐缺失字段]	P2	[自动]

3.2 清洗 Pipeline 配置

yaml

pipeline:
  name: [pipeline 名称]
  source: [数据源 ID]
  steps:
    - step: dedup
      params: { key: "id", strategy: "keep_first" }
    - step: fill_missing
      params: { columns: ["age"], strategy: "mean" }
    - step: normalize_date
      params: { columns: ["created_at"], format: "yyyy-MM-dd" }
    - step: outlier_detection
      params: { method: "zscore", threshold: 3, action: "flag" }
  output: [输出数据集 ID]
  schedule: "0 2 * * *"  # 每天凌晨 2 点

3.3 清洗质量报告

清洗前统计：[数据总量、异常比例、缺失比例]
清洗后统计：[清洗后数据量、去重数、修复数]
规则命中率：[每条清洗规则命中的数据量]
数据质量评分：[如：综合质量评分 0-100]

4. 数据标注

4.1 标注任务类型

标注类型	适用场景	工具支持	难度
文本分类	[情感分析、意图识别]	[候选列表选择]	[低]
实体识别 (NER)	[命名实体提取]	[BIO 标注器、快捷键标注]	[中]
图像标注	[目标检测、语义分割]	[矩形框 / 多边形 / 关键点]	[中高]
文本生成评估	[模型输出质量评估]	[评分量表 + 对比排序]	[高]
指令数据标注	[SFT 数据构建]	[对话编辑器 + Prompt 模板]	[高]
偏好数据标注	[RLHF 数据]	[结果对比 + 排序]	[高]
对话数据标注	[多轮对话数据]	[对话树编辑器]	[高]

4.2 标注工作流

任务创建 → 数据分配 → 标注执行 → 自动质检 → 人工抽检 → 审核通过 → 数据入库
                                                    ↓ 不通过
                                              退回修改或重新分配

4.3 标注工具需求

基础标注界面：[如：Web 端标注台，支持分屏对比]
快捷键支持：[如：全键盘操作，标注效率提升 X%]
预标注功能：[如：使用已有模型做预标注，人工修正]
协作标注：[如：多人同时标注同一批次，实时同步]
标注一致性检测：[如：黄金标准题检测标注员质量]
标注进度看板：[如：实时展示每位标注员进度和质量]

4.4 标注质量控制

质控手段	抽检比例	通过标准
自动质检	100%	[如：格式校验、必填字段检查]
同级互检	[如：30%]	[如：两两一致性 > 90%]
专家抽检	[如：10%]	[如：准确率 > 95%]
黄金标准题	[如：每 20 条插入 1 条]	[如：准确率 > 90%，否则触发培训]

5. 数据版本管理

5.1 版本化策略

维度	策略	说明
数据集版本	[语义化版本 vX.Y.Z]	[如：v1.0.0 表示正式发布版本]
数据管线版本	[每次配置变更自动生成版本]	[如：pipeline-v2-2024-01-15]
标注版本	[每次标注修改记录版本]	[如：label-v3]
模型版本关联	[记录训练该版本数据集对应的模型版本]	[如：model-v2 ← data-v1.2]

5.2 版本操作

创建快照：[如：对当前数据集创建不可变快照]
版本对比：[如：对比 v1 和 v2 的数据分布、标注差异]
版本回滚：[如：一键回退到上一版本]
分支与合并：[如：从主版本创建分支进行实验标注，完成后合并回主版本]
标签/注释：[如：为版本添加标签，如"训练集 v2-生产就绪"]

5.3 版本存储

存储项	方案	说明
数据文件	[如：S3 + DVC / Git LFS]	[大数据量的版本化存储]
元数据	[如：PostgreSQL / MongoDB]	[版本信息、变更记录]
标注记录	[如：PostgreSQL / 标注工具内置]	[标注历史、修改日志]
管线配置	[如：Git + YAML]	[配置文件版本化管理]

6. 质量监控

6.1 质量指标体系

维度	指标	计算方式	目标值
完整性	缺失率	[缺失字段数 / 总字段数]	≤ [X]%
准确性	标注准确率	[正确标注数 / 总标注数]	≥ [X]%
一致性	标注者间 Kappa	[Cohen's Kappa 系数]	≥ [X]
时效性	数据延迟	[采集时间 - 入库时间]	≤ [X] 分钟
唯一性	重复率	[重复记录数 / 总记录数]	≤ [X]%
规范性	格式合规率	[合规记录数 / 总记录数]	≥ [X]%

6.2 质量监控看板

实时看板：[如：Grafana 仪表盘，展示实时质量指标]
质量趋势：[如：按日/周/月展示质量指标变化曲线]
异常告警：[如：质量指标低于阈值时触发告警]
质量热力图：[如：按数据源/标注员展示质量分布]

6.3 质量改进闭环

数据质量报告 → 问题根因分析 → 改进方案 → 实施修复 → 验证 → 更新质量标准
                                                                     ↓
                                                              知识库沉淀

6.4 数据血缘追踪

血缘记录：[如：记录每条数据的来源采集、清洗步骤、标注员、版本变更]
血缘可视化：[如：DAG 图展示数据从源头到最终集的完整路径]
影响分析：[如：修改某条源数据时，自动列出所有受影响的数据集和模型]

7. 隐私合规

7.1 数据分类分级

等级	定义	示例	处理要求
L0：公开	[可对外公开]	[如：公开数据集、脱敏统计]	[无需特殊处理]
L1：内部	[仅限内部使用]	[如：内部标注数据]	[访问控制 + 水印]
L2：敏感	[涉及用户隐私]	[如：含手机号、邮箱的数据]	[脱敏 + 加密 + 审计]
L3：高度敏感	[涉及生物特征/金融]	[如：人脸数据、银行流水]	[脱敏 + 加密 + 不可复原 + 特殊审批]

7.2 脱敏策略

数据类型	脱敏方法	示例
手机号	[中间四位掩码]	138****1234
身份证	[保留前 6 后 4]	110101****1234
邮箱	[@ 前部分掩码]	u***@example.com
姓名	[保留姓氏]	张*
IP 地址	[最后一段归零]	192.168.1.0
坐标	[精度降级 / 网格化]	[如：保留到小数点后 2 位]

7.3 合规清单

[ ] 数据来源追溯：每条数据标注其原始来源，保留采集日志
[ ] 用户知情同意：采集数据前获取用户授权，记录授权时间戳
[ ] 数据最小化：仅采集标注任务所需的最小数据范围
[ ] 数据保留期限：标注完成后 [X] 天内自动删除原始数据
[ ] 访问审计：所有数据访问记录日志，保留 [X] 天
[ ] 数据出境评估：涉及跨境传输时，通过安全评估
[ ] 合规法规：遵守 [如：个保法 / GDPR / CCPA] 要求

7.4 审计功能

审计项	记录内容	保留时长
数据访问日志	[谁、何时、访问了哪些数据、操作类型]	[X] 天
数据变更日志	[谁、何时、修改了哪些字段、原始值、新值]	[X] 天
标注操作日志	[谁、何时、标注了哪些数据、标注时长]	[X] 天
导出日志	[谁、何时、导出了哪些数据、导出方式]	[X] 天

8. 非功能需求

8.1 性能

指标	目标值
数据采集吞吐	≥ [X] GB/小时
标注界面响应	≤ [X] ms
数据检索延迟	P50 ≤ [X]ms, P99 ≤ [Y]ms
管线执行延迟	100GB 数据全流程 ≤ [X] 小时

8.2 可用性

平台可用性 SLA：≥ 99.[X]%
数据持久性：≥ 99.9999% (11个9)
灾备方案：[同城双活 / 异地容灾 / RPO ≤ X min, RTO ≤ Y min]

8.3 安全

访问控制：[RBAC / ABAC 权限模型]
传输加密：[TLS 1.3]
存储加密：[AES-256 / KMS 密钥管理]
安全认证：[SSO / OAuth 2.0 / LDAP 集成]

9. 实施路线图

里程碑	时间	交付物	负责人
M1：数据采集 + 清洗	YYYY-MM-DD	基础 ETL 管线，支持 3 个数据源	[姓名]
M2：标注平台	YYYY-MM-DD	文本标注功能，支持分类+NLP	[姓名]
M3：版本管理	YYYY-MM-DD	数据集版本管理 + 快照功能	[姓名]
M4：质量监控	YYYY-MM-DD	质量看板 + 自动质检 + 告警	[姓名]
M5：隐私合规	YYYY-MM-DD	脱敏引擎 + 审计日志 + 合规报告	[姓名]

10. 风险与缓解

风险	概率	影响	缓解措施
[数据质量不达标影响模型效果]	[高/中/低]	[高/中/低]	[如：设置多级质检机制 + 自动质量评分]
[合规风险 / 数据泄露]	[高/中/低]	[高/中/低]	[如：前置法务评审 + 加密 + 脱敏 + 审计]
[数据管线不稳定]	[高/中/低]	[高/中/低]	[如：断点续传 + 自动重试 + 监控告警]
[标注员培训成本高]	[高/中/低]	[高/中/低]	[如：预标注降低门槛 + 自动化质检减少人工]
[存储成本超预算]	[高/中/低]	[高/中/低]	[如：冷热分层存储 + 定期清理过期数据]

11. 附录

11.1 相关文档

[数据架构设计文档]
[脱敏方案详情]
[标注规范手册]

11.2 术语表

术语	定义
ETL	[Extract-Transform-Load，数据抽取、转换、加载]
标注一致性 (Cohen's Kappa)	[衡量多个标注者之间一致性的统计指标]
数据血缘	[数据的来源、变换路径和使用去向的完整追溯]
RBAC	[基于角色的访问控制]

11.3 变更日志

版本	日期	变更内容	作者
v0.1.0	YYYY-MM-DD	初稿创建	[姓名]

PRD: [数据平台产品名称] ​

1. 产品概述 ​

1.1 定位与愿景 ​

1.2 目标用户 ​

1.3 用户场景 ​

1.4 成功指标 ​

2. 数据采集 ​

2.1 数据源接入 ​

2.2 采集配置 ​

2.3 采集管线监控 ​

3. 数据清洗 ​

3.1 清洗规则引擎 ​

3.2 清洗 Pipeline 配置 ​

3.3 清洗质量报告 ​

4. 数据标注 ​

4.1 标注任务类型 ​

4.2 标注工作流 ​

4.3 标注工具需求 ​

4.4 标注质量控制 ​

5. 数据版本管理 ​

5.1 版本化策略 ​

5.2 版本操作 ​

5.3 版本存储 ​

6. 质量监控 ​

6.1 质量指标体系 ​

6.2 质量监控看板 ​

6.3 质量改进闭环 ​

6.4 数据血缘追踪 ​

7. 隐私合规 ​

7.1 数据分类分级 ​

7.2 脱敏策略 ​

7.3 合规清单 ​

7.4 审计功能 ​

8. 非功能需求 ​

8.1 性能 ​

8.2 可用性 ​

8.3 安全 ​

9. 实施路线图 ​

10. 风险与缓解 ​

11. 附录 ​

11.1 相关文档 ​

11.2 术语表 ​

11.3 变更日志 ​

PRD: [数据平台产品名称]

1. 产品概述

1.1 定位与愿景

1.2 目标用户

1.3 用户场景

1.4 成功指标

2. 数据采集

2.1 数据源接入

2.2 采集配置

2.3 采集管线监控

3. 数据清洗

3.1 清洗规则引擎

3.2 清洗 Pipeline 配置

3.3 清洗质量报告

4. 数据标注

4.1 标注任务类型

4.2 标注工作流

4.3 标注工具需求

4.4 标注质量控制

5. 数据版本管理

5.1 版本化策略

5.2 版本操作

5.3 版本存储

6. 质量监控

6.1 质量指标体系

6.2 质量监控看板

6.3 质量改进闭环

6.4 数据血缘追踪

7. 隐私合规

7.1 数据分类分级

7.2 脱敏策略

7.3 合规清单

7.4 审计功能

8. 非功能需求

8.1 性能

8.2 可用性

8.3 安全

9. 实施路线图

10. 风险与缓解

11. 附录

11.1 相关文档

11.2 术语表

11.3 变更日志