AI 产品数据隐私与合规
2026-05 更新版:AI 产品隐私风险已经从“对话会不会被训练”扩展到 Agent 工具调用、MCP 连接器、企业上下文、跨境处理、长期记忆和审计 trace。本文提供面向 AI PM 的隐私与合规产品设计框架,不构成法律意见,落地前应由法务按地区和业务场景复核。
1. AI 产品隐私的独特性
| 维度 | 传统软件 | AI 产品 |
|---|---|---|
| 数据类型 | 注册信息、行为日志、交易数据 | 用户输入、文件、语音、图片、代码、业务上下文、工具返回值 |
| 风险边界 | 数据库和业务系统 | 模型、上下文窗口、RAG、Agent 工具、记忆、日志、第三方模型 |
| 用户感知 | 用户知道自己提交了什么 | 用户常不知道系统带入了哪些上下文 |
| 删除难度 | 删除数据库记录为主 | 还要处理索引、embedding、缓存、日志、训练集、trace |
| 监管关注 | 隐私、数据安全 | 隐私 + 自动化决策 + AI 透明度 + 高风险用途 |
AI 产品经理要重点关注:
- 用户输入是否包含 PII、商业机密、健康信息、未成年人数据;
- 文件、图片、语音、代码是否被长期保存或用于训练;
- RAG 检索是否可能越权带入无关文档;
- Agent 工具是否把数据发送到第三方系统;
- 长期记忆是否跨会话、跨团队、跨权限边界复用;
- trace 和审计日志是否含敏感数据;
- 是否清楚告知用户模型供应商、数据用途、留存和删除机制。
2. 数据流梳理
隐私合规的第一步不是写政策,而是画清楚数据流。
text
用户输入 / 文件 / 语音 / 图片
↓
前端采集与上传
↓
后端编排:Prompt / RAG / 工具 / Agent Runtime
↓
模型供应商 / 私有模型 / Embedding / Reranker
↓
工具调用:搜索、数据库、SaaS API、代码沙箱、MCP Server
↓
输出、日志、trace、缓存、长期记忆、评估样例2.1 数据分类
| 数据类型 | 示例 | 风险 |
|---|---|---|
| 账户数据 | 邮箱、手机号、组织、支付信息 | 身份识别和账单风险 |
| 用户输入 | 聊天、Prompt、上传文件 | 可能含 PII 和商业机密 |
| 派生数据 | 摘要、embedding、标签、评分 | 可能反推出原始内容 |
| 工具数据 | API 返回值、数据库查询结果 | 可能越权或跨系统泄露 |
| 记忆数据 | 用户偏好、历史事实、组织知识 | 长期复用风险高 |
| 审计数据 | 输入、输出、工具参数、审批记录 | 合规必要但敏感 |
| 训练 / 评估数据 | 失败样例、人工标注、线上样本 | 二次使用需明确授权 |
2.2 数据用途分层
| 用途 | 是否服务必要 | 推荐用户控制 |
|---|---|---|
| 提供本次回答 | 是 | 不可关闭,但应告知 |
| 保存历史记录 | 不一定 | 可配置保存期限 |
| 生成长期记忆 | 不一定 | 默认谨慎,允许查看和删除 |
| 安全审核 | 通常必要 | 告知用途和留存 |
| 产品分析 | 不一定 | 聚合 / 去标识化优先 |
| 模型训练 / 微调 | 通常非必要 | Opt-in 或企业合同明确约定 |
| 人工审阅 | 非必要或特定场景必要 | 明确告知、最小化、留痕 |
3. 全球主要法规与产品影响
法规会持续变化,以下为 PM 视角的产品影响摘要。具体法律义务应由法务确认。
3.1 中国 PIPL / 数据安全 / 生成式 AI 相关要求
| 关注点 | 产品实现 |
|---|---|
| 告知同意 | 隐私政策 + AI 数据处理专项说明 |
| 最小必要 | 不默认收集与服务无关的数据 |
| 个人信息权利 | 查询、复制、导出、更正、删除、撤回同意 |
| 敏感个人信息 | 单独同意、必要性说明、严格保护 |
| 自动化决策 | 提供解释、拒绝或人工复核通道 |
| 跨境传输 | 数据出境评估、合同、单独同意等合规路径 |
| 未成年人 | 年龄识别、监护人同意、未成年人模式 |
| 生成式 AI | 内容安全、真实性、投诉机制、数据来源合法性 |
3.2 GDPR / EU AI Act
| 关注点 | 产品实现 |
|---|---|
| GDPR 知情权 | 说明处理目的、法律基础、接收方、保留期限 |
| 访问 / 删除 / 可携带 | 数据导出、删除、账户关闭流程 |
| DPIA | 高风险 AI 或大规模敏感数据处理应做影响评估 |
| 自动化决策 | 对重大影响决策提供人工介入和解释 |
| 数据泄露通知 | 建立 72 小时内评估和通知机制 |
| EU AI Act | 按用途判断是否属于禁止 / 高风险 / GPAI / 透明度义务 |
| 高风险系统 | 需要风险管理、数据治理、日志、透明度、人类监督 |
3.3 CCPA / CPRA、COPPA 等
| 法规 | 产品关注点 |
|---|---|
| CCPA / CPRA | 告知、访问、删除、选择退出出售/共享、敏感信息限制使用 |
| COPPA | 13 岁以下儿童需家长同意,数据最小化,家长可查看删除 |
| 行业法规 | 医疗、金融、教育、雇佣等场景可能有额外要求 |
4. 产品合规设计
4.1 隐私设置面板
text
隐私与数据设置
├── 对话保存期限:不保存 / 30 天 / 90 天 / 永久
├── 长期记忆:开启 / 关闭 / 查看与删除记忆
├── 数据用于模型改进:开启 / 关闭
├── 人工审阅:允许 / 不允许 / 仅安全事件
├── 我的数据:导出 / 删除对话 / 删除账户
├── 连接器权限:查看已连接工具 / 撤销授权
└── 企业策略:由管理员管理的项目说明4.2 敏感信息保护
| 阶段 | 机制 |
|---|---|
| 输入前 | 提醒用户不要上传敏感信息 |
| 输入中 | PII / 密钥 / 健康 / 财务信息检测 |
| 发送前 | 自动脱敏、二次确认或阻断 |
| 处理时 | 最小上下文、权限过滤、数据区域控制 |
| 输出后 | 敏感实体脱敏、来源标注、下载权限控制 |
| 日志中 | 日志脱敏、访问控制、分级留存 |
4.3 长期记忆治理
长期记忆是 2026 年 AI 产品隐私的重点风险。
| 设计项 | 要求 |
|---|---|
| 可见 | 用户能看到系统记住了什么 |
| 可改 | 用户能编辑错误记忆 |
| 可删 | 用户能删除单条或全部记忆 |
| 可关 | 用户能关闭长期记忆 |
| 有来源 | 记忆能追溯来源和时间 |
| 有边界 | 个人记忆、团队记忆、企业知识分开 |
| 有过期 | 过期、不活跃或权限变化后清理 |
4.4 Agent 与工具隐私
Agent 会把数据发送给工具。产品必须让用户和企业管理员知道:
- 哪些工具被调用;
- 发送了哪些字段;
- 工具由谁提供;
- 是否跨境或出组织;
- 是否会写入第三方系统;
- 是否可以撤销授权;
- 是否有审批和审计。
工具调用前建议展示:
text
Agent 准备调用:CRM 查询工具
将发送:客户邮箱、公司名、问题摘要
目的:查询客户合同状态
风险等级:中
[允许一次] [始终允许] [拒绝]4.5 删除流程
text
用户请求删除
→ 验证身份
→ 前端不可见
→ 主库删除 / 匿名化
→ 搜索索引和 embedding 删除
→ 缓存清理
→ 训练 / 评估样例处理
→ 第三方处理者通知
→ 备份按策略到期清理
→ 审计记录保留最小必要信息删除不要承诺技术上无法保证的“模型遗忘”。更稳妥的说法是:
我们会删除或去标识化产品系统中的相关数据,并在适用范围内停止将其用于后续训练或评估。已完成训练的模型是否可移除影响需按具体技术和合同说明。
5. 企业级数据保护
| 能力 | 企业价值 |
|---|---|
| SSO / SCIM | 身份和入离职管理 |
| RBAC / ABAC | 最小权限和部门隔离 |
| 数据驻留 | 满足地区和行业要求 |
| 零训练承诺 | 降低商业机密风险 |
| DPA / 子处理者清单 | 法务和采购准入 |
| 审计日志 | 追踪输入、输出、工具和审批 |
| 私有部署 / VPC | 高敏场景的数据控制 |
| 用量和风险报表 | 管理成本和合规风险 |
| 保留策略 | 自动删除或归档 |
5.1 企业版默认策略建议
- 默认不将客户数据用于训练;
- 支持关闭历史保存和长期记忆;
- 支持组织级连接器白名单;
- 高风险工具默认审批;
- 管理员可查看审计日志和数据流;
- 支持区域级数据处理;
- 支持客户删除和导出请求。
6. 上线检查清单
- [ ] 已完成数据流图;
- [ ] 已列出所有模型、工具、MCP server、第三方处理者;
- [ ] 隐私政策包含 AI 数据处理说明;
- [ ] 用户可查看、导出、删除相关数据;
- [ ] 长期记忆可查看、编辑、删除、关闭;
- [ ] 数据用于训练 / 人工审阅有明确控制;
- [ ] RAG 检索有权限过滤;
- [ ] 工具调用有授权、审批和审计;
- [ ] 敏感信息检测和脱敏已实现;
- [ ] 数据留存和备份清理策略已配置;
- [ ] 跨境和数据驻留要求已评估;
- [ ] 高风险场景已完成 DPIA / AIA 或等价评估;
- [ ] 未成年人场景有专项保护;
- [ ] 企业合同、DPA、子处理者清单已准备。
7. 参考来源
- EU AI Act 官方信息:https://artificialintelligenceact.eu/
- NIST AI Risk Management Framework:https://www.nist.gov/itl/ai-risk-management-framework
- NIST Generative AI Profile AI 600-1:https://www.nist.gov/itl/ai-risk-management-framework/nist-ai-600-1
- OWASP Top 10 for LLM Applications:https://genai.owasp.org/
- Model Context Protocol:https://modelcontextprotocol.io/
结语:AI 隐私合规不是在上线前补一份隐私政策,而是从数据流、权限、记忆、工具、审计和删除机制开始的系统性产品设计。