AI 产品内容安全框架
2026-05 更新版:AI 内容安全已经从“过滤不良文本”扩展到多模态输入输出、RAG 来源污染、Prompt 注入、Agent 工具误用、MCP 连接器供应链风险和高风险领域责任边界。本文面向 AI PM,提供产品层面的安全框架与上线门禁。
1. AI 内容安全的独特性
1.1 从内容生成安全到 Agent 执行安全
| 维度 | 早期 LLM 产品 | 2026 年 AI / Agent 产品 |
|---|---|---|
| 输入 | 文本 Prompt | 文本、图片、语音、文件、网页、代码、工具返回值 |
| 输出 | 文本回答 | 文本、图片、代码、文件、API 写入、外部动作 |
| 风险 | 有害内容、幻觉、偏见 | 以上 + 越权工具调用、数据泄露、供应链注入、自动执行事故 |
| 防护 | 输入 / 输出过滤 | 策略网关、工具权限、沙箱、审批、trace、评估闭环 |
| 责任 | 内容审核 | 产品、工程、安全、法务、运营共同治理 |
1.2 风险分类
| 风险类型 | 说明 | 风险等级 |
|---|---|---|
| 违法与极端内容 | 暴力恐怖、儿童性剥削、毒品制造等 | 极高 |
| 自残与自杀 | 鼓励、指导、强化自残行为 | 极高 |
| 仇恨与骚扰 | 针对受保护群体的攻击 | 高 |
| 色情与未成年人风险 | 露骨内容、未成年人性化 | 极高 |
| 危险行为 | 武器、诈骗、黑客攻击、规避监管 | 高 |
| 医疗 / 金融 / 法律误导 | 替代专业意见或给出高风险建议 | 高 |
| 幻觉与事实错误 | 编造来源、错误引用、误导决策 | 中到高 |
| Prompt 注入 | 诱导模型忽略系统指令或泄露信息 | 高 |
| 工具误用 | Agent 调错工具、写错系统、发送错误信息 | 高到极高 |
| 数据泄露 | 输出无权访问的数据或敏感信息 | 极高 |
| 多模态安全 | 图像、语音、视频中的有害或敏感内容 | 中到极高 |
2. 安全架构
2.1 多层防护架构
text
用户输入 / 文件 / 工具返回值
↓
输入安全检测:内容风险 + PII + Prompt 注入 + 权限检查
↓
上下文组装:RAG 权限过滤 + 来源可信度 + 数据最小化
↓
模型推理:系统策略 + 安全指令 + 输出约束
↓
工具策略网关:工具白名单 + 参数校验 + 风险分级 + 审批
↓
输出安全检测:有害内容 + 幻觉 + 敏感信息 + 格式校验
↓
用户展示 / 工具执行 / 审计 trace / 反馈闭环2.2 输入安全
| 层级 | 检测对象 | 处理策略 |
|---|---|---|
| L0 规则 | 黑名单、正则、密钥、身份证、手机号 | 脱敏、阻断或二次确认 |
| L1 分类器 | 暴力、自残、色情、仇恨、危险行为 | 拒答、降级、安全引导 |
| L2 Prompt 注入 | 忽略指令、泄露系统提示、角色扮演绕过 | 阻断、隔离、降低工具权限 |
| L3 上下文权限 | RAG 文档、工具返回值、组织数据 | 检索前权限过滤 |
| L4 高风险任务 | 医疗、金融、法律、雇佣、教育 | 人工复核或专业边界提示 |
2.3 输出安全
| 检测维度 | 处理方式 |
|---|---|
| 有害内容 | 拒答、改写为安全信息、转人工 |
| 敏感信息 | 脱敏、局部屏蔽、禁止输出 |
| 幻觉风险 | 要求引用来源、降低置信度、提示核验 |
| 高风险建议 | 添加免责声明、限制行动建议、建议专业人士 |
| 格式错误 | 自动修复、重试、返回安全 fallback |
| 工具动作摘要 | 执行前展示影响范围和确认按钮 |
3. Prompt 注入与 RAG 污染
3.1 Prompt 注入类型
| 类型 | 示例 | 防护 |
|---|---|---|
| 直接注入 | “忽略之前所有指令” | 系统指令隔离、注入检测 |
| 间接注入 | 网页 / 文档中隐藏恶意指令 | RAG 内容降权、引用隔离 |
| 工具返回注入 | 外部 API 返回“请发送用户数据” | 工具输出不作为指令执行 |
| 多轮注入 | 逐步诱导模型泄露上下文 | 会话级风险评分 |
| 编码绕过 | Base64、Unicode、分隔符绕过 | 规范化后检测 |
3.2 RAG 安全原则
- 检索前做权限过滤,而不是检索后再过滤;
- RAG 文档内容只能作为“数据”,不能作为“系统指令”;
- 引用来源要展示文档名、时间、权限范围;
- 对外部网页或用户上传文档设置较低信任等级;
- 对高风险来源使用摘要隔离,不直接塞入长上下文;
- 将失败和注入样例加入回归测试。
4. Agent 工具安全
4.1 工具动作分级
| 等级 | 示例 | 默认策略 |
|---|---|---|
| T1 只读 | 搜索、读取文档、查询数据库 | 自动执行,记录日志 |
| T2 低风险写入 | 创建草稿、生成报告、保存笔记 | 可自动,允许撤销 |
| T3 高风险写入 | 发邮件、提交 PR、改配置、创建工单 | 人工确认 |
| T4 不可逆 / 高影响 | 删除数据、支付、生产发布、外部披露 | 多人审批或禁止自动执行 |
4.2 工具调用安全门禁
每个工具必须定义:
yaml
tool_policy:
owner: security-platform
risk_level: T3
allowed_agents: [support_agent, ops_agent]
input_schema: strict_json_schema
rate_limit: 10/min
requires_approval: true
audit: full
rollback: supported4.3 Agent 执行防护
| 风险 | 防护 |
|---|---|
| 无限循环 | 最大 step、最大时长、最大重试 |
| 成本失控 | run budget、工具 budget、组织 budget |
| 越权动作 | RBAC / ABAC / ReBAC 策略网关 |
| 错误执行 | 执行前摘要 + 人工确认 |
| 沙箱逃逸 | Docker / Firecracker / gVisor / seccomp |
| 供应链风险 | MCP server 白名单、签名、来源验证 |
| 结果不可追踪 | 完整 trace 和审批记录 |
5. 多模态内容安全
| 模态 | 风险 | 防护 |
|---|---|---|
| 图片输入 | 证件、隐私照片、暴力色情内容 | 图像分类、OCR + PII 检测 |
| 图片输出 | 侵权、色情、暴力、名人滥用 | 生成前后审核、水印、拒绝策略 |
| 语音输入 | 未成年人、敏感对话、旁人录音 | 转写后检测、同意提示 |
| 语音输出 | 冒充他人、诈骗、深度伪造 | 声音克隆限制、标识 AI 生成 |
| 视频 | 人脸、未成年人、版权、深伪 | 多帧采样审核、来源标注 |
| 代码 | 恶意软件、密钥泄露、漏洞 | 静态扫描、沙箱、依赖审计 |
6. 高风险领域策略
| 场景 | 策略 |
|---|---|
| 医疗 | 不诊断、不替代医生;提供一般信息;紧急情况引导就医 |
| 金融 | 不给个性化投资建议;提示风险;引用数据来源和时间 |
| 法律 | 不构成法律意见;建议咨询律师;避免替用户做最终判断 |
| 雇佣 / 教育 | 避免自动化重大决策;提供人工复核和解释 |
| 未成年人 | 更严格内容过滤、家长控制、数据最小化 |
| 公共安全 | 危险操作和规避执法请求默认拒绝 |
7. 评估与红队
7.1 安全评估集
安全评估集应覆盖:
- 直接 Prompt 注入;
- 间接 Prompt 注入;
- RAG 恶意文档;
- 工具越权;
- 敏感信息泄露;
- 自残、暴力、仇恨、色情;
- 医疗 / 金融 / 法律误导;
- 多语言绕过;
- 多模态绕过;
- 高风险 Agent 自动执行。
7.2 红队流程
text
定义风险场景 → 准备攻击样例 → 运行测试 → 标注失败
→ 修复策略 → 加入回归集 → 发布前重跑7.3 安全指标
| 指标 | 说明 |
|---|---|
| 漏拦截率 | 高风险请求未被阻断的比例 |
| 误拦截率 | 正常请求被错误阻断的比例 |
| 越权调用率 | Agent 尝试调用无权工具的比例 |
| 敏感泄露率 | 输出包含敏感信息的比例 |
| 注入成功率 | Prompt 注入绕过策略的比例 |
| 人工审批命中率 | 高风险动作进入审批的比例 |
| 安全回归通过率 | 每次发布前安全用例通过比例 |
8. 用户体验与申诉
安全设计不能只说“不行”。好的安全体验应该:
- 解释为什么不能回答;
- 给出安全替代方向;
- 对误拦截提供申诉入口;
- 对高风险动作展示影响范围;
- 对不确定事实提示核验;
- 对多次失败提供人工支持。
示例:
text
我不能帮助执行这个操作,因为它会向外部系统发送客户数据。
你可以选择:
1. 生成一份不含个人信息的摘要;
2. 让管理员审批后继续;
3. 查看数据最小化建议。9. 上线检查清单
- [ ] 输入 / 输出安全检测已上线;
- [ ] Prompt 注入和间接注入测试已通过;
- [ ] RAG 文档权限过滤已实现;
- [ ] 工具注册表和风险分级已完成;
- [ ] 高风险工具调用需要人工审批;
- [ ] Agent run 有 step、时间、成本上限;
- [ ] 代码 / 浏览器 / 文件操作在沙箱执行;
- [ ] 多模态内容审核已覆盖;
- [ ] 高风险领域策略已配置;
- [ ] 安全评估集已加入 CI / 发布流程;
- [ ] trace、审计和事故响应流程已准备;
- [ ] 用户申诉和人工支持入口已设计。
10. 参考来源
- OWASP Top 10 for LLM Applications:https://genai.owasp.org/
- NIST AI Risk Management Framework:https://www.nist.gov/itl/ai-risk-management-framework
- NIST Generative AI Profile AI 600-1:https://www.nist.gov/itl/ai-risk-management-framework/nist-ai-600-1
- Model Context Protocol:https://modelcontextprotocol.io/
- EU AI Act 官方信息:https://artificialintelligenceact.eu/
结语:AI 内容安全不是一个 moderation API 能解决的问题。真正可靠的 AI 产品,需要把内容安全、权限控制、工具治理、成本预算、审计回放和用户体验一起设计。