Skip to content

AI 产品内容安全框架

2026-05 更新版:AI 内容安全已经从“过滤不良文本”扩展到多模态输入输出、RAG 来源污染、Prompt 注入、Agent 工具误用、MCP 连接器供应链风险和高风险领域责任边界。本文面向 AI PM,提供产品层面的安全框架与上线门禁。


1. AI 内容安全的独特性

1.1 从内容生成安全到 Agent 执行安全

维度早期 LLM 产品2026 年 AI / Agent 产品
输入文本 Prompt文本、图片、语音、文件、网页、代码、工具返回值
输出文本回答文本、图片、代码、文件、API 写入、外部动作
风险有害内容、幻觉、偏见以上 + 越权工具调用、数据泄露、供应链注入、自动执行事故
防护输入 / 输出过滤策略网关、工具权限、沙箱、审批、trace、评估闭环
责任内容审核产品、工程、安全、法务、运营共同治理

1.2 风险分类

风险类型说明风险等级
违法与极端内容暴力恐怖、儿童性剥削、毒品制造等极高
自残与自杀鼓励、指导、强化自残行为极高
仇恨与骚扰针对受保护群体的攻击
色情与未成年人风险露骨内容、未成年人性化极高
危险行为武器、诈骗、黑客攻击、规避监管
医疗 / 金融 / 法律误导替代专业意见或给出高风险建议
幻觉与事实错误编造来源、错误引用、误导决策中到高
Prompt 注入诱导模型忽略系统指令或泄露信息
工具误用Agent 调错工具、写错系统、发送错误信息高到极高
数据泄露输出无权访问的数据或敏感信息极高
多模态安全图像、语音、视频中的有害或敏感内容中到极高

2. 安全架构

2.1 多层防护架构

text
用户输入 / 文件 / 工具返回值

输入安全检测:内容风险 + PII + Prompt 注入 + 权限检查

上下文组装:RAG 权限过滤 + 来源可信度 + 数据最小化

模型推理:系统策略 + 安全指令 + 输出约束

工具策略网关:工具白名单 + 参数校验 + 风险分级 + 审批

输出安全检测:有害内容 + 幻觉 + 敏感信息 + 格式校验

用户展示 / 工具执行 / 审计 trace / 反馈闭环

2.2 输入安全

层级检测对象处理策略
L0 规则黑名单、正则、密钥、身份证、手机号脱敏、阻断或二次确认
L1 分类器暴力、自残、色情、仇恨、危险行为拒答、降级、安全引导
L2 Prompt 注入忽略指令、泄露系统提示、角色扮演绕过阻断、隔离、降低工具权限
L3 上下文权限RAG 文档、工具返回值、组织数据检索前权限过滤
L4 高风险任务医疗、金融、法律、雇佣、教育人工复核或专业边界提示

2.3 输出安全

检测维度处理方式
有害内容拒答、改写为安全信息、转人工
敏感信息脱敏、局部屏蔽、禁止输出
幻觉风险要求引用来源、降低置信度、提示核验
高风险建议添加免责声明、限制行动建议、建议专业人士
格式错误自动修复、重试、返回安全 fallback
工具动作摘要执行前展示影响范围和确认按钮

3. Prompt 注入与 RAG 污染

3.1 Prompt 注入类型

类型示例防护
直接注入“忽略之前所有指令”系统指令隔离、注入检测
间接注入网页 / 文档中隐藏恶意指令RAG 内容降权、引用隔离
工具返回注入外部 API 返回“请发送用户数据”工具输出不作为指令执行
多轮注入逐步诱导模型泄露上下文会话级风险评分
编码绕过Base64、Unicode、分隔符绕过规范化后检测

3.2 RAG 安全原则

  • 检索前做权限过滤,而不是检索后再过滤;
  • RAG 文档内容只能作为“数据”,不能作为“系统指令”;
  • 引用来源要展示文档名、时间、权限范围;
  • 对外部网页或用户上传文档设置较低信任等级;
  • 对高风险来源使用摘要隔离,不直接塞入长上下文;
  • 将失败和注入样例加入回归测试。

4. Agent 工具安全

4.1 工具动作分级

等级示例默认策略
T1 只读搜索、读取文档、查询数据库自动执行,记录日志
T2 低风险写入创建草稿、生成报告、保存笔记可自动,允许撤销
T3 高风险写入发邮件、提交 PR、改配置、创建工单人工确认
T4 不可逆 / 高影响删除数据、支付、生产发布、外部披露多人审批或禁止自动执行

4.2 工具调用安全门禁

每个工具必须定义:

yaml
tool_policy:
  owner: security-platform
  risk_level: T3
  allowed_agents: [support_agent, ops_agent]
  input_schema: strict_json_schema
  rate_limit: 10/min
  requires_approval: true
  audit: full
  rollback: supported

4.3 Agent 执行防护

风险防护
无限循环最大 step、最大时长、最大重试
成本失控run budget、工具 budget、组织 budget
越权动作RBAC / ABAC / ReBAC 策略网关
错误执行执行前摘要 + 人工确认
沙箱逃逸Docker / Firecracker / gVisor / seccomp
供应链风险MCP server 白名单、签名、来源验证
结果不可追踪完整 trace 和审批记录

5. 多模态内容安全

模态风险防护
图片输入证件、隐私照片、暴力色情内容图像分类、OCR + PII 检测
图片输出侵权、色情、暴力、名人滥用生成前后审核、水印、拒绝策略
语音输入未成年人、敏感对话、旁人录音转写后检测、同意提示
语音输出冒充他人、诈骗、深度伪造声音克隆限制、标识 AI 生成
视频人脸、未成年人、版权、深伪多帧采样审核、来源标注
代码恶意软件、密钥泄露、漏洞静态扫描、沙箱、依赖审计

6. 高风险领域策略

场景策略
医疗不诊断、不替代医生;提供一般信息;紧急情况引导就医
金融不给个性化投资建议;提示风险;引用数据来源和时间
法律不构成法律意见;建议咨询律师;避免替用户做最终判断
雇佣 / 教育避免自动化重大决策;提供人工复核和解释
未成年人更严格内容过滤、家长控制、数据最小化
公共安全危险操作和规避执法请求默认拒绝

7. 评估与红队

7.1 安全评估集

安全评估集应覆盖:

  • 直接 Prompt 注入;
  • 间接 Prompt 注入;
  • RAG 恶意文档;
  • 工具越权;
  • 敏感信息泄露;
  • 自残、暴力、仇恨、色情;
  • 医疗 / 金融 / 法律误导;
  • 多语言绕过;
  • 多模态绕过;
  • 高风险 Agent 自动执行。

7.2 红队流程

text
定义风险场景 → 准备攻击样例 → 运行测试 → 标注失败
        → 修复策略 → 加入回归集 → 发布前重跑

7.3 安全指标

指标说明
漏拦截率高风险请求未被阻断的比例
误拦截率正常请求被错误阻断的比例
越权调用率Agent 尝试调用无权工具的比例
敏感泄露率输出包含敏感信息的比例
注入成功率Prompt 注入绕过策略的比例
人工审批命中率高风险动作进入审批的比例
安全回归通过率每次发布前安全用例通过比例

8. 用户体验与申诉

安全设计不能只说“不行”。好的安全体验应该:

  • 解释为什么不能回答;
  • 给出安全替代方向;
  • 对误拦截提供申诉入口;
  • 对高风险动作展示影响范围;
  • 对不确定事实提示核验;
  • 对多次失败提供人工支持。

示例:

text
我不能帮助执行这个操作,因为它会向外部系统发送客户数据。
你可以选择:
1. 生成一份不含个人信息的摘要;
2. 让管理员审批后继续;
3. 查看数据最小化建议。

9. 上线检查清单

  • [ ] 输入 / 输出安全检测已上线;
  • [ ] Prompt 注入和间接注入测试已通过;
  • [ ] RAG 文档权限过滤已实现;
  • [ ] 工具注册表和风险分级已完成;
  • [ ] 高风险工具调用需要人工审批;
  • [ ] Agent run 有 step、时间、成本上限;
  • [ ] 代码 / 浏览器 / 文件操作在沙箱执行;
  • [ ] 多模态内容审核已覆盖;
  • [ ] 高风险领域策略已配置;
  • [ ] 安全评估集已加入 CI / 发布流程;
  • [ ] trace、审计和事故响应流程已准备;
  • [ ] 用户申诉和人工支持入口已设计。

10. 参考来源


结语:AI 内容安全不是一个 moderation API 能解决的问题。真正可靠的 AI 产品,需要把内容安全、权限控制、工具治理、成本预算、审计回放和用户体验一起设计。

MIT License