AI 产品内容安全框架

2026-05 更新版：AI 内容安全已经从“过滤不良文本”扩展到多模态输入输出、RAG 来源污染、Prompt 注入、Agent 工具误用、MCP 连接器供应链风险和高风险领域责任边界。本文面向 AI PM，提供产品层面的安全框架与上线门禁。

1. AI 内容安全的独特性

1.1 从内容生成安全到 Agent 执行安全

维度	早期 LLM 产品	2026 年 AI / Agent 产品
输入	文本 Prompt	文本、图片、语音、文件、网页、代码、工具返回值
输出	文本回答	文本、图片、代码、文件、API 写入、外部动作
风险	有害内容、幻觉、偏见	以上 + 越权工具调用、数据泄露、供应链注入、自动执行事故
防护	输入 / 输出过滤	策略网关、工具权限、沙箱、审批、trace、评估闭环
责任	内容审核	产品、工程、安全、法务、运营共同治理

1.2 风险分类

风险类型	说明	风险等级
违法与极端内容	暴力恐怖、儿童性剥削、毒品制造等	极高
自残与自杀	鼓励、指导、强化自残行为	极高
仇恨与骚扰	针对受保护群体的攻击	高
色情与未成年人风险	露骨内容、未成年人性化	极高
危险行为	武器、诈骗、黑客攻击、规避监管	高
医疗 / 金融 / 法律误导	替代专业意见或给出高风险建议	高
幻觉与事实错误	编造来源、错误引用、误导决策	中到高
Prompt 注入	诱导模型忽略系统指令或泄露信息	高
工具误用	Agent 调错工具、写错系统、发送错误信息	高到极高
数据泄露	输出无权访问的数据或敏感信息	极高
多模态安全	图像、语音、视频中的有害或敏感内容	中到极高

2. 安全架构

2.1 多层防护架构

text

用户输入 / 文件 / 工具返回值
        ↓
输入安全检测：内容风险 + PII + Prompt 注入 + 权限检查
        ↓
上下文组装：RAG 权限过滤 + 来源可信度 + 数据最小化
        ↓
模型推理：系统策略 + 安全指令 + 输出约束
        ↓
工具策略网关：工具白名单 + 参数校验 + 风险分级 + 审批
        ↓
输出安全检测：有害内容 + 幻觉 + 敏感信息 + 格式校验
        ↓
用户展示 / 工具执行 / 审计 trace / 反馈闭环

2.2 输入安全

层级	检测对象	处理策略
L0 规则	黑名单、正则、密钥、身份证、手机号	脱敏、阻断或二次确认
L1 分类器	暴力、自残、色情、仇恨、危险行为	拒答、降级、安全引导
L2 Prompt 注入	忽略指令、泄露系统提示、角色扮演绕过	阻断、隔离、降低工具权限
L3 上下文权限	RAG 文档、工具返回值、组织数据	检索前权限过滤
L4 高风险任务	医疗、金融、法律、雇佣、教育	人工复核或专业边界提示

2.3 输出安全

检测维度	处理方式
有害内容	拒答、改写为安全信息、转人工
敏感信息	脱敏、局部屏蔽、禁止输出
幻觉风险	要求引用来源、降低置信度、提示核验
高风险建议	添加免责声明、限制行动建议、建议专业人士
格式错误	自动修复、重试、返回安全 fallback
工具动作摘要	执行前展示影响范围和确认按钮

3. Prompt 注入与 RAG 污染

3.1 Prompt 注入类型

类型	示例	防护
直接注入	“忽略之前所有指令”	系统指令隔离、注入检测
间接注入	网页 / 文档中隐藏恶意指令	RAG 内容降权、引用隔离
工具返回注入	外部 API 返回“请发送用户数据”	工具输出不作为指令执行
多轮注入	逐步诱导模型泄露上下文	会话级风险评分
编码绕过	Base64、Unicode、分隔符绕过	规范化后检测

3.2 RAG 安全原则

检索前做权限过滤，而不是检索后再过滤；
RAG 文档内容只能作为“数据”，不能作为“系统指令”；
引用来源要展示文档名、时间、权限范围；
对外部网页或用户上传文档设置较低信任等级；
对高风险来源使用摘要隔离，不直接塞入长上下文；
将失败和注入样例加入回归测试。

4. Agent 工具安全

4.1 工具动作分级

等级	示例	默认策略
T1 只读	搜索、读取文档、查询数据库	自动执行，记录日志
T2 低风险写入	创建草稿、生成报告、保存笔记	可自动，允许撤销
T3 高风险写入	发邮件、提交 PR、改配置、创建工单	人工确认
T4 不可逆 / 高影响	删除数据、支付、生产发布、外部披露	多人审批或禁止自动执行

4.2 工具调用安全门禁

每个工具必须定义：

yaml

tool_policy:
  owner: security-platform
  risk_level: T3
  allowed_agents: [support_agent, ops_agent]
  input_schema: strict_json_schema
  rate_limit: 10/min
  requires_approval: true
  audit: full
  rollback: supported

4.3 Agent 执行防护

风险	防护
无限循环	最大 step、最大时长、最大重试
成本失控	run budget、工具 budget、组织 budget
越权动作	RBAC / ABAC / ReBAC 策略网关
错误执行	执行前摘要 + 人工确认
沙箱逃逸	Docker / Firecracker / gVisor / seccomp
供应链风险	MCP server 白名单、签名、来源验证
结果不可追踪	完整 trace 和审批记录

5. 多模态内容安全

模态	风险	防护
图片输入	证件、隐私照片、暴力色情内容	图像分类、OCR + PII 检测
图片输出	侵权、色情、暴力、名人滥用	生成前后审核、水印、拒绝策略
语音输入	未成年人、敏感对话、旁人录音	转写后检测、同意提示
语音输出	冒充他人、诈骗、深度伪造	声音克隆限制、标识 AI 生成
视频	人脸、未成年人、版权、深伪	多帧采样审核、来源标注
代码	恶意软件、密钥泄露、漏洞	静态扫描、沙箱、依赖审计

6. 高风险领域策略

场景	策略
医疗	不诊断、不替代医生；提供一般信息；紧急情况引导就医
金融	不给个性化投资建议；提示风险；引用数据来源和时间
法律	不构成法律意见；建议咨询律师；避免替用户做最终判断
雇佣 / 教育	避免自动化重大决策；提供人工复核和解释
未成年人	更严格内容过滤、家长控制、数据最小化
公共安全	危险操作和规避执法请求默认拒绝

7. 评估与红队

7.1 安全评估集

安全评估集应覆盖：

直接 Prompt 注入；
间接 Prompt 注入；
RAG 恶意文档；
工具越权；
敏感信息泄露；
自残、暴力、仇恨、色情；
医疗 / 金融 / 法律误导；
多语言绕过；
多模态绕过；
高风险 Agent 自动执行。

7.2 红队流程

text

定义风险场景 → 准备攻击样例 → 运行测试 → 标注失败
        → 修复策略 → 加入回归集 → 发布前重跑

7.3 安全指标

指标	说明
漏拦截率	高风险请求未被阻断的比例
误拦截率	正常请求被错误阻断的比例
越权调用率	Agent 尝试调用无权工具的比例
敏感泄露率	输出包含敏感信息的比例
注入成功率	Prompt 注入绕过策略的比例
人工审批命中率	高风险动作进入审批的比例
安全回归通过率	每次发布前安全用例通过比例

8. 用户体验与申诉

安全设计不能只说“不行”。好的安全体验应该：

解释为什么不能回答；
给出安全替代方向；
对误拦截提供申诉入口；
对高风险动作展示影响范围；
对不确定事实提示核验；
对多次失败提供人工支持。

示例：

text

我不能帮助执行这个操作，因为它会向外部系统发送客户数据。
你可以选择：
1. 生成一份不含个人信息的摘要；
2. 让管理员审批后继续；
3. 查看数据最小化建议。

9. 上线检查清单

[ ] 输入 / 输出安全检测已上线；
[ ] Prompt 注入和间接注入测试已通过；
[ ] RAG 文档权限过滤已实现；
[ ] 工具注册表和风险分级已完成；
[ ] 高风险工具调用需要人工审批；
[ ] Agent run 有 step、时间、成本上限；
[ ] 代码 / 浏览器 / 文件操作在沙箱执行；
[ ] 多模态内容审核已覆盖；
[ ] 高风险领域策略已配置；
[ ] 安全评估集已加入 CI / 发布流程；
[ ] trace、审计和事故响应流程已准备；
[ ] 用户申诉和人工支持入口已设计。

10. 参考来源

OWASP Top 10 for LLM Applications：https://genai.owasp.org/
NIST AI Risk Management Framework：https://www.nist.gov/itl/ai-risk-management-framework
NIST Generative AI Profile AI 600-1：https://www.nist.gov/itl/ai-risk-management-framework/nist-ai-600-1
Model Context Protocol：https://modelcontextprotocol.io/
EU AI Act 官方信息：https://artificialintelligenceact.eu/

结语：AI 内容安全不是一个 moderation API 能解决的问题。真正可靠的 AI 产品，需要把内容安全、权限控制、工具治理、成本预算、审计回放和用户体验一起设计。

AI 产品内容安全框架 ​

1. AI 内容安全的独特性 ​

1.1 从内容生成安全到 Agent 执行安全 ​

1.2 风险分类 ​

2. 安全架构 ​

2.1 多层防护架构 ​

2.2 输入安全 ​

2.3 输出安全 ​

3. Prompt 注入与 RAG 污染 ​

3.1 Prompt 注入类型 ​

3.2 RAG 安全原则 ​

4. Agent 工具安全 ​

4.1 工具动作分级 ​

4.2 工具调用安全门禁 ​

4.3 Agent 执行防护 ​

5. 多模态内容安全 ​

6. 高风险领域策略 ​

7. 评估与红队 ​

7.1 安全评估集 ​

7.2 红队流程 ​

7.3 安全指标 ​

8. 用户体验与申诉 ​

9. 上线检查清单 ​

10. 参考来源 ​

AI 产品内容安全框架

1. AI 内容安全的独特性

1.1 从内容生成安全到 Agent 执行安全

1.2 风险分类

2. 安全架构

2.1 多层防护架构

2.2 输入安全

2.3 输出安全

3. Prompt 注入与 RAG 污染

3.1 Prompt 注入类型

3.2 RAG 安全原则

4. Agent 工具安全

4.1 工具动作分级

4.2 工具调用安全门禁

4.3 Agent 执行防护

5. 多模态内容安全

6. 高风险领域策略

7. 评估与红队

7.1 安全评估集

7.2 红队流程

7.3 安全指标

8. 用户体验与申诉

9. 上线检查清单

10. 参考来源