AI PM 技能图谱
2026-05 更新版:AI PM 的技能图谱不再只是 LLM、Prompt 和数据分析,而是覆盖 模型能力、RAG、Agent、评估、成本、工具治理、隐私安全、商业化与组织协作 的综合能力体系。
目录
硬技能
1. LLM 与模型基础
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | Token、上下文窗口、系统提示词 | 能解释上下文为什么影响成本和质量 |
| L1 了解 | Transformer 与自回归生成 | 能用产品语言解释模型如何生成回答 |
| L1 了解 | 多模态模型 | 知道文本、图像、语音、视频输入输出的基本差异 |
| L2 掌握 | 模型能力分层 | 能区分 mini、标准、高级推理、多模态、私有模型的适用场景 |
| L2 掌握 | 模型选型 | 能按质量、延迟、成本、上下文、工具调用、合规做对比 |
| L3 精通 | 模型路由 | 能设计按任务、套餐、风险、成本动态选择模型的策略 |
| L3 精通 | 推理优化 | 理解缓存、批处理、KV Cache、量化、speculative decoding 的产品影响 |
2. Prompt 与 Context Engineering
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | 基础 Prompt 编写 | 能写清晰指令、输出格式和简单示例 |
| L1 了解 | System Prompt | 知道系统提示词对行为边界的影响 |
| L2 掌握 | Few-shot / 结构化输出 | 能设计稳定输出格式和 schema |
| L2 掌握 | Context 组装 | 能决定历史、RAG、工具 schema、用户偏好如何进入上下文 |
| L2 掌握 | Prompt 版本管理 | 能记录变更、效果和回滚方案 |
| L3 精通 | Prompt Pipeline | 能设计多步骤、多分支、可评估的 Prompt 流水线 |
| L3 精通 | Prompt 注入防御 | 能识别直接/间接 Prompt 注入并设计缓解策略 |
3. RAG 与知识系统
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | Embedding 与向量检索 | 能解释 RAG 为什么能降低幻觉 |
| L1 了解 | Chunking | 知道分块大小和语义边界会影响召回 |
| L2 掌握 | Hybrid Search | 能设计向量 + BM25 + metadata 过滤 |
| L2 掌握 | Rerank | 知道何时需要重排序提升精度 |
| L2 掌握 | 权限过滤 | 知道检索前权限过滤的重要性 |
| L3 精通 | GraphRAG / 多跳检索 | 能为复杂知识关系设计检索策略 |
| L3 精通 | RAG 评估 | 能评估检索召回、引用正确性、答案忠实度 |
4. Agent 与工具治理
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | Agent loop | 理解 plan-act-observe 的基本循环 |
| L1 了解 | Tool calling | 知道工具 schema、参数和返回值会影响模型行为 |
| L2 掌握 | Agent 工作流 | 能设计单 Agent / 多 Agent / 人工审批流程 |
| L2 掌握 | MCP / 连接器 | 理解工具连接标准化带来的机会和风险 |
| L2 掌握 | 工具权限 | 能按只读、写入、高风险、不可逆动作分级 |
| L3 精通 | Agent Runtime | 能设计 run、step、budget、trace、retry、rollback |
| L3 精通 | Agent 安全 | 能设计沙箱、审批、工具白名单、供应链风险控制 |
5. 评估体系
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | 人工评估 | 能设计基础评分表和标注规范 |
| L1 了解 | 基础指标 | 理解准确率、召回率、满意度、任务完成率 |
| L2 掌握 | Golden Dataset | 能构建覆盖主场景和边界情况的评估集 |
| L2 掌握 | LLM-as-Judge | 能设计评估 Prompt 并理解其局限 |
| L2 掌握 | RAG 评估 | 能区分检索质量和生成质量 |
| L3 精通 | 持续评估 Pipeline | 能把评估接入 CI/CD 和模型灰度 |
| L3 精通 | 线上失败回流 | 能把线上失败样例转为回归集 |
6. 成本与商业化基础
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | Token 成本 | 知道输入、输出、缓存、工具都会产生成本 |
| L2 掌握 | 单任务成本测算 | 能估算一次会话、一次 RAG、一次 Agent run 成本 |
| L2 掌握 | 免费层限额 | 能设计消息、credits、premium requests、Agent runs 限额 |
| L3 精通 | 单位经济学 | 能计算毛利率、P95 用户成本、重度用户风险 |
| L3 精通 | 企业定价 | 能设计席位 + 用量 + 治理能力 + 专属容量的定价结构 |
7. 隐私、安全与合规
| 层级 | 技能点 | 掌握标准 |
|---|---|---|
| L1 了解 | AI 隐私风险 | 知道用户输入、文件、记忆、trace 都可能含敏感数据 |
| L1 了解 | 内容安全 | 知道自残、违法、仇恨、色情、危险行为等风险类型 |
| L2 掌握 | 数据流图 | 能梳理输入、模型、RAG、工具、日志、记忆的数据流 |
| L2 掌握 | 用户控制 | 能设计导出、删除、关闭训练、关闭记忆等功能 |
| L2 掌握 | Prompt 注入 | 能识别直接和间接注入风险 |
| L3 精通 | AI 治理清单 | 能制定上线门禁、审计、事故响应和回滚流程 |
| L3 精通 | 高风险场景 | 能与法务评估医疗、金融、法律、雇佣、未成年人等场景 |
产品与业务技能
1. 场景判断
| 技能点 | 说明 |
|---|---|
| AI 适用性判断 | 判断问题是否真的需要 AI,而不是规则、搜索或流程引擎即可 |
| 用户工作流拆解 | 找到 AI 应该介入的位置和人工保留的位置 |
| 风险分级 | 判断场景是低风险信息辅助,还是高风险自动化决策 |
| 成功指标定义 | 用任务完成率、节省时间、质量提升、成本下降衡量价值 |
2. 产品设计
| 技能点 | 说明 |
|---|---|
| 不确定性 UX | 设计置信度、来源引用、免责声明和反馈入口 |
| Human-in-the-loop | 在关键步骤加入人工确认、审批和复核 |
| 错误体验 | 处理拒答、超时、降级、工具失败和无结果 |
| 透明度 | 告诉用户 AI 做了什么、用了什么来源、调用了什么工具 |
3. 商业化
| 技能点 | 说明 |
|---|---|
| 订阅设计 | Free / Plus / Pro / Team / Enterprise 分层 |
| 用量设计 | credits、runs、premium requests、GPU time 等抽象 |
| 企业价值 | SSO、审计、数据驻留、专属容量、SLA、DPA |
| 成本治理 | 预算、告警、限流、熔断、模型降级 |
工具技能
1. AI 产品原型与开发工具
| 类别 | 代表工具 | 掌握目标 |
|---|---|---|
| 通用 AI 助手 | ChatGPT、Claude、Gemini | 日常研究、写作、分析和原型 |
| AI 编码 | Cursor、GitHub Copilot、Claude Code、Codex 类工具 | 快速验证、代码阅读、PR 辅助 |
| 原型工具 | Figma、Framer、v0、Lovable、Bolt、Replit | 快速生成可交互 Demo |
| 低代码 AI 平台 | Dify、Coze、Flowise、Langflow | 快速搭建 RAG / Agent 原型 |
2. RAG / Agent 工程工具
| 类别 | 代表工具 | 掌握目标 |
|---|---|---|
| 编排框架 | LangChain、LangGraph、LlamaIndex、CrewAI | 理解 RAG / Agent 工作流 |
| 连接器 / 协议 | MCP、OpenAPI、Webhook、A2A 相关生态 | 理解工具接入和权限风险 |
| 向量数据库 | Milvus、Qdrant、Weaviate、Pinecone、Chroma | 理解检索架构和成本 |
| 搜索 / Rerank | BM25、Elastic、reranker、hybrid search | 设计更可靠的检索系统 |
| 沙箱 | Docker、Firecracker、gVisor、浏览器沙箱 | 理解代码执行和工具调用隔离 |
3. 评估与可观测性
| 类别 | 代表工具 | 掌握目标 |
|---|---|---|
| Prompt / Trace | LangSmith、Helicone、Portkey、Arize Phoenix | 跟踪调用、成本和失败样例 |
| RAG 评估 | RAGAS、TruLens、DeepEval | 评估检索和生成质量 |
| 实验追踪 | Weights & Biases、MLflow | 记录模型和 Prompt 实验 |
| 业务分析 | Metabase、Tableau、Looker、Amplitude | 追踪产品指标和转化 |
| 安全测试 | OWASP LLM Top 10、红队样例库、自建 evals | 验证注入、越权和内容安全 |
4. PM 基础工具
| 类别 | 工具 | 掌握目标 |
|---|---|---|
| 文档 | Notion、飞书、Confluence、Markdown | PRD、评估报告、复盘 |
| 项目管理 | Jira、Linear、飞书项目、GitHub Projects | 需求、里程碑、缺陷追踪 |
| 数据 | SQL、Python/Pandas、Excel | 基础分析和成本测算 |
| 协作 | GitHub、Slack、飞书、Zoom | 跨团队推进 |
软技能
1. 技术沟通
| 技能点 | 说明 |
|---|---|
| 与 MLE 沟通 | 能把业务目标转成评估数据、失败样例和质量标准 |
| 与工程沟通 | 能描述接口、工具权限、日志、回滚和监控需求 |
| 与安全法务沟通 | 能解释数据流、风险场景、用户控制和合规需求 |
| 与业务沟通 | 能把模型能力、成本和风险翻译成业务收益与约束 |
2. 决策能力
| 技能点 | 说明 |
|---|---|
| Trade-off | 在质量、成本、延迟、安全、体验之间做取舍 |
| 风险意识 | 对高影响错误保持敏感,知道哪些场景不能全自动 |
| 数据驱动 | 不凭感觉判断模型好坏,而用评估和线上指标判断 |
| 长期主义 | 避免被短期模型能力变化带偏,沉淀可复用系统 |
3. 组织影响力
| 技能点 | 说明 |
|---|---|
| 推动流程 | 建立模型升级、评估、灰度和事故响应流程 |
| 方法论沉淀 | 把项目经验整理成模板、清单和 playbook |
| 客户沟通 | 能面向企业客户解释安全、合规、ROI 和部署方案 |
| 行业学习 | 持续跟踪模型、工具、法规和商业化趋势 |
技能成长路线
L1 入门
text
LLM 基础 + Prompt + PRD + 评估样例 + AI 工具熟练使用建议目标:能协助完成一个 AI 功能的需求、Prompt、评估和上线支持。
L2 独立
text
RAG / Agent 基础 + 模型选型 + 评估集 + 灰度 + 成本测算建议目标:能独立负责一个 AI 模块从 0 到 1。
L3 资深
text
模型路由 + Agent Runtime + 评估平台 + 成本治理 + 安全合规建议目标:能负责一条 AI 产品线或 AI 平台能力。
L4 专家
text
AI 产品战略 + 商业化体系 + 组织治理 + 行业影响力建议目标:能定义公司级 AI 战略并建立可持续产品体系。
结语:AI PM 的技能不是“懂一点 AI 技术”即可,而是要把模型、数据、工具、体验、成本、安全和商业化整合成一个可持续的产品系统。