🧰 AI PM 实战工具包
面向 AI 产品经理的日常作战工具箱 —— 立项检查、跨团队沟通、Demo 防翻车,拿来即用。
目录
1. AI 产品立项 Checklist
1.1 接手新 AI 产品后第一周要做的事
下列清单按优先级排列。第一周完成 ☐ 项,第二周完成 ◻ 项,存档备查 ○ 项。
Day 1-2:问题确认与用户验证
- ☐ 确认这是真 AI 问题还是假 AI 问题
- 这个问题不用 AI 能解决吗?如果能,成本更低吗?
- 用户真正需要的是「更准的答案」还是「有答案就行」?
- 伪需求信号:用户说"希望更智能",但追问后说不出具体场景
- ☐ 现有方案为什么不够好
- 用户现在用手工/规则/外包怎么做的?痛在哪里?
- 是效率问题、质量问题、还是根本做不到?
- ☐ 一句话价值主张
- 写完这句发给至少 5 个真实用户验证:"我们这个功能可以帮你 ____,让你 ____"
- 如果 3 个人以上说"看不懂"或"不需要",回炉重造
- ☐ 成功指标定义(立项即定义)
- 核心指标 1 个(不要超过 3 个):任务完成率 / 时间节省 / 收入提升
- 当前 baseline 值是多少?没有 baseline 的指标等于没指标
Day 3-4:竞品与技术调研
- ☐ 竞品 AI 能力矩阵
- 列出 Top 3 竞品 + 2 个跨行业参考
- 竞品用 AI 做了什么?效果如何?(截图 + 数据)
- 我们差异化的点在哪里?数据优势?场景理解?成本结构?
- ☐ 技术方案选型
- 自研 vs 调用 API vs 开源微调?依据是什么?
- 模型选型:参数规模、推理速度、上下文长度、成本
- 是否需要 RAG?知识库来源是什么?更新频率?
- ☐ 数据可行性评估
- 训练/微调数据从哪里来?质量如何?标注成本?
- 用户数据隐私合规:数据出境?用户授权?脱敏方案?
- 冷启动策略:没有用户数据时怎么让模型先跑起来?
Day 5-7:成本、评估与风险
- ☐ 成本估算 —— 必须算三笔账
- 推理成本:每次请求的 token 消耗 × 预估调用量。GPT-4 级别模型约 $0.03-0.12/次请求,小模型 $0.001-0.01
- 标注成本:评估集标注、bad case 回收标注、微调数据标注。按条计费 vs 按小时
- 基建成本:GPU 实例/API 订阅/向量数据库/CDN/带宽。最低 MVP 每月至少 $500-2000
- 成本模型要随着规模变化重新算:1000 DAU 和 100 万 DAU,成本结构完全不同
- ☐ 评估准备 —— 没有评估就是盲人摸象
- 评估集:至少 200-500 条覆盖核心场景的测试用例,含 edge case (不少于 20%)
- Baseline:没有 AI 时的效果(规则/人工/旧模型),作为对比基准
- 评估维度:准确率 ✓、拒绝率(该拒绝时拒绝了吗)、幻觉率、用户满意度
- 自动评估 vs 人工评估:自动评估跑量,人工评估跑质,两者不可偏废
- ☐ 团队能力评估
- 团队之前做过 AI 产品吗?踩过哪些坑?
- ML Engineer:有部署和推理优化经验吗?还是只会调 API?
- 谁负责 prompt 工程?谁负责评估?谁负责 bad case 分析?
- 没有专职 AI 评估角色的团队,AI 产品质量一定崩塌
- ☐ 风险管理 —— 列出 Top 5 风险
- 技术风险 1:模型幻觉导致用户体验灾难(概率:高 / 影响:灾难级)
- 技术风险 2:推理延迟超预期,用户流失(概率:中 / 影响:高)
- 产品风险 1:用户对 AI 能力过度期望(概率:高 / 影响:中)
- 产品风险 2:PMF 不成立,用户不需要(概率:中 / 影响:致命)
- 组织风险:AI 评审周期过长,错过窗口(概率:中 / 影响:中)
- 每个风险要有缓解措施和触发告警的阈值
- ☐ 合规检查清单
- 内容安全:AI 输出的有害/偏见/违法内容如何拦截?
- 数据隐私:用户数据是否用于模型训练?是否获得授权?
- 版权风险:模型输出是否可能侵犯第三方版权?
- 监管合规:是否涉及深度合成/生成式 AI 备案?
- 未成年人保护:是否有年龄分级和内容过滤?
- ☐ 退出标准 —— 什么情况下应该放弃
- 模型效果持续 N 周达不到 baseline(建议:连续 4 周)
- 推理成本超过用户生命周期价值的 3 倍
- 用户留存率低于传统方案
- 合规审查不通过且无可行替代方案
- 写进 PRD 的"Not Doing"清单中,明确放弃条件
- 每两周复盘一次退出条件,不要等到投入半年才决定放弃
1.2 立项后第二周 Checklist(快速启动)
- ◻ MVP 范围锁定:最小可行 AI 功能是什么?砍掉 50% 的 feature
- ◻ Prompt 基线版本:写第一版 system prompt,团队内 blind review
- ◻ 用户体验流程图:AI 输出的不确定性如何在前端处理?(loading / fallback / 纠错入口)
- ◻ 灰度计划:5% 用户 → 20% → 50% → 全量,每个阶段的评估标准
- ◻ 监控面板搭建:延迟 P50/P95/P99、调用成功率、用户满意度打分
- ◻ Bad Case 回收机制:用户如何反馈问题?反馈是否进入迭代闭环?
1.3 持续运营节奏
- ○ 每周:Bad Case 评审 ≥30 条,标记根因(幻觉/理解偏差/数据缺失/prompt 缺陷)
- ○ 双周:模型效果报告(准确率/幻觉率/满意度趋势)
- ○ 每月:推理成本复盘(是否需做蒸馏/量化)
- ○ 每季:竞品 AI 功能扫描
- ○ 每次发版:评估集全量回归 + 新增 edge case
2. 跨团队沟通框架
2.1 给 CEO / 投资人讲 AI ROI
CEO 不关心你用的是什么模型,只关心这玩意儿到底值不值。
核心问题
CEO/投资人最常问的三个问题:
- "AI 到底给我们带来了什么价值?"
- "这个 ROI 怎么算?"
- "凭什么我们要比别人多花钱做 AI?"
价值沟通框架:三种 ROI 叙事
① 用户价值型(适合 toC 产品 / 增长阶段)
- 叙事角度:AI 提升了哪些用户体验指标
- 关键指标:任务完成率 ↑、完成时间 ↓、用户满意度 ↑、NPS ↑
- 话术模板:
- "这不是一个 AI 功能,这是一个让用户效率提升 X 倍的解决方案。"
- "用户之前完成这个任务平均需要 Y 分钟,现在只需要 Z 秒,转化率提升了 W%。"
- "我们不是在做 chatbot,我们是在做7×24 小时的专家助手。"
② 成本价值型(适合 toB 产品 / 降本增效)
- 叙事角度:AI 替代/辅助了哪些人工环节
- 关键指标:客服成本 ↓、人工处理时长 ↓、人效比 ↑、自动化率 ↑
- 话术模板:
- "当前每次人工客服成本 $Y,AI 首次解决成本 $X,差 Z 倍。"
- "AI 自动化率从 0% 提升到 N%,相当于省了 M 个全职人力。"
- "这不是裁员工具,这是让团队做更高价值工作的杠杆。"
③ 收入价值型(适合商业化阶段)
- 叙事角度:AI 功能带来了多少付费转化和收入
- 关键指标:AI 功能付费率 ↑、ARPU ↑、付费转化率 ↑、留存 ↑
- 话术模板:
- "AI 功能上线后,付费转化率从 A% 提升到 B%,新增 MRR $C。"
- "用户因为 AI 功能留下的比例比非 AI 用户高 D%,12 个月 LTV 高 E 倍。"
- "当前成本 $F/用户,但给用户节约了 $G/用户的时间价值。"
ROI 计算模板(填空即用)
AI 功能 ROI = (节省成本 + 新增收入) / (AI 成本 + 工程成本)
节省成本 = 人工处理量 × 人工单价 × AI 替代率
新增收入 = AI 功能付费用户数 × 客单价 + 留存提升带来的增量收入
AI 成本 = 推理成本 + 标注成本 + 基础设施 + API 订阅
工程成本 = AI 团队人力成本分摊 + 迭代周期分摊避坑提示:不要只报正面数据。主动暴露风险:"如果模型效果达不到预期,ROI 可能减半,我们的止损线是 XXX。"
给 CEO 的汇报模板(5 分钟版)
1. 一句话:我们做的 AI 功能解决了什么问题,给用户/公司带来什么价值
2. 数据说话:上线以来核心指标变化(Before vs After)
3. ROI 计算:投入多少钱,省了/赚了多少钱,什么时候回本
4. 风险提示:最大的不确定性是什么,我们怎么应对
5. 下一步:接下来做什么,需要 CEO 做什么决策2.2 给工程师讲 PM 视角
话术 1:为什么这个 Prompt 这么重要?
工程师常说的话:"不就是改几个字吗?效果能有多大差别?"
你的回答框架:
- 第一层(技术理解):"Prompt 不是'改几个字',是模型的指令集。好的 prompt 能降低幻觉率 30-50%,这比换一个更大参数量模型性价比高得多。"
- 第二层(产品视角):"你知道吗?用户对这个功能的满意度,70% 取决于 prompt 质量,只有 30% 取决于模型选型。因为 prompt 决定了用户看到的第一句话、第一个回答、第一次信任。"
- 第三层(共同目标):"我们一起设计一个 prompt 版本管理系统,每次改动都跑完整评估集。你来做 prompt 工程化的架构,我来定义评估标准和用户反馈。"
- 实操建议:"prompt 的每个变更都要有版本号、变更理由、评估结果。像管理代码一样管理 prompt。工具推荐:LangSmith、Weights & Biases Prompts。"
话术 2:为什么评估标准不能只看准确率?
工程师常说的话:"准确率 98%,够了吧?"
你的回答框架:
- 第一层(产品视角):"准确率 98% 的意思是,每 100 个用户里有 2 个得到错误答案。对搜索引擎来说这 OK,但对金融/医疗/法律场景,2% 的错误率意味着灾难。"
- 第二层(用户视角):"用户记住的不是 98 次正确,而是那 2 次错误。错误答案带来的信任损失是指数级的。"
- 第三层(系统视角):"我们需要的是一套多维评估体系:
- 精确率:给出的答案中正确的比例 → 错了就是信任崩塌
- 召回率:该覆盖的问题都覆盖了吗 → 漏了就是体验缺失
- 拒绝率:不知道的时候能说不知道吗 → 硬答就是致命幻觉
- 延迟 P95:95% 的请求在多长时间内返回 → 慢了就是流失
- 用户纠错率:用户需要手动修改 AI 输出的比例 → 高了就是鸡肋"
- 落地建议:"我们建一个评估看板,把这些指标都可视化。每周过一遍 bad case,把准确率拆解成用户可感知的体验指标。"
话术 3:怎么让工程师参与产品决策?
- "你来决定用什么模型、怎么部署,但做什么、做到什么标准我们一起定。"
- "我希望你能看到用户反馈——我给你开权限看客服记录和用户评价。"
- "每次 bad case 评审,我不只看数据,我叫上你一起看用户说了什么。"
- "评估集里我给你留 20% 的'探索用例',你可以自己加你觉得重要的场景。"
2.3 给设计师讲 AI 产品交互约束
设计师常说的困惑
- "为什么 AI 的输出不能像普通数据一样精准?"
- "为什么 loading 状态这么复杂?"
- "为什么不能给用户一个'确定'按钮?"
你的回答框架
第一课:AI 是不确定的,交互要为不确定性设计
- 普通产品:输入 A → 输出 B(确定的、可预期的)
- AI 产品:输入 A → 输出可能是 B/C/D/E(概率性的、不可完全预期的)
- 对设计的影响:
- 不要假设 AI 输出是"正确的"——用户需要有验证和纠错的入口
- 不要假设 AI 输出是"一致的"——同一问题不同时间可能不同答案
- 不要做"一次输出定终身"的设计——要有编辑、重新生成、反馈机制
第二课:状态设计比普通产品多一倍
| 状态 | 普通产品 | AI 产品 |
|---|---|---|
| 初始态 | 空白页面 | 引导示例 + 能力边界提示 |
| 加载态 | spinner | 流式输出 + 进度暗示 + 取消按钮 |
| 成功态 | 显示数据 | 显示 AI 输出 + 置信度标识 + 纠错入口 |
| 空态 | "暂无数据" | "我还不会回答这个问题,试试问别的" |
| 错误态 | 错误提示 | 降级方案(简化回答/转人工/重试) |
| 极限态 | 分页展示 | 长回答折叠 + 关键信息高亮 |
第三课:交互模式的三个层次
- 第一层(AI 主导):用户说,AI 做。交互最简单,但用户控制感最弱。
- 适用:信息查询、内容总结、翻译
- 设计要点:输入框 + 结果显示 + "不满意?重新生成"按钮
- 第二层(人机协作):AI 建议,用户决定。交互最复杂,但效果最好。
- 适用:文案创作、代码生成、数据分析
- 设计要点:AI 产出 → 用户编辑 → AI 辅助修改 → 用户确认
- 第三层(AI 辅助):用户主导,AI 在旁边提供建议。
- 适用:写作辅助、设计辅助、决策支持
- 设计要点:保持用户主控权,AI 建议不打断用户流程
第四课:给设计师的检查清单
- ☐ 用户知道 AI 的能力边界吗?(不要等用户问了才知道 AI 不会)
- ☐ 用户能理解 AI 的回答为什么不完美吗?(置信度/来源提示)
- ☐ AI 出错时,用户知道怎么纠正吗?(反馈入口放哪里)
- ☐ 用户能控制 AI 的"温度"吗?(创意度调节、详细程度调节)
- ☐ 加载状态有"可取消"选项吗?(生成到一半不满意可以直接停)
- ☐ 历史对话中,用户能找到之前 AI 给的答案吗?(会话存储和搜索)
3. AI 产品 Demo 技巧
3.1 AI Demo 为什么容易翻车?
五大翻车原因:
| 原因 | 概率 | 典型场景 |
|---|---|---|
| 模型输出不稳定 | ⭐⭐⭐⭐⭐ | 昨天演示正常的 prompt,今天输出完全不一样 |
| 幻觉不可控 | ⭐⭐⭐⭐ | 模型自信满满地说出一个错误事实 |
| 演示环境 vs 真实环境差异 | ⭐⭐⭐⭐ | 本地跑得好好的,现场网络慢/延迟高 |
| 用户输入不可控 | ⭐⭐⭐ | 投资人问了预期之外的刁钻问题 |
| 依赖服务不稳定 | ⭐⭐⭐ | 第三方 API 限流/宕机/版本变更 |
3.2 Demo 准备 —— 三层防线
第一层防线:多套输入方案
- Plan A:你最完美的演示场景,模型 90%+ 概率稳定输出
- 输入经过精心设计,覆盖核心价值主张
- 提前跑 50 次以上,确认输出质量稳定
- Plan B:备选场景,与 Plan A 不同但同样能展示核心价值
- 当 Plan A 翻车时的第一替代方案
- 同样提前跑 50 次以上验证
- Plan C:最安全、最简单的场景(哪怕展示价值不够惊艳)
- 最后的兜底方案,模型输出确定性最高
- 可以是"能跑就行"的级别
铁律:每个 demo 至少准备 3 套输入方案,且每套都在演示环境中跑过至少 50 次。
第二层防线:硬编码策略 vs 真实调用
硬编码策略(适合高规格演示 / 投资人场)
- 提前把理想的模型输出录好 / 写好
- 现场演示时走"模拟模式",展示的是一致的最佳效果
- 适用场景:融资演示、重要客户签约、CEO 对外的 Keynote
- 注意事项:必须标注"模拟效果",不要误导观众以为模型已经完美
- 伦理边界:可以展示"未来能力"但必须诚实说明当前阶段
真实调用策略(适合内部评审 / 灰度验收)
- 现场真实调用模型,展示真实效果
- 适用场景:团队内部评审、技术选型对比、A/B 测试结果展示
- 注意事项:做好翻车预案,坦然面对不完美
- 最佳实践:"我们来看看真实的效果 —— 好的一面和不好的一面都看"
混合策略(推荐)
- 核心价值场景走硬编码(展示愿景)
- 互动环节走真实调用(展示诚实)
- 话术:"这是我们的目标效果(硬编码),这是当前的真实水平(真实调用),差距就是我们下一步要解决的问题。"
第三层防线:降级预案
模型崩了/变慢 → 降级方案执行清单(5 秒内切换):
□ 第一步:切换到预先录制的 Demo 视频(提前准备好 3-5 分钟)
□ 第二步:口头描述"正常情况下这里会看到……"
□ 第三步:切换到备用模型(如 GPT-4 → GPT-3.5 / 本地小模型)
□ 第四步:如果所有方案都失败 —— "这正是我们正在解决的问题,它展示了 AI 产品的不确定性,这也是为什么我们需要更多的资源和时间来打磨。"心态提示:翻车不是世界末日。真诚地面对问题,解释"这是我们正在解决的挑战",反而能给观众留下诚实和专业的印象。
3.3 Demo 现场 Checklist
演示前 24 小时
- ☐ 环境检查
- ☐ 演示网络已测试(带宽 > 10Mbps,延迟 < 50ms)
- ☐ 所有 API Key 有效,没有过期
- ☐ 模型 endpoint 可用(不是"维护中")
- ☐ 备用网络(手机热点/独立 5G 路由)
- ☐ 内容验证
- ☐ Plan A/B/C 各跑了 50 次,记录输出稳定性
- ☐ 所有计划中的 demo 输入已保存为文本(不要现场打字)
- ☐ 录播视频已准备好(画质 1080p,声音清晰,含字幕)
- ☐ fallback 回答已写好,存为本地文件
- ☐ 设备检查
- ☐ 电脑电量 100%,充电器随身
- ☐ 投影/投屏测试通过,字体大小可读
- ☐ 演示用浏览器清除了缓存和插件干扰
- ☐ 关掉所有通知(Slack/邮件/日历弹窗)
演示前 1 小时
- ☐ 现场网络再次测试
- ☐ 再次跑一遍 Plan A 确认稳定
- ☐ 录播视频本地播放测试(不要依赖流媒体)
- ☐ 关闭所有无关浏览器标签和应用程序
- ☐ 深呼吸,心态准备好:最坏情况已有预案
演示中
- ☐ 开场白先降预期:"AI 产品的一个特点是每次输出都不一样,我们来看看今天的运气如何。"
- ☐ 先展示价值,再展示技术:不要上来就讲模型架构
- ☐ 操作要慢:让观众看到你输入了什么、得到了什么
- ☐ 如果翻车:微笑 → "这正是我们在解决的挑战" → 切换到 Plan B
- ☐ 控制演示范围:只演示你准备好的场景,不要即兴探索
- ☐ 留 30% 时间做 Q&A:但 Q&A 环节不做实时 demo 演示
3.4 常见翻车案例与预防措施
案例 1:模型返回错误答案
场景:给投资人演示 AI 客服,问"我们公司去年的营收是多少",模型说了一个错误的数字。
根因:
- RAG 检索到的知识文档版本不对/太旧
- 模型无视检索结果,凭训练数据回答(即"检索增强"没生效)
- prompt 没有约束"如果不知道请说不知道"
预防措施:
- ✅ prompt 里明确写:"优先使用检索到的知识,如果文档中没有信息,请明确说'我的知识库中没有这个信息'"
- ✅ 演示前测试那些"模型容易出错"的问题,针对性加固
- ✅ 准备一个"全对"的演示路径和一个"模型说不知道"的演示路径(后者反而能展示诚实)
- ✅ fallback 回答就写在旁边的纸上:"以下是准备好的回答……"
案例 2:现场网络延迟过高
场景:在客户公司会议室演示,Wi-Fi 信号差,模型返回需要 30 秒。
根因:
- 没有提前测试演示环境网络
- 没有降级方案
- 模型推理时间没有做超时处理
预防措施:
- ✅ 提前到现场测试网络,或自备 5G 热点
- ✅ 准备好 3-5 分钟录播视频(展示完整流畅的体验)
- ✅ 模型设置超时时间(建议 10 秒),超时自动展示 fallback
- ✅ 流式输出(streaming)先显示第一个 token 给用户"有东西在出来了"的感觉
案例 3:用户输入预期之外的 Prompt
场景:CEO 在 demo 现场突然问:"让它写一首诗讽刺我们竞品。"
根因:
- 没有对演示输入做范围限定
- 模型的安全对齐被触发,拒绝回答(反而尴尬)
- 或者更糟 —— 模型真的写了一首讽刺诗(合规灾难)
预防措施:
- ✅ 演示前明确告知观众:"我准备了几个场景,我们先按这些来走。"
- ✅ 准备好回应框架:"这是个有趣的问题,不过我今天的 demo 主要聚焦 XX 场景,会后我们可以专门测试这个方向。"
- ✅ 如果被强迫输入,先确认输入安全:"让我看看怎么处理这个……"(给自己争取切换到备用方案的时间)
- ✅ 最好的预防:演示界面限定输入范围(预置的示例问题,不让自定义输入)
案例 4:模型突然"失忆"或风格突变
场景:同样的问题,上周 demo 回答得很好,今天模型像换了个人。
根因:
- 模型版本被服务商悄悄更新了(API 模型常见问题)
- system prompt 被其他人不小心改了
- 温度/超参设置被重制
预防措施:
- ✅ 锁定模型版本(不要用"最新版",用固定版本号如 gpt-4-0613)
- ✅ 演示前 checklist 中加一条:检查 system prompt 和超参设置
- ✅ 把 system prompt 和参数配置写成可复用的配置文件
- ✅ 如果必须用 unpinned 版本,提前测试新版本的输出变化
案例 5:依赖的第三方服务不可用
场景:RAG 系统依赖的向量数据库挂了,AI 无法检索知识。
根因:
- 没有做服务依赖的降级设计
- 没有离线缓存
预防措施:
- ✅ RAG 系统设计时加上本地缓存层(向量缓存 + 知识缓存)
- ✅ 降级方案:缓存不可用时,模型退化为纯 LLM 模式(只靠训练知识回答)
- ✅ 演示前检查所有依赖服务的健康状态
- ✅ 准备一个"纯 LLM"模式的演示路径
3.5 录播 vs 直播:选型决策
| 维度 | 录播(Pre-recorded) | 直播(Live Demo) |
|---|---|---|
| 推荐场景 | 融资演示、Keynote、客户签约、高规格对外展示 | 内部评审、技术选型、灰度验收、团队 sync |
| 核心优势 | 100% 可控,零翻车风险,可后期制作 | 真实可信,能展示交互细节,现场问答 |
| 核心风险 | 不够真实,观众怀疑是"假 AI" | 翻车概率 30-50%,不可控因素多 |
| 准备时间 | 2-3 天(拍摄 + 剪辑 + 字幕) | 1-2 天(测试 + 预案 + 排练) |
| 最佳时长 | 3-5 分钟 | 10-15 分钟 |
| 翻车应对 | 不存在翻车问题 | 必须准备完整降级预案 |
| 观众信任 | 中(会被质疑真实性) | 高(翻车但诚实反而加分) |
| 技术深度展示 | 难(只能展示结果) | 易(可以展示交互过程) |
决策树:
Demo 场景是什么?
├── 对外的(投资/客户/大会演讲)
│ ├── 建议录播(3分钟精剪版)
│ └── + 会后安排直播 Q&A 环节
├── 对内的(团队/评审/老板汇报)
│ ├── 建议直播(展示真实能力)
│ ├── + 录播备份兜底
│ └── + 准备好"翻车也是个亮点"的心态
└── 混合的(部分展示用录播,互动用直播)
└── 最佳方案:录播展示"愿景",直播展示"现状"录播制作 Checklist
- ☐ 脚本撰写:说人话,不讲术语,30 秒内展示核心价值
- ☐ 录制工具:Screen Studio / OBS,60fps,4K 录制(输出 1080p)
- ☐ 音频质量:领夹麦 + 安静环境,背景噪音 < 40dB
- ☐ 后期处理:关键步骤加放大镜/高亮效果,视频底部加字幕
- ☐ 免责声明:末尾标注"展示效果基于实际产品,可能因网络环境和模型状态有所不同"
- ☐ 备用格式:MP4(通用)+ 链接(在线播放),两种都准备好
直播呈现技巧
- ☐ 开场先展示"这是真的":现场输入几个字,让观众看到实时输出
- ☐ 慢节奏操作:每次输入后等 2-3 秒再说话,让观众消化
- ☐ 口头标注:"这是我的屏幕,我正在输入……可以看到模型在实时生成……"
- ☐ 互动技巧:"谁想上来试试?"(选 1-2 个观众,但控制输入范围)
- ☐ 出现小问题直接说:语气轻松地解释"这里模型有点调皮了"
- ☐ 出现大问题直接切换:不要挣扎,立刻换 Plan B
附录:工具推荐
Prompt 管理:LangSmith、W&B Prompts、Agenta
模型评估:Giskard、DeepEval、LangFuse
Demo 制作:Screen Studio、OBS Studio、Arcade
成本监控:Helicone、LangSmith、Arize AI
版本:v1.0 | 更新于 2026.05