🧰 AI PM 实战工具包

面向 AI 产品经理的日常作战工具箱 —— 立项检查、跨团队沟通、Demo 防翻车，拿来即用。

1. AI 产品立项 Checklist

1.1 接手新 AI 产品后第一周要做的事

下列清单按优先级排列。第一周完成 ☐ 项，第二周完成 ◻ 项，存档备查 ○ 项。

Day 1-2：问题确认与用户验证

☐ 确认这是真 AI 问题还是假 AI 问题
- 这个问题不用 AI 能解决吗？如果能，成本更低吗？
- 用户真正需要的是「更准的答案」还是「有答案就行」？
- 伪需求信号：用户说"希望更智能"，但追问后说不出具体场景
☐ 现有方案为什么不够好
- 用户现在用手工/规则/外包怎么做的？痛在哪里？
- 是效率问题、质量问题、还是根本做不到？
☐ 一句话价值主张
- 写完这句发给至少 5 个真实用户验证："我们这个功能可以帮你 ____，让你 ____"
- 如果 3 个人以上说"看不懂"或"不需要"，回炉重造
☐ 成功指标定义（立项即定义）
- 核心指标 1 个（不要超过 3 个）：任务完成率 / 时间节省 / 收入提升
- 当前 baseline 值是多少？没有 baseline 的指标等于没指标

Day 3-4：竞品与技术调研

☐ 竞品 AI 能力矩阵
- 列出 Top 3 竞品 + 2 个跨行业参考
- 竞品用 AI 做了什么？效果如何？（截图 + 数据）
- 我们差异化的点在哪里？数据优势？场景理解？成本结构？
☐ 技术方案选型
- 自研 vs 调用 API vs 开源微调？依据是什么？
- 模型选型：参数规模、推理速度、上下文长度、成本
- 是否需要 RAG？知识库来源是什么？更新频率？
☐ 数据可行性评估
- 训练/微调数据从哪里来？质量如何？标注成本？
- 用户数据隐私合规：数据出境？用户授权？脱敏方案？
- 冷启动策略：没有用户数据时怎么让模型先跑起来？

Day 5-7：成本、评估与风险

☐ 成本估算 —— 必须算三笔账
- 推理成本：每次请求的 token 消耗 × 预估调用量。GPT-4 级别模型约 $0.03-0.12/次请求，小模型 $0.001-0.01
- 标注成本：评估集标注、bad case 回收标注、微调数据标注。按条计费 vs 按小时
- 基建成本：GPU 实例/API 订阅/向量数据库/CDN/带宽。最低 MVP 每月至少 $500-2000
- 成本模型要随着规模变化重新算：1000 DAU 和 100 万 DAU，成本结构完全不同
☐ 评估准备 —— 没有评估就是盲人摸象
- 评估集：至少 200-500 条覆盖核心场景的测试用例，含 edge case (不少于 20%)
- Baseline：没有 AI 时的效果（规则/人工/旧模型），作为对比基准
- 评估维度：准确率 ✓、拒绝率（该拒绝时拒绝了吗）、幻觉率、用户满意度
- 自动评估 vs 人工评估：自动评估跑量，人工评估跑质，两者不可偏废
☐ 团队能力评估
- 团队之前做过 AI 产品吗？踩过哪些坑？
- ML Engineer：有部署和推理优化经验吗？还是只会调 API？
- 谁负责 prompt 工程？谁负责评估？谁负责 bad case 分析？
- 没有专职 AI 评估角色的团队，AI 产品质量一定崩塌
☐ 风险管理 —— 列出 Top 5 风险
- 技术风险 1：模型幻觉导致用户体验灾难（概率：高 / 影响：灾难级）
- 技术风险 2：推理延迟超预期，用户流失（概率：中 / 影响：高）
- 产品风险 1：用户对 AI 能力过度期望（概率：高 / 影响：中）
- 产品风险 2：PMF 不成立，用户不需要（概率：中 / 影响：致命）
- 组织风险：AI 评审周期过长，错过窗口（概率：中 / 影响：中）
- 每个风险要有缓解措施和触发告警的阈值
☐ 合规检查清单
- 内容安全：AI 输出的有害/偏见/违法内容如何拦截？
- 数据隐私：用户数据是否用于模型训练？是否获得授权？
- 版权风险：模型输出是否可能侵犯第三方版权？
- 监管合规：是否涉及深度合成/生成式 AI 备案？
- 未成年人保护：是否有年龄分级和内容过滤？
☐ 退出标准 —— 什么情况下应该放弃
- 模型效果持续 N 周达不到 baseline（建议：连续 4 周）
- 推理成本超过用户生命周期价值的 3 倍
- 用户留存率低于传统方案
- 合规审查不通过且无可行替代方案
- 写进 PRD 的"Not Doing"清单中，明确放弃条件
- 每两周复盘一次退出条件，不要等到投入半年才决定放弃

1.2 立项后第二周 Checklist（快速启动）

◻ MVP 范围锁定：最小可行 AI 功能是什么？砍掉 50% 的 feature
◻ Prompt 基线版本：写第一版 system prompt，团队内 blind review
◻ 用户体验流程图：AI 输出的不确定性如何在前端处理？（loading / fallback / 纠错入口）
◻ 灰度计划：5% 用户 → 20% → 50% → 全量，每个阶段的评估标准
◻ 监控面板搭建：延迟 P50/P95/P99、调用成功率、用户满意度打分
◻ Bad Case 回收机制：用户如何反馈问题？反馈是否进入迭代闭环？

1.3 持续运营节奏

○ 每周：Bad Case 评审 ≥30 条，标记根因（幻觉/理解偏差/数据缺失/prompt 缺陷）
○ 双周：模型效果报告（准确率/幻觉率/满意度趋势）
○ 每月：推理成本复盘（是否需做蒸馏/量化）
○ 每季：竞品 AI 功能扫描
○ 每次发版：评估集全量回归 + 新增 edge case

2. 跨团队沟通框架

2.1 给 CEO / 投资人讲 AI ROI

CEO 不关心你用的是什么模型，只关心这玩意儿到底值不值。

核心问题

CEO/投资人最常问的三个问题：

"AI 到底给我们带来了什么价值？"
"这个 ROI 怎么算？"
"凭什么我们要比别人多花钱做 AI？"

价值沟通框架：三种 ROI 叙事

① 用户价值型（适合 toC 产品 / 增长阶段）

叙事角度：AI 提升了哪些用户体验指标
关键指标：任务完成率 ↑、完成时间 ↓、用户满意度 ↑、NPS ↑
话术模板：
- "这不是一个 AI 功能，这是一个让用户效率提升 X 倍的解决方案。"
- "用户之前完成这个任务平均需要 Y 分钟，现在只需要 Z 秒，转化率提升了 W%。"
- "我们不是在做 chatbot，我们是在做7×24 小时的专家助手。"

② 成本价值型（适合 toB 产品 / 降本增效）

叙事角度：AI 替代/辅助了哪些人工环节
关键指标：客服成本 ↓、人工处理时长 ↓、人效比 ↑、自动化率 ↑
话术模板：
- "当前每次人工客服成本 $Y，AI 首次解决成本 $X，差 Z 倍。"
- "AI 自动化率从 0% 提升到 N%，相当于省了 M 个全职人力。"
- "这不是裁员工具，这是让团队做更高价值工作的杠杆。"

③ 收入价值型（适合商业化阶段）

叙事角度：AI 功能带来了多少付费转化和收入
关键指标：AI 功能付费率 ↑、ARPU ↑、付费转化率 ↑、留存 ↑
话术模板：
- "AI 功能上线后，付费转化率从 A% 提升到 B%，新增 MRR $C。"
- "用户因为 AI 功能留下的比例比非 AI 用户高 D%，12 个月 LTV 高 E 倍。"
- "当前成本 $F/用户，但给用户节约了 $G/用户的时间价值。"

ROI 计算模板（填空即用）

AI 功能 ROI = (节省成本 + 新增收入) / (AI 成本 + 工程成本)

节省成本 = 人工处理量 × 人工单价 × AI 替代率
新增收入 = AI 功能付费用户数 × 客单价 + 留存提升带来的增量收入
AI 成本  = 推理成本 + 标注成本 + 基础设施 + API 订阅
工程成本 = AI 团队人力成本分摊 + 迭代周期分摊

避坑提示：不要只报正面数据。主动暴露风险："如果模型效果达不到预期，ROI 可能减半，我们的止损线是 XXX。"

给 CEO 的汇报模板（5 分钟版）

1. 一句话：我们做的 AI 功能解决了什么问题，给用户/公司带来什么价值
2. 数据说话：上线以来核心指标变化（Before vs After）
3. ROI 计算：投入多少钱，省了/赚了多少钱，什么时候回本
4. 风险提示：最大的不确定性是什么，我们怎么应对
5. 下一步：接下来做什么，需要 CEO 做什么决策

2.2 给工程师讲 PM 视角

话术 1：为什么这个 Prompt 这么重要？

工程师常说的话："不就是改几个字吗？效果能有多大差别？"

你的回答框架：

第一层（技术理解）："Prompt 不是'改几个字'，是模型的指令集。好的 prompt 能降低幻觉率 30-50%，这比换一个更大参数量模型性价比高得多。"
第二层（产品视角）："你知道吗？用户对这个功能的满意度，70% 取决于 prompt 质量，只有 30% 取决于模型选型。因为 prompt 决定了用户看到的第一句话、第一个回答、第一次信任。"
第三层（共同目标）："我们一起设计一个 prompt 版本管理系统，每次改动都跑完整评估集。你来做 prompt 工程化的架构，我来定义评估标准和用户反馈。"
实操建议："prompt 的每个变更都要有版本号、变更理由、评估结果。像管理代码一样管理 prompt。工具推荐：LangSmith、Weights & Biases Prompts。"

话术 2：为什么评估标准不能只看准确率？

工程师常说的话："准确率 98%，够了吧？"

你的回答框架：

第一层（产品视角）："准确率 98% 的意思是，每 100 个用户里有 2 个得到错误答案。对搜索引擎来说这 OK，但对金融/医疗/法律场景，2% 的错误率意味着灾难。"
第二层（用户视角）："用户记住的不是 98 次正确，而是那 2 次错误。错误答案带来的信任损失是指数级的。"
第三层（系统视角）："我们需要的是一套多维评估体系：
- 精确率：给出的答案中正确的比例 → 错了就是信任崩塌
- 召回率：该覆盖的问题都覆盖了吗 → 漏了就是体验缺失
- 拒绝率：不知道的时候能说不知道吗 → 硬答就是致命幻觉
- 延迟 P95：95% 的请求在多长时间内返回 → 慢了就是流失
- 用户纠错率：用户需要手动修改 AI 输出的比例 → 高了就是鸡肋"
落地建议："我们建一个评估看板，把这些指标都可视化。每周过一遍 bad case，把准确率拆解成用户可感知的体验指标。"

话术 3：怎么让工程师参与产品决策？

"你来决定用什么模型、怎么部署，但做什么、做到什么标准我们一起定。"
"我希望你能看到用户反馈——我给你开权限看客服记录和用户评价。"
"每次 bad case 评审，我不只看数据，我叫上你一起看用户说了什么。"
"评估集里我给你留 20% 的'探索用例'，你可以自己加你觉得重要的场景。"

2.3 给设计师讲 AI 产品交互约束

设计师常说的困惑

"为什么 AI 的输出不能像普通数据一样精准？"
"为什么 loading 状态这么复杂？"
"为什么不能给用户一个'确定'按钮？"

你的回答框架

第一课：AI 是不确定的，交互要为不确定性设计

普通产品：输入 A → 输出 B（确定的、可预期的）
AI 产品：输入 A → 输出可能是 B/C/D/E（概率性的、不可完全预期的）
对设计的影响：
- 不要假设 AI 输出是"正确的"——用户需要有验证和纠错的入口
- 不要假设 AI 输出是"一致的"——同一问题不同时间可能不同答案
- 不要做"一次输出定终身"的设计——要有编辑、重新生成、反馈机制

第二课：状态设计比普通产品多一倍

状态	普通产品	AI 产品
初始态	空白页面	引导示例 + 能力边界提示
加载态	spinner	流式输出 + 进度暗示 + 取消按钮
成功态	显示数据	显示 AI 输出 + 置信度标识 + 纠错入口
空态	"暂无数据"	"我还不会回答这个问题，试试问别的"
错误态	错误提示	降级方案(简化回答/转人工/重试)
极限态	分页展示	长回答折叠 + 关键信息高亮

第三课：交互模式的三个层次

第一层（AI 主导）：用户说，AI 做。交互最简单，但用户控制感最弱。
- 适用：信息查询、内容总结、翻译
- 设计要点：输入框 + 结果显示 + "不满意？重新生成"按钮
第二层（人机协作）：AI 建议，用户决定。交互最复杂，但效果最好。
- 适用：文案创作、代码生成、数据分析
- 设计要点：AI 产出 → 用户编辑 → AI 辅助修改 → 用户确认
第三层（AI 辅助）：用户主导，AI 在旁边提供建议。
- 适用：写作辅助、设计辅助、决策支持
- 设计要点：保持用户主控权，AI 建议不打断用户流程

第四课：给设计师的检查清单

☐ 用户知道 AI 的能力边界吗？（不要等用户问了才知道 AI 不会）
☐ 用户能理解 AI 的回答为什么不完美吗？（置信度/来源提示）
☐ AI 出错时，用户知道怎么纠正吗？（反馈入口放哪里）
☐ 用户能控制 AI 的"温度"吗？（创意度调节、详细程度调节）
☐ 加载状态有"可取消"选项吗？（生成到一半不满意可以直接停）
☐ 历史对话中，用户能找到之前 AI 给的答案吗？（会话存储和搜索）

3. AI 产品 Demo 技巧

3.1 AI Demo 为什么容易翻车？

五大翻车原因：

原因	概率	典型场景
模型输出不稳定	⭐⭐⭐⭐⭐	昨天演示正常的 prompt，今天输出完全不一样
幻觉不可控	⭐⭐⭐⭐	模型自信满满地说出一个错误事实
演示环境 vs 真实环境差异	⭐⭐⭐⭐	本地跑得好好的，现场网络慢/延迟高
用户输入不可控	⭐⭐⭐	投资人问了预期之外的刁钻问题
依赖服务不稳定	⭐⭐⭐	第三方 API 限流/宕机/版本变更

3.2 Demo 准备 —— 三层防线

第一层防线：多套输入方案

Plan A：你最完美的演示场景，模型 90%+ 概率稳定输出
- 输入经过精心设计，覆盖核心价值主张
- 提前跑 50 次以上，确认输出质量稳定
Plan B：备选场景，与 Plan A 不同但同样能展示核心价值
- 当 Plan A 翻车时的第一替代方案
- 同样提前跑 50 次以上验证
Plan C：最安全、最简单的场景（哪怕展示价值不够惊艳）
- 最后的兜底方案，模型输出确定性最高
- 可以是"能跑就行"的级别

铁律：每个 demo 至少准备 3 套输入方案，且每套都在演示环境中跑过至少 50 次。

第二层防线：硬编码策略 vs 真实调用

硬编码策略（适合高规格演示 / 投资人场）

提前把理想的模型输出录好 / 写好
现场演示时走"模拟模式"，展示的是一致的最佳效果
适用场景：融资演示、重要客户签约、CEO 对外的 Keynote
注意事项：必须标注"模拟效果"，不要误导观众以为模型已经完美
伦理边界：可以展示"未来能力"但必须诚实说明当前阶段

真实调用策略（适合内部评审 / 灰度验收）

现场真实调用模型，展示真实效果
适用场景：团队内部评审、技术选型对比、A/B 测试结果展示
注意事项：做好翻车预案，坦然面对不完美
最佳实践："我们来看看真实的效果 —— 好的一面和不好的一面都看"

混合策略（推荐）

核心价值场景走硬编码（展示愿景）
互动环节走真实调用（展示诚实）
话术："这是我们的目标效果（硬编码），这是当前的真实水平（真实调用），差距就是我们下一步要解决的问题。"

第三层防线：降级预案

模型崩了/变慢 → 降级方案执行清单（5 秒内切换）：

□ 第一步：切换到预先录制的 Demo 视频（提前准备好 3-5 分钟）
□ 第二步：口头描述"正常情况下这里会看到……"
□ 第三步：切换到备用模型（如 GPT-4 → GPT-3.5 / 本地小模型）
□ 第四步：如果所有方案都失败 —— "这正是我们正在解决的问题，它展示了 AI 产品的不确定性，这也是为什么我们需要更多的资源和时间来打磨。"

心态提示：翻车不是世界末日。真诚地面对问题，解释"这是我们正在解决的挑战"，反而能给观众留下诚实和专业的印象。

3.3 Demo 现场 Checklist

演示前 24 小时

☐ 环境检查
- ☐ 演示网络已测试（带宽 > 10Mbps，延迟 < 50ms）
- ☐ 所有 API Key 有效，没有过期
- ☐ 模型 endpoint 可用（不是"维护中"）
- ☐ 备用网络（手机热点/独立 5G 路由）
☐ 内容验证
- ☐ Plan A/B/C 各跑了 50 次，记录输出稳定性
- ☐ 所有计划中的 demo 输入已保存为文本（不要现场打字）
- ☐ 录播视频已准备好（画质 1080p，声音清晰，含字幕）
- ☐ fallback 回答已写好，存为本地文件
☐ 设备检查
- ☐ 电脑电量 100%，充电器随身
- ☐ 投影/投屏测试通过，字体大小可读
- ☐ 演示用浏览器清除了缓存和插件干扰
- ☐ 关掉所有通知（Slack/邮件/日历弹窗）

演示前 1 小时

☐ 现场网络再次测试
☐ 再次跑一遍 Plan A 确认稳定
☐ 录播视频本地播放测试（不要依赖流媒体）
☐ 关闭所有无关浏览器标签和应用程序
☐ 深呼吸，心态准备好：最坏情况已有预案

演示中

☐ 开场白先降预期："AI 产品的一个特点是每次输出都不一样，我们来看看今天的运气如何。"
☐ 先展示价值，再展示技术：不要上来就讲模型架构
☐ 操作要慢：让观众看到你输入了什么、得到了什么
☐ 如果翻车：微笑 → "这正是我们在解决的挑战" → 切换到 Plan B
☐ 控制演示范围：只演示你准备好的场景，不要即兴探索
☐ 留 30% 时间做 Q&A：但 Q&A 环节不做实时 demo 演示

3.4 常见翻车案例与预防措施

案例 1：模型返回错误答案

场景：给投资人演示 AI 客服，问"我们公司去年的营收是多少"，模型说了一个错误的数字。

根因：

RAG 检索到的知识文档版本不对/太旧
模型无视检索结果，凭训练数据回答（即"检索增强"没生效）
prompt 没有约束"如果不知道请说不知道"

预防措施：

✅ prompt 里明确写："优先使用检索到的知识，如果文档中没有信息，请明确说'我的知识库中没有这个信息'"
✅ 演示前测试那些"模型容易出错"的问题，针对性加固
✅ 准备一个"全对"的演示路径和一个"模型说不知道"的演示路径（后者反而能展示诚实）
✅ fallback 回答就写在旁边的纸上："以下是准备好的回答……"

案例 2：现场网络延迟过高

场景：在客户公司会议室演示，Wi-Fi 信号差，模型返回需要 30 秒。

根因：

没有提前测试演示环境网络
没有降级方案
模型推理时间没有做超时处理

预防措施：

✅ 提前到现场测试网络，或自备 5G 热点
✅ 准备好 3-5 分钟录播视频（展示完整流畅的体验）
✅ 模型设置超时时间（建议 10 秒），超时自动展示 fallback
✅ 流式输出（streaming）先显示第一个 token 给用户"有东西在出来了"的感觉

案例 3：用户输入预期之外的 Prompt

场景：CEO 在 demo 现场突然问："让它写一首诗讽刺我们竞品。"

根因：

没有对演示输入做范围限定
模型的安全对齐被触发，拒绝回答（反而尴尬）
或者更糟 —— 模型真的写了一首讽刺诗（合规灾难）

预防措施：

✅ 演示前明确告知观众："我准备了几个场景，我们先按这些来走。"
✅ 准备好回应框架："这是个有趣的问题，不过我今天的 demo 主要聚焦 XX 场景，会后我们可以专门测试这个方向。"
✅ 如果被强迫输入，先确认输入安全："让我看看怎么处理这个……"（给自己争取切换到备用方案的时间）
✅ 最好的预防：演示界面限定输入范围（预置的示例问题，不让自定义输入）

案例 4：模型突然"失忆"或风格突变

场景：同样的问题，上周 demo 回答得很好，今天模型像换了个人。

根因：

模型版本被服务商悄悄更新了（API 模型常见问题）
system prompt 被其他人不小心改了
温度/超参设置被重制

预防措施：

✅ 锁定模型版本（不要用"最新版"，用固定版本号如 gpt-4-0613）
✅ 演示前 checklist 中加一条：检查 system prompt 和超参设置
✅ 把 system prompt 和参数配置写成可复用的配置文件
✅ 如果必须用 unpinned 版本，提前测试新版本的输出变化

案例 5：依赖的第三方服务不可用

场景：RAG 系统依赖的向量数据库挂了，AI 无法检索知识。

根因：

没有做服务依赖的降级设计
没有离线缓存

预防措施：

✅ RAG 系统设计时加上本地缓存层（向量缓存 + 知识缓存）
✅ 降级方案：缓存不可用时，模型退化为纯 LLM 模式（只靠训练知识回答）
✅ 演示前检查所有依赖服务的健康状态
✅ 准备一个"纯 LLM"模式的演示路径

3.5 录播 vs 直播：选型决策

维度	录播（Pre-recorded）	直播（Live Demo）
推荐场景	融资演示、Keynote、客户签约、高规格对外展示	内部评审、技术选型、灰度验收、团队 sync
核心优势	100% 可控，零翻车风险，可后期制作	真实可信，能展示交互细节，现场问答
核心风险	不够真实，观众怀疑是"假 AI"	翻车概率 30-50%，不可控因素多
准备时间	2-3 天（拍摄 + 剪辑 + 字幕）	1-2 天（测试 + 预案 + 排练）
最佳时长	3-5 分钟	10-15 分钟
翻车应对	不存在翻车问题	必须准备完整降级预案
观众信任	中（会被质疑真实性）	高（翻车但诚实反而加分）
技术深度展示	难（只能展示结果）	易（可以展示交互过程）

决策树：

Demo 场景是什么？
├── 对外的（投资/客户/大会演讲）
│   ├── 建议录播（3分钟精剪版）
│   └── + 会后安排直播 Q&A 环节
├── 对内的（团队/评审/老板汇报）
│   ├── 建议直播（展示真实能力）
│   ├── + 录播备份兜底
│   └── + 准备好"翻车也是个亮点"的心态
└── 混合的（部分展示用录播，互动用直播）
    └── 最佳方案：录播展示"愿景"，直播展示"现状"

录播制作 Checklist

☐ 脚本撰写：说人话，不讲术语，30 秒内展示核心价值
☐ 录制工具：Screen Studio / OBS，60fps，4K 录制（输出 1080p）
☐ 音频质量：领夹麦 + 安静环境，背景噪音 < 40dB
☐ 后期处理：关键步骤加放大镜/高亮效果，视频底部加字幕
☐ 免责声明：末尾标注"展示效果基于实际产品，可能因网络环境和模型状态有所不同"
☐ 备用格式：MP4（通用）+ 链接（在线播放），两种都准备好

直播呈现技巧

☐ 开场先展示"这是真的"：现场输入几个字，让观众看到实时输出
☐ 慢节奏操作：每次输入后等 2-3 秒再说话，让观众消化
☐ 口头标注："这是我的屏幕，我正在输入……可以看到模型在实时生成……"
☐ 互动技巧："谁想上来试试？"（选 1-2 个观众，但控制输入范围）
☐ 出现小问题直接说：语气轻松地解释"这里模型有点调皮了"
☐ 出现大问题直接切换：不要挣扎，立刻换 Plan B

🧰 AI PM 实战工具包 ​

目录 ​

1. AI 产品立项 Checklist ​

1.1 接手新 AI 产品后第一周要做的事 ​

Day 1-2：问题确认与用户验证 ​

Day 3-4：竞品与技术调研 ​

Day 5-7：成本、评估与风险 ​

1.2 立项后第二周 Checklist（快速启动） ​

1.3 持续运营节奏 ​

2. 跨团队沟通框架 ​

2.1 给 CEO / 投资人讲 AI ROI ​

核心问题 ​

价值沟通框架：三种 ROI 叙事 ​

ROI 计算模板（填空即用） ​

给 CEO 的汇报模板（5 分钟版） ​

2.2 给工程师讲 PM 视角 ​

话术 1：为什么这个 Prompt 这么重要？ ​

话术 2：为什么评估标准不能只看准确率？ ​

话术 3：怎么让工程师参与产品决策？ ​

2.3 给设计师讲 AI 产品交互约束 ​

设计师常说的困惑 ​

你的回答框架 ​

3. AI 产品 Demo 技巧 ​

3.1 AI Demo 为什么容易翻车？ ​

3.2 Demo 准备 —— 三层防线 ​

第一层防线：多套输入方案 ​

第二层防线：硬编码策略 vs 真实调用 ​

第三层防线：降级预案 ​

3.3 Demo 现场 Checklist ​

演示前 24 小时 ​

演示前 1 小时 ​

演示中 ​

3.4 常见翻车案例与预防措施 ​

案例 1：模型返回错误答案 ​

案例 2：现场网络延迟过高 ​

案例 3：用户输入预期之外的 Prompt ​

案例 4：模型突然"失忆"或风格突变 ​

案例 5：依赖的第三方服务不可用 ​

3.5 录播 vs 直播：选型决策 ​

录播制作 Checklist ​

直播呈现技巧 ​

附录：工具推荐 ​

Prompt 管理：LangSmith、W&B Prompts、Agenta ​

模型评估：Giskard、DeepEval、LangFuse ​

Demo 制作：Screen Studio、OBS Studio、Arcade ​

成本监控：Helicone、LangSmith、Arize AI ​

🧰 AI PM 实战工具包

目录

1. AI 产品立项 Checklist

1.1 接手新 AI 产品后第一周要做的事

Day 1-2：问题确认与用户验证

Day 3-4：竞品与技术调研

Day 5-7：成本、评估与风险

1.2 立项后第二周 Checklist（快速启动）

1.3 持续运营节奏

2. 跨团队沟通框架

2.1 给 CEO / 投资人讲 AI ROI

核心问题

价值沟通框架：三种 ROI 叙事

ROI 计算模板（填空即用）

给 CEO 的汇报模板（5 分钟版）

2.2 给工程师讲 PM 视角

话术 1：为什么这个 Prompt 这么重要？

话术 2：为什么评估标准不能只看准确率？

话术 3：怎么让工程师参与产品决策？

2.3 给设计师讲 AI 产品交互约束

设计师常说的困惑

你的回答框架

3. AI 产品 Demo 技巧

3.1 AI Demo 为什么容易翻车？

3.2 Demo 准备 —— 三层防线

第一层防线：多套输入方案

第二层防线：硬编码策略 vs 真实调用

第三层防线：降级预案

3.3 Demo 现场 Checklist

演示前 24 小时

演示前 1 小时

演示中

3.4 常见翻车案例与预防措施

案例 1：模型返回错误答案

案例 2：现场网络延迟过高

案例 3：用户输入预期之外的 Prompt

案例 4：模型突然"失忆"或风格突变

案例 5：依赖的第三方服务不可用

3.5 录播 vs 直播：选型决策

录播制作 Checklist

直播呈现技巧

附录：工具推荐

Prompt 管理：LangSmith、W&B Prompts、Agenta

模型评估：Giskard、DeepEval、LangFuse

Demo 制作：Screen Studio、OBS Studio、Arcade

成本监控：Helicone、LangSmith、Arize AI