Skip to content

🧰 AI PM 实战工具包

面向 AI 产品经理的日常作战工具箱 —— 立项检查、跨团队沟通、Demo 防翻车,拿来即用。


目录

  1. AI 产品立项 Checklist
  2. 跨团队沟通框架
  3. AI 产品 Demo 技巧

1. AI 产品立项 Checklist

1.1 接手新 AI 产品后第一周要做的事

下列清单按优先级排列。第一周完成 ☐ 项,第二周完成 ◻ 项,存档备查 ○ 项。

Day 1-2:问题确认与用户验证

  • 确认这是真 AI 问题还是假 AI 问题
    • 这个问题不用 AI 能解决吗?如果能,成本更低吗?
    • 用户真正需要的是「更准的答案」还是「有答案就行」?
    • 伪需求信号:用户说"希望更智能",但追问后说不出具体场景
  • 现有方案为什么不够好
    • 用户现在用手工/规则/外包怎么做的?痛在哪里?
    • 是效率问题、质量问题、还是根本做不到?
  • 一句话价值主张
    • 写完这句发给至少 5 个真实用户验证:"我们这个功能可以帮你 ____,让你 ____"
    • 如果 3 个人以上说"看不懂"或"不需要",回炉重造
  • 成功指标定义(立项即定义)
    • 核心指标 1 个(不要超过 3 个):任务完成率 / 时间节省 / 收入提升
    • 当前 baseline 值是多少?没有 baseline 的指标等于没指标

Day 3-4:竞品与技术调研

  • 竞品 AI 能力矩阵
    • 列出 Top 3 竞品 + 2 个跨行业参考
    • 竞品用 AI 做了什么?效果如何?(截图 + 数据)
    • 我们差异化的点在哪里?数据优势?场景理解?成本结构?
  • 技术方案选型
    • 自研 vs 调用 API vs 开源微调?依据是什么?
    • 模型选型:参数规模、推理速度、上下文长度、成本
    • 是否需要 RAG?知识库来源是什么?更新频率?
  • 数据可行性评估
    • 训练/微调数据从哪里来?质量如何?标注成本?
    • 用户数据隐私合规:数据出境?用户授权?脱敏方案?
    • 冷启动策略:没有用户数据时怎么让模型先跑起来?

Day 5-7:成本、评估与风险

  • 成本估算 —— 必须算三笔账
    • 推理成本:每次请求的 token 消耗 × 预估调用量。GPT-4 级别模型约 $0.03-0.12/次请求,小模型 $0.001-0.01
    • 标注成本:评估集标注、bad case 回收标注、微调数据标注。按条计费 vs 按小时
    • 基建成本:GPU 实例/API 订阅/向量数据库/CDN/带宽。最低 MVP 每月至少 $500-2000
    • 成本模型要随着规模变化重新算:1000 DAU 和 100 万 DAU,成本结构完全不同
  • 评估准备 —— 没有评估就是盲人摸象
    • 评估集:至少 200-500 条覆盖核心场景的测试用例,含 edge case (不少于 20%)
    • Baseline:没有 AI 时的效果(规则/人工/旧模型),作为对比基准
    • 评估维度:准确率 ✓、拒绝率(该拒绝时拒绝了吗)、幻觉率、用户满意度
    • 自动评估 vs 人工评估:自动评估跑量,人工评估跑质,两者不可偏废
  • 团队能力评估
    • 团队之前做过 AI 产品吗?踩过哪些坑?
    • ML Engineer:有部署和推理优化经验吗?还是只会调 API?
    • 谁负责 prompt 工程?谁负责评估?谁负责 bad case 分析?
    • 没有专职 AI 评估角色的团队,AI 产品质量一定崩塌
  • 风险管理 —— 列出 Top 5 风险
    • 技术风险 1:模型幻觉导致用户体验灾难(概率:高 / 影响:灾难级)
    • 技术风险 2:推理延迟超预期,用户流失(概率:中 / 影响:高)
    • 产品风险 1:用户对 AI 能力过度期望(概率:高 / 影响:中)
    • 产品风险 2:PMF 不成立,用户不需要(概率:中 / 影响:致命)
    • 组织风险:AI 评审周期过长,错过窗口(概率:中 / 影响:中)
    • 每个风险要有缓解措施触发告警的阈值
  • 合规检查清单
    • 内容安全:AI 输出的有害/偏见/违法内容如何拦截?
    • 数据隐私:用户数据是否用于模型训练?是否获得授权?
    • 版权风险:模型输出是否可能侵犯第三方版权?
    • 监管合规:是否涉及深度合成/生成式 AI 备案?
    • 未成年人保护:是否有年龄分级和内容过滤?
  • 退出标准 —— 什么情况下应该放弃
    • 模型效果持续 N 周达不到 baseline(建议:连续 4 周)
    • 推理成本超过用户生命周期价值的 3 倍
    • 用户留存率低于传统方案
    • 合规审查不通过且无可行替代方案
    • 写进 PRD 的"Not Doing"清单中,明确放弃条件
    • 每两周复盘一次退出条件,不要等到投入半年才决定放弃

1.2 立项后第二周 Checklist(快速启动)

  • MVP 范围锁定:最小可行 AI 功能是什么?砍掉 50% 的 feature
  • Prompt 基线版本:写第一版 system prompt,团队内 blind review
  • 用户体验流程图:AI 输出的不确定性如何在前端处理?(loading / fallback / 纠错入口)
  • 灰度计划:5% 用户 → 20% → 50% → 全量,每个阶段的评估标准
  • 监控面板搭建:延迟 P50/P95/P99、调用成功率、用户满意度打分
  • Bad Case 回收机制:用户如何反馈问题?反馈是否进入迭代闭环?

1.3 持续运营节奏

  • 每周:Bad Case 评审 ≥30 条,标记根因(幻觉/理解偏差/数据缺失/prompt 缺陷)
  • 双周:模型效果报告(准确率/幻觉率/满意度趋势)
  • 每月:推理成本复盘(是否需做蒸馏/量化)
  • 每季:竞品 AI 功能扫描
  • 每次发版:评估集全量回归 + 新增 edge case

2. 跨团队沟通框架

2.1 给 CEO / 投资人讲 AI ROI

CEO 不关心你用的是什么模型,只关心这玩意儿到底值不值。

核心问题

CEO/投资人最常问的三个问题:

  1. "AI 到底给我们带来了什么价值?"
  2. "这个 ROI 怎么算?"
  3. "凭什么我们要比别人多花钱做 AI?"

价值沟通框架:三种 ROI 叙事

① 用户价值型(适合 toC 产品 / 增长阶段)

  • 叙事角度:AI 提升了哪些用户体验指标
  • 关键指标:任务完成率 ↑、完成时间 ↓、用户满意度 ↑、NPS ↑
  • 话术模板
    • "这不是一个 AI 功能,这是一个让用户效率提升 X 倍的解决方案。"
    • "用户之前完成这个任务平均需要 Y 分钟,现在只需要 Z 秒,转化率提升了 W%。"
    • "我们不是在做 chatbot,我们是在做7×24 小时的专家助手。"

② 成本价值型(适合 toB 产品 / 降本增效)

  • 叙事角度:AI 替代/辅助了哪些人工环节
  • 关键指标:客服成本 ↓、人工处理时长 ↓、人效比 ↑、自动化率 ↑
  • 话术模板
    • "当前每次人工客服成本 $Y,AI 首次解决成本 $X,差 Z 倍。"
    • "AI 自动化率从 0% 提升到 N%,相当于省了 M 个全职人力。"
    • "这不是裁员工具,这是让团队做更高价值工作的杠杆。"

③ 收入价值型(适合商业化阶段)

  • 叙事角度:AI 功能带来了多少付费转化和收入
  • 关键指标:AI 功能付费率 ↑、ARPU ↑、付费转化率 ↑、留存 ↑
  • 话术模板
    • "AI 功能上线后,付费转化率从 A% 提升到 B%,新增 MRR $C。"
    • "用户因为 AI 功能留下的比例比非 AI 用户高 D%,12 个月 LTV 高 E 倍。"
    • "当前成本 $F/用户,但给用户节约了 $G/用户的时间价值。"

ROI 计算模板(填空即用)

AI 功能 ROI = (节省成本 + 新增收入) / (AI 成本 + 工程成本)

节省成本 = 人工处理量 × 人工单价 × AI 替代率
新增收入 = AI 功能付费用户数 × 客单价 + 留存提升带来的增量收入
AI 成本  = 推理成本 + 标注成本 + 基础设施 + API 订阅
工程成本 = AI 团队人力成本分摊 + 迭代周期分摊

避坑提示:不要只报正面数据。主动暴露风险:"如果模型效果达不到预期,ROI 可能减半,我们的止损线是 XXX。"

给 CEO 的汇报模板(5 分钟版)

1. 一句话:我们做的 AI 功能解决了什么问题,给用户/公司带来什么价值
2. 数据说话:上线以来核心指标变化(Before vs After)
3. ROI 计算:投入多少钱,省了/赚了多少钱,什么时候回本
4. 风险提示:最大的不确定性是什么,我们怎么应对
5. 下一步:接下来做什么,需要 CEO 做什么决策

2.2 给工程师讲 PM 视角

话术 1:为什么这个 Prompt 这么重要?

工程师常说的话:"不就是改几个字吗?效果能有多大差别?"

你的回答框架:

  • 第一层(技术理解):"Prompt 不是'改几个字',是模型的指令集。好的 prompt 能降低幻觉率 30-50%,这比换一个更大参数量模型性价比高得多。"
  • 第二层(产品视角):"你知道吗?用户对这个功能的满意度,70% 取决于 prompt 质量,只有 30% 取决于模型选型。因为 prompt 决定了用户看到的第一句话、第一个回答、第一次信任。"
  • 第三层(共同目标):"我们一起设计一个 prompt 版本管理系统,每次改动都跑完整评估集。你来做 prompt 工程化的架构,我来定义评估标准和用户反馈。"
  • 实操建议:"prompt 的每个变更都要有版本号、变更理由、评估结果。像管理代码一样管理 prompt。工具推荐:LangSmith、Weights & Biases Prompts。"

话术 2:为什么评估标准不能只看准确率?

工程师常说的话:"准确率 98%,够了吧?"

你的回答框架:

  • 第一层(产品视角):"准确率 98% 的意思是,每 100 个用户里有 2 个得到错误答案。对搜索引擎来说这 OK,但对金融/医疗/法律场景,2% 的错误率意味着灾难。"
  • 第二层(用户视角):"用户记住的不是 98 次正确,而是那 2 次错误。错误答案带来的信任损失是指数级的。"
  • 第三层(系统视角):"我们需要的是一套多维评估体系:
    • 精确率:给出的答案中正确的比例 → 错了就是信任崩塌
    • 召回率:该覆盖的问题都覆盖了吗 → 漏了就是体验缺失
    • 拒绝率:不知道的时候能说不知道吗 → 硬答就是致命幻觉
    • 延迟 P95:95% 的请求在多长时间内返回 → 慢了就是流失
    • 用户纠错率:用户需要手动修改 AI 输出的比例 → 高了就是鸡肋"
  • 落地建议:"我们建一个评估看板,把这些指标都可视化。每周过一遍 bad case,把准确率拆解成用户可感知的体验指标。"

话术 3:怎么让工程师参与产品决策?

  • "你来决定用什么模型、怎么部署,但做什么、做到什么标准我们一起定。"
  • "我希望你能看到用户反馈——我给你开权限看客服记录和用户评价。"
  • "每次 bad case 评审,我不只看数据,我叫上你一起看用户说了什么。"
  • "评估集里我给你留 20% 的'探索用例',你可以自己加你觉得重要的场景。"

2.3 给设计师讲 AI 产品交互约束

设计师常说的困惑

  • "为什么 AI 的输出不能像普通数据一样精准?"
  • "为什么 loading 状态这么复杂?"
  • "为什么不能给用户一个'确定'按钮?"

你的回答框架

第一课:AI 是不确定的,交互要为不确定性设计

  • 普通产品:输入 A → 输出 B(确定的、可预期的)
  • AI 产品:输入 A → 输出可能是 B/C/D/E(概率性的、不可完全预期的)
  • 对设计的影响
    • 不要假设 AI 输出是"正确的"——用户需要有验证和纠错的入口
    • 不要假设 AI 输出是"一致的"——同一问题不同时间可能不同答案
    • 不要做"一次输出定终身"的设计——要有编辑、重新生成、反馈机制

第二课:状态设计比普通产品多一倍

状态普通产品AI 产品
初始态空白页面引导示例 + 能力边界提示
加载态spinner流式输出 + 进度暗示 + 取消按钮
成功态显示数据显示 AI 输出 + 置信度标识 + 纠错入口
空态"暂无数据""我还不会回答这个问题,试试问别的"
错误态错误提示降级方案(简化回答/转人工/重试)
极限态分页展示长回答折叠 + 关键信息高亮

第三课:交互模式的三个层次

  • 第一层(AI 主导):用户说,AI 做。交互最简单,但用户控制感最弱。
    • 适用:信息查询、内容总结、翻译
    • 设计要点:输入框 + 结果显示 + "不满意?重新生成"按钮
  • 第二层(人机协作):AI 建议,用户决定。交互最复杂,但效果最好。
    • 适用:文案创作、代码生成、数据分析
    • 设计要点:AI 产出 → 用户编辑 → AI 辅助修改 → 用户确认
  • 第三层(AI 辅助):用户主导,AI 在旁边提供建议。
    • 适用:写作辅助、设计辅助、决策支持
    • 设计要点:保持用户主控权,AI 建议不打断用户流程

第四课:给设计师的检查清单

  • ☐ 用户知道 AI 的能力边界吗?(不要等用户问了才知道 AI 不会)
  • ☐ 用户能理解 AI 的回答为什么不完美吗?(置信度/来源提示)
  • ☐ AI 出错时,用户知道怎么纠正吗?(反馈入口放哪里)
  • ☐ 用户能控制 AI 的"温度"吗?(创意度调节、详细程度调节)
  • ☐ 加载状态有"可取消"选项吗?(生成到一半不满意可以直接停)
  • ☐ 历史对话中,用户能找到之前 AI 给的答案吗?(会话存储和搜索)

3. AI 产品 Demo 技巧

3.1 AI Demo 为什么容易翻车?

五大翻车原因:

原因概率典型场景
模型输出不稳定⭐⭐⭐⭐⭐昨天演示正常的 prompt,今天输出完全不一样
幻觉不可控⭐⭐⭐⭐模型自信满满地说出一个错误事实
演示环境 vs 真实环境差异⭐⭐⭐⭐本地跑得好好的,现场网络慢/延迟高
用户输入不可控⭐⭐⭐投资人问了预期之外的刁钻问题
依赖服务不稳定⭐⭐⭐第三方 API 限流/宕机/版本变更

3.2 Demo 准备 —— 三层防线

第一层防线:多套输入方案

  • Plan A:你最完美的演示场景,模型 90%+ 概率稳定输出
    • 输入经过精心设计,覆盖核心价值主张
    • 提前跑 50 次以上,确认输出质量稳定
  • Plan B:备选场景,与 Plan A 不同但同样能展示核心价值
    • 当 Plan A 翻车时的第一替代方案
    • 同样提前跑 50 次以上验证
  • Plan C:最安全、最简单的场景(哪怕展示价值不够惊艳)
    • 最后的兜底方案,模型输出确定性最高
    • 可以是"能跑就行"的级别

铁律:每个 demo 至少准备 3 套输入方案,且每套都在演示环境中跑过至少 50 次。

第二层防线:硬编码策略 vs 真实调用

硬编码策略(适合高规格演示 / 投资人场)

  • 提前把理想的模型输出录好 / 写好
  • 现场演示时走"模拟模式",展示的是一致的最佳效果
  • 适用场景:融资演示、重要客户签约、CEO 对外的 Keynote
  • 注意事项:必须标注"模拟效果",不要误导观众以为模型已经完美
  • 伦理边界:可以展示"未来能力"但必须诚实说明当前阶段

真实调用策略(适合内部评审 / 灰度验收)

  • 现场真实调用模型,展示真实效果
  • 适用场景:团队内部评审、技术选型对比、A/B 测试结果展示
  • 注意事项:做好翻车预案,坦然面对不完美
  • 最佳实践:"我们来看看真实的效果 —— 好的一面和不好的一面都看"

混合策略(推荐)

  • 核心价值场景走硬编码(展示愿景)
  • 互动环节走真实调用(展示诚实)
  • 话术:"这是我们的目标效果(硬编码),这是当前的真实水平(真实调用),差距就是我们下一步要解决的问题。"

第三层防线:降级预案

模型崩了/变慢 → 降级方案执行清单(5 秒内切换):

□ 第一步:切换到预先录制的 Demo 视频(提前准备好 3-5 分钟)
□ 第二步:口头描述"正常情况下这里会看到……"
□ 第三步:切换到备用模型(如 GPT-4 → GPT-3.5 / 本地小模型)
□ 第四步:如果所有方案都失败 —— "这正是我们正在解决的问题,它展示了 AI 产品的不确定性,这也是为什么我们需要更多的资源和时间来打磨。"

心态提示:翻车不是世界末日。真诚地面对问题,解释"这是我们正在解决的挑战",反而能给观众留下诚实和专业的印象。

3.3 Demo 现场 Checklist

演示前 24 小时

  • 环境检查
    • ☐ 演示网络已测试(带宽 > 10Mbps,延迟 < 50ms)
    • ☐ 所有 API Key 有效,没有过期
    • ☐ 模型 endpoint 可用(不是"维护中")
    • ☐ 备用网络(手机热点/独立 5G 路由)
  • 内容验证
    • ☐ Plan A/B/C 各跑了 50 次,记录输出稳定性
    • ☐ 所有计划中的 demo 输入已保存为文本(不要现场打字)
    • ☐ 录播视频已准备好(画质 1080p,声音清晰,含字幕)
    • ☐ fallback 回答已写好,存为本地文件
  • 设备检查
    • ☐ 电脑电量 100%,充电器随身
    • ☐ 投影/投屏测试通过,字体大小可读
    • ☐ 演示用浏览器清除了缓存和插件干扰
    • ☐ 关掉所有通知(Slack/邮件/日历弹窗)

演示前 1 小时

  • ☐ 现场网络再次测试
  • ☐ 再次跑一遍 Plan A 确认稳定
  • ☐ 录播视频本地播放测试(不要依赖流媒体)
  • ☐ 关闭所有无关浏览器标签和应用程序
  • ☐ 深呼吸,心态准备好:最坏情况已有预案

演示中

  • 开场白先降预期:"AI 产品的一个特点是每次输出都不一样,我们来看看今天的运气如何。"
  • 先展示价值,再展示技术:不要上来就讲模型架构
  • 操作要慢:让观众看到你输入了什么、得到了什么
  • 如果翻车:微笑 → "这正是我们在解决的挑战" → 切换到 Plan B
  • 控制演示范围:只演示你准备好的场景,不要即兴探索
  • 留 30% 时间做 Q&A:但 Q&A 环节不做实时 demo 演示

3.4 常见翻车案例与预防措施

案例 1:模型返回错误答案

场景:给投资人演示 AI 客服,问"我们公司去年的营收是多少",模型说了一个错误的数字。

根因

  • RAG 检索到的知识文档版本不对/太旧
  • 模型无视检索结果,凭训练数据回答(即"检索增强"没生效)
  • prompt 没有约束"如果不知道请说不知道"

预防措施

  • ✅ prompt 里明确写:"优先使用检索到的知识,如果文档中没有信息,请明确说'我的知识库中没有这个信息'"
  • ✅ 演示前测试那些"模型容易出错"的问题,针对性加固
  • ✅ 准备一个"全对"的演示路径和一个"模型说不知道"的演示路径(后者反而能展示诚实)
  • ✅ fallback 回答就写在旁边的纸上:"以下是准备好的回答……"

案例 2:现场网络延迟过高

场景:在客户公司会议室演示,Wi-Fi 信号差,模型返回需要 30 秒。

根因

  • 没有提前测试演示环境网络
  • 没有降级方案
  • 模型推理时间没有做超时处理

预防措施

  • ✅ 提前到现场测试网络,或自备 5G 热点
  • ✅ 准备好 3-5 分钟录播视频(展示完整流畅的体验)
  • ✅ 模型设置超时时间(建议 10 秒),超时自动展示 fallback
  • ✅ 流式输出(streaming)先显示第一个 token 给用户"有东西在出来了"的感觉

案例 3:用户输入预期之外的 Prompt

场景:CEO 在 demo 现场突然问:"让它写一首诗讽刺我们竞品。"

根因

  • 没有对演示输入做范围限定
  • 模型的安全对齐被触发,拒绝回答(反而尴尬)
  • 或者更糟 —— 模型真的写了一首讽刺诗(合规灾难)

预防措施

  • ✅ 演示前明确告知观众:"我准备了几个场景,我们先按这些来走。"
  • ✅ 准备好回应框架:"这是个有趣的问题,不过我今天的 demo 主要聚焦 XX 场景,会后我们可以专门测试这个方向。"
  • ✅ 如果被强迫输入,先确认输入安全:"让我看看怎么处理这个……"(给自己争取切换到备用方案的时间)
  • ✅ 最好的预防:演示界面限定输入范围(预置的示例问题,不让自定义输入)

案例 4:模型突然"失忆"或风格突变

场景:同样的问题,上周 demo 回答得很好,今天模型像换了个人。

根因

  • 模型版本被服务商悄悄更新了(API 模型常见问题)
  • system prompt 被其他人不小心改了
  • 温度/超参设置被重制

预防措施

  • ✅ 锁定模型版本(不要用"最新版",用固定版本号如 gpt-4-0613)
  • ✅ 演示前 checklist 中加一条:检查 system prompt 和超参设置
  • ✅ 把 system prompt 和参数配置写成可复用的配置文件
  • ✅ 如果必须用 unpinned 版本,提前测试新版本的输出变化

案例 5:依赖的第三方服务不可用

场景:RAG 系统依赖的向量数据库挂了,AI 无法检索知识。

根因

  • 没有做服务依赖的降级设计
  • 没有离线缓存

预防措施

  • ✅ RAG 系统设计时加上本地缓存层(向量缓存 + 知识缓存)
  • ✅ 降级方案:缓存不可用时,模型退化为纯 LLM 模式(只靠训练知识回答)
  • ✅ 演示前检查所有依赖服务的健康状态
  • ✅ 准备一个"纯 LLM"模式的演示路径

3.5 录播 vs 直播:选型决策

维度录播(Pre-recorded)直播(Live Demo)
推荐场景融资演示、Keynote、客户签约、高规格对外展示内部评审、技术选型、灰度验收、团队 sync
核心优势100% 可控,零翻车风险,可后期制作真实可信,能展示交互细节,现场问答
核心风险不够真实,观众怀疑是"假 AI"翻车概率 30-50%,不可控因素多
准备时间2-3 天(拍摄 + 剪辑 + 字幕)1-2 天(测试 + 预案 + 排练)
最佳时长3-5 分钟10-15 分钟
翻车应对不存在翻车问题必须准备完整降级预案
观众信任中(会被质疑真实性)高(翻车但诚实反而加分)
技术深度展示难(只能展示结果)易(可以展示交互过程)

决策树:

Demo 场景是什么?
├── 对外的(投资/客户/大会演讲)
│   ├── 建议录播(3分钟精剪版)
│   └── + 会后安排直播 Q&A 环节
├── 对内的(团队/评审/老板汇报)
│   ├── 建议直播(展示真实能力)
│   ├── + 录播备份兜底
│   └── + 准备好"翻车也是个亮点"的心态
└── 混合的(部分展示用录播,互动用直播)
    └── 最佳方案:录播展示"愿景",直播展示"现状"

录播制作 Checklist

  • ☐ 脚本撰写:说人话,不讲术语,30 秒内展示核心价值
  • ☐ 录制工具:Screen Studio / OBS,60fps,4K 录制(输出 1080p)
  • ☐ 音频质量:领夹麦 + 安静环境,背景噪音 < 40dB
  • ☐ 后期处理:关键步骤加放大镜/高亮效果,视频底部加字幕
  • ☐ 免责声明:末尾标注"展示效果基于实际产品,可能因网络环境和模型状态有所不同"
  • ☐ 备用格式:MP4(通用)+ 链接(在线播放),两种都准备好

直播呈现技巧

  • ☐ 开场先展示"这是真的":现场输入几个字,让观众看到实时输出
  • ☐ 慢节奏操作:每次输入后等 2-3 秒再说话,让观众消化
  • ☐ 口头标注:"这是我的屏幕,我正在输入……可以看到模型在实时生成……"
  • ☐ 互动技巧:"谁想上来试试?"(选 1-2 个观众,但控制输入范围)
  • ☐ 出现小问题直接说:语气轻松地解释"这里模型有点调皮了"
  • ☐ 出现大问题直接切换:不要挣扎,立刻换 Plan B

附录:工具推荐

Prompt 管理:LangSmith、W&B Prompts、Agenta

模型评估:Giskard、DeepEval、LangFuse

Demo 制作:Screen Studio、OBS Studio、Arcade

成本监控:Helicone、LangSmith、Arize AI


版本:v1.0 | 更新于 2026.05

MIT License