Token 经济学
AI 产品经理的成本控制指南:从推理成本拆解、模型路由、缓存策略,到 Agent 运行成本和账单保护。本文按 2026-05 的 AI 产品形态更新,尽量避免写死容易过期的模型名和价格。
目录
1. 推理成本结构拆解
1.1 一次 AI 调用的完整成本
很多产品经理会把推理成本简化为“模型 API 价格 × 调用次数”。这在早期聊天产品里勉强可用,但在 2026 年的 AI 产品里已经不够。一次完整 AI 调用通常包含:
单次总成本 = 输入 token 成本
+ 缓存输入 token 成本
+ 输出 token 成本
+ 系统提示词成本
+ 检索 / RAG 成本
+ 工具调用成本
+ Agent 多步执行成本
+ 重试与失败成本
+ 日志、审计与存储成本其中最容易被低估的是:上下文、工具调用、失败重试、Agent 步骤数。
| 成本项 | 说明 | 常见优化手段 |
|---|---|---|
| 输入 token | 用户输入、系统提示词、历史对话、检索片段 | 压缩 prompt、滑动窗口、摘要记忆 |
| 缓存输入 | 重复系统提示词、重复文档上下文 | Prompt caching、上下文复用 |
| 输出 token | 模型生成内容 | 限制输出长度、结构化输出、流式截断 |
| RAG 检索 | 向量检索、关键词检索、rerank | 混合检索、Top-K 控制、缓存 |
| 工具调用 | API、数据库、浏览器、代码执行 | 工具白名单、参数校验、超时限制 |
| Agent 步骤 | plan、act、observe、retry 的多轮循环 | step budget、任务分级、人工审批 |
| 失败重试 | 超时、格式错误、工具错误后的重跑 | 自动修复上限、幂等设计、降级策略 |
| 审计存储 | trace、日志、对话、工具结果 | 分级留存、采样、冷热存储 |
1.2 输入成本:被低估的主要成本项
输入成本不只是用户写的那句话。真实产品中,输入通常包括:
输入 = system prompt
+ developer / product instructions
+ 用户当前问题
+ 历史对话
+ RAG 检索结果
+ 工具定义 schema
+ 组织策略 / 权限上下文典型客服 AI 会话示例:
System Prompt: 800 tokens
工具 schema: 1,200 tokens
历史对话: 10 轮 × 300 tokens = 3,000 tokens
RAG 结果: 3 个片段 × 500 tokens = 1,500 tokens
当前输入: 100 tokens
总输入: 6,600 tokens用户以为只问了 100 tokens,但系统实际发送了 6,600 tokens。因此,PM 在设计 AI 功能时要重点关注“隐性上下文成本”。
1.3 输出成本:回答越长不一定价值越高
输出 token 通常比输入 token 更贵,而且长回答经常不等于高价值。
| 陷阱 | 描述 | 解决方法 |
|---|---|---|
| 回答过长 | 模型倾向生成完整解释 | 按场景设置输出上限 |
| 格式冗余 | JSON、Markdown、表格会增加 token | 只在必要时结构化 |
| 反复重写 | 用户不满意后整段重写 | 支持局部编辑 / diff 输出 |
| 隐式推理 | 复杂任务消耗更多 reasoning budget | 按任务等级选择 reasoning 模式 |
| 安全重生成 | 输出被过滤后重跑 | 前置风险分类,减少无效生成 |
产品原则:
- 客服场景:短、准、可执行;
- 教育场景:分步骤、可解释;
- 法务 / 金融 / 医疗:保守、引用来源、加免责声明;
- 代码场景:优先 diff、测试、注释,不要整文件重写;
- Agent 场景:输出用户需要的结论,不展示所有中间噪音。
1.4 工具调用成本
Agent 产品的成本经常不是模型本身,而是工具调用造成的连锁成本。
| 调用类型 | 成本构成 | 风险 |
|---|---|---|
| 数据库查询 | 查询资源 + 返回结果 token | 返回过大导致上下文膨胀 |
| 搜索 / 浏览 | 搜索 API + 网页抓取 + 摘要 | 来源不稳定、延迟高 |
| 代码执行 | 沙箱资源 + 日志 + 安全扫描 | 超时、无限循环、供应链风险 |
| 外部 SaaS API | 第三方 API 费用 | 失败重试放大成本 |
| 文件处理 | OCR、解析、embedding、存储 | 大文件成本不可控 |
Agent 成本警示:普通聊天可能只调用一次模型;Agent 任务可能包含 5-20 次模型调用、多个工具调用和若干失败重试。PM 必须为每类任务定义成本上限。
1.5 缓存成本与缓存收益
现代模型服务通常支持不同形式的缓存或批处理折扣。产品侧也可以自建缓存。
| 缓存类型 | 适用场景 | 注意事项 |
|---|---|---|
| System Prompt 缓存 | 固定产品指令 | prompt 频繁变更会降低命中率 |
| 文档上下文缓存 | RAG / 文档问答 | 需要处理权限和文档更新 |
| 查询结果缓存 | FAQ、政策问答、公开知识 | 需要过期策略 |
| 工具结果缓存 | 价格、库存、配置、权限 | 实时性要求高时谨慎 |
| Embedding 缓存 | 重复文档处理 | 需要版本号和模型变更策略 |
缓存命中率比单价更重要:
月成本 = 原始请求量 × 单次成本 × (1 - 缓存命中率 × 节省比例)例如缓存命中率 40%,命中后节省 70%,则整体成本可降低:
40% × 70% = 28%2. 产品设计层面的成本优化策略
2.1 模型分级:智能路由
不要让所有请求都走最强模型。更合理的方式是把模型分为能力层级:
| 层级 | 适用任务 | 成本特征 |
|---|---|---|
| 本地 / 规则 / 模板 | 固定流程、FAQ、格式转换 | 接近零推理成本 |
| Mini 模型 | 分类、摘要、简单问答、轻量路由 | 低成本、高吞吐 |
| 标准模型 | 普通知识工作、客服、文档问答 | 成本和质量平衡 |
| 高级推理模型 | 复杂规划、代码修复、深度分析 | 高成本,需限额 |
| 多模态 / 专用模型 | 图像、音频、视频、OCR | 任务型成本明显 |
| 私有 / 本地部署模型 | 高隐私、低延迟、成本可控场景 | 运维成本高 |
路由策略示例:
用户请求 → 意图识别 → 风险分类 → 成本预算判断 → 模型选择
│
├─ 简单任务:规则 / mini 模型
├─ 标准任务:标准模型
├─ 高价值任务:高级推理模型
└─ 高风险任务:强模型 + 审核 + 工具限制2.2 混合架构:AI + 传统逻辑
不要让 AI 做传统逻辑能稳定完成的事情。
| 场景 | 不推荐 | 推荐 |
|---|---|---|
| 订单查询 | 让模型猜订单状态 | API 查询 + 模型解释 |
| FAQ | 每次完整生成答案 | 检索 / 模板 + 少量改写 |
| 权限判断 | 让模型决定用户能否访问 | 权限系统硬判断 |
| 金额计算 | 让模型做数学 | 程序计算 + 模型说明 |
| 表单校验 | 让模型判断格式 | 正则 / schema 校验 |
| 高风险操作 | 模型直接执行 | 策略引擎 + 人工审批 |
2.3 上下文窗口管理
上下文越长,成本越高,错误也可能更多。常见策略:
| 策略 | 成本节省 | 质量影响 | 适用场景 |
|---|---|---|---|
| 固定窗口 | 高 | 可能丢历史 | 短会话 |
| 滑动窗口 | 中高 | 较低 | 聊天、客服 |
| 摘要压缩 | 高 | 有信息损失 | 长会话 |
| 分层记忆 | 中高 | 好 | Agent / 个人助手 |
| 检索式记忆 | 中 | 依赖检索质量 | 知识库、代码库 |
| 权限感知上下文 | 中 | 提高安全性 | 企业场景 |
推荐默认策略:
最近上下文精确保留 + 早期上下文摘要 + 长期记忆检索 + 权限过滤2.4 RAG 成本优化
RAG 不一定省钱。一个粗暴的 RAG 系统可能每次塞入大量无关片段,反而增加成本。
| 优化点 | 做法 |
|---|---|
| Chunk 质量 | 按语义边界切分,保留标题、来源、时间 |
| Top-K 控制 | 不固定塞满上下文,按置信度动态选择 |
| Rerank | 先粗检索,再重排序,减少无关片段 |
| 权限过滤 | 检索前过滤无权文档,避免泄露和浪费 |
| 引用压缩 | 只传关键句,不传整段原文 |
| 热点缓存 | 高频问题缓存答案和引用 |
2.5 输出长度与格式控制
| 场景 | 推荐输出策略 |
|---|---|
| 客服 | 3-5 句 + 明确下一步 |
| 总结 | TL;DR + 要点 + 可展开详情 |
| 代码 | diff / patch 优先,避免整文件重写 |
| 数据分析 | 结论先行,表格按需展示 |
| 合规回答 | 保守措辞 + 来源 + 免责声明 |
| Agent 任务 | 展示结果、关键动作和待确认事项 |
3. 限速、熔断与账单保护
3.1 限速维度
| 维度 | 说明 |
|---|---|
| 用户级 | 每用户每分钟 / 每日 / 每月限制 |
| 组织级 | 团队或企业的总额度池 |
| 功能级 | 高成本功能单独限额 |
| 模型级 | 高级模型请求限制 |
| 工具级 | 搜索、代码执行、外部 API 单独限额 |
| Agent 级 | 每次 run 的最大 step、最大时长、最大成本 |
3.2 熔断策略
| 触发条件 | 动作 |
|---|---|
| 单用户请求异常暴增 | 临时限流 + 验证码 / 风险检查 |
| 组织预算接近上限 | 告警 + 降级到低成本模型 |
| 模型供应商异常 | 切换备选模型 |
| 工具错误率升高 | 暂停该工具,改为人工或只读模式 |
| Agent 重试过多 | 停止执行,要求人工确认 |
| 月成本超预算 | 全局降级、关闭非关键高成本功能 |
3.3 账单保护设计
AI 产品必须避免“账单惊吓”。
预算设置 → 使用提醒 → 接近上限 → 自动降级 / 暂停 → 手动确认超额建议提供:
- 月度预算上限;
- 50% / 80% / 100% 使用量提醒;
- 超额后自动暂停或降级;
- 按用户、项目、模型、工具拆账;
- 企业管理员可导出成本明细;
- Agent run 级别的成本预估和执行上限。
4. 成本透明度设计
4.1 面向不同用户展示不同粒度
| 用户类型 | 推荐展示 |
|---|---|
| C 端用户 | 消息额度、图片额度、高级功能额度 |
| 专业用户 | credits、premium requests、上下文长度 |
| 开发者 | token、模型单价、API 调用明细 |
| 企业管理员 | 成本中心、项目账单、用户排行、异常告警 |
| 财务 / 采购 | 月度汇总、合同用量、超额费用、ROI 报告 |
4.2 不建议直接暴露 token 给所有人
Token 对开发者有意义,但对多数用户没有意义。更好的抽象是:
| 产品类型 | 用户可理解单位 |
|---|---|
| 聊天助手 | 消息、高级模型额度 |
| 图像生成 | 张数、GPU 时间、fast hours |
| 编程助手 | premium requests、agent runs |
| 知识库 | 文档数、检索次数、成员数 |
| Agent 平台 | runs、steps、credits、工具调用 |
| API 平台 | token、请求数、批处理任务 |
5. 模型选型对定价的影响
5.1 不要只选“最强模型”
模型选型要同时看:
| 维度 | 问题 |
|---|---|
| 质量 | 是否满足目标任务? |
| 成本 | 平均每次任务成本多少? |
| 延迟 | P50 / P95 / P99 是否可接受? |
| 上下文 | 是否需要长文档 / 代码库 / 多文件? |
| 工具调用 | 工具选择和参数生成是否稳定? |
| 多模态 | 是否需要图像、语音、视频? |
| 合规 | 数据是否可出境?是否用于训练? |
| 可替换性 | 是否能接入备选模型? |
5.2 模型组合策略
| 产品阶段 | 推荐策略 |
|---|---|
| Prototype | 用强模型验证天花板 |
| MVP | 强模型 + mini 模型路由,验证单位经济学 |
| 增长期 | 多供应商、多模型路由,建立成本监控 |
| 企业化 | 加入私有部署、区域模型、审计和数据控制 |
| 成熟期 | 建立模型抽象层,按任务动态选择最优模型 |
5.3 定价联动
| 模型成本变化 | 产品策略 |
|---|---|
| 强模型降价 | 提升付费层额度,或提高毛利 |
| 新强模型变贵 | 放入 Pro / Enterprise 层,不进免费层 |
| mini 模型质量提升 | 扩大免费层或降低入门价 |
| 多模态成本下降 | 把图片 / 音频功能从附加项变成套餐内能力 |
| Agent 成本上升 | 改为 runs / credits / step budget 定价 |
6. Agent 成本管理
6.1 Agent 成本公式
Agent run 成本 = 规划调用成本
+ Σ(每一步模型调用成本)
+ Σ(工具调用成本)
+ Σ(观察结果写回上下文成本)
+ 验证 / 评估成本
+ 失败重试成本
+ 审计 trace 存储成本6.2 Agent 成本控制旋钮
| 旋钮 | 说明 |
|---|---|
| 最大 step 数 | 防止无限循环 |
| 最大运行时间 | 防止长时间占用资源 |
| 最大工具调用次数 | 防止 API 成本失控 |
| 最大上下文长度 | 防止每步输入持续膨胀 |
| 最大重试次数 | 防止失败任务反复烧钱 |
| 工具权限等级 | 高风险工具需审批 |
| 阶段性确认 | 到达成本阈值后询问用户 |
| 低价值任务拒绝 | 任务收益小于成本时提示用户改写 |
6.3 Agent 分层定价
| 层级 | 适合用户 | 成本控制方式 |
|---|---|---|
| Free | 体验 Agent 能力 | 少量 run、低 step、低优先级 |
| Plus / Pro | 个人重度使用 | 每月 included runs + 高级模型额度 |
| Team | 团队协作 | 组织额度池 + 成员管理 + 用量分析 |
| Business | 高价值工作流 | 更高额度、SSO、审计、数据保护 |
| Enterprise | 关键业务流程 | 自定义额度、专属容量、私有部署、SLA |
7. 附录:成本测算模板
7.1 单次任务成本
输入 token: ______
缓存输入 token: ______
输出 token: ______
模型单价: 输入 ______ / 输出 ______
RAG 检索成本: ______
工具调用次数: ______
工具调用单价: ______
平均重试次数: ______
审计 / 存储成本: ______
单次任务成本 = ______7.2 月度成本测算
月活用户数: ______
人均月任务数: ______
任务总数 = 月活用户数 × 人均月任务数
平均单次任务成本: ______
缓存节省比例: ______
失败重试放大系数: ______
月推理成本 = 任务总数 × 平均单次成本 × (1 - 缓存节省比例) × 失败重试放大系数7.3 毛利率测算
月收入 = 付费用户数 × ARPU
月 AI 成本 = 推理 + 工具 + 检索 + 存储 + 审计
其他云成本 = ______
支持与运营成本 = ______
毛利率 = (月收入 - 月 AI 成本 - 其他云成本 - 支持与运营成本) / 月收入7.4 上线前成本 Checklist
- [ ] 已测算免费用户月均成本;
- [ ] 已测算付费用户 P50 / P95 / P99 成本;
- [ ] 已设置用户级、组织级、Agent run 级预算;
- [ ] 已配置高级模型限额;
- [ ] 已配置工具调用上限;
- [ ] 已配置异常用量告警;
- [ ] 已有模型降级和供应商切换策略;
- [ ] 已定义超额计费或降级规则;
- [ ] 已准备企业用量报表;
- [ ] 已建立季度价格和模型成本复核机制。
参考来源
- OpenAI API Pricing: https://openai.com/api/pricing/
- Anthropic Claude Pricing: https://docs.anthropic.com/en/docs/about-claude/pricing
- GitHub Copilot plans and premium requests: https://docs.github.com/en/copilot/get-started/plans
- Cursor Pricing: https://cursor.com/pricing
- Notion Custom Agent pricing: https://www.notion.com/help/custom-agent-pricing
结语:Token 经济学的目标不是让用户少用 AI,而是让每一次 AI 调用都用在真正产生价值的地方。优秀的 AI PM 既要会算成本,也要会通过产品设计把成本变成可感知、可控制、可持续的价值。