Token 经济学

AI 产品经理的成本控制指南：从推理成本拆解、模型路由、缓存策略，到 Agent 运行成本和账单保护。本文按 2026-05 的 AI 产品形态更新，尽量避免写死容易过期的模型名和价格。

1. 推理成本结构拆解

1.1 一次 AI 调用的完整成本

很多产品经理会把推理成本简化为“模型 API 价格 × 调用次数”。这在早期聊天产品里勉强可用，但在 2026 年的 AI 产品里已经不够。一次完整 AI 调用通常包含：

text

单次总成本 = 输入 token 成本
          + 缓存输入 token 成本
          + 输出 token 成本
          + 系统提示词成本
          + 检索 / RAG 成本
          + 工具调用成本
          + Agent 多步执行成本
          + 重试与失败成本
          + 日志、审计与存储成本

其中最容易被低估的是：上下文、工具调用、失败重试、Agent 步骤数。

成本项	说明	常见优化手段
输入 token	用户输入、系统提示词、历史对话、检索片段	压缩 prompt、滑动窗口、摘要记忆
缓存输入	重复系统提示词、重复文档上下文	Prompt caching、上下文复用
输出 token	模型生成内容	限制输出长度、结构化输出、流式截断
RAG 检索	向量检索、关键词检索、rerank	混合检索、Top-K 控制、缓存
工具调用	API、数据库、浏览器、代码执行	工具白名单、参数校验、超时限制
Agent 步骤	plan、act、observe、retry 的多轮循环	step budget、任务分级、人工审批
失败重试	超时、格式错误、工具错误后的重跑	自动修复上限、幂等设计、降级策略
审计存储	trace、日志、对话、工具结果	分级留存、采样、冷热存储

1.2 输入成本：被低估的主要成本项

输入成本不只是用户写的那句话。真实产品中，输入通常包括：

text

输入 = system prompt
     + developer / product instructions
     + 用户当前问题
     + 历史对话
     + RAG 检索结果
     + 工具定义 schema
     + 组织策略 / 权限上下文

典型客服 AI 会话示例：

text

System Prompt: 800 tokens
工具 schema: 1,200 tokens
历史对话: 10 轮 × 300 tokens = 3,000 tokens
RAG 结果: 3 个片段 × 500 tokens = 1,500 tokens
当前输入: 100 tokens
总输入: 6,600 tokens

用户以为只问了 100 tokens，但系统实际发送了 6,600 tokens。因此，PM 在设计 AI 功能时要重点关注“隐性上下文成本”。

1.3 输出成本：回答越长不一定价值越高

输出 token 通常比输入 token 更贵，而且长回答经常不等于高价值。

陷阱	描述	解决方法
回答过长	模型倾向生成完整解释	按场景设置输出上限
格式冗余	JSON、Markdown、表格会增加 token	只在必要时结构化
反复重写	用户不满意后整段重写	支持局部编辑 / diff 输出
隐式推理	复杂任务消耗更多 reasoning budget	按任务等级选择 reasoning 模式
安全重生成	输出被过滤后重跑	前置风险分类，减少无效生成

产品原则：

客服场景：短、准、可执行；
教育场景：分步骤、可解释；
法务 / 金融 / 医疗：保守、引用来源、加免责声明；
代码场景：优先 diff、测试、注释，不要整文件重写；
Agent 场景：输出用户需要的结论，不展示所有中间噪音。

1.4 工具调用成本

Agent 产品的成本经常不是模型本身，而是工具调用造成的连锁成本。

调用类型	成本构成	风险
数据库查询	查询资源 + 返回结果 token	返回过大导致上下文膨胀
搜索 / 浏览	搜索 API + 网页抓取 + 摘要	来源不稳定、延迟高
代码执行	沙箱资源 + 日志 + 安全扫描	超时、无限循环、供应链风险
外部 SaaS API	第三方 API 费用	失败重试放大成本
文件处理	OCR、解析、embedding、存储	大文件成本不可控

Agent 成本警示：普通聊天可能只调用一次模型；Agent 任务可能包含 5-20 次模型调用、多个工具调用和若干失败重试。PM 必须为每类任务定义成本上限。

1.5 缓存成本与缓存收益

现代模型服务通常支持不同形式的缓存或批处理折扣。产品侧也可以自建缓存。

缓存类型	适用场景	注意事项
System Prompt 缓存	固定产品指令	prompt 频繁变更会降低命中率
文档上下文缓存	RAG / 文档问答	需要处理权限和文档更新
查询结果缓存	FAQ、政策问答、公开知识	需要过期策略
工具结果缓存	价格、库存、配置、权限	实时性要求高时谨慎
Embedding 缓存	重复文档处理	需要版本号和模型变更策略

缓存命中率比单价更重要：

text

月成本 = 原始请求量 × 单次成本 × (1 - 缓存命中率 × 节省比例)

例如缓存命中率 40%，命中后节省 70%，则整体成本可降低：

text

40% × 70% = 28%

2. 产品设计层面的成本优化策略

2.1 模型分级：智能路由

不要让所有请求都走最强模型。更合理的方式是把模型分为能力层级：

层级	适用任务	成本特征
本地 / 规则 / 模板	固定流程、FAQ、格式转换	接近零推理成本
Mini 模型	分类、摘要、简单问答、轻量路由	低成本、高吞吐
标准模型	普通知识工作、客服、文档问答	成本和质量平衡
高级推理模型	复杂规划、代码修复、深度分析	高成本，需限额
多模态 / 专用模型	图像、音频、视频、OCR	任务型成本明显
私有 / 本地部署模型	高隐私、低延迟、成本可控场景	运维成本高

路由策略示例：

text

用户请求 → 意图识别 → 风险分类 → 成本预算判断 → 模型选择
                                      │
                                      ├─ 简单任务：规则 / mini 模型
                                      ├─ 标准任务：标准模型
                                      ├─ 高价值任务：高级推理模型
                                      └─ 高风险任务：强模型 + 审核 + 工具限制

2.2 混合架构：AI + 传统逻辑

不要让 AI 做传统逻辑能稳定完成的事情。

场景	不推荐	推荐
订单查询	让模型猜订单状态	API 查询 + 模型解释
FAQ	每次完整生成答案	检索 / 模板 + 少量改写
权限判断	让模型决定用户能否访问	权限系统硬判断
金额计算	让模型做数学	程序计算 + 模型说明
表单校验	让模型判断格式	正则 / schema 校验
高风险操作	模型直接执行	策略引擎 + 人工审批

2.3 上下文窗口管理

上下文越长，成本越高，错误也可能更多。常见策略：

策略	成本节省	质量影响	适用场景
固定窗口	高	可能丢历史	短会话
滑动窗口	中高	较低	聊天、客服
摘要压缩	高	有信息损失	长会话
分层记忆	中高	好	Agent / 个人助手
检索式记忆	中	依赖检索质量	知识库、代码库
权限感知上下文	中	提高安全性	企业场景

推荐默认策略：

text

最近上下文精确保留 + 早期上下文摘要 + 长期记忆检索 + 权限过滤

2.4 RAG 成本优化

RAG 不一定省钱。一个粗暴的 RAG 系统可能每次塞入大量无关片段，反而增加成本。

优化点	做法
Chunk 质量	按语义边界切分，保留标题、来源、时间
Top-K 控制	不固定塞满上下文，按置信度动态选择
Rerank	先粗检索，再重排序，减少无关片段
权限过滤	检索前过滤无权文档，避免泄露和浪费
引用压缩	只传关键句，不传整段原文
热点缓存	高频问题缓存答案和引用

2.5 输出长度与格式控制

场景	推荐输出策略
客服	3-5 句 + 明确下一步
总结	TL;DR + 要点 + 可展开详情
代码	diff / patch 优先，避免整文件重写
数据分析	结论先行，表格按需展示
合规回答	保守措辞 + 来源 + 免责声明
Agent 任务	展示结果、关键动作和待确认事项

3. 限速、熔断与账单保护

3.1 限速维度

维度	说明
用户级	每用户每分钟 / 每日 / 每月限制
组织级	团队或企业的总额度池
功能级	高成本功能单独限额
模型级	高级模型请求限制
工具级	搜索、代码执行、外部 API 单独限额
Agent 级	每次 run 的最大 step、最大时长、最大成本

3.2 熔断策略

触发条件	动作
单用户请求异常暴增	临时限流 + 验证码 / 风险检查
组织预算接近上限	告警 + 降级到低成本模型
模型供应商异常	切换备选模型
工具错误率升高	暂停该工具，改为人工或只读模式
Agent 重试过多	停止执行，要求人工确认
月成本超预算	全局降级、关闭非关键高成本功能

3.3 账单保护设计

AI 产品必须避免“账单惊吓”。

text

预算设置 → 使用提醒 → 接近上限 → 自动降级 / 暂停 → 手动确认超额

建议提供：

月度预算上限；
50% / 80% / 100% 使用量提醒；
超额后自动暂停或降级；
按用户、项目、模型、工具拆账；
企业管理员可导出成本明细；
Agent run 级别的成本预估和执行上限。

4. 成本透明度设计

4.1 面向不同用户展示不同粒度

用户类型	推荐展示
C 端用户	消息额度、图片额度、高级功能额度
专业用户	credits、premium requests、上下文长度
开发者	token、模型单价、API 调用明细
企业管理员	成本中心、项目账单、用户排行、异常告警
财务 / 采购	月度汇总、合同用量、超额费用、ROI 报告

4.2 不建议直接暴露 token 给所有人

Token 对开发者有意义，但对多数用户没有意义。更好的抽象是：

产品类型	用户可理解单位
聊天助手	消息、高级模型额度
图像生成	张数、GPU 时间、fast hours
编程助手	premium requests、agent runs
知识库	文档数、检索次数、成员数
Agent 平台	runs、steps、credits、工具调用
API 平台	token、请求数、批处理任务

5. 模型选型对定价的影响

5.1 不要只选“最强模型”

模型选型要同时看：

维度	问题
质量	是否满足目标任务？
成本	平均每次任务成本多少？
延迟	P50 / P95 / P99 是否可接受？
上下文	是否需要长文档 / 代码库 / 多文件？
工具调用	工具选择和参数生成是否稳定？
多模态	是否需要图像、语音、视频？
合规	数据是否可出境？是否用于训练？
可替换性	是否能接入备选模型？

5.2 模型组合策略

产品阶段	推荐策略
Prototype	用强模型验证天花板
MVP	强模型 + mini 模型路由，验证单位经济学
增长期	多供应商、多模型路由，建立成本监控
企业化	加入私有部署、区域模型、审计和数据控制
成熟期	建立模型抽象层，按任务动态选择最优模型

5.3 定价联动

模型成本变化	产品策略
强模型降价	提升付费层额度，或提高毛利
新强模型变贵	放入 Pro / Enterprise 层，不进免费层
mini 模型质量提升	扩大免费层或降低入门价
多模态成本下降	把图片 / 音频功能从附加项变成套餐内能力
Agent 成本上升	改为 runs / credits / step budget 定价

6. Agent 成本管理

6.1 Agent 成本公式

text

Agent run 成本 = 规划调用成本
              + Σ(每一步模型调用成本)
              + Σ(工具调用成本)
              + Σ(观察结果写回上下文成本)
              + 验证 / 评估成本
              + 失败重试成本
              + 审计 trace 存储成本

6.2 Agent 成本控制旋钮

旋钮	说明
最大 step 数	防止无限循环
最大运行时间	防止长时间占用资源
最大工具调用次数	防止 API 成本失控
最大上下文长度	防止每步输入持续膨胀
最大重试次数	防止失败任务反复烧钱
工具权限等级	高风险工具需审批
阶段性确认	到达成本阈值后询问用户
低价值任务拒绝	任务收益小于成本时提示用户改写

6.3 Agent 分层定价

层级	适合用户	成本控制方式
Free	体验 Agent 能力	少量 run、低 step、低优先级
Plus / Pro	个人重度使用	每月 included runs + 高级模型额度
Team	团队协作	组织额度池 + 成员管理 + 用量分析
Business	高价值工作流	更高额度、SSO、审计、数据保护
Enterprise	关键业务流程	自定义额度、专属容量、私有部署、SLA

7. 附录：成本测算模板

7.1 单次任务成本

text

输入 token: ______
缓存输入 token: ______
输出 token: ______
模型单价: 输入 ______ / 输出 ______
RAG 检索成本: ______
工具调用次数: ______
工具调用单价: ______
平均重试次数: ______
审计 / 存储成本: ______

单次任务成本 = ______

7.2 月度成本测算

text

月活用户数: ______
人均月任务数: ______
任务总数 = 月活用户数 × 人均月任务数
平均单次任务成本: ______
缓存节省比例: ______
失败重试放大系数: ______

月推理成本 = 任务总数 × 平均单次成本 × (1 - 缓存节省比例) × 失败重试放大系数

7.3 毛利率测算

text

月收入 = 付费用户数 × ARPU
月 AI 成本 = 推理 + 工具 + 检索 + 存储 + 审计
其他云成本 = ______
支持与运营成本 = ______

毛利率 = (月收入 - 月 AI 成本 - 其他云成本 - 支持与运营成本) / 月收入

7.4 上线前成本 Checklist

[ ] 已测算免费用户月均成本；
[ ] 已测算付费用户 P50 / P95 / P99 成本；
[ ] 已设置用户级、组织级、Agent run 级预算；
[ ] 已配置高级模型限额；
[ ] 已配置工具调用上限；
[ ] 已配置异常用量告警；
[ ] 已有模型降级和供应商切换策略；
[ ] 已定义超额计费或降级规则；
[ ] 已准备企业用量报表；
[ ] 已建立季度价格和模型成本复核机制。

参考来源

OpenAI API Pricing: https://openai.com/api/pricing/
Anthropic Claude Pricing: https://docs.anthropic.com/en/docs/about-claude/pricing
GitHub Copilot plans and premium requests: https://docs.github.com/en/copilot/get-started/plans
Cursor Pricing: https://cursor.com/pricing
Notion Custom Agent pricing: https://www.notion.com/help/custom-agent-pricing

结语：Token 经济学的目标不是让用户少用 AI，而是让每一次 AI 调用都用在真正产生价值的地方。优秀的 AI PM 既要会算成本，也要会通过产品设计把成本变成可感知、可控制、可持续的价值。

Token 经济学 ​

目录 ​

1. 推理成本结构拆解 ​

1.1 一次 AI 调用的完整成本 ​

1.2 输入成本：被低估的主要成本项 ​

1.3 输出成本：回答越长不一定价值越高 ​

1.4 工具调用成本 ​

1.5 缓存成本与缓存收益 ​

2. 产品设计层面的成本优化策略 ​

2.1 模型分级：智能路由 ​

2.2 混合架构：AI + 传统逻辑 ​

2.3 上下文窗口管理 ​

2.4 RAG 成本优化 ​

2.5 输出长度与格式控制 ​

3. 限速、熔断与账单保护 ​

3.1 限速维度 ​

3.2 熔断策略 ​

3.3 账单保护设计 ​

4. 成本透明度设计 ​

4.1 面向不同用户展示不同粒度 ​

4.2 不建议直接暴露 token 给所有人 ​

5. 模型选型对定价的影响 ​

5.1 不要只选“最强模型” ​

5.2 模型组合策略 ​

5.3 定价联动 ​

6. Agent 成本管理 ​

6.1 Agent 成本公式 ​

6.2 Agent 成本控制旋钮 ​

6.3 Agent 分层定价 ​

7. 附录：成本测算模板 ​

7.1 单次任务成本 ​

7.2 月度成本测算 ​

7.3 毛利率测算 ​

7.4 上线前成本 Checklist ​

参考来源 ​

Token 经济学

目录

1. 推理成本结构拆解

1.1 一次 AI 调用的完整成本

1.2 输入成本：被低估的主要成本项

1.3 输出成本：回答越长不一定价值越高

1.4 工具调用成本

1.5 缓存成本与缓存收益

2. 产品设计层面的成本优化策略

2.1 模型分级：智能路由

2.2 混合架构：AI + 传统逻辑

2.3 上下文窗口管理

2.4 RAG 成本优化

2.5 输出长度与格式控制

3. 限速、熔断与账单保护

3.1 限速维度

3.2 熔断策略

3.3 账单保护设计

4. 成本透明度设计

4.1 面向不同用户展示不同粒度

4.2 不建议直接暴露 token 给所有人

5. 模型选型对定价的影响

5.1 不要只选“最强模型”

5.2 模型组合策略

5.3 定价联动

6. Agent 成本管理

6.1 Agent 成本公式

6.2 Agent 成本控制旋钮

6.3 Agent 分层定价

7. 附录：成本测算模板

7.1 单次任务成本

7.2 月度成本测算

7.3 毛利率测算

7.4 上线前成本 Checklist

参考来源