Skip to content

Token 经济学

AI 产品经理的成本控制指南:从推理成本拆解、模型路由、缓存策略,到 Agent 运行成本和账单保护。本文按 2026-05 的 AI 产品形态更新,尽量避免写死容易过期的模型名和价格。


目录

  1. 推理成本结构拆解
  2. 产品设计层面的成本优化策略
  3. 限速、熔断与账单保护
  4. 成本透明度设计
  5. 模型选型对定价的影响
  6. Agent 成本管理
  7. 附录:成本测算模板

1. 推理成本结构拆解

1.1 一次 AI 调用的完整成本

很多产品经理会把推理成本简化为“模型 API 价格 × 调用次数”。这在早期聊天产品里勉强可用,但在 2026 年的 AI 产品里已经不够。一次完整 AI 调用通常包含:

text
单次总成本 = 输入 token 成本
          + 缓存输入 token 成本
          + 输出 token 成本
          + 系统提示词成本
          + 检索 / RAG 成本
          + 工具调用成本
          + Agent 多步执行成本
          + 重试与失败成本
          + 日志、审计与存储成本

其中最容易被低估的是:上下文、工具调用、失败重试、Agent 步骤数

成本项说明常见优化手段
输入 token用户输入、系统提示词、历史对话、检索片段压缩 prompt、滑动窗口、摘要记忆
缓存输入重复系统提示词、重复文档上下文Prompt caching、上下文复用
输出 token模型生成内容限制输出长度、结构化输出、流式截断
RAG 检索向量检索、关键词检索、rerank混合检索、Top-K 控制、缓存
工具调用API、数据库、浏览器、代码执行工具白名单、参数校验、超时限制
Agent 步骤plan、act、observe、retry 的多轮循环step budget、任务分级、人工审批
失败重试超时、格式错误、工具错误后的重跑自动修复上限、幂等设计、降级策略
审计存储trace、日志、对话、工具结果分级留存、采样、冷热存储

1.2 输入成本:被低估的主要成本项

输入成本不只是用户写的那句话。真实产品中,输入通常包括:

text
输入 = system prompt
     + developer / product instructions
     + 用户当前问题
     + 历史对话
     + RAG 检索结果
     + 工具定义 schema
     + 组织策略 / 权限上下文

典型客服 AI 会话示例

text
System Prompt: 800 tokens
工具 schema: 1,200 tokens
历史对话: 10 轮 × 300 tokens = 3,000 tokens
RAG 结果: 3 个片段 × 500 tokens = 1,500 tokens
当前输入: 100 tokens
总输入: 6,600 tokens

用户以为只问了 100 tokens,但系统实际发送了 6,600 tokens。因此,PM 在设计 AI 功能时要重点关注“隐性上下文成本”。

1.3 输出成本:回答越长不一定价值越高

输出 token 通常比输入 token 更贵,而且长回答经常不等于高价值。

陷阱描述解决方法
回答过长模型倾向生成完整解释按场景设置输出上限
格式冗余JSON、Markdown、表格会增加 token只在必要时结构化
反复重写用户不满意后整段重写支持局部编辑 / diff 输出
隐式推理复杂任务消耗更多 reasoning budget按任务等级选择 reasoning 模式
安全重生成输出被过滤后重跑前置风险分类,减少无效生成

产品原则

  • 客服场景:短、准、可执行;
  • 教育场景:分步骤、可解释;
  • 法务 / 金融 / 医疗:保守、引用来源、加免责声明;
  • 代码场景:优先 diff、测试、注释,不要整文件重写;
  • Agent 场景:输出用户需要的结论,不展示所有中间噪音。

1.4 工具调用成本

Agent 产品的成本经常不是模型本身,而是工具调用造成的连锁成本。

调用类型成本构成风险
数据库查询查询资源 + 返回结果 token返回过大导致上下文膨胀
搜索 / 浏览搜索 API + 网页抓取 + 摘要来源不稳定、延迟高
代码执行沙箱资源 + 日志 + 安全扫描超时、无限循环、供应链风险
外部 SaaS API第三方 API 费用失败重试放大成本
文件处理OCR、解析、embedding、存储大文件成本不可控

Agent 成本警示:普通聊天可能只调用一次模型;Agent 任务可能包含 5-20 次模型调用、多个工具调用和若干失败重试。PM 必须为每类任务定义成本上限。

1.5 缓存成本与缓存收益

现代模型服务通常支持不同形式的缓存或批处理折扣。产品侧也可以自建缓存。

缓存类型适用场景注意事项
System Prompt 缓存固定产品指令prompt 频繁变更会降低命中率
文档上下文缓存RAG / 文档问答需要处理权限和文档更新
查询结果缓存FAQ、政策问答、公开知识需要过期策略
工具结果缓存价格、库存、配置、权限实时性要求高时谨慎
Embedding 缓存重复文档处理需要版本号和模型变更策略

缓存命中率比单价更重要

text
月成本 = 原始请求量 × 单次成本 × (1 - 缓存命中率 × 节省比例)

例如缓存命中率 40%,命中后节省 70%,则整体成本可降低:

text
40% × 70% = 28%

2. 产品设计层面的成本优化策略

2.1 模型分级:智能路由

不要让所有请求都走最强模型。更合理的方式是把模型分为能力层级:

层级适用任务成本特征
本地 / 规则 / 模板固定流程、FAQ、格式转换接近零推理成本
Mini 模型分类、摘要、简单问答、轻量路由低成本、高吞吐
标准模型普通知识工作、客服、文档问答成本和质量平衡
高级推理模型复杂规划、代码修复、深度分析高成本,需限额
多模态 / 专用模型图像、音频、视频、OCR任务型成本明显
私有 / 本地部署模型高隐私、低延迟、成本可控场景运维成本高

路由策略示例

text
用户请求 → 意图识别 → 风险分类 → 成本预算判断 → 模型选择

                                      ├─ 简单任务:规则 / mini 模型
                                      ├─ 标准任务:标准模型
                                      ├─ 高价值任务:高级推理模型
                                      └─ 高风险任务:强模型 + 审核 + 工具限制

2.2 混合架构:AI + 传统逻辑

不要让 AI 做传统逻辑能稳定完成的事情。

场景不推荐推荐
订单查询让模型猜订单状态API 查询 + 模型解释
FAQ每次完整生成答案检索 / 模板 + 少量改写
权限判断让模型决定用户能否访问权限系统硬判断
金额计算让模型做数学程序计算 + 模型说明
表单校验让模型判断格式正则 / schema 校验
高风险操作模型直接执行策略引擎 + 人工审批

2.3 上下文窗口管理

上下文越长,成本越高,错误也可能更多。常见策略:

策略成本节省质量影响适用场景
固定窗口可能丢历史短会话
滑动窗口中高较低聊天、客服
摘要压缩有信息损失长会话
分层记忆中高Agent / 个人助手
检索式记忆依赖检索质量知识库、代码库
权限感知上下文提高安全性企业场景

推荐默认策略:

text
最近上下文精确保留 + 早期上下文摘要 + 长期记忆检索 + 权限过滤

2.4 RAG 成本优化

RAG 不一定省钱。一个粗暴的 RAG 系统可能每次塞入大量无关片段,反而增加成本。

优化点做法
Chunk 质量按语义边界切分,保留标题、来源、时间
Top-K 控制不固定塞满上下文,按置信度动态选择
Rerank先粗检索,再重排序,减少无关片段
权限过滤检索前过滤无权文档,避免泄露和浪费
引用压缩只传关键句,不传整段原文
热点缓存高频问题缓存答案和引用

2.5 输出长度与格式控制

场景推荐输出策略
客服3-5 句 + 明确下一步
总结TL;DR + 要点 + 可展开详情
代码diff / patch 优先,避免整文件重写
数据分析结论先行,表格按需展示
合规回答保守措辞 + 来源 + 免责声明
Agent 任务展示结果、关键动作和待确认事项

3. 限速、熔断与账单保护

3.1 限速维度

维度说明
用户级每用户每分钟 / 每日 / 每月限制
组织级团队或企业的总额度池
功能级高成本功能单独限额
模型级高级模型请求限制
工具级搜索、代码执行、外部 API 单独限额
Agent 级每次 run 的最大 step、最大时长、最大成本

3.2 熔断策略

触发条件动作
单用户请求异常暴增临时限流 + 验证码 / 风险检查
组织预算接近上限告警 + 降级到低成本模型
模型供应商异常切换备选模型
工具错误率升高暂停该工具,改为人工或只读模式
Agent 重试过多停止执行,要求人工确认
月成本超预算全局降级、关闭非关键高成本功能

3.3 账单保护设计

AI 产品必须避免“账单惊吓”。

text
预算设置 → 使用提醒 → 接近上限 → 自动降级 / 暂停 → 手动确认超额

建议提供:

  • 月度预算上限;
  • 50% / 80% / 100% 使用量提醒;
  • 超额后自动暂停或降级;
  • 按用户、项目、模型、工具拆账;
  • 企业管理员可导出成本明细;
  • Agent run 级别的成本预估和执行上限。

4. 成本透明度设计

4.1 面向不同用户展示不同粒度

用户类型推荐展示
C 端用户消息额度、图片额度、高级功能额度
专业用户credits、premium requests、上下文长度
开发者token、模型单价、API 调用明细
企业管理员成本中心、项目账单、用户排行、异常告警
财务 / 采购月度汇总、合同用量、超额费用、ROI 报告

4.2 不建议直接暴露 token 给所有人

Token 对开发者有意义,但对多数用户没有意义。更好的抽象是:

产品类型用户可理解单位
聊天助手消息、高级模型额度
图像生成张数、GPU 时间、fast hours
编程助手premium requests、agent runs
知识库文档数、检索次数、成员数
Agent 平台runs、steps、credits、工具调用
API 平台token、请求数、批处理任务

5. 模型选型对定价的影响

5.1 不要只选“最强模型”

模型选型要同时看:

维度问题
质量是否满足目标任务?
成本平均每次任务成本多少?
延迟P50 / P95 / P99 是否可接受?
上下文是否需要长文档 / 代码库 / 多文件?
工具调用工具选择和参数生成是否稳定?
多模态是否需要图像、语音、视频?
合规数据是否可出境?是否用于训练?
可替换性是否能接入备选模型?

5.2 模型组合策略

产品阶段推荐策略
Prototype用强模型验证天花板
MVP强模型 + mini 模型路由,验证单位经济学
增长期多供应商、多模型路由,建立成本监控
企业化加入私有部署、区域模型、审计和数据控制
成熟期建立模型抽象层,按任务动态选择最优模型

5.3 定价联动

模型成本变化产品策略
强模型降价提升付费层额度,或提高毛利
新强模型变贵放入 Pro / Enterprise 层,不进免费层
mini 模型质量提升扩大免费层或降低入门价
多模态成本下降把图片 / 音频功能从附加项变成套餐内能力
Agent 成本上升改为 runs / credits / step budget 定价

6. Agent 成本管理

6.1 Agent 成本公式

text
Agent run 成本 = 规划调用成本
              + Σ(每一步模型调用成本)
              + Σ(工具调用成本)
              + Σ(观察结果写回上下文成本)
              + 验证 / 评估成本
              + 失败重试成本
              + 审计 trace 存储成本

6.2 Agent 成本控制旋钮

旋钮说明
最大 step 数防止无限循环
最大运行时间防止长时间占用资源
最大工具调用次数防止 API 成本失控
最大上下文长度防止每步输入持续膨胀
最大重试次数防止失败任务反复烧钱
工具权限等级高风险工具需审批
阶段性确认到达成本阈值后询问用户
低价值任务拒绝任务收益小于成本时提示用户改写

6.3 Agent 分层定价

层级适合用户成本控制方式
Free体验 Agent 能力少量 run、低 step、低优先级
Plus / Pro个人重度使用每月 included runs + 高级模型额度
Team团队协作组织额度池 + 成员管理 + 用量分析
Business高价值工作流更高额度、SSO、审计、数据保护
Enterprise关键业务流程自定义额度、专属容量、私有部署、SLA

7. 附录:成本测算模板

7.1 单次任务成本

text
输入 token: ______
缓存输入 token: ______
输出 token: ______
模型单价: 输入 ______ / 输出 ______
RAG 检索成本: ______
工具调用次数: ______
工具调用单价: ______
平均重试次数: ______
审计 / 存储成本: ______

单次任务成本 = ______

7.2 月度成本测算

text
月活用户数: ______
人均月任务数: ______
任务总数 = 月活用户数 × 人均月任务数
平均单次任务成本: ______
缓存节省比例: ______
失败重试放大系数: ______

月推理成本 = 任务总数 × 平均单次成本 × (1 - 缓存节省比例) × 失败重试放大系数

7.3 毛利率测算

text
月收入 = 付费用户数 × ARPU
月 AI 成本 = 推理 + 工具 + 检索 + 存储 + 审计
其他云成本 = ______
支持与运营成本 = ______

毛利率 = (月收入 - 月 AI 成本 - 其他云成本 - 支持与运营成本) / 月收入

7.4 上线前成本 Checklist

  • [ ] 已测算免费用户月均成本;
  • [ ] 已测算付费用户 P50 / P95 / P99 成本;
  • [ ] 已设置用户级、组织级、Agent run 级预算;
  • [ ] 已配置高级模型限额;
  • [ ] 已配置工具调用上限;
  • [ ] 已配置异常用量告警;
  • [ ] 已有模型降级和供应商切换策略;
  • [ ] 已定义超额计费或降级规则;
  • [ ] 已准备企业用量报表;
  • [ ] 已建立季度价格和模型成本复核机制。

参考来源


结语:Token 经济学的目标不是让用户少用 AI,而是让每一次 AI 调用都用在真正产生价值的地方。优秀的 AI PM 既要会算成本,也要会通过产品设计把成本变成可感知、可控制、可持续的价值。

MIT License