Agent 评估指标
基准说明
本文档中的指标定义与基准参考值系基于行业最佳实践汇编的参考指南,并非学术基准或官方认证标准。
基准参考值范围为经验值,实际表现因应用场景、模型版本、数据集分布及评估方式的不同而存在显著差异。
建议读者根据自身业务场景和数据分布自行调整评估阈值,不宜直接套用本文档中的数值作为绝对标准。
当引用外部 benchmark(如 AgentBench、GAIA 等)时,其数据来源和评测条件已在相应章节标注,请注意核对其原始论文或官方仓库以获取最新信息。
Agent 系统的全面评估需要从任务效率、工具使用、用户交互和成本等多个维度进行量化衡量。
1. 任务完成率 (Task Completion Rate)
定义
Agent 成功完成用户请求或预定义任务的比例。是衡量 Agent 系统最基本、最重要的指标。
计算方法
任务完成率 = (成功完成的任务数 / 总任务数) × 100%- 严格完成:任务最终输出 100% 满足所有要求
- 宽松完成:任务主要目标达成,允许部分边缘细节缺失
- 分级评分:1-5 分制,由评估者或自动化流程判定
基准参考值
| 任务复杂度 | 入门水平 | 良好水平 | 优秀水平 |
|---|---|---|---|
| 简单指令任务(单步) | 85% | 92% | 98%+ |
| 多步骤任务(3-5步) | 70% | 85% | 95%+ |
| 复杂推理任务(>5步) | 50% | 70% | 85%+ |
| 开放域任务(创意/分析) | 40% | 60% | 80%+ |
评估工具/框架
- AgentBench:多维度 Agent 评测基准
- GAIA:通用 AI 助手评测数据集
- WebArena / VisualWebArena:网页 Agent 任务评测
- SWE-bench:软件工程 Agent 评测
- 自定义评测流水线:基于 Playwright/Selenium + LLM-as-Judge
实际应用案例
案例:某电商平台的客服 Agent
- 测试 1000 个客服工单(退货、退款、物流查询等)
- 任务完成率从 V1 的 68% 提升至 V3 的 89%
- 通过 Chain-of-Thought 提示和工具调用优化,复杂退货流程完成率从 45% → 82%
2. 工具调用成功率 (Tool Call Success Rate)
定义
Agent 在执行过程中调用外部工具(API、数据库、搜索引擎等)的总体成功比例。
计算方法
工具调用成功率 = (成功调用的工具次数 / 总工具调用次数) × 100%- 可进一步按工具类型细分(代码执行、API 调用、数据查询等)
- 成功:工具返回有效响应,无超时/错误
基准参考值
| 工具类型 | 入门水平 | 良好水平 | 优秀水平 |
|---|---|---|---|
| 信息检索(搜索/数据库) | 80% | 90% | 97%+ |
| 代码执行 | 75% | 88% | 95%+ |
| 外部 API 调用 | 82% | 92% | 98%+ |
| 文件读写操作 | 85% | 93% | 97%+ |
评估工具/框架
- ToolBench:工具使用评测基准
- BFCL (Berkeley Function Calling Leaderboard):函数调用排行榜
- OpenAI Evals:工具调用场景的自动化测试
- LangSmith:追踪工具调用链,统计成功率
实际应用案例
案例:数据分析 Agent 的工具调用优化
- 初始工具调用成功率仅 72%,主要原因:参数格式错误、API 超时
- 引入 Schema 验证 + 重试机制后提升至 94%
- 针对特定 API 的 3 次重试策略使成功率从 88% → 97%
3. 回退率 (Fallback Rate)
定义
Agent 无法直接完成任务而触发回退机制(转人工、降级应答、放弃任务)的频率。
计算方法
回退率 = (触发回退的任务数 / 总任务数) × 100%- 硬回退:彻底转人工客服
- 软回退:给出兜底回答("我暂时无法处理")
- 部分回退:完成部分任务,剩余部分转人工
基准参考值
| Agent 类型 | 可接受回退率 | 需改进回退率 | 临界回退率 |
|---|---|---|---|
| 客服 Agent | < 15% | 15-30% | > 30% |
| 编程 Agent | < 10% | 10-20% | > 20% |
| 个人助理 Agent | < 20% | 20-35% | > 35% |
评估工具/框架
- LangSmith:监控 Agent 决策路径,标记回退事件
- Phoenix / Arize AI:可观测性平台,跟踪 Agent 行为边界
- 自定义日志分析:基于 Elasticsearch/Kibana 构建回退仪表盘
实际应用案例
案例:银行客服 Agent 的回退率优化
- 原始回退率 32%,其中 60% 的回退发生在身份验证环节
- 引入自动化身份验证工具(对接银行 OAuth 系统),回退率降至 14%
- 复杂金融产品咨询仍保持 20% 回退率(合规要求转人工)
4. 用户干预率 (User Intervention Rate)
定义
用户在与 Agent 交互过程中,需要主动纠正、补充信息或介入引导的比例。
计算方法
用户干预率 = (需要用户干预的对话数 / 总对话数) × 100%- 显式干预:用户明确指出 Agent 错误并提供修正
- 隐式干预:用户重复提问、重新表述需求
基准参考值
| 评估场景 | 优秀 | 良好 | 需改进 |
|---|---|---|---|
| 简单问答 | < 5% | 5-10% | > 10% |
| 多轮任务对话 | < 10% | 10-20% | > 20% |
| 复杂协同创作 | < 15% | 15-30% | > 30% |
评估工具/框架
- 人工标注平台:LabelStudio、Scale AI 标注对话轮次
- 对话分析工具:UserLogic、Cogint AI
- 自建埋点:前端埋点记录用户编辑/撤回/重新生成操作
实际应用案例
案例:代码生成 Agent 的用户干预
- 初期 40% 的代码生成需要用户手动修改
- 通过 Few-shot 示例 + 用户偏好学习,干预率降至 18%
- 针对 Python 代码的干预率最低(10%),Rust 代码最高(30%)
5. 延迟分布 (Latency Distribution)
定义
Agent 从接收输入到生成完整输出的时间分布特性,包括 P50、P95、P99 延迟。
计算方法
P50 (中位数延迟) = 排序后第 50% 分位的请求延迟
P95 = 排序后第 95% 分位的请求延迟
P99 = 排序后第 99% 分位的请求延迟
平均延迟 = 总延迟时间 / 总请求数
端到端延迟 = 用户输入 -> Agent 首次响应 -> 最终输出完成基准参考值
| 任务类型 | P50 目标 | P95 目标 | P99 目标 |
|---|---|---|---|
| 简单问答 | < 2s | < 5s | < 10s |
| 代码生成 | < 5s | < 15s | < 30s |
| 多工具调用 | < 8s | < 20s | < 45s |
| 长文档分析 | < 15s | < 35s | < 60s |
评估工具/框架
- LangFuse:LLM 可观测性,追踪延迟分布
- Datadog / Grafana:APM 监控,设置延迟告警
- Helicone:LLM 代理成本与延迟监控
- OpenTelemetry:端到端追踪 Agent 调用链
实际应用案例
案例:金融 Agent 延迟优化
- 初始 P95 延迟 28s(超时率 12%)
- 优化策略:Streaming 输出 + 工具调用并行化 + 模型量化
- 优化后:P50 3.2s,P95 8.5s,超时率降至 1.2%
6. 成本/任务比 (Cost per Task)
定义
完成每个任务所消耗的经济成本,包括 LLM API 费用、工具调用费用、基础设施成本。
计算方法
成本/任务 = (LLM Token 费用 + 工具调用费用 + 推理基础设施费用) / 完成任务数- Token 费用:输入 Token + 输出 Token × 模型单价
- 工具费用:外部 API(搜索、代码执行、数据查询等)
- 基础设施:GPU 实例、向量数据库、缓存等摊销成本
- 重试成本:失败重试带来的额外 Token 消耗
基准参考值
| Agent 类型 | 低配置 | 中配置 | 高配置 |
|---|---|---|---|
| 简单问答 Agent | $0.01-0.05 | $0.05-0.15 | $0.15-0.50 |
| 编程 Agent | $0.05-0.20 | $0.20-0.80 | $0.80-3.00 |
| 多模态 Agent | $0.10-0.50 | $0.50-2.00 | $2.00-5.00 |
| 复杂 Research Agent | $0.50-2.00 | $2.00-5.00 | $5.00-15.00 |
评估工具/框架
- LangSmith:追踪 Token 消耗,统计每次运行成本
- Helicone:实时 LLM 成本监控 + 预算告警
- Arize AI:成本与性能一体化监控
- 自定义成本计算器:基于模型定价表 × Token 计数器
实际应用案例
案例:企业客服 Agent 成本优化
- 初始成本/任务 = $0.42(使用 GPT-4)
- 优化方案:简单问题路由到 GPT-3.5($0.015)+ 复杂问题 GPT-4($0.35)
- 混合路由后平均成本/任务降至 $0.09,同时保持 94% 任务完成率
- 每月 50 万任务量,年节省 $198,000
综合评估仪表盘建议
关键监控指标组合
Agent 健康度评分 = w1 × (1 - 回退率) + w2 × 任务完成率 + w3 × (1 - 用户干预率) + w4 × (1 - 延迟异常率)其中 w1-w4 为权重系数,根据业务场景自定义。
分级评估框架
| 级别 | 任务完成率 | 回退率 | 用户干预率 | 延迟 P95 |
|---|---|---|---|---|
| S 级 | > 95% | < 5% | < 5% | < 5s |
| A 级 | 85-95% | 5-10% | 5-10% | 5-15s |
| B 级 | 70-85% | 10-20% | 10-20% | 15-30s |
| C 级 | < 70% | > 20% | > 20% | > 30s |
参考资源
- AgentBench - 多维度 Agent 评测框架
- LangSmith Evaluation - LangChain 评估方案
- Google Agent Evaluation Guide - Google Vertex AI Agent 评估指南
- Anthropic Claude Evaluation - Anthropic 安全评估实践
- 《Evaluating AI Agents》 - Prompt Engineering Institute 白皮书