Skip to content

Prompt 工程管理流程

将 Prompt 视为代码 — 版本化、可测试、可部署、可回滚。从技术流程和管理视角提供全生命周期管理指南。


1. Prompt 当代码管:为什么需要版本控制

Prompt 就是核心逻辑。一个错误的 Prompt 可导致用户看到错误回答、生成违规内容,甚至企业品牌和合规风险。

对比传统代码Prompt
变更影响功能行为变化模型行为变化(更不可预测)
测试难度自动化成熟需人工 + 自动混合
版本回溯Git 标准操作需关联模型版本
灰度发布成熟框架需定制方案

没有版本控制的典型失败

场景 1:PM 在对话窗口改了 Prompt → 忘了同步到代码 → 线上和代码不一致 → 出问题无法排查

场景 2:上周 Prompt 效果更好,但找不到旧版本 → 只能凭记忆重写

场景 3:Prompt 混在代码里发布,无法单独做 A/B 测试 → 每次全量发布风险极高

版本管理方案

方案复杂度适合阶段
Git + Markdown创业团队
配置中心(Apollo/Consul)成长阶段
专用平台(LangSmith/MLflow)成熟产品

2. 开发阶段

Prompt 编写流程

用户需求 → Prompt 初稿 → 快速测试(5-10 例)→ Review → 提交暂存

生产级 Prompt 结构

markdown
## 系统角色
你是谁、能力边界、风格

## 任务指令
具体任务、输入参数、输出格式

## 约束条件
必须遵守的规则、内容安全限制

## 示例(Few-shot)
正常输入→期望输出
边缘输入→期望输出

## 输出格式
格式模板、必要字段

编写原则

原则反例正例
明确角色"分析这段文本""你是一位资深金融分析师"
具体指令"总结一下""用 3 句话总结,每句 ≤20 字"
输出约束"返回结果""返回 JSON: {summary: string}"
负面提示省略"不要编造事实,不确定就说无法确认"
示例引导省略"正确输出示例:[示例]"

本地测试流程

步骤 1:准备 5-10 条用例(正常×5 + 边缘×2 + 异常×2)
步骤 2:在 Notebook / Gradio / Playground 运行
步骤 3:自评估 — 格式检查、幻觉检查、约束检查、评分
步骤 4:发现问题 → 修改 Prompt → 重复

Review 检查清单

完整性

  • [ ] 包含角色定义、任务指令、输出格式、约束条件?
  • [ ] 包含失败处理(不确定时怎么办)?

正确性

  • [ ] 指令准确表达需求?无歧义?示例无误?
  • [ ] 无潜在安全风险?

健壮性

  • [ ] 处理了空输入、超长输入、无关输入、恶意输入?

可维护性

  • [ ] 结构清晰?注释充分?统一模板格式?

PM vs MLE 在 Review 中的角色

Review 方面主要评审者关注点
业务准确性PM是否反映业务需求
用户体验PM输出是否符合用户期望
技术可行性MLE是否高效、稳定
安全性MLE + 安全提示注入等风险
格式正确性MLE输出是否可解析

3. 测试阶段

回归测试

每次 Prompt 修改必须跑回归测试:

  1. 加载评估数据集(200-1000 条)
  2. 用新 Prompt 运行所有用例
  3. 计算评估指标,对比 Baseline
  4. 判断是否通过

报告模板:

测试项Baseline新版本变化通过
准确率87.5%91.2%+3.7%
格式合规95.0%98.0%+3.0%
幻觉率4.2%2.1%-2.1%
长度合规92.0%88.0%-4.0%

对比测试(旧 vs 新)

  1. 随机抽 50 条用例
  2. 用新/旧 Prompt 分别生成输出
  3. 盲评(标注员不知道版本)
  4. 按准确度、有用性、风格、安全性评分
  5. 统计偏好

质量门禁

条件标准说明
回归测试所有核心指标达标不可绕过
对比测试新版本总体优于旧版本综合判断
安全测试无新增安全风险不可绕过
人工评审至少 2 人评分覆盖不同视角

4. 发布阶段

发布流程

Review 通过 → 合并主分支 → 部署 Staging → 验证 → 灰度 → 全量 → 监控

灰度方案

方案实现优点缺点
按用户 ID hashuser_id % 100体验一致冷启动不均匀
按流量比例随机采样 x%简单体验不一致
按用户层级名单/付费层级可控风险选择偏差

灰度放量节奏

阶段流量时长检查点
内部灰度1-5%1 天无严重错误
小范围5%1-2 天核心指标稳定
中范围20%→50%2-3 天监控无异常
全量100%持续持续监控

灰度监控指标

类别指标告警阈值
质量负面反馈率> 前 7 天均值 + 2σ
质量重新生成率> 前 7 天均值 + 2σ
性能延迟 P99> 3s
技术错误率> 0.5%
安全内容举报> 0

灰度期间 PM 每日检查清单

  • [ ] 检查核心监控指标
  • [ ] 检查用户反馈(应用内、客服、社交媒体)
  • [ ] 随机采样 20-30 条对话,人工检查
  • [ ] 对比新旧版本指标差异
  • [ ] 决定是否继续放量

5. 回滚策略

触发条件

优先级条件响应回滚方式
P0安全/合规违规立即全量回滚
P0核心指标下降 > 20%立即全量回滚
P1负面反馈率 > 5%30 分钟按用户回滚
P1错误率 > 1%30 分钟全量回滚
P2非核心指标持续下降观察 24h按需

回滚方案

方案速度影响适用
全量回滚< 5 分钟全部用户P0
按用户回滚< 10 分钟受影响用户P1
自动回滚< 2 分钟全部用户已配置自动回滚
降级回滚< 30 分钟部分功能局部问题

回滚沟通模板

markdown
回滚时间:YYYY-MM-DD HH:MM
回滚版本:v1.0 ← v1.1
原因:[描述]
影响:全量/灰度用户
状态:已恢复

跟进:
- [ ] 根因分析
- [ ] 修复问题
- [ ] 重新走测试和灰度流程

回滚后复盘要点

  1. 问题描述:什么 Prompt 版本?什么问题?影响多少用户?
  2. 根因分析:Review 为何没发现?测试覆盖不足?放量太快?
  3. 改进措施:测试流程、Review checklist、灰度策略如何更新?
  4. 行动计划:Owner 和 ETA

6. Prompt 测试基础设施

评估数据集设计

json
{
  "id": "TC-001",
  "category": "正常场景",
  "input": "用户输入",
  "expected": {"content": "期望输出", "format": "JSON"},
  "difficulty": "简单"
}

覆盖维度

维度比例说明
正常输入60%最常见请求
边缘输入20%超长、特殊字符、多语言
异常输入15%空输入、无关输入
恶意输入5%Prompt 注入、越权

评估指标

指标计算目标
准确率正确数/总数≥90%
格式合规合规数/总数≥95%
完整率完整数/总数≥90%
一致性同一问题多次回答一致-
安全性无违规内容100%

自动化 vs 人工评估

方式速度成本准确性适用
自动化分钟级回归测试、批量筛选
人工小时/天最终验收、质量判断

混合策略推荐

层次方法频率
日常回归测试自动化每次提交
每日快照自动化全量 + 人工抽样每日
版本发布前自动化全量 + 人工全量每次发布
灰度期间自动化实时 + 人工抽样持续

评估基础设施架构

Prompt 版本控制 → 自动化评估管线 → 人工评估平台
                        ↓                  ↓
                   回归测试+对比测试     标注界面
                        ↓                  ↓
                     评估报告 + 仪表盘

                    决策 → 发布/回滚

7. PM 和管理视角

Prompt 责任归属

场景负责人理由
初版原型PM业务理解最重要
性能优化MLE需模型推理深入理解
用户体验/语气PM + 设计用户感知角度
安全防护MLE + 安全安全专业知识

推荐模式:PM 写初版 → PM + MLE Review → MLE 技术优化 → PM 验收 → 共同上线

Review 制度

  • 谁可以提交:PM + MLE(需培训)
  • Review 团队:PM × 1 + MLE × 1
  • 流程:MR/PR 提交 → 24h 内初审 → 修改后 24h 内终审 → 合并
  • 紧急修改:PM 直接修改并部署,24h 内补 Review

生产 Prompt 监控

指标级别条件响应角色
负面反馈率P1> 5%PM
隐式负向信号P1> 均值 + 2σPM + MLE
错误率P0> 1%MLE
延迟 P99P1> 3sMLE
安全事件P0任何违规PM + 安全
成本异常P2上升 > 20%PM

PM 日常工作

频率工作时间
每日检查监控看板15 分钟
每日抽样 5-10 条对话20 分钟
每日处理 Prompt 相关反馈15 分钟
每周汇总周报30 分钟
每次发布参与 Review1-2 小时

最佳实践清单

实践优先级
所有 Prompt 进版本控制★★★★★
每次修改有 Review★★★★★
评估集与 Prompt 一起版本化★★★★☆
灰度发布而非全量★★★★★
修改后监控 ≥ 48 小时★★★★☆
建立 Prompt 模板库★★★☆☆
每月 Review Prompt 效果★★★☆☆

版本: v1.0 | 更新: 2026-05-14 | 相关: 生命周期指南, PM-MLE 协作

MIT License