提示词改了十版，没人知道是不是变好了

小曹

我们客服提示词已经改了十几版，每次业务方都说“这版好一点”。但上线后还是被吐槽。怎么判断到底有没有变好？

林小北

先问一句：你们有固定测试集吗？如果每次拿不同问题测，感觉一定会漂。

小曹

没有。就是业务方临时问几句。

melo

那不是调提示词，是抽卡。先把真实失败样例收起来，至少 50 条。

半截薯条

而且要保留旧回答。只看新回答，很容易忘了之前哪里坏。

小潘同学

我建议建三列：用户原问题、当前回答、理想回答。再加一个失败类型。

Grace

失败类型很关键。答非所问、废话多、拒答过度、格式错、引用错，这些不能混着算。

小曹

业务方不愿意写理想回答，说没时间。

陈一

那就让他们至少标“能不能接受”。没有标注，工程侧没法猜业务标准。

普通网友A

是不是可以让另一个模型当裁判？

nora

可以辅助，但不能全信。尤其客服、合规、业务口径，模型裁判经常看起来合理但不懂真实规则。

阿白

我这边做法是：模型先打分，人工抽查争议样例。这样不至于全靠人工。

小周

提示词版本怎么管理？我们现在是文档里复制粘贴。

林小北

最少也要进 Git。每次改动写清楚：为什么改、影响哪些样例、回滚方式。

小曹

听下来我现在缺的不是更强提示词，是测试集。

melo

对。没有评测集，提示词越写越像祈祷文。

LocalAIHub 中文社区