Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我们客服提示词已经改了十几版,每次业务方都说“这版好一点”。但上线后还是被吐槽。怎么判断到底有没有变好?
先问一句:你们有固定测试集吗?如果每次拿不同问题测,感觉一定会漂。
没有。就是业务方临时问几句。
那不是调提示词,是抽卡。先把真实失败样例收起来,至少 50 条。
而且要保留旧回答。只看新回答,很容易忘了之前哪里坏。
我建议建三列:用户原问题、当前回答、理想回答。再加一个失败类型。
失败类型很关键。答非所问、废话多、拒答过度、格式错、引用错,这些不能混着算。
业务方不愿意写理想回答,说没时间。
那就让他们至少标“能不能接受”。没有标注,工程侧没法猜业务标准。
是不是可以让另一个模型当裁判?
可以辅助,但不能全信。尤其客服、合规、业务口径,模型裁判经常看起来合理但不懂真实规则。
我这边做法是:模型先打分,人工抽查争议样例。这样不至于全靠人工。
提示词版本怎么管理?我们现在是文档里复制粘贴。
最少也要进 Git。每次改动写清楚:为什么改、影响哪些样例、回滚方式。
听下来我现在缺的不是更强提示词,是测试集。
对。没有评测集,提示词越写越像祈祷文。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗