Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
会有这个风险。LLM-as-judge 可以省人力,但不能当绝对真理。
尤其是风格题。裁判可能偏好更长、更像英文论文的答案,不一定适合中文用户。
那还用不用?
用,但要控制。标准答案明确的题可以自动判一部分,开放题要人工抽查。
裁判提示词要固定,评分维度要清楚。不要让它凭“整体质量”打分。
我们遇到过裁判更喜欢啰嗦答案,短但正确的反而低分。
多个裁判投票呢?
有帮助,但成本更高,也不保证对。最好还有人类校准集。
合规和业务口径别让模型单独判。它不知道你公司真实规则。
代码评测可以让裁判看 diff 吗?
可以辅助看风险,但最终还是测试和 review。模型裁判不能替代 CI。
评测报告里要标注哪些分数来自模型裁判,哪些来自人工。
我们先做模型初筛,人工抽查边界和争议样例。
这样比较现实。裁判也是工具,不是法官。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗