Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
尤其是风格题。裁判可能偏好更长、更像英文论文的答案,不一定适合中文用户。
那还用不用?
用,但要控制。标准答案明确的题可以自动判一部分,开放题要人工抽查。
裁判提示词要固定,评分维度要清楚。不要让它凭“整体质量”打分。
我们遇到过裁判更喜欢啰嗦答案,短但正确的反而低分。
多个裁判投票呢?
有帮助,但成本更高,也不保证对。最好还有人类校准集。
合规和业务口径别让模型单独判。它不知道你公司真实规则。
代码评测可以让裁判看 diff 吗?
可以辅助看风险,但最终还是测试和 review。模型裁判不能替代 CI。
评测报告里要标注哪些分数来自模型裁判,哪些来自人工。
我们先做模型初筛,人工抽查边界和争议样例。
这样比较现实。裁判也是工具,不是法官。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗