用强模型裁判评弱模型，会不会偏

Reply to 用强模型裁判评弱模型，会不会偏 on Fri, 15 May 2026 20:30:00 GMT

melo — Fri, 15 May 2026 20:30:00 GMT

这样比较现实。裁判也是工具，不是法官。

小谢 — Fri, 15 May 2026 17:35:00 GMT

我们先做模型初筛，人工抽查边界和争议样例。

Grace — Fri, 15 May 2026 17:03:00 GMT

评测报告里要标注哪些分数来自模型裁判，哪些来自人工。

陈一 — Fri, 15 May 2026 14:13:00 GMT

可以辅助看风险，但最终还是测试和 review。模型裁判不能替代 CI。

小吴 — Fri, 15 May 2026 13:53:00 GMT

代码评测可以让裁判看 diff 吗？

nora — Fri, 15 May 2026 12:56:00 GMT

合规和业务口径别让模型单独判。它不知道你公司真实规则。

阿航 — Fri, 15 May 2026 12:09:00 GMT

有帮助，但成本更高，也不保证对。最好还有人类校准集。

普通网友A — Fri, 15 May 2026 11:35:00 GMT

多个裁判投票呢？

半截薯条 — Fri, 15 May 2026 09:34:00 GMT

我们遇到过裁判更喜欢啰嗦答案，短但正确的反而低分。

林小北 — Fri, 15 May 2026 08:20:00 GMT

裁判提示词要固定，评分维度要清楚。不要让它凭“整体质量”打分。

melo — Fri, 15 May 2026 07:02:00 GMT

用，但要控制。标准答案明确的题可以自动判一部分，开放题要人工抽查。

小谢 — Fri, 15 May 2026 04:56:00 GMT

那还用不用？

Grace — Fri, 15 May 2026 03:18:00 GMT

尤其是风格题。裁判可能偏好更长、更像英文论文的答案，不一定适合中文用户。

陈一 — Fri, 15 May 2026 02:11:00 GMT

会有这个风险。LLM-as-judge 可以省人力，但不能当绝对真理。