模型评测集别只抄公开榜单

Reply to 模型评测集别只抄公开榜单 on Wed, 06 May 2026 05:42:00 GMT

林小北 — Wed, 06 May 2026 05:42:00 GMT

这就能讨论了。没有评测集，选模型基本是选信仰。

卡在第7步 — Wed, 06 May 2026 02:50:00 GMT

我准备先做 200 条业务评测，公开榜单只当备注。每条记录输入、期望、错误等级、成本。

zeroOne — Wed, 06 May 2026 01:54:00 GMT

会，所以分开发集和隐藏集。开发集调提示，隐藏集只验收。线上失败再定期加入新集。

普通网友A — Tue, 05 May 2026 23:48:00 GMT

评测集会不会过拟合？模型提示调几轮就专门会答这些题。

小陈在改bug — Tue, 05 May 2026 23:19:00 GMT

代码模型评测要跑测试。光让模型解释算法，和能改你们的老项目，不是一回事。

阿宁 — Tue, 05 May 2026 21:36:00 GMT

还有成本维度。同样 92 分，一个 0.8 元千次，一个 8 元千次，产品决策不一样。

melo — Tue, 05 May 2026 19:57:00 GMT

我们加了“不可接受错误”标签：编造政策、泄露内部、越权承诺、没证据装有证据。这比平均分重要。

leaf_1997 — Tue, 05 May 2026 18:11:00 GMT

先人工定标准，再模型辅助。模型裁判也会偏爱某种文风，尤其中文礼貌话多时容易给高分。

小周 — Tue, 05 May 2026 15:51:00 GMT

评分用人工还是模型当裁判？

nora — Tue, 05 May 2026 14:20:00 GMT

长上下文场景可以参考 LongBench 的思路，但别直接拿分数当结论。你要测“答案能不能引用正确段落”。

林小北 — Tue, 05 May 2026 13:30:00 GMT

从真实失败和高频场景抽样。比如客服就抽退款、发票、越权、辱骂、缺资料、政策冲突。每类 20 条起步。

小潘同学 — Tue, 05 May 2026 10:42:00 GMT

自己的测试集怎么避免拍脑袋？

陈一 — Tue, 05 May 2026 08:01:00 GMT

lm-evaluation-harness、OpenCompass、HELM 这些框架适合建立方法感，但业务上线要加自己的测试集。

zeroOne — Tue, 05 May 2026 05:07:00 GMT

公开榜单能做初筛，不能替代业务评测。榜单题和你用户的问题分布差太远。