模型评测集别只抄公开榜单

zeroOne

公开榜单能做初筛，不能替代业务评测。榜单题和你用户的问题分布差太远。

陈一

lm-evaluation-harness、OpenCompass、HELM 这些框架适合建立方法感，但业务上线要加自己的测试集。

小潘同学

自己的测试集怎么避免拍脑袋？

林小北

从真实失败和高频场景抽样。比如客服就抽退款、发票、越权、辱骂、缺资料、政策冲突。每类 20 条起步。

nora

长上下文场景可以参考 LongBench 的思路，但别直接拿分数当结论。你要测“答案能不能引用正确段落”。

小周

评分用人工还是模型当裁判？

leaf_1997

先人工定标准，再模型辅助。模型裁判也会偏爱某种文风，尤其中文礼貌话多时容易给高分。

melo

我们加了“不可接受错误”标签：编造政策、泄露内部、越权承诺、没证据装有证据。这比平均分重要。

阿宁

还有成本维度。同样 92 分，一个 0.8 元千次，一个 8 元千次，产品决策不一样。

小陈在改bug

代码模型评测要跑测试。光让模型解释算法，和能改你们的老项目，不是一回事。

普通网友A

评测集会不会过拟合？模型提示调几轮就专门会答这些题。

zeroOne

会，所以分开发集和隐藏集。开发集调提示，隐藏集只验收。线上失败再定期加入新集。

卡在第7步

我准备先做 200 条业务评测，公开榜单只当备注。每条记录输入、期望、错误等级、成本。

林小北

这就能讨论了。没有评测集，选模型基本是选信仰。

LocalAIHub 中文社区