评测基准分数高，为什么业务样例还是翻车

Reply to 评测基准分数高，为什么业务样例还是翻车 on Tue, 12 May 2026 09:49:00 GMT

阿远 — Tue, 12 May 2026 09:49:00 GMT

我准备把榜单截图放附录，主报告放我们自己的样例结果。

阿航 — Tue, 12 May 2026 09:34:00 GMT

还有成本和部署。一个模型再聪明，跑不稳也不适合你。

陈一 — Tue, 12 May 2026 08:12:00 GMT

不用走极端。榜单帮你缩小候选，业务评测决定上线。

小蓝 — Tue, 12 May 2026 07:59:00 GMT

我们要不要完全不看榜单？

nora — Tue, 12 May 2026 06:47:00 GMT

别忘了拒答和安全样例。榜单通常不覆盖你公司的红线。

林小北 — Tue, 12 May 2026 03:53:00 GMT

起步几十条能排除明显不行，正式上线至少上百条分层样例。

普通网友A — Tue, 12 May 2026 03:44:00 GMT

那内部评测多少条够？

半截薯条 — Tue, 12 May 2026 02:27:00 GMT

我见过榜单高的模型特别会写，但引用纪律差。知识库场景就麻烦。

小吴 — Mon, 11 May 2026 23:59:00 GMT

还有 RAG 系统里模型只是最后一环。召回错了，再高分也没用。

Grace — Mon, 11 May 2026 23:00:00 GMT

可以给榜单作为初筛依据，但决策要看内部评测。两者不是一个层级。

阿远 — Mon, 11 May 2026 20:00:00 GMT

老板喜欢看榜单截图。

melo — Mon, 11 May 2026 16:57:00 GMT

业务样例才是你的考场。尤其是内部缩写、老文档、权限、口语问法。

陈一 — Mon, 11 May 2026 15:27:00 GMT

有意义，但不是你的业务验收。榜单测的是它定义的任务。