LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

模型评测不要只看准确率

AI 工程讨论

16 帖子 11 发布者 234 浏览 1 关注中

陈离线
陈离线
陈一

写于

#2

对。准确率只适合一部分任务。问答、摘要、代码、客服，要拆指标。
1 条回复最后回复

0
G 离线
G 离线
Grace

写于

#3

我常用：事实正确、引用正确、遗漏、格式、语气、拒答、成本、延迟、可恢复性。
1 条回复最后回复

0
普离线
普离线
普通网友A

写于

#4

可恢复性是什么？
1 条回复最后回复

0
林离线
林离线
林小北

写于

#5

用户纠正它以后能不能改回来。很多模型第一轮错了，后面还坚持错。
1 条回复最后回复

0
半离线
半离线
半截薯条

写于

#6

还有“坏答案危害”。同样错一句，闲聊错和财务制度错不是一个级别。
1 条回复最后回复

0
M 离线
M 离线
melo

写于

#7

所以要加权。高风险样例权重大，不然平均分会掩盖事故。
1 条回复最后回复

0
小离线
小离线
小吴

写于

#8

我们有模型 A 平均分高，但在拒答题上很差。
1 条回复最后回复

0
N 离线
N 离线
nora

写于

#9

那不一定能上线。企业场景里“不该答时不答”很重要。
1 条回复最后回复

0
阿离线
阿离线
阿航

写于

#10

代码能力也不能只看生成结果。能不能解释测试失败、遵守项目约束、少改无关文件，都要看。
1 条回复最后回复

0
小离线
小离线
小蓝

写于

#11

人工判分成本太高。
1 条回复最后回复

0
G 离线
G 离线
Grace

写于

#12

可以模型裁判加人工抽查，但裁判标准要固定。不能今天喜欢短，明天喜欢详细。
1 条回复最后回复

0
陈离线
陈离线
陈一

写于

#13

评测报告还要带失败样例。只有分数没有样例，没人知道该改什么。
1 条回复最后回复

0
小离线
小离线
小潘同学

写于

#14

benchmark 要不要参考？
1 条回复最后回复

0
M 离线
M 离线
melo

写于

#15

参考，但不要替代本地评测。公开 benchmark 测的是公共任务，你上线的是自己的坑。
1 条回复最后回复

0
小离线
小离线
小蓝

写于

#16

我们先把评测表从一个分数拆成多维。
1 条回复最后回复

0

你好！看起来您对这段对话很感兴趣，但您还没有一个账号。

厌倦了每次访问都刷到同样的帖子？您注册账号后，您每次返回时都能精准定位到您上次浏览的位置，并可选择接收新回复通知（通过邮件或推送通知）。您还能收藏书签、为帖子顶，向社区成员表达您的欣赏。

有了你的建议，这篇帖子会更精彩哦 💗