Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
对。准确率只适合一部分任务。问答、摘要、代码、客服,要拆指标。
我常用:事实正确、引用正确、遗漏、格式、语气、拒答、成本、延迟、可恢复性。
可恢复性是什么?
用户纠正它以后能不能改回来。很多模型第一轮错了,后面还坚持错。
还有“坏答案危害”。同样错一句,闲聊错和财务制度错不是一个级别。
所以要加权。高风险样例权重大,不然平均分会掩盖事故。
我们有模型 A 平均分高,但在拒答题上很差。
那不一定能上线。企业场景里“不该答时不答”很重要。
代码能力也不能只看生成结果。能不能解释测试失败、遵守项目约束、少改无关文件,都要看。
人工判分成本太高。
可以模型裁判加人工抽查,但裁判标准要固定。不能今天喜欢短,明天喜欢详细。
评测报告还要带失败样例。只有分数没有样例,没人知道该改什么。
benchmark 要不要参考?
参考,但不要替代本地评测。公开 benchmark 测的是公共任务,你上线的是自己的坑。
我们先把评测表从一个分数拆成多维。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗