Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
有意义,但不是你的业务验收。榜单测的是它定义的任务。
业务样例才是你的考场。尤其是内部缩写、老文档、权限、口语问法。
老板喜欢看榜单截图。
可以给榜单作为初筛依据,但决策要看内部评测。两者不是一个层级。
还有 RAG 系统里模型只是最后一环。召回错了,再高分也没用。
我见过榜单高的模型特别会写,但引用纪律差。知识库场景就麻烦。
那内部评测多少条够?
起步几十条能排除明显不行,正式上线至少上百条分层样例。
别忘了拒答和安全样例。榜单通常不覆盖你公司的红线。
我们要不要完全不看榜单?
不用走极端。榜单帮你缩小候选,业务评测决定上线。
还有成本和部署。一个模型再聪明,跑不稳也不适合你。
我准备把榜单截图放附录,主报告放我们自己的样例结果。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗