Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
长上下文场景可以参考 LongBench 的思路,但别直接拿分数当结论。你要测“答案能不能引用正确段落”。
评分用人工还是模型当裁判?
先人工定标准,再模型辅助。模型裁判也会偏爱某种文风,尤其中文礼貌话多时容易给高分。
我们加了“不可接受错误”标签:编造政策、泄露内部、越权承诺、没证据装有证据。这比平均分重要。
还有成本维度。同样 92 分,一个 0.8 元千次,一个 8 元千次,产品决策不一样。
代码模型评测要跑测试。光让模型解释算法,和能改你们的老项目,不是一回事。
评测集会不会过拟合?模型提示调几轮就专门会答这些题。
会,所以分开发集和隐藏集。开发集调提示,隐藏集只验收。线上失败再定期加入新集。
我准备先做 200 条业务评测,公开榜单只当备注。每条记录输入、期望、错误等级、成本。
这就能讨论了。没有评测集,选模型基本是选信仰。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗