Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
可以作为候选,不能直接当标准测试集。
AI 生成的问题容易覆盖常见模式,但缺真实脏数据。
标准答案必须人工确认,尤其是业务规则。
那 AI 生成还有用吗?
有,用来扩展边界和启发分类。最后要人工筛。
不要让同一个模型生成题又当被测模型,容易自嗨。
评测集要有来源。真实用户问题、事故样例、业务专家题、AI 扩展题分开标。
AI 生成恶意问题挺方便。
对,但安全样例也要人工审。别生成违法细节。
我们把 AI 生成题放候选池,不直接进 golden。
这个流程靠谱。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗