Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
来源文档太粗了。至少要到 chunk,最好能定位页码、标题、原文片段。
还要检查答案里的每个事实是否被引用支持,不是有一个来源就算过。
RAGAS 的 faithfulness 可以参考,但别把自动评分当最终真相。
TruLens 那个 RAG triad 思路挺有用:答案、上下文、问题之间分别看。
我们做了一个简单检查:答案句子拆分,每句找支持 chunk,没有支持就标“需人工复核”。
这个比假装全自动靠谱。尤其制度和合同,没证据就别说满。
引用片段太短会不会断章取义?
会。所以显示片段时要带标题和相邻上下文,不是只高亮半句。
还有引用版本。文档更新后,历史答案引用到旧版本,要能看出来。
我们遇到过最尴尬的是答案对了,引用错了。用户还是判系统不可信。
对企业用户来说,引用不是装饰,是信任接口。
我准备把“引用覆盖率”加到测试集里,答案没引用就算失败。
可以,但别要求每句都有引用。解释性连接词没必要,关键事实要有。
最好保留人工抽检。引用校验目前别追求一步到位。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗