Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
有人给每个 chunk 生成摘要再 embedding 吗?感觉能提升召回。
可以,但要小心摘要丢细节。用户问具体数字、条件,摘要可能反而误导。
我更喜欢标题链 + 原文 embedding。摘要适合文档级路由,不一定适合 chunk 级事实。
我们试过摘要 embedding,召回解释类问题变好,精确条款变差。
摘要还有成本。每次文档更新都要重新生成,失败了还会污染索引。
文档级 summary index 可以用来先找文档,再进文档内 chunk 检索。
这就像两阶段。先找哪份文档,再找哪段证据。
摘要是模型生成的,会不会编?
会。所以摘要要可追溯,最好只作辅助,不作最终引用。
别把生成摘要当事实源。事实源还是原文。
我们把摘要放 metadata 展示给用户,后来发现摘要错一句,用户直接复制去用了。
展示给用户的摘要比内部检索摘要风险更高,要标清来自哪里并能核对。
那我先只做 doc summary 路由,不进最终答案引用。
这个边界好。辅助检索可以,替代原文不行。
再补一句:摘要生成 prompt 也要版本化,不然回归时说不清。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗