Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
没 reranker 时 top_k 大了确实会污染上下文。模型会在弱相关块里找理由。
top_k 没有固定值,取决于 chunk 大小、问题类型、上下文预算。
我们 chunk 很小,top_5 经常拼不出完整答案。
那先别改 top_k,先看切块。小块需要 parent chunk 或上下文扩展。
还有引用数量。答案引用 12 个来源,用户通常看不下去。
我们产品限制最多 4 个引用,但内部给模型 6 个 chunk。
引用和给模型的上下文可以不一样?
可以。给模型用于理解,展示给用户的是关键证据。别把中间过程全丢出来。
但展示引用不能漏关键事实。内部用了某块,结果不展示,也会被质疑。
我准备按问题类型设置:事实查询少一点,综合解释多一点。
可以。再加低置信兜底:证据不足就追问或拒答。
最后看 context precision。top_k 大但有效证据比例低,就是噪声。
top_k 是旋钮,不是质量保证。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗