Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
Weaviate 的 hybrid 搜索文档也值得参考,思路是结合稀疏和稠密分数。
我们加 BM25 后,常见问题变好,口语化问题变差。后来按 query 类型切。
对。用户输入有编号、法规条款、接口名时提高关键词权重;自然语言问题走向量为主。
query 类型用模型判断吗?
先简单规则就够,包含大量大写、数字、点号、下划线,就很可能需要关键词。
规则是工程判断,不是假 AI。别为了“智能”把确定性信号丢掉。
还要做归一化。中文全角半角、大小写、连字符,BM25 很吃这些。
我们失败样例大多是缩写。HRBP、OKR、SOP,向量能懂一点,但关键词更稳。
我先给编号类问题加 hybrid,不全局打开。
记得看重复结果。BM25 和向量都命中同一块时,融合要去重。
混合检索不是黑洞,没测试集才是黑洞。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗