Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
overlap 开太大还有副作用,top_k 里全是同一段的近邻,rerank 前就挤掉别的证据了。
可以先做一个小测试集。不要看向量库返回分数,看“答案需要的证据是否同时回来”。
我这边是按标题先切,再用长度兜底。标题断了就不切,宁愿块大一点。
有人试过 parent-child chunk 吗?小块召回,大块喂模型。
试过,适合文档结构稳定的场景。坏处是引用要处理好,不然引用显示大块,用户找不到原句。
我补个反例。客服知识库短问答,如果块太大,模型会把相邻问题混在一起答。
所以切块不是全局参数,是文档类型参数。制度、FAQ、表格说明、会议纪要要分开策略。
我们现在所有文档一套策略,怪不得。明天我按文档类型拆一版测试。
隔天补:制度块调到 800-1200 字,FAQ 还是 300-500 字,误答少了。不是最终方案,但方向对。
这个结果可以沉淀。记得把“块命中但答案缺证据”的样例也留着,后面调 rerank 用得上。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗