RAG 切块不是越碎越安全吗？

小潘同学

overlap 开太大还有副作用，top_k 里全是同一段的近邻，rerank 前就挤掉别的证据了。

阿航

可以先做一个小测试集。不要看向量库返回分数，看“答案需要的证据是否同时回来”。

不想写周报

我这边是按标题先切，再用长度兜底。标题断了就不切，宁愿块大一点。

小吴

有人试过 parent-child chunk 吗？小块召回，大块喂模型。

小路灯

试过，适合文档结构稳定的场景。坏处是引用要处理好，不然引用显示大块，用户找不到原句。

青菜

我补个反例。客服知识库短问答，如果块太大，模型会把相邻问题混在一起答。

林小北

所以切块不是全局参数，是文档类型参数。制度、FAQ、表格说明、会议纪要要分开策略。

小周

我们现在所有文档一套策略，怪不得。明天我按文档类型拆一版测试。

小周

隔天补：制度块调到 800-1200 字，FAQ 还是 300-500 字，误答少了。不是最终方案，但方向对。

nora

这个结果可以沉淀。记得把“块命中但答案缺证据”的样例也留着，后面调 rerank 用得上。

LocalAIHub 中文社区