PDF 解析出来标题层级全丢，RAG 怎么救？

nora

Docling 可以试，尤其是需要保留结构时。Unstructured 的 partition 也可以按元素类型拆。

小周

我们之前用 pdfplumber 直接抽文本，速度快，但目录、页眉、表格全混进去了。

林小北

页眉页脚要清，不然每个 chunk 都带公司名和页码，embedding 会被污染。

米饭

还有跨页条款。PDF 视觉上是一条，文本抽出来在页尾断开。

小路灯

建议先做“解析质量验收”，不是直接入库。抽 20 页人工看标题、段落、表格、页码。

小树

解析器能不能自动判断标题？

阿白

能，但别盲信。中文制度里“一、”“（一）”“1.” 混用，解析器也会迷糊。

半糖

我们最后加了规则：连续短行、字号更大、前后空行，才当标题。不是纯 AI。

不想写周报

这算硬规则吗？

林小北

文档结构规则不是假 AI。假的是拿规则装智能问答。生产里解析需要规则和模型配合。

半截薯条

我先把解析结果导出成 Markdown 给业务看，不直接进库。

nora

对，业务能读懂的中间件很重要。RAG 的输入先让人能审。

半截薯条

更新：换 Docling 后标题好很多，表格还得单独处理，但至少不是一坨了。

LocalAIHub 中文社区