PDF 解析出来标题层级全丢，RAG 怎么救？

Reply to PDF 解析出来标题层级全丢，RAG 怎么救？ on Sun, 03 May 2026 22:41:00 GMT

半截薯条 — Sun, 03 May 2026 22:41:00 GMT

更新：换 Docling 后标题好很多，表格还得单独处理，但至少不是一坨了。

nora — Sun, 03 May 2026 20:36:00 GMT

对，业务能读懂的中间件很重要。RAG 的输入先让人能审。

半截薯条 — Sun, 03 May 2026 17:54:00 GMT

我先把解析结果导出成 Markdown 给业务看，不直接进库。

林小北 — Sun, 03 May 2026 15:46:00 GMT

文档结构规则不是假 AI。假的是拿规则装智能问答。生产里解析需要规则和模型配合。

不想写周报 — Sun, 03 May 2026 14:20:00 GMT

这算硬规则吗？

半糖 — Sun, 03 May 2026 13:20:00 GMT

我们最后加了规则：连续短行、字号更大、前后空行，才当标题。不是纯 AI。

阿白 — Sun, 03 May 2026 12:05:00 GMT

能，但别盲信。中文制度里“一、”“（一）”“1.” 混用，解析器也会迷糊。

小树 — Sun, 03 May 2026 09:40:00 GMT

解析器能不能自动判断标题？

小路灯 — Sun, 03 May 2026 07:06:00 GMT

建议先做“解析质量验收”，不是直接入库。抽 20 页人工看标题、段落、表格、页码。

米饭 — Sun, 03 May 2026 06:31:00 GMT

还有跨页条款。PDF 视觉上是一条，文本抽出来在页尾断开。

林小北 — Sun, 03 May 2026 06:08:00 GMT

页眉页脚要清，不然每个 chunk 都带公司名和页码，embedding 会被污染。

小周 — Sun, 03 May 2026 05:48:00 GMT

我们之前用 pdfplumber 直接抽文本，速度快，但目录、页眉、表格全混进去了。

nora — Sun, 03 May 2026 04:14:00 GMT

Docling 可以试，尤其是需要保留结构时。Unstructured 的 partition 也可以按元素类型拆。

阿航 — Sun, 03 May 2026 03:59:00 GMT

这是解析问题，不是 RAG 问题。标题层级丢了，chunk 再怎么调都像在拆废纸。