Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
Docling 可以试,尤其是需要保留结构时。Unstructured 的 partition 也可以按元素类型拆。
我们之前用 pdfplumber 直接抽文本,速度快,但目录、页眉、表格全混进去了。
页眉页脚要清,不然每个 chunk 都带公司名和页码,embedding 会被污染。
还有跨页条款。PDF 视觉上是一条,文本抽出来在页尾断开。
建议先做“解析质量验收”,不是直接入库。抽 20 页人工看标题、段落、表格、页码。
解析器能不能自动判断标题?
能,但别盲信。中文制度里“一、”“(一)”“1.” 混用,解析器也会迷糊。
我们最后加了规则:连续短行、字号更大、前后空行,才当标题。不是纯 AI。
这算硬规则吗?
文档结构规则不是假 AI。假的是拿规则装智能问答。生产里解析需要规则和模型配合。
我先把解析结果导出成 Markdown 给业务看,不直接进库。
对,业务能读懂的中间件很重要。RAG 的输入先让人能审。
更新:换 Docling 后标题好很多,表格还得单独处理,但至少不是一坨了。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗