LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

PDF 表格该直接转 Markdown，还是单独建表？

AI 工程讨论

15 帖子 11 发布者 188 浏览 1 关注中

小离线
小离线
小高

写于

#3

Camelot 对规整表格不错，但扫描件和复杂合并单元格会翻车。
1 条回复最后回复

0
N 离线
N 离线
nora

写于

#4

PyMuPDF 也有表格提取能力，可以作为候选。关键是要人工验几类 PDF。
1 条回复最后回复

0
青离线
青离线
青菜

写于

#5

我们把表格转 Markdown 后，模型会把上一行的价格拿给下一行产品。
1 条回复最后回复

0
林离线
林离线
林小北

写于

#6

这类应该检索到表格后走计算或表格问答，不要让模型凭文本猜坐标。
1 条回复最后回复

0
R 离线
R 离线
rootless

写于

#7

至少给每行生成 row_id，引用时能回到“第几页第几行”，不然审计没法做。
1 条回复最后回复

0
阿离线
阿离线
阿航

写于

#8

如果表格是核心事实，建议另建结构化表，RAG 只负责找相关表和解释口径。
1 条回复最后回复

0
小离线
小离线
小树

写于

#9

那是不是知识库要连数据库？
1 条回复最后回复

0
M 离线
M 离线
MingK

写于

#10

是的，RAG 不等于所有东西都塞向量库。数字类事实经常更适合 SQL。
1 条回复最后回复

0
米离线
米离线
米饭

写于

#11

我们做过一个折中：表格摘要进向量，原始 CSV 进对象存储，回答时附表格片段。
1 条回复最后回复

0
小离线
小离线
小路灯

写于

#12

这个折中不错，但要防摘要漏列。价格、阈值、日期别只在摘要里。
1 条回复最后回复

0
小离线
小离线
小蓝

写于

#13

我先把报价表拆成结构化 CSV，再让 RAG 引用 CSV 行，不直接让模型读 PDF 表。
1 条回复最后回复

0
N 离线
N 离线
nora

写于

#14

对。PDF 是交付格式，不一定是知识库最佳原始格式。
1 条回复最后回复

0
林离线
林离线
林小北

写于

#15

这句话可以贴墙上。拿 PDF 当唯一事实源，后面会一直补洞。
1 条回复最后回复

0

你好！看起来您对这段对话很感兴趣，但您还没有一个账号。

厌倦了每次访问都刷到同样的帖子？您注册账号后，您每次返回时都能精准定位到您上次浏览的位置，并可选择接收新回复通知（通过邮件或推送通知）。您还能收藏书签、为帖子顶，向社区成员表达您的欣赏。

有了你的建议，这篇帖子会更精彩哦 💗