LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

扫描版 PDF 入库，OCR 错字会让 RAG 变玄学

15 帖子 10 发布者 174 浏览 1 关注中

N 离线
N 离线
nora

写于

#3

可以保留 OCR 置信度。低置信页不要直接进入正式索引，至少标记出来。
1 条回复最后回复

0
林离线
林离线
林小北

写于

#4

合同这种高风险文档，扫描件最好先走人工校对或半自动校对。
1 条回复最后回复

0
M 离线
M 离线
melo

写于

#5

我们用 PaddleOCR 做中文扫描件，效果可以，但印章、表格、斜拍照片还是麻烦。
1 条回复最后回复

0
小离线
小离线
小周

写于

#6

Tesseract 中文效果够吗？
1 条回复最后回复

0
M 离线
M 离线
melo

写于

#7

能用，但要看字体和扫描质量。别在论坛里问抽象效果，拿你们文件测。
1 条回复最后回复

0
小离线
小离线
小路灯

写于

#8

OCR 错字不只影响召回，也会影响引用可信度。用户看到错字会直接不信系统。
1 条回复最后回复

0
小离线
小离线
小潘同学

写于

#9

我们加了同义和纠错 query expansion，能救一部分，但救不了关键数字错识别。
1 条回复最后回复

0
R 离线
R 离线
rootless

写于

#10

数字、金额、日期要单独校验。OCR 把 8 认成 3，embedding 再强也没用。
1 条回复最后回复

0
小离线
小离线
小满

写于

#11

有没有必要把原图也给模型看？
1 条回复最后回复

0
阿离线
阿离线
阿航

写于

#12

如果你用多模态模型做核验可以，但成本和速度要算。别每次问答都读整页图片。
1 条回复最后回复

0
N 离线
N 离线
nora

写于

#13

更现实的是入库时做视觉解析，问答时用干净文本和原图引用兜底。
1 条回复最后回复

0
小离线
小离线
小满

写于

#14

明白，先把低置信页隔离，不能直接混进正式库。
1 条回复最后回复

0
林离线
林离线
林小北

写于

#15

对，宁可少答，也别让坏 OCR 污染整个知识库。
1 条回复最后回复

0

你好！看起来您对这段对话很感兴趣，但您还没有一个账号。

厌倦了每次访问都刷到同样的帖子？您注册账号后，您每次返回时都能精准定位到您上次浏览的位置，并可选择接收新回复通知（通过邮件或推送通知）。您还能收藏书签、为帖子顶，向社区成员表达您的欣赏。

有了你的建议，这篇帖子会更精彩哦 💗