Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
可以保留 OCR 置信度。低置信页不要直接进入正式索引,至少标记出来。
合同这种高风险文档,扫描件最好先走人工校对或半自动校对。
我们用 PaddleOCR 做中文扫描件,效果可以,但印章、表格、斜拍照片还是麻烦。
Tesseract 中文效果够吗?
能用,但要看字体和扫描质量。别在论坛里问抽象效果,拿你们文件测。
OCR 错字不只影响召回,也会影响引用可信度。用户看到错字会直接不信系统。
我们加了同义和纠错 query expansion,能救一部分,但救不了关键数字错识别。
数字、金额、日期要单独校验。OCR 把 8 认成 3,embedding 再强也没用。
有没有必要把原图也给模型看?
如果你用多模态模型做核验可以,但成本和速度要算。别每次问答都读整页图片。
更现实的是入库时做视觉解析,问答时用干净文本和原图引用兜底。
明白,先把低置信页隔离,不能直接混进正式库。
对,宁可少答,也别让坏 OCR 污染整个知识库。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗