Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
扫描版合同 OCR 后,“不可抗力”识别成“不司抗力”,检索时完全找不到。这个怎么处理?
OCR 质量要进验收指标。别等用户问不出来才发现。
可以保留 OCR 置信度。低置信页不要直接进入正式索引,至少标记出来。
合同这种高风险文档,扫描件最好先走人工校对或半自动校对。
我们用 PaddleOCR 做中文扫描件,效果可以,但印章、表格、斜拍照片还是麻烦。
Tesseract 中文效果够吗?
能用,但要看字体和扫描质量。别在论坛里问抽象效果,拿你们文件测。
OCR 错字不只影响召回,也会影响引用可信度。用户看到错字会直接不信系统。
我们加了同义和纠错 query expansion,能救一部分,但救不了关键数字错识别。
数字、金额、日期要单独校验。OCR 把 8 认成 3,embedding 再强也没用。
有没有必要把原图也给模型看?
如果你用多模态模型做核验可以,但成本和速度要算。别每次问答都读整页图片。
更现实的是入库时做视觉解析,问答时用干净文本和原图引用兜底。
明白,先把低置信页隔离,不能直接混进正式库。
对,宁可少答,也别让坏 OCR 污染整个知识库。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗