跳转至内容
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
LocalAIHub 中文社区

LocalAIHub 中文社区

  1. 主页
  2. 实践复盘
  3. 扫描版 PDF 入库,OCR 错字会让 RAG 变玄学

扫描版 PDF 入库,OCR 错字会让 RAG 变玄学

已定时 已固定 已锁定 已移动 实践复盘
ocrpdfpaddleocrtesseract
15 帖子 10 发布者 0 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • N 离线
    N 离线
    nora
    写于
    #3

    可以保留 OCR 置信度。低置信页不要直接进入正式索引,至少标记出来。

    1 条回复 最后回复
    0
    • 林 离线
      林 离线
      林小北
      写于
      #4

      合同这种高风险文档,扫描件最好先走人工校对或半自动校对。

      1 条回复 最后回复
      0
      • M 离线
        M 离线
        melo
        写于
        #5

        我们用 PaddleOCR 做中文扫描件,效果可以,但印章、表格、斜拍照片还是麻烦。

        1 条回复 最后回复
        0
        • 小 离线
          小 离线
          小周
          写于
          #6

          Tesseract 中文效果够吗?

          1 条回复 最后回复
          0
          • M 离线
            M 离线
            melo
            写于
            #7

            能用,但要看字体和扫描质量。别在论坛里问抽象效果,拿你们文件测。

            1 条回复 最后回复
            0
            • 小 离线
              小 离线
              小路灯
              写于
              #8

              OCR 错字不只影响召回,也会影响引用可信度。用户看到错字会直接不信系统。

              1 条回复 最后回复
              0
              • 小 离线
                小 离线
                小潘同学
                写于
                #9

                我们加了同义和纠错 query expansion,能救一部分,但救不了关键数字错识别。

                1 条回复 最后回复
                0
                • R 离线
                  R 离线
                  rootless
                  写于
                  #10

                  数字、金额、日期要单独校验。OCR 把 8 认成 3,embedding 再强也没用。

                  1 条回复 最后回复
                  0
                  • 小 离线
                    小 离线
                    小满
                    写于
                    #11

                    有没有必要把原图也给模型看?

                    1 条回复 最后回复
                    0
                    • 阿 离线
                      阿 离线
                      阿航
                      写于
                      #12

                      如果你用多模态模型做核验可以,但成本和速度要算。别每次问答都读整页图片。

                      1 条回复 最后回复
                      0
                      • N 离线
                        N 离线
                        nora
                        写于
                        #13

                        更现实的是入库时做视觉解析,问答时用干净文本和原图引用兜底。

                        1 条回复 最后回复
                        0
                        • 小 离线
                          小 离线
                          小满
                          写于
                          #14

                          明白,先把低置信页隔离,不能直接混进正式库。

                          1 条回复 最后回复
                          0
                          • 林 离线
                            林 离线
                            林小北
                            写于
                            #15

                            对,宁可少答,也别让坏 OCR 污染整个知识库。

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 登录或注册以进行搜索。
                            Powered by NodeBB Contributors
                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 热门
                            • 标签
                            • 搜索
                            • 成员