跳转至内容
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
LocalAIHub 中文社区

LocalAIHub 中文社区

  1. 主页
  2. AI 工程讨论
  3. 多模态AI落地难在哪里:OCR、图像、视频和业务数据

多模态AI落地难在哪里:OCR、图像、视频和业务数据

已定时 已固定 已锁定 已移动 AI 工程讨论
localai
1 帖子 1 发布者 1 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A 离线
    A 离线
    admin
    编写于 最后由 admin 编辑
    #1

    很多团队第一次做多模态 AI,都会被演示效果打动:上传一张图片,模型能描述内容;给一段视频,模型能总结情节;把发票、合同、报表截图丢进去,模型能读出文字;再接上知识库和业务系统,看起来就能形成“会看、会读、会分析”的智能助手。演示没错,多模态模型的能力确实比几年前强很多。但从演示到真实落地,中间差的不是一个上传按钮,而是一整套数据、流程、质量、权限和评测工程。

    多模态 AI 难点不只在模型。OCR 识别一个字错了,财务金额就可能错;图片里一个细节看漏了,质检结论就可能错;视频抽帧太稀,关键动作就会丢;业务字段没有口径,模型总结得再流畅也不能进系统;引用不可追溯,用户就不知道结果从哪来;评测只看几个漂亮案例,真正上线后就会被长尾样本打穿。多模态落地的本质,是让模型理解非结构化资料,同时把它们变成可验证、可追溯、可复盘的业务证据。

    这篇按社区实践帖的方式聊多模态 AI 落地难在哪里。重点不讨论“模型能不能看图”这种单点能力,而是拆开 OCR、图像、视频、业务数据、引用、评测、权限和复盘。读者可以把它当作一次上线前检查:如果系统只是能识别几张样例图,还不能稳定处理真实扫描件、现场照片、长视频、表格截图和业务口径,那它距离生产级应用还有不少工作。

    一、演示容易,落地难在真实数据

    多模态 AI 演示通常使用干净样本:图片清晰、主体居中、文字无遮挡、视频剪辑短、问题明确、业务上下文简单。真实场景不是这样。用户上传的可能是倾斜拍摄的发票、低光环境下的设备照片、压缩严重的聊天截图、屏幕反光的仪表盘、长达几十分钟的培训视频、多人混说的会议录音、被水印遮挡的合同扫描件、混合中英文和手写批注的表格。

    这些样本对人来说也许还能看懂,对模型来说会带来层层误差。OCR 先把图像转成文字,版面分析再还原段落和表格,图像理解模型再判断物体、场景和关系,视频系统再处理时间顺序、动作和声音。每个环节都有失败概率。只要其中一个环节出错,最终回答就可能偏离事实。

    真实数据还带有业务噪声。同样是“收据”,不同门店格式不一样;同样是“设备异常”,不同车间拍照角度不同;同样是“客户聊天截图”,不同平台 UI 和表情符号不同;同样是“培训视频”,讲师可能跳页、口误、临时补充、屏幕切换。多模态系统不能只记住一种模板,否则刚上线就会被实际数据打散。

    落地难还在于结果要进入业务流程。演示里模型说“这张图里有一张发票”已经很惊艳;业务系统里需要的是发票代码、号码、日期、金额、税额、购买方、销售方、币种、异常原因、字段置信度、原图位置和人工复核状态。演示里模型总结视频“讲了安全规范”可以;培训系统里要知道哪些章节对应哪些考点,哪些员工看完了哪些片段,模型引用的是哪一分钟。

    因此,多模态 AI 的第一道分水岭,是团队有没有把“模型能看懂”转成“业务能采信”。采信需要证据、字段、置信度、引用、复核和异常处理。没有这些,模型回答再自然,也只能停留在辅助观察层。

    二、OCR 的难点不是识字,而是还原业务文档

    OCR 经常被误解为“把图片里的字读出来”。真实落地中,识字只是第一步。业务文档通常有版面、表格、章、签名、页眉页脚、勾选框、印章、水印、手写批注、二维码、条形码、金额格式和字段关系。系统要做的不是生成一段无结构文字,而是把文档还原成可用的业务信息。

    以发票和报销单为例,OCR 输出的文字必须关联位置和字段。金额不能只出现一个数字,要判断它是价税合计、税额、单价还是数量;日期不能只识别为一串字符,要确认它是开票日期、报销日期还是付款日期;公司名称要区分购买方和销售方;一张票据上可能有多个金额,模型必须知道哪个字段进入财务系统。仅仅把整张图转成文本,再让大模型猜字段,风险很高。

    表格 OCR 更难。很多文档的核心信息在表格里,而表格不是普通文本。系统要识别行列、表头、合并单元格、跨页延续、脚注和单位。扫描件倾斜、边框断裂、低分辨率、手写涂改都会破坏结构。若模型把表头和数据错配,后续所有分析都会错。比如“数量 10、单价 300、金额 3000”只要列错位,就会变成完全不同的业务事实。

    中文 OCR 还有字体和场景问题。印刷体、手写体、繁体字、异体字、竖排文字、盖章遮挡、低清扫描、拍照阴影、身份证件反光、快递面单折痕、聊天截图压缩,都会降低识别质量。PaddleOCR、Tesseract、EasyOCR 等项目都能处理很多场景,但没有任何一个 OCR 引擎能保证所有业务样本零错误。生产系统要假设 OCR 会错,并设计复核机制。

    OCR 输出要保留证据。每个字段最好带原图坐标、页码、置信度和来源文本。用户看到识别结果时,可以点击字段回到原图位置。财务、法务、客服和质检场景都需要这种可追溯性。否则当模型提取出一个金额或结论时,审核人无法快速判断它来自哪里。

    OCR 还需要后处理。常见后处理包括版面排序、字段正则校验、金额大小写校验、身份证号校验、税号校验、日期格式归一、币种识别、重复页去重、模糊字段人工确认、低置信度标记和业务规则校验。后处理不是硬规则假智能,而是把模型输出放回业务约束里检查。模型负责理解,系统负责让结果可用。

    三、图像理解难在细节、关系和责任边界

    图像模型能描述画面内容,但业务落地通常需要更细的问题。质检不是问“图片里有什么”,而是问“这个零件是否有裂纹,裂纹是否超过标准,是否需要返修”;零售不是问“货架上有饮料”,而是问“某品牌是否缺货,价格牌是否匹配,陈列是否符合规范”;医疗辅助不是问“这是一张影像”,而是要在严格合规和专业审查下识别异常线索。业务问题越具体,对图像细节、标准和证据要求越高。

    图像理解的第一个难点是分辨率和裁剪。很多平台会压缩图片,模型看到的版本可能不是原图。细小文字、裂纹、序列号、仪表刻度、条形码和远处物体会在压缩后丢失。用户上传一张整机照片,真正需要判断的是角落里的铭牌;上传一张监控截图,关键动作可能只占几十个像素。系统需要在必要时做裁剪、放大、局部检测和多尺度分析,而不是把整图一次性丢给模型。

    第二个难点是对象关系。很多业务判断不是单个物体分类,而是关系判断:安全帽是否戴在人的头上,货物是否挡住消防通道,标签是否贴在正确包装上,签名是否在指定区域,缺陷是否位于关键部件,仪表读数是否超过阈值。通用图像描述往往会给出大概场景,但业务需要结构化关系和位置证据。

    第三个难点是标准化。质检、巡检、陈列、施工、票据、证件都有自己的判定标准。模型如果没有读取业务标准,就只能凭常识回答。比如“是否摆放整齐”在不同门店标准不同,“是否佩戴防护装备”在不同工种要求不同,“图片是否合格”在不同审核任务里标准也不同。生产系统应把标准文档、样例库和判定规则纳入检索,让图像模型的判断有依据。

    第四个难点是模型自信。多模态模型经常会用自然语言给出看似确定的描述,但它可能看错、漏看或把常识补进画面。业务系统不应把所有图像回答都当成事实写入。更稳的做法是把结论分级:明确可见、疑似可见、不可判断、需要补拍、需要人工复核。对高风险任务,模型只能提供候选结论和证据,不应独自作最终决定。

    图像落地还要处理隐私和权限。照片里可能包含人脸、车牌、地址、证件号、客户姓名、电脑屏幕、合同内容和工厂设备。上传、存储、标注、调用模型和生成报告都涉及数据治理。系统要做脱敏、权限控制、保留期限和审计,不能把“图片只是附件”当成低风险。

    四、视频理解难在时间维度

    视频比图片难,因为它不仅有画面,还有时间。一个动作是否发生、什么时候发生、持续多久、前后因果是什么,都是时间问题。模型看单帧只能知道某一刻画面,看短片段也可能错过关键瞬间。真实视频往往很长,直接把全部内容送给模型成本高、延迟高,还可能超过上下文限制。

    视频落地通常需要抽帧、分段、转写和索引。抽帧太稀,关键动作会漏;抽帧太密,成本和噪声增加。分段太短,上下文不够;分段太长,定位不准。语音转写可以补充画面信息,但会议、培训和监控视频里常有噪声、多人说话、背景音乐、口音和专业术语。系统需要把画面、字幕、语音、时间戳和业务事件对齐。

    以培训视频为例,用户不只是要一个摘要,还要章节目录、知识点、考题、关键定义、讲师补充、屏幕文字和时间戳引用。模型说“本视频介绍了安全流程”不够,应该能定位到“第 08:32 到 10:15 讲进入车间前的防护检查”,并把相关画面或字幕作为引用。没有时间戳,用户无法验证,也无法跳转复看。

    以监控和巡检视频为例,难点是关键事件少而长尾多。大部分时间没有异常,真正有价值的是几秒钟动作。系统要做事件检测、候选片段截取、目标跟踪和人工复核。若对整段视频平均抽帧,异常可能被稀释;若只依赖模型摘要,模型可能把没有发生的动作补出来。更稳的架构是先用轻量模型或规则发现候选事件,再用多模态模型解释和生成报告。

    视频还涉及多模态冲突。画面里显示的文字可能和讲师口述不一致,字幕可能有错,用户提问可能只关心某个业务对象。系统要能区分来源:这是 OCR 自屏幕文字,还是 ASR 转写,还是视觉模型描述,还是业务系统已有记录。不同来源可信度不同,冲突时要提示用户,而不是合成一个看似顺畅的答案。

    视频处理的成本也很现实。长视频抽帧、转写、嵌入、存储和检索都会消耗资源。生产系统应设计分层处理:上传后先生成基础索引和摘要;用户提问时按时间段和主题召回片段;必要时再对局部片段做高质量模型分析。不要对每个视频默认跑最贵的全量理解流程。

    五、业务数据不是附件,而是判断依据

    多模态 AI 最容易失败的地方,是只看图片和视频,不看业务数据。真实业务判断往往需要把非结构化资料和结构化数据结合。发票识别要结合供应商档案、订单、合同和付款记录;设备照片要结合设备台账、维修记录和传感器数据;客服截图要结合客户等级、历史工单和售后政策;货架照片要结合门店、SKU、价格和活动规则。

    模型看到一张发票,能读出金额;但它不知道这笔金额是否超过合同预算,供应商是否在白名单,税号是否匹配,订单是否已验收,是否重复报销。模型看到一张设备异常照片,能描述“有漏液痕迹”;但它不知道该设备上次维修时间、当前工况、是否刚做过清洗、报警是否同时触发。多模态理解只有接上业务数据,才能变成业务判断。

    业务数据的难点在口径。不同系统里的客户名、门店名、设备号、订单号、商品编码可能不一致;同一个字段在不同部门含义不同;历史数据有缺失、重复、错误和未同步。模型可以帮忙做匹配和解释,但不能替代主数据治理。若基础数据混乱,多模态 AI 会把混乱包装成流畅结论。

    业务数据还要有时效性。图片拍摄时间、视频录制时间、文档版本、订单状态和政策版本必须对齐。比如客户截图发生在旧政策生效期间,但模型检索了新政策;设备照片拍于维修前,但系统拿了维修后的状态;培训视频是去年版本,但回答引用了今年制度。没有时间维度,结论可能在语义上正确、业务上错误。

    多模态系统要建立证据拼接能力。一个结论最好能说清楚:图片里看到了什么,OCR 提取了哪些字段,业务系统返回了哪些记录,知识库提供了哪条规则,最终判断依据是什么。对用户来说,这不是内部实现说明,而是可信业务证据。没有证据链,AI 只能作为参考,不能进入流程。

    六、引用和可追溯是多模态落地底线

    文本知识库讲引用,多模态场景更需要引用。因为用户很难从一段自然语言回答中判断模型到底看到了什么。OCR 字段要能回到原图坐标;图片结论要能指出区域;视频摘要要能跳到时间戳;业务判断要能引用订单、合同、政策或台账。引用不是文末装饰,而是审核和复盘入口。

    OCR 引用可以做到字段级。比如发票金额字段旁边显示来源页码、坐标框和置信度;合同条款提取结果可以点击回到原文页和段落;表格单元格可以定位到行列。用户发现错误时,能直接修改字段并留下复核记录。这样系统才能从“自动识别”变成“可审业务流程”。

    图像引用可以做到区域级。模型判断“安全帽未佩戴”,应能标出涉及人员区域;判断“货架缺货”,应能标出货架和 SKU 区域;判断“铭牌不清晰”,应能提示需要补拍局部。并不是每个通用多模态模型都会直接输出可靠框,但产品设计上要尽量让证据可见,必要时结合检测模型、OCR 坐标和人工标注。

    视频引用可以做到时间段级。摘要、问答、异常报告和培训知识点,都应带开始和结束时间。用户点击后能跳到对应片段。对长视频,时间戳引用比长篇摘要更重要。因为用户真正需要的是快速定位证据,而不是相信模型“看过了”。

    业务引用要做到记录级。模型判断“该客户符合退款条件”,应引用客户订单、合同条款、售后政策和审批记录。若某条业务记录后来变化,系统要能知道哪些 AI 结论可能受影响。否则多模态 AI 会在流程里留下无法追溯的判断。

    可追溯也服务评测。没有引用,就无法判断错因:是 OCR 错、视觉理解错、视频抽帧漏、业务数据错、检索错,还是生成模型总结错。生产复盘不能只说“模型答错了”,要能定位到链路环节。

    七、评测不能只看模型回答

    多模态 AI 评测比文本问答更复杂,因为链路更长。一个最终错误可能来自图像质量、OCR、版面分析、ASR、抽帧、目标检测、embedding、检索、业务字段映射、规则引用或生成模型。只看最终回答对不对,不能指导改进。评测要拆层。

    OCR 评测要看字符准确率、字段准确率、表格结构准确率、关键字段召回、低置信度识别、人工修正率和业务规则通过率。很多 OCR 系统整体文字准确率很高,但关键字段错误就会造成严重问题。财务、法务和证件场景应优先评关键字段,而不是平均字符。

    图像评测要看任务级指标。分类任务看准确率、召回率和误报;检测任务看区域定位和漏检;质检任务看缺陷等级一致性;审核任务看拒绝、通过和人工复核分流是否合理。还要评不可判断样本。一个成熟系统应敢于说“图片不清晰,需要补拍”,而不是对所有图片硬给结论。

    视频评测要看时间定位。摘要是否覆盖关键事件,问答是否引用正确时间段,异常检测是否漏掉短事件,抽帧策略是否稳定,ASR 是否影响理解。对培训视频,还要评章节划分、知识点抽取、题目生成和时间戳准确性;对监控视频,要评事件召回和误报成本。

    业务评测要看流程结果。模型提取字段进入系统后,人工修改率是多少;模型建议是否被采纳;错误是否导致返工;处理时间是否下降;用户投诉是否减少;关键风险是否被提前发现。多模态 AI 的价值不是回答看起来聪明,而是业务结果变好。

    评测集要来自真实样本,不能只用供应商示例。每个场景至少要包含干净样本、模糊样本、遮挡样本、低光样本、错版模板、旧政策、跨语言、手写、异常值、无答案、权限不足和恶意输入。长尾样本决定系统上线后的稳定性。

    八、模型选择不是越强越好

    OpenAI、Google Gemini、Anthropic Claude 等多模态模型都在图像理解、文档理解和视频理解方向提供能力。强模型可以显著降低原型门槛,但生产选型不能只看单次演示效果。要看输入限制、图像尺寸、视频时长、文件类型、上下文长度、延迟、价格、数据处理条款、区域可用性、工具调用能力、结构化输出能力和失败模式。

    通用多模态模型适合复杂理解和跨场景推理。比如解释一张现场照片、总结一段培训视频、比较图文资料、从截图里提取操作流程、根据多份证据生成结论。专用模型适合稳定的子任务,例如 OCR、表格识别、目标检测、条码识别、人脸脱敏、ASR 和版面分析。生产架构通常是通用模型加专用模型,而不是二选一。

    强模型也不应该处理所有任务。批量 OCR、缩略图分类、重复图片去重、视频粗分段、低风险标签提取,可以用成本更低的模型或传统算法。高风险结论、复杂跨证据推理、异常复盘和面向客户的解释,再调用强模型。这样既能控制成本,也能把强模型用在最有价值的地方。

    模型供应商差异还体现在数据边界。某些场景允许使用外部 API,某些场景必须本地化或私有化,某些场景需要国内云或指定区域,某些场景涉及个人信息和合同资料,需要更严格的管理。选型时不能只问“哪个模型最准”,还要问“这些数据是否允许送出去,保留多久,日志谁能看,是否能删除,是否符合客户合同”。

    模型输出格式也很关键。多模态系统最好让模型输出结构化结果,例如字段、证据、置信度、时间戳、结论等级和复核建议。自由文本摘要适合阅读,但不适合直接进入流程。即使使用结构化输出,也要做 schema 校验和业务校验,不能因为模型返回了 JSON 就默认正确。

    九、数据管道比聊天界面更重要

    多模态 AI 落地常被前端聊天界面吸引,但真正决定质量的是数据管道。上传一张图片或视频后,系统要完成文件存储、格式识别、去重、病毒扫描、EXIF 和拍摄时间解析、压缩版本管理、OCR、版面分析、缩略图生成、转写、抽帧、embedding、索引、权限标注、引用坐标和任务状态管理。任何一个环节不稳定,前端体验都会受影响。

    文件存储要保留原件。很多系统为了省空间,只保存压缩图或转码视频,后续发现关键细节丢失。更稳的做法是保存原件、处理版本和展示版本,并记录处理参数。原件受权限和保留策略保护,展示版本用于快速预览,处理版本用于模型推理。这样既能控制成本,也能在复盘时回到真实来源。

    任务状态要透明。OCR、视频转写和索引不是瞬时完成的,尤其是长视频和批量文档。用户需要知道文件是否上传成功、是否解析中、是否可检索、是否有低置信度字段、是否需要复核。不要让用户提交后只能等待一个模糊结果。生产系统应支持异步任务、失败重试、局部重跑和人工接管。

    索引要分层。OCR 文本可以进入全文索引,图片向量可以进入向量库,视频片段可以按时间段索引,业务字段进入关系数据库,引用坐标进入证据表。不要把所有东西都塞进一个向量字段。多模态资料天然有多种检索方式,系统应按任务组合它们。

    权限标注要贯穿管道。文件上传时就要知道租户、空间、上传人、业务对象、密级和可见范围;解析出的文字、缩略图、帧图、embedding、摘要和导出结果都要继承或重新定义权限。不能让原件有权限,派生产物无权限。多模态管道会产生大量中间文件,这些中间文件同样可能含敏感信息。

    十、业务流程要有人机协同

    多模态 AI 最适合先做“辅助判断”,再逐步进入“受控执行”。一开始就追求全自动,很容易在长尾样本上出事故。更稳的流程是:模型提取和初判,系统给出证据和置信度,低风险高置信结果自动通过,高风险或低置信结果进入人工复核,复核结果回流到样本库和评测集。

    以报销审核为例,模型可以自动识别票据字段、比对订单、检查重复、提示异常和生成审核建议。高置信且规则明确的小额报销可以自动通过;金额异常、供应商不匹配、票据模糊、合同缺失或重复报销风险高的单据进入人工。审核人不需要重新看完整材料,只需要处理模型标出的异常和证据。

    以门店巡检为例,模型可以识别陈列、价格牌、缺货、卫生和安全隐患。清晰且标准明确的照片可以自动生成整改建议;画面模糊、角度不够、标准冲突或涉及处罚的结果进入人工。系统还可以要求用户补拍,而不是硬判失败。

    以视频培训为例,模型可以自动生成章节、重点、题库和时间戳。培训负责人复核后发布。员工提问时,系统回答并跳转视频片段。若模型引用旧版本视频或没有明确依据,应提示资料不足。这样 AI 是培训内容生产和检索助手,不是无人审核的教材发布器。

    人机协同的关键是界面设计。最终用户不需要看到模型链路、内部字段和调试信息,只需要看到结论、证据、置信度、需要处理的异常和下一步动作。审核人需要高效修改字段、标记错误原因、补充证据和提交结果。管理者需要看到通过率、人工修正率、节省时间、错误类型和风险趋势。

    十一、权限和合规风险更高

    多模态资料比纯文本更容易包含敏感信息。照片里可能有人脸、车牌、地址、屏幕、证件、病历、合同、工厂设备和地理位置;视频里可能包含员工行为、客户对话、会议内容和商业秘密;OCR 会把原来藏在图片里的文字变成可搜索文本。系统能力越强,泄漏影响越大。

    权限控制必须覆盖原件和派生产物。用户无权看原始合同,就不应该通过 OCR 文本搜索到合同条款;用户无权看某个客户的视频,就不应该看到视频摘要;用户无权下载照片,也不应该通过报告看到未脱敏图片区域。派生产物继承权限是多模态系统的基本要求。

    模型调用也要受数据等级控制。公开营销素材可以走通用外部模型,内部培训资料可能走签约供应商,高敏客户资料、证件、医疗、财务和未公开商业数据可能要求本地或私有化处理。系统应根据资料密级自动限制模型路由,而不是靠用户自己判断能不能上传。

    日志和标注平台也要管。OCR 原文、识别坐标、视频帧、模型上下文、错误样本和人工标注都可能包含敏感信息。很多团队主流程做了权限,却把样本导出到普通表格或标注工具里,形成旁路泄漏。多模态评测和标注必须纳入同一套数据治理。

    合规还包括保留和删除。用户要求删除图片或视频时,系统要清理原件、处理版本、缩略图、OCR 文本、embedding、索引、摘要、缓存和导出文件。若只删除原文件,搜索里仍能找到文字或摘要,就不算真正删除。备份保留也要有策略,尤其是个人信息和客户资料。

    十二、成本会比想象中高

    多模态处理成本常常被低估。文本模型按 token 计费已经需要管理,图片和视频还会带来存储、转码、抽帧、OCR、ASR、向量化、多轮模型调用、重排和人工复核成本。一个用户上传十个短视频,背后可能产生数千帧、长字幕、多个索引和多次推理。

    成本控制的第一步是分层处理。上传后先做轻量分析,例如文件类型、时长、分辨率、缩略图、基础 OCR 或 ASR;只有当用户需要深入分析时,再调用高成本模型;只有命中业务流程的资料才进入长期索引。不要对所有素材默认做最高规格处理。

    第二步是缓存和复用。同一张票据不应反复 OCR,同一段视频不应每次提问都重新转写,同一份合同不应每次审核都重新做版面分析。中间结果要有版本号和失效条件。模型、提示词、OCR 引擎或业务规则升级时,再按需重跑。

    第三步是控制视频粒度。长视频不适合每次全量理解。可以先生成章节和粗摘要,用户问题命中某一段后再精分析。异常检测可以先用轻量模型筛候选片段,再用强模型解释。对会议和培训类视频,ASR 和幻灯片 OCR 往往比逐帧图像理解更划算;对监控和动作类视频,关键帧和事件检测更重要。

    第四步是把人工复核成本也纳入指标。模型准确率低会增加人工修改,模型过度保守会增加人工队列,模型过度自信会带来返工和风险。真正的成本不是 API 账单,而是端到端处理成本。一个贵一点但能显著降低人工复核的模型,可能总体更便宜。

    十三、常见落地坑

    第一个坑是把 OCR 当成完美输入。OCR 会错,尤其是低清、倾斜、手写、表格和印章遮挡。关键字段必须有置信度、坐标和复核。

    第二个坑是只用通用图像描述。业务需要的是符合标准的结构化判断,不是“图片里有一个人和一台机器”。要引入业务标准、样例和证据。

    第三个坑是视频只做摘要。长视频价值在可定位的时间段。没有时间戳引用,摘要很难被复核和复用。

    第四个坑是业务数据缺席。图片和视频只是证据之一,真正判断常常需要订单、合同、设备台账、政策和历史记录。

    第五个坑是没有无答案机制。图片不清晰、视频缺关键片段、资料不全时,系统应要求补拍或人工复核,而不是编出结论。

    第六个坑是只测干净样本。上线后用户给的是模糊、遮挡、压缩、旧模板和异常值。评测集必须包含长尾。

    第七个坑是派生产物无权限。OCR 文本、缩略图、视频帧、embedding、摘要和导出报告都要继承权限。

    第八个坑是成本只看模型调用。存储、转码、抽帧、标注、人工复核和重跑都算成本。

    第九个坑是没有复盘闭环。模型错了以后,如果不能标记错因、回流样本和重跑评测,系统不会变好。

    第十个坑是界面暴露内部复杂度。最终用户需要证据和下一步动作,不需要看到技术字段、模型参数和处理日志。

    十四、一个可落地的上线顺序

    第一步,选一个窄场景。不要一开始做“所有图片和视频理解平台”。可以从发票字段提取、门店巡检、设备照片异常、培训视频问答或合同扫描件审阅开始。窄场景更容易定义字段、证据、评测和人工流程。

    第二步,收集真实样本。每个场景准备干净样本和困难样本,包括模糊、倾斜、遮挡、旧模板、异常值、无答案和权限不足。样本要脱敏或在受控环境中管理。没有真实样本,多模态效果无法判断。

    第三步,设计输出结构。明确系统要输出哪些字段、结论、证据、置信度、时间戳、引用和复核建议。输出结构决定后续能否进入业务流程。自由文本可以作为解释,不应是唯一结果。

    第四步,搭建分层管道。文件上传后完成存储、解析、OCR、ASR、抽帧、索引和状态管理。高成本模型只在必要步骤调用。每个中间结果都有版本和权限。

    第五步,接入业务数据。把订单、合同、设备、客户、商品、政策和历史记录作为判断依据,并记录数据时间点。多模态证据和业务记录要能互相引用。

    第六步,做人工复核界面。低置信度和高风险结果进入复核。审核人能看到原图区域、视频时间段、OCR 字段、业务规则和修改入口。复核结果写回样本库。

    第七步,建立评测和复盘。按 OCR、图像、视频、业务判断和最终流程结果分层评测。每次模型、提示词、OCR 引擎、抽帧策略或业务规则变化,都跑回归样本。

    第八步,灰度上线。先在一个团队、一个业务线或一类资料中使用,观察人工修正率、处理时长、错误类型、用户反馈、成本和权限问题。通过灰度后再扩大范围。

    十五、效果复盘该看什么

    复盘第一看准确性,但要分层看。OCR 错误率是多少,关键字段错误率是多少,图像结论错在哪里,视频时间戳是否准确,业务规则是否引用正确,最终建议是否被采纳。只看“整体准确率”容易掩盖关键字段风险。

    复盘第二看效率。用户处理一单需要多久,人工复核时间减少多少,低风险样本自动通过比例是多少,异常样本是否更快发现。效率指标要和人工修改率一起看。若速度变快但错误变多,不能算成功。

    复盘第三看覆盖率。多少样本能自动处理,多少需要补拍,多少需要人工,多少因为权限或资料不足无法判断。一个系统准确率很高但只能覆盖 20% 样本,业务价值有限;覆盖率很高但错误多,也不可接受。

    复盘第四看用户信任。用户是否点击引用,是否采纳建议,是否频繁改字段,是否抱怨“看不懂依据”。多模态 AI 要让用户能验证,而不是要求用户相信。证据链越清楚,用户越愿意使用。

    复盘第五看成本。每类任务的平均处理成本、人工复核成本、失败重跑成本、长视频成本、存储成本和模型成本都要看。成本应和业务价值放在一起,而不是单独看账单。

    复盘第六看风险。有没有越权访问,派生产物是否正确删除,日志是否含敏感信息,模型是否把无法判断说成确定,是否出现客户投诉或合规问题。多模态 AI 的风险往往在上线后才暴露,复盘要持续。

    复盘还要看错因是否能回流。每一次人工修改都不应该只是改掉结果,而要标记原因:原图不清晰、OCR 识别错、表格行列错、业务规则过期、视频抽帧漏掉关键动作、模型误判区域、引用资料版本不对、用户问题缺少上下文。错因标签不需要一开始很复杂,但必须能指导下一轮改进。否则团队只能不断修正单个结果,无法知道应该优化拍摄规范、换 OCR 引擎、调整抽帧、补业务数据,还是更新评测样本。

    样本库也要分层维护。已确认正确的样本可以作为回归基线,人工修正过的样本可以作为难例,争议样本需要业务专家裁决,过期样本要标记对应制度版本。多模态场景里,样本不仅是图片和视频本身,还包括原始文件、处理版本、OCR 结果、时间戳、业务记录、人工结论和最终处置。只有把这些材料保存成可复用样本,团队才有能力持续比较新模型、新提示词和新管道是否真的更好。

    十六、检查清单

    是否定义了清晰业务场景,而不是泛泛做“看图识别”和“视频总结”。

    是否收集了真实困难样本,包括模糊、遮挡、倾斜、旧模板、低光、压缩、手写、无答案和异常值。

    OCR 是否输出字段、坐标、页码、置信度和来源,而不是只输出纯文本。

    图像判断是否有业务标准、区域证据、不可判断选项和人工复核路径。

    视频结果是否带时间戳,是否能跳转到对应片段,是否区分画面、字幕、语音和业务记录来源。

    业务数据是否接入订单、合同、设备、客户、政策、台账和历史记录,并处理时间点一致性。

    引用是否覆盖字段级、区域级、时间段级和业务记录级。

    派生产物是否继承权限,包括 OCR 文本、缩略图、视频帧、embedding、摘要、报告和缓存。

    是否根据数据等级限制模型供应商和处理路径。

    是否有分层评测,而不是只看最终回答。

    是否有人工复核界面,能修改字段、标记错因、补充证据和回流样本。

    是否统计人工修正率、自动通过率、处理时长、补拍率、错误类型和端到端成本。

    十七、结语:多模态 AI 要落在证据链上

    多模态 AI 的价值不是让系统“会看图”或“会总结视频”,而是把图片、文档、视频和业务数据转成可核验的证据链。OCR 要能回到原图字段,图像判断要能展示区域证据,视频结论要能跳到时间段,业务结论要能引用订单、合同、规则和历史记录。只有这样,AI 结果才能进入真实流程。

    落地时不要被单次演示带偏。真正要建设的是数据管道、权限体系、引用机制、人工复核、评测集和复盘闭环。模型能力会继续进步,但生产系统的底层问题不会自动消失:数据质量、业务口径、证据追溯、权限控制和成本治理,仍然决定多模态 AI 能不能稳定创造价值。

    写作日期:2026-05-22

    参考资料

    • OpenAI Vision 文档: https://platform.openai.com/docs/guides/images-vision
    • OpenAI Video and audio understanding: https://platform.openai.com/docs/guides/video-understanding
    • Google Gemini 图像理解文档: https://ai.google.dev/gemini-api/docs/image-understanding
    • Google Gemini 视频理解文档: https://ai.google.dev/gemini-api/docs/video-understanding
    • Anthropic Claude Vision 文档: https://docs.anthropic.com/en/docs/build-with-claude/vision
    • PaddleOCR 官方文档: https://paddlepaddle.github.io/PaddleOCR/main/en/index.html
    • Tesseract OCR 文档: https://tesseract-ocr.github.io/tessdoc/
    • EasyOCR 项目文档: https://github.com/JaidedAI/EasyOCR
    • RAGAS Metrics 文档: https://docs.ragas.io/en/stable/concepts/metrics/
    • OpenAI Evals 文档: https://platform.openai.com/docs/guides/evals
    • NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
    • OWASP Top 10 for LLM Applications: https://owasp.org/www-project-top-10-for-large-language-model-applications/
    1 条回复 最后回复
    0

    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

    有了你的建议,这篇帖子会更精彩哦 💗

    注册 登录
    回复
    • 在新帖中回复
    登录后回复
    • 从旧到新
    • 从新到旧
    • 最多赞同


    • 登录

    • 没有帐号? 注册

    • 登录或注册以进行搜索。
    Powered by NodeBB Contributors
    • 第一个帖子
      最后一个帖子
    0
    • 版块
    • 最新
    • 热门
    • 标签
    • 搜索
    • 成员