多模态AI落地难在哪里：OCR、图像、视频和业务数据

admin

很多团队第一次做多模态 AI，都会被演示效果打动：上传一张图片，模型能描述内容；给一段视频，模型能总结情节；把发票、合同、报表截图丢进去，模型能读出文字；再接上知识库和业务系统，看起来就能形成“会看、会读、会分析”的智能助手。演示没错，多模态模型的能力确实比几年前强很多。但从演示到真实落地，中间差的不是一个上传按钮，而是一整套数据、流程、质量、权限和评测工程。

多模态 AI 难点不只在模型。OCR 识别一个字错了，财务金额就可能错；图片里一个细节看漏了，质检结论就可能错；视频抽帧太稀，关键动作就会丢；业务字段没有口径，模型总结得再流畅也不能进系统；引用不可追溯，用户就不知道结果从哪来；评测只看几个漂亮案例，真正上线后就会被长尾样本打穿。多模态落地的本质，是让模型理解非结构化资料，同时把它们变成可验证、可追溯、可复盘的业务证据。

这篇按社区实践帖的方式聊多模态 AI 落地难在哪里。重点不讨论“模型能不能看图”这种单点能力，而是拆开 OCR、图像、视频、业务数据、引用、评测、权限和复盘。读者可以把它当作一次上线前检查：如果系统只是能识别几张样例图，还不能稳定处理真实扫描件、现场照片、长视频、表格截图和业务口径，那它距离生产级应用还有不少工作。

一、演示容易，落地难在真实数据

多模态 AI 演示通常使用干净样本：图片清晰、主体居中、文字无遮挡、视频剪辑短、问题明确、业务上下文简单。真实场景不是这样。用户上传的可能是倾斜拍摄的发票、低光环境下的设备照片、压缩严重的聊天截图、屏幕反光的仪表盘、长达几十分钟的培训视频、多人混说的会议录音、被水印遮挡的合同扫描件、混合中英文和手写批注的表格。

这些样本对人来说也许还能看懂，对模型来说会带来层层误差。OCR 先把图像转成文字，版面分析再还原段落和表格，图像理解模型再判断物体、场景和关系，视频系统再处理时间顺序、动作和声音。每个环节都有失败概率。只要其中一个环节出错，最终回答就可能偏离事实。

真实数据还带有业务噪声。同样是“收据”，不同门店格式不一样；同样是“设备异常”，不同车间拍照角度不同；同样是“客户聊天截图”，不同平台 UI 和表情符号不同；同样是“培训视频”，讲师可能跳页、口误、临时补充、屏幕切换。多模态系统不能只记住一种模板，否则刚上线就会被实际数据打散。

落地难还在于结果要进入业务流程。演示里模型说“这张图里有一张发票”已经很惊艳；业务系统里需要的是发票代码、号码、日期、金额、税额、购买方、销售方、币种、异常原因、字段置信度、原图位置和人工复核状态。演示里模型总结视频“讲了安全规范”可以；培训系统里要知道哪些章节对应哪些考点，哪些员工看完了哪些片段，模型引用的是哪一分钟。

因此，多模态 AI 的第一道分水岭，是团队有没有把“模型能看懂”转成“业务能采信”。采信需要证据、字段、置信度、引用、复核和异常处理。没有这些，模型回答再自然，也只能停留在辅助观察层。

二、OCR 的难点不是识字，而是还原业务文档

OCR 经常被误解为“把图片里的字读出来”。真实落地中，识字只是第一步。业务文档通常有版面、表格、章、签名、页眉页脚、勾选框、印章、水印、手写批注、二维码、条形码、金额格式和字段关系。系统要做的不是生成一段无结构文字，而是把文档还原成可用的业务信息。

以发票和报销单为例，OCR 输出的文字必须关联位置和字段。金额不能只出现一个数字，要判断它是价税合计、税额、单价还是数量；日期不能只识别为一串字符，要确认它是开票日期、报销日期还是付款日期；公司名称要区分购买方和销售方；一张票据上可能有多个金额，模型必须知道哪个字段进入财务系统。仅仅把整张图转成文本，再让大模型猜字段，风险很高。

表格 OCR 更难。很多文档的核心信息在表格里，而表格不是普通文本。系统要识别行列、表头、合并单元格、跨页延续、脚注和单位。扫描件倾斜、边框断裂、低分辨率、手写涂改都会破坏结构。若模型把表头和数据错配，后续所有分析都会错。比如“数量 10、单价 300、金额 3000”只要列错位，就会变成完全不同的业务事实。

中文 OCR 还有字体和场景问题。印刷体、手写体、繁体字、异体字、竖排文字、盖章遮挡、低清扫描、拍照阴影、身份证件反光、快递面单折痕、聊天截图压缩，都会降低识别质量。PaddleOCR、Tesseract、EasyOCR 等项目都能处理很多场景，但没有任何一个 OCR 引擎能保证所有业务样本零错误。生产系统要假设 OCR 会错，并设计复核机制。

OCR 输出要保留证据。每个字段最好带原图坐标、页码、置信度和来源文本。用户看到识别结果时，可以点击字段回到原图位置。财务、法务、客服和质检场景都需要这种可追溯性。否则当模型提取出一个金额或结论时，审核人无法快速判断它来自哪里。

OCR 还需要后处理。常见后处理包括版面排序、字段正则校验、金额大小写校验、身份证号校验、税号校验、日期格式归一、币种识别、重复页去重、模糊字段人工确认、低置信度标记和业务规则校验。后处理不是硬规则假智能，而是把模型输出放回业务约束里检查。模型负责理解，系统负责让结果可用。

三、图像理解难在细节、关系和责任边界

图像模型能描述画面内容，但业务落地通常需要更细的问题。质检不是问“图片里有什么”，而是问“这个零件是否有裂纹，裂纹是否超过标准，是否需要返修”；零售不是问“货架上有饮料”，而是问“某品牌是否缺货，价格牌是否匹配，陈列是否符合规范”；医疗辅助不是问“这是一张影像”，而是要在严格合规和专业审查下识别异常线索。业务问题越具体，对图像细节、标准和证据要求越高。

图像理解的第一个难点是分辨率和裁剪。很多平台会压缩图片，模型看到的版本可能不是原图。细小文字、裂纹、序列号、仪表刻度、条形码和远处物体会在压缩后丢失。用户上传一张整机照片，真正需要判断的是角落里的铭牌；上传一张监控截图，关键动作可能只占几十个像素。系统需要在必要时做裁剪、放大、局部检测和多尺度分析，而不是把整图一次性丢给模型。

第二个难点是对象关系。很多业务判断不是单个物体分类，而是关系判断：安全帽是否戴在人的头上，货物是否挡住消防通道，标签是否贴在正确包装上，签名是否在指定区域，缺陷是否位于关键部件，仪表读数是否超过阈值。通用图像描述往往会给出大概场景，但业务需要结构化关系和位置证据。

第三个难点是标准化。质检、巡检、陈列、施工、票据、证件都有自己的判定标准。模型如果没有读取业务标准，就只能凭常识回答。比如“是否摆放整齐”在不同门店标准不同，“是否佩戴防护装备”在不同工种要求不同，“图片是否合格”在不同审核任务里标准也不同。生产系统应把标准文档、样例库和判定规则纳入检索，让图像模型的判断有依据。

第四个难点是模型自信。多模态模型经常会用自然语言给出看似确定的描述，但它可能看错、漏看或把常识补进画面。业务系统不应把所有图像回答都当成事实写入。更稳的做法是把结论分级：明确可见、疑似可见、不可判断、需要补拍、需要人工复核。对高风险任务，模型只能提供候选结论和证据，不应独自作最终决定。

图像落地还要处理隐私和权限。照片里可能包含人脸、车牌、地址、证件号、客户姓名、电脑屏幕、合同内容和工厂设备。上传、存储、标注、调用模型和生成报告都涉及数据治理。系统要做脱敏、权限控制、保留期限和审计，不能把“图片只是附件”当成低风险。

四、视频理解难在时间维度

视频比图片难，因为它不仅有画面，还有时间。一个动作是否发生、什么时候发生、持续多久、前后因果是什么，都是时间问题。模型看单帧只能知道某一刻画面，看短片段也可能错过关键瞬间。真实视频往往很长，直接把全部内容送给模型成本高、延迟高，还可能超过上下文限制。

视频落地通常需要抽帧、分段、转写和索引。抽帧太稀，关键动作会漏；抽帧太密，成本和噪声增加。分段太短，上下文不够；分段太长，定位不准。语音转写可以补充画面信息，但会议、培训和监控视频里常有噪声、多人说话、背景音乐、口音和专业术语。系统需要把画面、字幕、语音、时间戳和业务事件对齐。

以培训视频为例，用户不只是要一个摘要，还要章节目录、知识点、考题、关键定义、讲师补充、屏幕文字和时间戳引用。模型说“本视频介绍了安全流程”不够，应该能定位到“第 08:32 到 10:15 讲进入车间前的防护检查”，并把相关画面或字幕作为引用。没有时间戳，用户无法验证，也无法跳转复看。

以监控和巡检视频为例，难点是关键事件少而长尾多。大部分时间没有异常，真正有价值的是几秒钟动作。系统要做事件检测、候选片段截取、目标跟踪和人工复核。若对整段视频平均抽帧，异常可能被稀释；若只依赖模型摘要，模型可能把没有发生的动作补出来。更稳的架构是先用轻量模型或规则发现候选事件，再用多模态模型解释和生成报告。

视频还涉及多模态冲突。画面里显示的文字可能和讲师口述不一致，字幕可能有错，用户提问可能只关心某个业务对象。系统要能区分来源：这是 OCR 自屏幕文字，还是 ASR 转写，还是视觉模型描述，还是业务系统已有记录。不同来源可信度不同，冲突时要提示用户，而不是合成一个看似顺畅的答案。

视频处理的成本也很现实。长视频抽帧、转写、嵌入、存储和检索都会消耗资源。生产系统应设计分层处理：上传后先生成基础索引和摘要；用户提问时按时间段和主题召回片段；必要时再对局部片段做高质量模型分析。不要对每个视频默认跑最贵的全量理解流程。

五、业务数据不是附件，而是判断依据

多模态 AI 最容易失败的地方，是只看图片和视频，不看业务数据。真实业务判断往往需要把非结构化资料和结构化数据结合。发票识别要结合供应商档案、订单、合同和付款记录；设备照片要结合设备台账、维修记录和传感器数据；客服截图要结合客户等级、历史工单和售后政策；货架照片要结合门店、SKU、价格和活动规则。

模型看到一张发票，能读出金额；但它不知道这笔金额是否超过合同预算，供应商是否在白名单，税号是否匹配，订单是否已验收，是否重复报销。模型看到一张设备异常照片，能描述“有漏液痕迹”；但它不知道该设备上次维修时间、当前工况、是否刚做过清洗、报警是否同时触发。多模态理解只有接上业务数据，才能变成业务判断。

业务数据的难点在口径。不同系统里的客户名、门店名、设备号、订单号、商品编码可能不一致；同一个字段在不同部门含义不同；历史数据有缺失、重复、错误和未同步。模型可以帮忙做匹配和解释，但不能替代主数据治理。若基础数据混乱，多模态 AI 会把混乱包装成流畅结论。

业务数据还要有时效性。图片拍摄时间、视频录制时间、文档版本、订单状态和政策版本必须对齐。比如客户截图发生在旧政策生效期间，但模型检索了新政策；设备照片拍于维修前，但系统拿了维修后的状态；培训视频是去年版本，但回答引用了今年制度。没有时间维度，结论可能在语义上正确、业务上错误。

多模态系统要建立证据拼接能力。一个结论最好能说清楚：图片里看到了什么，OCR 提取了哪些字段，业务系统返回了哪些记录，知识库提供了哪条规则，最终判断依据是什么。对用户来说，这不是内部实现说明，而是可信业务证据。没有证据链，AI 只能作为参考，不能进入流程。

六、引用和可追溯是多模态落地底线

文本知识库讲引用，多模态场景更需要引用。因为用户很难从一段自然语言回答中判断模型到底看到了什么。OCR 字段要能回到原图坐标；图片结论要能指出区域；视频摘要要能跳到时间戳；业务判断要能引用订单、合同、政策或台账。引用不是文末装饰，而是审核和复盘入口。

OCR 引用可以做到字段级。比如发票金额字段旁边显示来源页码、坐标框和置信度；合同条款提取结果可以点击回到原文页和段落；表格单元格可以定位到行列。用户发现错误时，能直接修改字段并留下复核记录。这样系统才能从“自动识别”变成“可审业务流程”。

图像引用可以做到区域级。模型判断“安全帽未佩戴”，应能标出涉及人员区域；判断“货架缺货”，应能标出货架和 SKU 区域；判断“铭牌不清晰”，应能提示需要补拍局部。并不是每个通用多模态模型都会直接输出可靠框，但产品设计上要尽量让证据可见，必要时结合检测模型、OCR 坐标和人工标注。

视频引用可以做到时间段级。摘要、问答、异常报告和培训知识点，都应带开始和结束时间。用户点击后能跳到对应片段。对长视频，时间戳引用比长篇摘要更重要。因为用户真正需要的是快速定位证据，而不是相信模型“看过了”。

业务引用要做到记录级。模型判断“该客户符合退款条件”，应引用客户订单、合同条款、售后政策和审批记录。若某条业务记录后来变化，系统要能知道哪些 AI 结论可能受影响。否则多模态 AI 会在流程里留下无法追溯的判断。

可追溯也服务评测。没有引用，就无法判断错因：是 OCR 错、视觉理解错、视频抽帧漏、业务数据错、检索错，还是生成模型总结错。生产复盘不能只说“模型答错了”，要能定位到链路环节。

七、评测不能只看模型回答

多模态 AI 评测比文本问答更复杂，因为链路更长。一个最终错误可能来自图像质量、OCR、版面分析、ASR、抽帧、目标检测、embedding、检索、业务字段映射、规则引用或生成模型。只看最终回答对不对，不能指导改进。评测要拆层。

OCR 评测要看字符准确率、字段准确率、表格结构准确率、关键字段召回、低置信度识别、人工修正率和业务规则通过率。很多 OCR 系统整体文字准确率很高，但关键字段错误就会造成严重问题。财务、法务和证件场景应优先评关键字段，而不是平均字符。

图像评测要看任务级指标。分类任务看准确率、召回率和误报；检测任务看区域定位和漏检；质检任务看缺陷等级一致性；审核任务看拒绝、通过和人工复核分流是否合理。还要评不可判断样本。一个成熟系统应敢于说“图片不清晰，需要补拍”，而不是对所有图片硬给结论。

视频评测要看时间定位。摘要是否覆盖关键事件，问答是否引用正确时间段，异常检测是否漏掉短事件，抽帧策略是否稳定，ASR 是否影响理解。对培训视频，还要评章节划分、知识点抽取、题目生成和时间戳准确性；对监控视频，要评事件召回和误报成本。

业务评测要看流程结果。模型提取字段进入系统后，人工修改率是多少；模型建议是否被采纳；错误是否导致返工；处理时间是否下降；用户投诉是否减少；关键风险是否被提前发现。多模态 AI 的价值不是回答看起来聪明，而是业务结果变好。

评测集要来自真实样本，不能只用供应商示例。每个场景至少要包含干净样本、模糊样本、遮挡样本、低光样本、错版模板、旧政策、跨语言、手写、异常值、无答案、权限不足和恶意输入。长尾样本决定系统上线后的稳定性。

八、模型选择不是越强越好

OpenAI、Google Gemini、Anthropic Claude 等多模态模型都在图像理解、文档理解和视频理解方向提供能力。强模型可以显著降低原型门槛，但生产选型不能只看单次演示效果。要看输入限制、图像尺寸、视频时长、文件类型、上下文长度、延迟、价格、数据处理条款、区域可用性、工具调用能力、结构化输出能力和失败模式。

通用多模态模型适合复杂理解和跨场景推理。比如解释一张现场照片、总结一段培训视频、比较图文资料、从截图里提取操作流程、根据多份证据生成结论。专用模型适合稳定的子任务，例如 OCR、表格识别、目标检测、条码识别、人脸脱敏、ASR 和版面分析。生产架构通常是通用模型加专用模型，而不是二选一。

强模型也不应该处理所有任务。批量 OCR、缩略图分类、重复图片去重、视频粗分段、低风险标签提取，可以用成本更低的模型或传统算法。高风险结论、复杂跨证据推理、异常复盘和面向客户的解释，再调用强模型。这样既能控制成本，也能把强模型用在最有价值的地方。

模型供应商差异还体现在数据边界。某些场景允许使用外部 API，某些场景必须本地化或私有化，某些场景需要国内云或指定区域，某些场景涉及个人信息和合同资料，需要更严格的管理。选型时不能只问“哪个模型最准”，还要问“这些数据是否允许送出去，保留多久，日志谁能看，是否能删除，是否符合客户合同”。

模型输出格式也很关键。多模态系统最好让模型输出结构化结果，例如字段、证据、置信度、时间戳、结论等级和复核建议。自由文本摘要适合阅读，但不适合直接进入流程。即使使用结构化输出，也要做 schema 校验和业务校验，不能因为模型返回了 JSON 就默认正确。

九、数据管道比聊天界面更重要

多模态 AI 落地常被前端聊天界面吸引，但真正决定质量的是数据管道。上传一张图片或视频后，系统要完成文件存储、格式识别、去重、病毒扫描、EXIF 和拍摄时间解析、压缩版本管理、OCR、版面分析、缩略图生成、转写、抽帧、embedding、索引、权限标注、引用坐标和任务状态管理。任何一个环节不稳定，前端体验都会受影响。

文件存储要保留原件。很多系统为了省空间，只保存压缩图或转码视频，后续发现关键细节丢失。更稳的做法是保存原件、处理版本和展示版本，并记录处理参数。原件受权限和保留策略保护，展示版本用于快速预览，处理版本用于模型推理。这样既能控制成本，也能在复盘时回到真实来源。

任务状态要透明。OCR、视频转写和索引不是瞬时完成的，尤其是长视频和批量文档。用户需要知道文件是否上传成功、是否解析中、是否可检索、是否有低置信度字段、是否需要复核。不要让用户提交后只能等待一个模糊结果。生产系统应支持异步任务、失败重试、局部重跑和人工接管。

索引要分层。OCR 文本可以进入全文索引，图片向量可以进入向量库，视频片段可以按时间段索引，业务字段进入关系数据库，引用坐标进入证据表。不要把所有东西都塞进一个向量字段。多模态资料天然有多种检索方式，系统应按任务组合它们。

权限标注要贯穿管道。文件上传时就要知道租户、空间、上传人、业务对象、密级和可见范围；解析出的文字、缩略图、帧图、embedding、摘要和导出结果都要继承或重新定义权限。不能让原件有权限，派生产物无权限。多模态管道会产生大量中间文件，这些中间文件同样可能含敏感信息。

十、业务流程要有人机协同

多模态 AI 最适合先做“辅助判断”，再逐步进入“受控执行”。一开始就追求全自动，很容易在长尾样本上出事故。更稳的流程是：模型提取和初判，系统给出证据和置信度，低风险高置信结果自动通过，高风险或低置信结果进入人工复核，复核结果回流到样本库和评测集。

以报销审核为例，模型可以自动识别票据字段、比对订单、检查重复、提示异常和生成审核建议。高置信且规则明确的小额报销可以自动通过；金额异常、供应商不匹配、票据模糊、合同缺失或重复报销风险高的单据进入人工。审核人不需要重新看完整材料，只需要处理模型标出的异常和证据。

以门店巡检为例，模型可以识别陈列、价格牌、缺货、卫生和安全隐患。清晰且标准明确的照片可以自动生成整改建议；画面模糊、角度不够、标准冲突或涉及处罚的结果进入人工。系统还可以要求用户补拍，而不是硬判失败。

以视频培训为例，模型可以自动生成章节、重点、题库和时间戳。培训负责人复核后发布。员工提问时，系统回答并跳转视频片段。若模型引用旧版本视频或没有明确依据，应提示资料不足。这样 AI 是培训内容生产和检索助手，不是无人审核的教材发布器。

人机协同的关键是界面设计。最终用户不需要看到模型链路、内部字段和调试信息，只需要看到结论、证据、置信度、需要处理的异常和下一步动作。审核人需要高效修改字段、标记错误原因、补充证据和提交结果。管理者需要看到通过率、人工修正率、节省时间、错误类型和风险趋势。

十一、权限和合规风险更高

多模态资料比纯文本更容易包含敏感信息。照片里可能有人脸、车牌、地址、屏幕、证件、病历、合同、工厂设备和地理位置；视频里可能包含员工行为、客户对话、会议内容和商业秘密；OCR 会把原来藏在图片里的文字变成可搜索文本。系统能力越强，泄漏影响越大。

权限控制必须覆盖原件和派生产物。用户无权看原始合同，就不应该通过 OCR 文本搜索到合同条款；用户无权看某个客户的视频，就不应该看到视频摘要；用户无权下载照片，也不应该通过报告看到未脱敏图片区域。派生产物继承权限是多模态系统的基本要求。

模型调用也要受数据等级控制。公开营销素材可以走通用外部模型，内部培训资料可能走签约供应商，高敏客户资料、证件、医疗、财务和未公开商业数据可能要求本地或私有化处理。系统应根据资料密级自动限制模型路由，而不是靠用户自己判断能不能上传。

日志和标注平台也要管。OCR 原文、识别坐标、视频帧、模型上下文、错误样本和人工标注都可能包含敏感信息。很多团队主流程做了权限，却把样本导出到普通表格或标注工具里，形成旁路泄漏。多模态评测和标注必须纳入同一套数据治理。

合规还包括保留和删除。用户要求删除图片或视频时，系统要清理原件、处理版本、缩略图、OCR 文本、embedding、索引、摘要、缓存和导出文件。若只删除原文件，搜索里仍能找到文字或摘要，就不算真正删除。备份保留也要有策略，尤其是个人信息和客户资料。

十二、成本会比想象中高

多模态处理成本常常被低估。文本模型按 token 计费已经需要管理，图片和视频还会带来存储、转码、抽帧、OCR、ASR、向量化、多轮模型调用、重排和人工复核成本。一个用户上传十个短视频，背后可能产生数千帧、长字幕、多个索引和多次推理。

成本控制的第一步是分层处理。上传后先做轻量分析，例如文件类型、时长、分辨率、缩略图、基础 OCR 或 ASR；只有当用户需要深入分析时，再调用高成本模型；只有命中业务流程的资料才进入长期索引。不要对所有素材默认做最高规格处理。

第二步是缓存和复用。同一张票据不应反复 OCR，同一段视频不应每次提问都重新转写，同一份合同不应每次审核都重新做版面分析。中间结果要有版本号和失效条件。模型、提示词、OCR 引擎或业务规则升级时，再按需重跑。

第三步是控制视频粒度。长视频不适合每次全量理解。可以先生成章节和粗摘要，用户问题命中某一段后再精分析。异常检测可以先用轻量模型筛候选片段，再用强模型解释。对会议和培训类视频，ASR 和幻灯片 OCR 往往比逐帧图像理解更划算；对监控和动作类视频，关键帧和事件检测更重要。

第四步是把人工复核成本也纳入指标。模型准确率低会增加人工修改，模型过度保守会增加人工队列，模型过度自信会带来返工和风险。真正的成本不是 API 账单，而是端到端处理成本。一个贵一点但能显著降低人工复核的模型，可能总体更便宜。

十三、常见落地坑

第一个坑是把 OCR 当成完美输入。OCR 会错，尤其是低清、倾斜、手写、表格和印章遮挡。关键字段必须有置信度、坐标和复核。

第二个坑是只用通用图像描述。业务需要的是符合标准的结构化判断，不是“图片里有一个人和一台机器”。要引入业务标准、样例和证据。

第三个坑是视频只做摘要。长视频价值在可定位的时间段。没有时间戳引用，摘要很难被复核和复用。

第四个坑是业务数据缺席。图片和视频只是证据之一，真正判断常常需要订单、合同、设备台账、政策和历史记录。

第五个坑是没有无答案机制。图片不清晰、视频缺关键片段、资料不全时，系统应要求补拍或人工复核，而不是编出结论。

第六个坑是只测干净样本。上线后用户给的是模糊、遮挡、压缩、旧模板和异常值。评测集必须包含长尾。

第七个坑是派生产物无权限。OCR 文本、缩略图、视频帧、embedding、摘要和导出报告都要继承权限。

第八个坑是成本只看模型调用。存储、转码、抽帧、标注、人工复核和重跑都算成本。

第九个坑是没有复盘闭环。模型错了以后，如果不能标记错因、回流样本和重跑评测，系统不会变好。

第十个坑是界面暴露内部复杂度。最终用户需要证据和下一步动作，不需要看到技术字段、模型参数和处理日志。

十四、一个可落地的上线顺序

第一步，选一个窄场景。不要一开始做“所有图片和视频理解平台”。可以从发票字段提取、门店巡检、设备照片异常、培训视频问答或合同扫描件审阅开始。窄场景更容易定义字段、证据、评测和人工流程。

第二步，收集真实样本。每个场景准备干净样本和困难样本，包括模糊、倾斜、遮挡、旧模板、异常值、无答案和权限不足。样本要脱敏或在受控环境中管理。没有真实样本，多模态效果无法判断。

第三步，设计输出结构。明确系统要输出哪些字段、结论、证据、置信度、时间戳、引用和复核建议。输出结构决定后续能否进入业务流程。自由文本可以作为解释，不应是唯一结果。

第四步，搭建分层管道。文件上传后完成存储、解析、OCR、ASR、抽帧、索引和状态管理。高成本模型只在必要步骤调用。每个中间结果都有版本和权限。

第五步，接入业务数据。把订单、合同、设备、客户、商品、政策和历史记录作为判断依据，并记录数据时间点。多模态证据和业务记录要能互相引用。

第六步，做人工复核界面。低置信度和高风险结果进入复核。审核人能看到原图区域、视频时间段、OCR 字段、业务规则和修改入口。复核结果写回样本库。

第七步，建立评测和复盘。按 OCR、图像、视频、业务判断和最终流程结果分层评测。每次模型、提示词、OCR 引擎、抽帧策略或业务规则变化，都跑回归样本。

第八步，灰度上线。先在一个团队、一个业务线或一类资料中使用，观察人工修正率、处理时长、错误类型、用户反馈、成本和权限问题。通过灰度后再扩大范围。

十五、效果复盘该看什么

复盘第一看准确性，但要分层看。OCR 错误率是多少，关键字段错误率是多少，图像结论错在哪里，视频时间戳是否准确，业务规则是否引用正确，最终建议是否被采纳。只看“整体准确率”容易掩盖关键字段风险。

复盘第二看效率。用户处理一单需要多久，人工复核时间减少多少，低风险样本自动通过比例是多少，异常样本是否更快发现。效率指标要和人工修改率一起看。若速度变快但错误变多，不能算成功。

复盘第三看覆盖率。多少样本能自动处理，多少需要补拍，多少需要人工，多少因为权限或资料不足无法判断。一个系统准确率很高但只能覆盖 20% 样本，业务价值有限；覆盖率很高但错误多，也不可接受。

复盘第四看用户信任。用户是否点击引用，是否采纳建议，是否频繁改字段，是否抱怨“看不懂依据”。多模态 AI 要让用户能验证，而不是要求用户相信。证据链越清楚，用户越愿意使用。

复盘第五看成本。每类任务的平均处理成本、人工复核成本、失败重跑成本、长视频成本、存储成本和模型成本都要看。成本应和业务价值放在一起，而不是单独看账单。

复盘第六看风险。有没有越权访问，派生产物是否正确删除，日志是否含敏感信息，模型是否把无法判断说成确定，是否出现客户投诉或合规问题。多模态 AI 的风险往往在上线后才暴露，复盘要持续。

复盘还要看错因是否能回流。每一次人工修改都不应该只是改掉结果，而要标记原因：原图不清晰、OCR 识别错、表格行列错、业务规则过期、视频抽帧漏掉关键动作、模型误判区域、引用资料版本不对、用户问题缺少上下文。错因标签不需要一开始很复杂，但必须能指导下一轮改进。否则团队只能不断修正单个结果，无法知道应该优化拍摄规范、换 OCR 引擎、调整抽帧、补业务数据，还是更新评测样本。

样本库也要分层维护。已确认正确的样本可以作为回归基线，人工修正过的样本可以作为难例，争议样本需要业务专家裁决，过期样本要标记对应制度版本。多模态场景里，样本不仅是图片和视频本身，还包括原始文件、处理版本、OCR 结果、时间戳、业务记录、人工结论和最终处置。只有把这些材料保存成可复用样本，团队才有能力持续比较新模型、新提示词和新管道是否真的更好。

十六、检查清单

是否定义了清晰业务场景，而不是泛泛做“看图识别”和“视频总结”。

是否收集了真实困难样本，包括模糊、遮挡、倾斜、旧模板、低光、压缩、手写、无答案和异常值。

OCR 是否输出字段、坐标、页码、置信度和来源，而不是只输出纯文本。

图像判断是否有业务标准、区域证据、不可判断选项和人工复核路径。

视频结果是否带时间戳，是否能跳转到对应片段，是否区分画面、字幕、语音和业务记录来源。

业务数据是否接入订单、合同、设备、客户、政策、台账和历史记录，并处理时间点一致性。

引用是否覆盖字段级、区域级、时间段级和业务记录级。

派生产物是否继承权限，包括 OCR 文本、缩略图、视频帧、embedding、摘要、报告和缓存。

是否根据数据等级限制模型供应商和处理路径。

是否有分层评测，而不是只看最终回答。

是否有人工复核界面，能修改字段、标记错因、补充证据和回流样本。

是否统计人工修正率、自动通过率、处理时长、补拍率、错误类型和端到端成本。

十七、结语：多模态 AI 要落在证据链上

多模态 AI 的价值不是让系统“会看图”或“会总结视频”，而是把图片、文档、视频和业务数据转成可核验的证据链。OCR 要能回到原图字段，图像判断要能展示区域证据，视频结论要能跳到时间段，业务结论要能引用订单、合同、规则和历史记录。只有这样，AI 结果才能进入真实流程。

落地时不要被单次演示带偏。真正要建设的是数据管道、权限体系、引用机制、人工复核、评测集和复盘闭环。模型能力会继续进步，但生产系统的底层问题不会自动消失：数据质量、业务口径、证据追溯、权限控制和成本治理，仍然决定多模态 AI 能不能稳定创造价值。

写作日期：2026-05-22

参考资料

OpenAI Vision 文档： https://platform.openai.com/docs/guides/images-vision
OpenAI Video and audio understanding： https://platform.openai.com/docs/guides/video-understanding
Google Gemini 图像理解文档： https://ai.google.dev/gemini-api/docs/image-understanding
Google Gemini 视频理解文档： https://ai.google.dev/gemini-api/docs/video-understanding
Anthropic Claude Vision 文档： https://docs.anthropic.com/en/docs/build-with-claude/vision
PaddleOCR 官方文档： https://paddlepaddle.github.io/PaddleOCR/main/en/index.html
Tesseract OCR 文档： https://tesseract-ocr.github.io/tessdoc/
EasyOCR 项目文档： https://github.com/JaidedAI/EasyOCR
RAGAS Metrics 文档： https://docs.ragas.io/en/stable/concepts/metrics/
OpenAI Evals 文档： https://platform.openai.com/docs/guides/evals
NIST AI Risk Management Framework： https://www.nist.gov/itl/ai-risk-management-framework
OWASP Top 10 for LLM Applications： https://owasp.org/www-project-top-10-for-large-language-model-applications/

LocalAIHub 中文社区