DeepSeek、Qwen、Kimi、GLM、MiniMax该怎么选：中文任务视角

admin

中文大模型选型最容易被一句话带偏：某个模型最近很强，或者某个模型价格很低，于是全业务都往它身上压。真实工程里没有这么简单。中文任务不是一个任务，而是一组差异很大的任务：日常对话、知识库问答、长文阅读、政策解释、合同审查、代码生成、数据分析、客服工单、内容运营、图片理解、语音视频、多工具 Agent、批量摘要、本地部署、私有化、低成本调用。DeepSeek、Qwen、Kimi、GLM、MiniMax 都有自己强项，也都有不适合承担的场景。

截至 2026-05-22，中文模型生态已经从“谁能聊天”进入“谁适合哪个产品位置”。DeepSeek 在推理、性价比、开放权重和 API 价格上仍然有强吸引力，官方 API 文档中 deepseek-reasoner 已升级到 DeepSeek-R1-0528，deepseek-chat 已升级到 DeepSeek-V3.2-Exp，并说明旧的 V3.1 Terminus 和 R1-0528 将逐步迁移到 V3.2 系列。Qwen 形成了极完整的模型家族，从通用、代码、视觉、多模态到开源权重和云 API 都覆盖很广，阿里云 Model Studio 文档中 Qwen3-Max、Qwen3-Coder、Qwen3-Omni、Qwen3-VL 等路线很清晰。Kimi 的核心标签仍然是长上下文、智能体和开放 MoE，Kimi K2 系列和 Kimi K2.6 文档强调 256K 上下文、编程、工具使用和前端代码能力。GLM 在 Z.AI 文档中已经把 GLM-4.6、GLM-4.5、GLM-4.5V、GLM-4.5-Air、GLM-5-Air 等模型放进统一 API 体系，强调复杂推理、编码、函数调用和视觉。MiniMax 则在高性价比文本、编程、长文、语音视频和 Agent 工具链上持续扩展，平台文档中 MiniMax-M2.5、M1、M1-80k、Speech、Voice Design、Video 相关能力都形成产品组合。

这篇不是排行榜。排行榜能提供参考，但不能替代选型。中文团队真正需要的是一套可落地的判断方式：什么任务用哪个模型，什么时候组合使用，什么时候用云 API，什么时候用开源权重，什么时候需要本地部署，什么时候应该通过模型网关路由，什么时候必须建立自己的评测集。只要这些问题不清楚，换任何模型都会变成反复试错。

先说结论：不要选一个模型，选一组岗位

把大模型当员工看，问题会清楚很多。一个公司不会让同一个人同时做客服、法务、后端开发、数据分析、视觉设计和财务审计。模型也一样。DeepSeek、Qwen、Kimi、GLM、MiniMax 都可以聊天，但它们在成本、上下文、工具调用、开源生态、多模态、代码、推理和部署方式上不同。选型不是给全公司找一个“万能冠军”，而是给每个岗位找合适的人。

一个实用起步组合可以这样理解：复杂推理和低成本推理优先评估 DeepSeek；中文通用、开源部署、多模态和工程生态优先评估 Qwen；超长文本、长会话、资料阅读和前端代码优先评估 Kimi；Agent、函数调用、复杂代码和中文企业应用优先评估 GLM；内容生产、语音视频、多模态创作、低成本批处理和 Agent 辅助优先评估 MiniMax。这个组合不是绝对答案，但比“全都用某一个最新模型”更接近生产现实。

模型选择还要看团队能力。如果团队有 GPU、运维和模型服务经验，Qwen、DeepSeek、GLM、MiniMax、Kimi 的开放权重路线都可以进入本地或私有化评估。若团队没有推理运维能力，先用官方 API 更稳。若业务有大量敏感文档，应该把本地模型、国内云 API 和数据脱敏组合起来，而不是把所有文档直接发给一个外部服务。

最重要的一点：中文任务要用中文评测。不要只看英文榜单、通用排行榜或模型发布页。把你自己的客服问题、合同条款、政策文本、知识库文档、代码仓库、产品文案、投诉样本、长会议纪要、图片工单整理成小型评测集，跑一遍 DeepSeek、Qwen、Kimi、GLM、MiniMax，再看通过率、成本、延迟和人工修改量。选型应该从真实样本出发。

一、中文任务到底难在哪里

中文任务难，不只是中文分词或语法问题。很多中文业务文本有强语境：政策文件、学校通知、采购合同、政府表格、医疗说明、财务制度、客服话术、法律条款、企业规章、招商材料、短视频脚本、电商详情页，都包含大量隐含背景、称谓关系、行业术语和上下文依赖。模型会说中文，不代表它能可靠处理中文业务。

中文长文尤其麻烦。很多模型标称长上下文，但长上下文不等于长文理解。把 20 万字资料塞进去，模型可能能读，但不一定能稳定引用关键段落，不一定能区分正文、附件、表格、脚注和历史版本，也不一定能在最后几页找到真正答案。Kimi、Qwen、GLM、MiniMax、Gemini、Claude 等都有长上下文能力，但中文业务系统仍然需要分块、引用、重排和证据校验。

中文推理也有独特问题。数学、逻辑题是一类推理；企业决策、合同风险、客服升级、政策适用是另一类推理。DeepSeek-R1、Qwen3、GLM-4.6、Kimi K2.6、MiniMax-M2.5 都强调推理或 Agent 能力，但落到业务里，需要看模型是否能按中文规则解释理由，是否能承认资料不足，是否能区分事实、推断和建议，是否能在复杂条件下保持一致。

中文代码任务也不是纯英文代码。国内团队的代码仓库经常有中文注释、中文需求文档、中文接口说明、中文错误日志、内部框架和历史债务。一个代码模型如果只会写算法题，不一定能读懂中文业务需求。代码选型要同时测试：能否理解中文需求，能否读多文件上下文，能否给出可运行补丁，能否解释测试失败，能否遵守项目风格。

中文多模态任务也在增加。客服上传截图、老师上传作业照片、运营处理海报、工厂做质检图片、门店拍货架、短视频平台做内容审核，这些都需要视觉模型或多模态模型。Qwen3-VL、GLM-4.5V、MiniMax 的视频图像语音能力、Kimi 和其他模型的视觉入口，都要按实际图片质量、中文 OCR、表格理解和业务输出测试。

二、DeepSeek：推理和性价比强，但不要把它当万能模型

DeepSeek 的吸引力主要来自三点：推理能力、低价格和开放生态。DeepSeek API 文档中 deepseek-chat 指向 DeepSeek-V3.2-Exp，deepseek-reasoner 指向 DeepSeek-R1-0528，价格表里还明确区分缓存命中输入、缓存未命中输入和输出。对中文团队来说，这意味着它很适合作为低成本推理和批量任务的候选模型。

DeepSeek 适合哪些任务？第一类是需要较强逻辑但预算有限的任务，比如资料比对、方案优劣分析、复杂分类、长问题拆解、非实时研究草稿。第二类是批量文本处理，比如大量中文摘要、标签生成、初步质检、问答改写。第三类是需要开放权重或可自部署评估的场景，DeepSeek-V3、R1、蒸馏模型和社区部署生态都给了团队更多选择。

但 DeepSeek 不应该被简单当成全业务主模型。推理模型在某些任务上会输出更长的思考和解释，延迟和输出成本可能更高。若任务只是短标题生成、固定格式抽取、简单客服回答，使用推理模型可能浪费。若任务要求稳定工具调用、多模态输入、极复杂 Agent 工具链，也要和 Qwen、GLM、Kimi、MiniMax、Claude、OpenAI 等一起实测。

DeepSeek 还需要注意模型版本迁移。官方文档对模型升级和废弃有说明，生产系统不要在业务代码里写死供应商模型名。更稳的做法是通过模型网关建立内部别名，例如 cn_reasoning_economy、batch_summary_low_cost，背后再配置 DeepSeek 或其他备用模型。这样 DeepSeek 模型升级时，业务层不需要改。

DeepSeek 的典型产品位置，是“高性价比推理底座”和“批处理成本优化器”。它可以承担大量后台分析任务，也可以作为中文问答、知识库和数据解释中的重要候选。但对高风险输出、强工具调用和多模态任务，仍然要通过评测确认，不要因为价格低就把所有任务交给它。

三、Qwen：家族完整，适合做中文工程底座

Qwen 的最大优势是完整。阿里云 Model Studio 模型列表覆盖 Qwen3-Max、Qwen3-Plus、Qwen3-Flash、Qwen3-Coder、Qwen3-Omni、Qwen3-VL、Qwen-Image、embedding、reranker 等多条线；GitHub 上 QwenLM 也持续发布开源权重、模型卡和技术报告。对一个中文团队来说，这种完整性很有价值，因为真实产品往往需要文本、代码、视觉、embedding、重排和私有部署一起考虑。

Qwen 适合做中文通用底座。它的中文语感、多语言能力、开源生态和阿里云 API 入口都比较成熟。知识库问答、企业内部助手、中文内容生产、数据分析、代码辅助、多模态理解，都可以把 Qwen 放进候选池。尤其是需要“云 API + 开源权重 + 国内生态”的团队，Qwen 往往是最容易形成长期方案的路线之一。

Qwen3-Coder 值得单独评估。代码任务不是只看能不能写函数，还要看长仓库理解、工具调用、补丁质量和中文需求理解。Qwen3-Coder 的发布资料强调 agentic coding、long-context 和多语言代码能力。若团队要做代码助手、自动代码审查、脚本生成、SQL 解释、DevOps 辅助，Qwen3-Coder 应进入对比。

Qwen3-VL、Qwen3-Omni 和 Qwen-Image 让 Qwen 在多模态上有很强产品覆盖。中文 OCR、截图理解、表格图片、作业批改、门店巡检、产品海报、视觉问答，都可以从 Qwen 的视觉模型开始评估。多模态任务尤其不要只看 demo，要拿自己的低清截图、倾斜照片、中文表格、手写内容和真实工单测试。

Qwen 的注意点在于模型家族太多，容易选乱。不要看到 Max、Plus、Flash、Coder、VL、Omni 就随意替换。每个模型岗位不同：Max 偏强通用，Flash 偏低成本低延迟，Coder 偏代码，VL 偏视觉，Omni 偏多模态。生产里要用模型别名和任务路由，而不是在业务代码里到处写不同 Qwen 模型 ID。

四、Kimi：长上下文和长任务强，适合资料型产品

Kimi 的长期标签是长上下文。Moonshot 平台的 Kimi K2.6 快速开始文档强调 kimi-k2-0905-preview 适合编程、前端和 Agent 任务，并给出 256K 上下文。Kimi K2 系列作为开放 MoE 模型，也让团队可以在 API、开放权重和智能体场景之间选择。对中文资料型产品来说，Kimi 是非常值得评估的候选。

Kimi 适合哪些任务？第一类是长文阅读：长合同、长报告、会议纪要、论文、政策汇编、招投标文件、多章节资料。第二类是长对话和长任务：用户连续补充信息、需要跨多轮保持上下文、需要逐步完成分析。第三类是前端代码和 Agent 辅助，Kimi K2.6 文档中也突出前端生成和工具使用。

但长上下文不能替代信息架构。把一本资料全部塞给 Kimi，不等于知识库设计完成。生产系统仍然要保存原文、分块、引用、版本和权限。长上下文适合减少检索漏召回，适合一次性分析大材料，也适合复杂资料整理；但在高并发知识库问答里，直接塞全文会增加成本和延迟。Kimi 应该和 RAG、缓存、摘要层结合使用。

Kimi 的另一个价值是中文长文写作和资料整合。社区实践里，它常被用于读材料、写报告、整理提纲、改长稿、处理多份文档。若你的产品是研究助手、写作助手、投研资料阅读、合同审查、政策解读、课程讲义生成，Kimi 很适合进入主模型或备用模型评估。

Kimi 的注意点是成本和时延。长上下文很有价值，但输入越长越贵，等待越久。团队应区分“必须长上下文”的任务和“可以先检索压缩”的任务。不要为了省工程工作，把所有知识库问题都当长上下文任务处理。

五、GLM：Agent、函数调用和中文企业场景值得重视

GLM 的路线越来越偏向复杂推理、代码、智能体和工具调用。Z.AI 的 GLM-4.6 文档强调 coding、reasoning、agentic capabilities 和 function calling；价格页里覆盖 GLM-4.6、GLM-4.5、GLM-4.5V、GLM-5-Air、embedding、图像、视频、语音和工具。对中文企业应用来说，GLM 值得放在 Agent 和业务工具调用位置评估。

GLM 适合哪些任务？第一类是需要中文推理和工具调用结合的任务，比如企业内部助手、工作流 Agent、知识库加工具查询、表单填写、流程草稿生成。第二类是代码和工程辅助，尤其是中文需求到代码、长上下文代码分析、脚本生成。第三类是视觉加文本任务，GLM-4.5V 等模型可以进入图片理解、文档截图、业务表单识别候选。

GLM 的优势不只是单次回答，而是与工具和平台结合。企业应用经常不是“回答一句话”，而是“查资料、查系统、生成草稿、等待确认、再写入业务系统”。这类任务需要模型能稳定理解工具说明、生成参数、处理工具结果和继续推理。GLM 若在你的评测里工具调用表现好，就很适合作为 Agent 主模型或备用模型。

不过，Agent 场景不能只看模型。工具权限、任务状态、重试、人工确认、审计和回滚都要由系统控制。GLM 再适合工具调用，也不能直接让模型拥有退款、删数据、改权限、发外部邮件的最终执行权。模型负责建议和参数生成，业务系统负责权限和确认。

GLM 的产品位置可以理解为“中文企业 Agent 候选底座”。如果你的系统需要模型读中文业务资料、调用内部工具、生成结构化输出、辅助代码和文档，GLM 应该进入认真测试，而不是只作为聊天模型比较。

六、MiniMax：内容、多模态和低成本批处理有优势

MiniMax 容易被低估，因为很多人只把它看作通用聊天模型。实际上，MiniMax 平台文档覆盖文本、OpenAI 兼容接口、Anthropic 兼容接口、Speech、Voice Design、Video Generation、MCP、工具调用等能力。MiniMax-M2.5、M1、M1-80k 等模型在价格和上下文上也适合大量中文产品场景。

MiniMax 适合内容型和多模态产品。短视频脚本、营销文案、口播稿、角色对话、图文笔记、音色设计、语音合成、视频生成、客服话术改写，这些任务不只是追求推理正确，还追求自然、顺滑、可发布。MiniMax 在内容生产链路里很容易找到位置。

MiniMax 也适合低成本批处理。平台 Pay as You Go 页面里 MiniMax-M2.5 的 token 价格、缓存读写价格和文本计费规则很清晰；这类模型可以承担大量摘要、改写、分类、质检、草稿生成。若结果需要最终人工编辑，使用低成本模型先出草稿往往很划算。

MiniMax 的多模态能力适合做“内容工厂”或“媒体型 AI 应用”的底层组件。一个中文内容团队可能需要文本策划、语音、视频、图片、字幕、封面、短剧脚本和多平台发布包。此时只比较文本推理分数意义不大，要看整体内容链路是否顺手。

MiniMax 的注意点是任务边界。若任务是严肃法律审查、复杂代码重构、强工具 Agent，仍要和 DeepSeek、Qwen、Kimi、GLM、Claude、OpenAI 等模型实测，不要因为内容表现好就扩展到所有高风险任务。MiniMax 更适合成为内容、多模态和低成本处理的重要模型，而不是所有严肃推理任务的唯一答案。

七、按任务选：中文长文阅读

中文长文阅读的关键不是上下文长度数字，而是资料结构和引用能力。合同、招标文件、政策汇编、会议纪要、课程讲义、调研报告都可能很长，但问题不同。有些任务只要总结全文，有些任务要找到某个条款，有些任务要比较多份文件，有些任务要判断是否符合规则。模型选型要按长文任务类型拆。

若任务是一次性读长资料并生成报告，Kimi、Qwen 长上下文模型、GLM、MiniMax-M1-80k、Gemini、Claude 这类长上下文模型都应进入候选。Kimi 因长上下文和中文长文体验很适合先测；Qwen 和 GLM 适合结合中文企业生态；MiniMax-M1-80k 适合长文成本敏感场景。若资料需要引用和可追溯，最终答案必须包含来源段落和页码，不要只让模型凭记忆总结。

若任务是高频知识库问答，长上下文模型不是唯一答案。更稳的方式是 RAG 加重排加答案生成。模型只看最相关片段，减少成本和上下文噪声。这里 Qwen embedding/reranker、bge 系列、text embedding 服务、Qwen 或 DeepSeek 低成本生成、Kimi 或 GLM 强生成都可以组合。长上下文可以作为召回不足时的补救，不一定每次都用。

若任务是合同审查或政策适用，模型必须能区分“原文事实”和“推断建议”。DeepSeek 的推理、Kimi 的长文、GLM 的工具调用、Qwen 的中文生态都值得比较。最重要的是建立业务评测样本：把真实合同条款、标准条款、历史审查意见放进去，评测模型能否找出关键风险，而不是只看摘要流畅度。

长文任务的常见误区，是把资料越塞越多。上下文越长，噪声越多，成本越高，引用越难。更好的策略是先做资料结构化：目录、章节、表格、条款、附件、版本、权限都要清楚，再让模型阅读。模型是阅读器，不是资料治理系统。

八、按任务选：中文代码和工程助手

中文代码助手要测四件事：理解中文需求、读懂仓库上下文、生成可运行修改、根据测试反馈修复。只看一次代码片段生成，很容易误判。Qwen3-Coder、GLM-4.6、Kimi K2.6、MiniMax-M2.5、DeepSeek、Claude、OpenAI Codex 系列都可以进入候选，但要拿自己的仓库测试。

Qwen3-Coder 的优势是开源和云 API 生态结合，适合团队做本地代码助手、私有代码分析和 DevOps 脚本。GLM-4.6 强调编码和 Agent 能力，适合工具调用型代码助手。Kimi K2.6 对前端和长上下文代码任务有吸引力。MiniMax-M2.5 在价格和 agentic coding 上可以承担大量草稿和辅助。DeepSeek 可以做代码解释、复杂问题推理和低成本批处理，但具体补丁质量要实测。

代码任务要区分“建议”和“执行”。模型生成架构建议、解释错误、写单元测试草稿，风险较低；模型自动改文件、运行命令、提交代码，风险高。高风险路径必须经过差异审查、测试和人工确认。模型选型再好，也不能替代工程验证。

中文代码助手还要关注上下文组织。把整个仓库塞进长上下文不现实，也不稳定。应该先检索相关文件、构建依赖图、提取错误日志、限制修改范围，再让模型生成补丁。Qwen、GLM、Kimi 等长上下文能力可以提高上限，但代码理解仍需要工具链配合。

评测代码模型时，至少设计这些样本：一个小 bug 修复，一个跨文件重构，一个中文需求实现，一个测试失败分析，一个 SQL 或脚本生成，一个前端组件修改，一个项目风格遵守任务。看模型是否能真正跑通，而不是只看回答漂亮。

九、按任务选：复杂推理和决策支持

复杂推理任务包括经营分析、投研资料整理、政策判断、方案比较、供应商评估、故障诊断、学习辅导和多约束规划。DeepSeek 在这类任务中经常是优先候选，因为 R1 路线和推理成本优势明显。GLM-4.6、Qwen3-Max、Kimi K2.6、MiniMax-M2.5 也应按任务进入对比。

推理任务要避免两个极端。一个极端是只看模型能不能给出长链条解释。解释长不等于正确。另一个极端是为了省钱使用轻量模型处理高风险决策。正确做法是把推理任务拆成“事实收集、约束检查、方案生成、风险评估、结论表达”几个步骤。事实收集可以用检索和规则，方案生成用强模型，风险校验再用另一个模型或规则检查。

DeepSeek 适合低成本推理主力，但要控制输出长度和重试次数。Qwen 适合中文通用推理和生态整合。GLM 适合推理加工具的企业 Agent。Kimi 适合长资料推理。MiniMax 适合成本敏感的内容型推理和批处理。真正严肃的决策支持，最好不要只依赖一个模型一次回答，而应让系统保留证据和可复核步骤。

推理任务还要看“是否会承认不知道”。中文业务里，资料缺失很常见。一个模型如果总能编出完整方案，未必是好事。选型时要加入“资料不足”样本，观察模型是否能拒绝过度推断、是否能提出需要补充的字段、是否能把假设写清楚。

十、按任务选：客服、销售和运营内容

客服和销售任务通常高频、低延迟、成本敏感。大多数问题不需要最强模型。先用低成本中文模型做意图分类和知识库回答，再把高风险或复杂问题转给强模型或人工，是更实际的路线。DeepSeek、Qwen Flash、MiniMax-M2.5、GLM Air、Kimi 的不同档位都可以承担其中一部分。

客服任务的难点不是把话说顺，而是不能乱承诺。退款、赔付、售后政策、合同条款、价格、交付时间都必须基于业务系统。模型只能生成建议和草稿，最终答复应经过规则、资料引用或客服确认。选型时要测试模型是否会在政策不明确时谨慎回答。

销售和运营内容更看重表达风格。MiniMax、Qwen、Kimi、GLM、DeepSeek 都能写文案，但风格差别明显。品牌型内容、短视频脚本、社媒图文、直播口播、产品介绍，应看自然度、中文节奏、可编辑性和用户转化场景。MiniMax 在内容和语音视频链路上有明显产品价值，Qwen 和 Kimi 在长文内容和资料整理上也很实用。

运营场景还适合模型组合。先用低成本模型生成 10 个标题，再用强模型筛选和改写；先用 MiniMax 写口播稿，再用另一个模型检查事实；先用 Qwen 或 Kimi 整理资料，再用 MiniMax 改成短视频脚本。多模型组合比单模型全包更稳定。

十一、按任务选：多模态、图片、语音和视频

多模态选型要从输入类型开始。图片理解、文档截图、表格识别、作业批改、商品图审核、短视频脚本生成、语音合成、音色设计、视频生成，不是同一个能力。Qwen3-VL、Qwen3-Omni、GLM-4.5V、MiniMax 的 Speech 和 Video 能力、Kimi 和其他模型的视觉能力，都要按具体任务测。

图片理解的重点是中文 OCR、表格结构、截图 UI、手写文字、低清晰度和业务字段抽取。很多模型 demo 看起来能看图，但在真实截图、压缩照片、倾斜表格上差异很大。若产品是教育批改、票据理解、门店巡检或客服截图处理，必须用自己的图片评测。

语音和视频任务更看重端到端链路。MiniMax 的语音、音色和视频生成能力适合内容生产；Qwen-Omni 适合多模态理解；GLM 和其他视觉模型适合图文问答。一个内容团队可能需要模型先写脚本，再生成语音，再配图或视频，再做字幕。此时模型选型要看整条链路，不只是文本模型分数。

多模态还要看成本和延迟。图片、视频、音频通常比文本更贵，也更慢。高频业务可以先用 OCR 或视觉检测工具提取结构化信息，再让文本模型推理；只有复杂图片理解才调用强视觉模型。不要把所有截图都直接丢给旗舰多模态模型。

十二、价格：便宜模型不一定便宜，贵模型也不一定浪费

价格选型不能只看每百万 token 单价。真实成本由输入长度、输出长度、缓存命中、重试次数、失败率、人工修改量、延迟成本和后处理成本组成。DeepSeek 价格低，且有缓存命中计费优势；MiniMax-M2.5 的 Pay as You Go 价格也适合批量任务；Qwen、GLM、Kimi 各有不同档位。选择时要算端到端成本。

一个模型输入便宜但输出啰嗦，可能比输入贵一点但输出稳定的模型更贵。一个模型单次便宜但 JSON 经常失败，需要修复两轮，也会增加成本。一个模型生成草稿质量高，人工修改少，即使单价贵，也可能总成本更低。对内容团队来说，人工编辑时间也是成本；对客服团队来说，错误答复造成的投诉也是成本。

成本控制的正确方式是任务分层。简单分类、标签、短摘要、草稿初稿，使用低成本模型；复杂推理、长文审查、代码修复、高风险建议，使用强模型；多模态任务先用轻量预处理；批处理任务排队执行并启用缓存。模型网关要记录每个功能的真实费用，而不是凭感觉省钱。

还要注意价格会变。供应商经常调整模型、价格、缓存、批处理和工具计费。生产系统不要把价格写死在文档里长期不管。应该定期同步官方价格页，并把模型别名、预算和成本报表作为运营工作的一部分。

十三、上下文：长不是万能，短也不是不可用

长上下文是中文任务的关键能力，但不是万能药。Kimi 的 256K 上下文、Qwen 和 GLM 的长上下文模型、MiniMax-M1-80k、Gemini 和 Claude 的长上下文能力，都能帮助处理长资料。但很多业务问题并不需要全文。把不相关内容塞进上下文，会降低准确率并增加费用。

长上下文适合三类任务：一次性整体阅读，多文档综合，检索难以提前定位的资料分析。短上下文加 RAG 适合高频问答、结构清楚的知识库、固定业务资料和强权限控制。二者不是替代关系，而是组合关系。

一个好架构通常是：先用检索和元数据过滤找出候选资料；如果候选资料少，直接让中等模型回答；如果候选资料多且结构复杂，再调用长上下文模型整合；如果结论风险高，再做引用校验。这样比每次都调用最长上下文模型更稳。

上下文还要考虑输出上限。很多模型输入很长，但输出限制仍然有限。长资料总结、代码补丁、报告生成可能需要分阶段输出。选型时不要只看输入上下文，也要看最大输出、流式稳定性、截断行为和续写能力。

十四、部署：API、开源权重和私有化怎么取舍

API 方式最适合快速上线。它省掉推理运维、显卡管理、模型压缩、并发调优和版本更新，适合大多数早期产品。DeepSeek、Qwen、Kimi、GLM、MiniMax 都提供官方 API 或开放平台。团队只要通过模型网关统一接入，就能比较模型质量和成本。

开源权重适合隐私、成本和可控性要求更高的场景。Qwen、DeepSeek、GLM、MiniMax、Kimi K2 等都有开放权重或开源生态资料。开源不等于免费生产。你还要承担 GPU、推理框架、显存、吞吐、监控、升级、量化和安全成本。若团队没有运维能力，盲目本地部署可能比 API 更贵。

私有化适合三类业务：数据不能出域，调用量大到 API 成本不可接受，需要深度定制和稳定版本。即使私有化，也不一定所有任务都本地跑。可以把敏感知识库、本地摘要、低成本分类放本地，把复杂推理和多模态高峰任务走云 API。混合架构比纯本地或纯云更实用。

部署选型还要看许可证和商业条款。开源权重能不能商用，是否允许二次分发，是否有使用限制，模型输出和训练数据条款如何，都要读清楚。技术上能跑，不等于业务上可以放心用。

十五、业务适配：模型要嵌进产品分工

模型选型最终要落到产品分工。比如一个企业知识库产品，可以让 Qwen embedding 或其他 embedding 模型做索引，DeepSeek 做查询改写和低成本推理，Kimi 做长文资料综合，GLM 做工具调用和流程草稿，MiniMax 做用户可读的运营文案润色。不同任务走不同模型，体验反而更稳定。

一个代码助手产品，可以让 Qwen3-Coder 或 GLM-4.6 做主代码模型，Kimi K2.6 处理长上下文前端任务，DeepSeek 做错误推理和低成本解释，MiniMax 做文档和注释草稿。关键不是模型越多越好，而是每个模型有明确岗位。

一个内容生产产品，可以让 Kimi 或 Qwen 读资料，MiniMax 生成口播和多模态内容，DeepSeek 或 GLM 做事实校验和结构规划。这样既保留内容自然度，也避免纯创作模型在事实问题上过度发挥。

一个客服系统，可以让低成本模型处理普通问答，强模型处理投诉和复杂规则，视觉模型处理截图，人工确认处理高风险动作。模型网关根据意图、风险和预算路由。最终用户看到的是稳定服务，不需要知道背后换了哪个模型。

十六、评测：用自己的中文样本说话

模型评测要小而真实。第一版不需要几千题，先准备 50 到 200 个真实样本就很有价值。样本要覆盖你的核心任务：常见问题、边界问题、长文问题、错误输入、高风险输入、多轮上下文、代码修改、图片理解、成本敏感任务。每个样本要有期望结果或评分规则。

评分不要只看“好不好”。要拆成准确性、完整性、引用、格式、语气、拒答、成本、延迟、可编辑性和人工修改量。中文任务尤其要看语气是否像真实产品，是否出现生硬翻译腔，是否把内部术语暴露给用户，是否重复啰嗦。

评测要区分离线和线上。离线评测用于模型初筛和版本切换；线上灰度用于观察真实用户反馈、成本和失败率。新模型即使离线表现好，也应该先给低风险流量。模型发布页不是生产验收报告。

评测结果要沉淀成模型策略。不要每次凭个人感觉换模型。把结果写进模型别名配置：哪个模型适合哪个任务，哪个模型不适合哪个任务，出现什么错误时降级，什么任务必须人工确认。这样选型才会随着产品变成熟。

十七、一个分阶段落地方案

第一阶段，先建立模型网关和日志。把 DeepSeek、Qwen、Kimi、GLM、MiniMax 都接入统一出口，建立内部别名，不让业务代码直接写供应商模型名。记录模型、token、费用、耗时、错误和用户反馈。这个阶段重点是看见真实调用。

第二阶段，建立任务路由。把任务拆成低成本摘要、中文长文、复杂推理、代码、视觉、多模态内容、工具 Agent。每类任务至少配置一个主模型和一个备用模型。低风险任务允许降级，高风险任务只允许同等级备用或人工处理。

第三阶段，建立中文评测集。用真实业务样本跑 DeepSeek、Qwen、Kimi、GLM、MiniMax，记录结果。每次模型升级或价格变化，都跑核心样本。不要让模型升级变成线上赌博。

第四阶段，优化成本。根据网关报表识别最贵任务：是否输入太长、是否输出太啰嗦、是否重试过多、是否强模型被滥用、是否可以缓存、是否可以改为批处理。成本优化必须同时看质量回归。

第五阶段，考虑本地部署或私有化。等 API 调用量、敏感数据范围和任务稳定后，再决定哪些模型值得本地跑。优先本地化低成本高频任务或敏感资料处理，不要一开始就把全部模型搬到本地。

十八、容易踩的坑

第一个坑是拿排行榜当选型。排行榜样本和你的业务样本不同。模型在通用榜单高，不代表在你的客服、合同、代码仓库和图片工单里高。

第二个坑是只追最新模型。新模型可能更强，也可能接口不稳定、价格未定、工具调用细节变化、输出风格不适合产品。生产系统要灰度，不要一键全量。

第三个坑是只看单次回答。模型在一次问答里表现好，不代表在多轮任务、长文、工具调用、格式输出、重试和高并发里稳定。要测完整链路。

第四个坑是忽略人工成本。一个模型便宜但要人工大改，另一个模型贵但能直接用，后者可能更省钱。内容、客服、代码和审查任务都要算人工修改量。

第五个坑是把多模态当加分项。多模态不是“能看图”就够。要测中文 OCR、表格、截图、低清照片、真实业务字段和失败提示。

第六个坑是把开源当免费。开源权重需要部署、监控、显卡、推理优化、安全和升级。API 成本和本地成本要算总账。

第七个坑是没有回滚。模型切换后质量下降，如果没有别名版本和日志，只能临时改代码。模型网关和灰度是生产选型的基本设施。

十九、检查清单

任务清单：是否把中文任务拆成问答、长文、代码、推理、多模态、客服、内容、批处理、工具 Agent；是否每类任务有主模型和备用模型；是否定义了不可降级任务。

资料清单：是否查过官方 API 文档、价格页、模型发布页、GitHub 模型卡和技术报告；是否记录模型上下文、输出上限、工具调用、图片输入、缓存、价格和部署方式；是否定期更新。

评测清单：是否有真实中文样本；是否覆盖长文、边界、错误输入、格式输出、代码、多模态和高风险问题；是否记录准确率、成本、延迟、人工修改量；是否做灰度。

工程清单：是否通过模型网关接入；是否用内部模型别名；是否记录 token、费用、错误、重试和降级；是否有预算；是否能按用户、功能和任务查看成本。

风险清单：是否区分敏感数据和普通数据；是否控制数据出域；是否避免模型直接执行高风险动作；是否有人工确认；是否有审计记录；是否能回滚模型版本。

二十、五种常见组合方案

第一种是知识库和资料助手组合。入口用低成本模型做问题改写和意图识别，检索层用 embedding 和 reranker 找资料，普通问答用 Qwen、DeepSeek 或 MiniMax 的经济档位，复杂长文用 Kimi 或 GLM，答案校验再用规则和小模型检查引用。这个组合的重点不是让某个模型“读完全部资料”，而是让每一步都只处理自己该处理的内容。资料型产品最怕答案说得很完整却没有依据，所以引用、版本和权限比模型品牌更重要。

第二种是中文代码助手组合。主代码模型可以从 Qwen3-Coder、GLM-4.6、Kimi K2.6、MiniMax-M2.5 中实测选择，DeepSeek 用于错误分析、方案比较和低成本解释。工具层负责读取文件、运行测试和生成差异，模型只提出修改建议或补丁。对团队来说，真正决定可用性的不是模型一次能写多少代码，而是它能不能在仓库约束、测试反馈和代码风格下持续改对。

第三种是客服和运营组合。高频普通问题走便宜模型，复杂投诉和规则解释走强模型，图片工单走视觉模型，退款、赔付和订单变更只生成草稿并交给人工确认。MiniMax 可以承担话术润色、口播和营销内容，Qwen 或 Kimi 可以整理资料，DeepSeek 或 GLM 可以做规则判断。这个组合适合成本敏感但又不能乱承诺的业务。

第四种是内容生产组合。Kimi 或 Qwen 先读长资料并抽出事实，DeepSeek 或 GLM 做结构规划和风险检查，MiniMax 负责把结构转成更自然的脚本、口播、短视频文案或多模态素材说明。内容场景不要只追求“写得多”，还要看事实是否准确、风格是否贴合品牌、是否容易二次编辑、是否能稳定产出同一栏目风格。

第五种是混合部署组合。敏感资料、本地摘要和内部知识库可以先用本地 Qwen、DeepSeek、GLM 或其他开放权重模型处理；复杂推理、多模态高峰、代码 Agent 和长文任务再走官方 API。这样既能控制数据流，也能保留强模型能力。混合部署的关键是模型网关统一出口：同一个业务任务通过内部别名选择本地或云端模型，日志、费用、错误和质量反馈仍然集中记录。

这些组合不是固定配方，而是提醒团队按岗位分工。一个模型可以在某些岗位上是主力，在另一些岗位上只是备用；一个供应商可以负责通用文本，另一个负责视觉，第三个负责代码。真正成熟的中文 AI 产品，不会把模型选型变成信仰问题，而会把它变成可测试、可调整、可回滚的工程问题。

结语

DeepSeek、Qwen、Kimi、GLM、MiniMax 不是五个互相替代的名字，而是五类可以组合的能力。DeepSeek 适合高性价比推理和批处理，Qwen 适合中文工程底座和多模态生态，Kimi 适合长上下文和资料型产品，GLM 适合企业 Agent 和工具调用，MiniMax 适合内容、多模态和低成本生产链路。具体项目里，答案还要由真实中文样本决定。

中文模型选型成熟的标志，不是团队终于找到一个永远最强的模型，而是团队建立了模型岗位、评测集、路由策略、成本报表和回滚机制。模型会继续变化，价格会继续变化，能力会继续变化。真正稳定的是这套选型方法。

参考资料

DeepSeek API 模型与价格：https://api-docs.deepseek.com/zh-cn/quick_start/pricing
DeepSeek Function Calling：https://api-docs.deepseek.com/zh-cn/guides/function_calling
DeepSeek Context Caching：https://api-docs.deepseek.com/zh-cn/guides/kv_cache
DeepSeek-V3 GitHub：https://github.com/deepseek-ai/DeepSeek-V3
Qwen3 GitHub：https://github.com/QwenLM/Qwen3
Qwen3-Coder GitHub：https://github.com/QwenLM/Qwen3-Coder
阿里云 Model Studio 模型列表：https://www.alibabacloud.com/help/zh/model-studio/models
Kimi K2.6 Quickstart：https://platform.kimi.ai/docs/guide/kimi-k2-6-quickstart
Kimi K2.6 Pricing：https://platform.kimi.ai/docs/pricing/chat-k26
GLM-4.6 Guide：https://docs.z.ai/guides/llm/glm-4.6
Z.AI Pricing：https://docs.z.ai/guides/overview/pricing
MiniMax Text Model Guide：https://platform.minimax.io/docs/guides/text-models
MiniMax Pay as You Go Pricing：https://platform.minimax.io/docs/guides/pricing-paygo
MiniMax OpenAI-compatible Text API：https://platform.minimax.io/docs/api-reference/text-openai-api

LocalAIHub 中文社区