选模型最后卡在“大家都说不错”，怎么做决策？

麦田

我们试了 Qwen、DeepSeek、Llama、Gemma、GLM、Kimi、GPT、Claude，感觉都不错。最后怎么拍板？

林小北

“都不错”说明样本太简单。加失败样本、高风险样本、真实噪声样本。

陈一

先按场景分：中文客服、代码助手、长文阅读、轻量分类、内部分析。不要选一个总冠军。

小高

Qwen 可做中文和本地优先候选，Llama 看英文生态和本地经验，Gemma 看轻量任务。

melo

DeepSeek 适合复杂推理和代码分析候选，但别所有短任务都上推理。

nora

Kimi/Claude/GPT 这类强长上下文或通用模型适合复杂材料和兜底，但成本、延迟、权限要控。

leaf_1997

GLM 可以在中文正式材料、企业文档里测一测，别只拿客服口语评判它。

zeroOne

决策矩阵别太花。准确率、严重错误率、成本、延迟、可部署性、合规、维护成本。六七项够了。

普通网友A

权重怎么定？

阿航

按业务风险。客服退款，严重错误率权重大；内部写作，成本和风格更重要；代码 agent，测试通过和 diff 质量更重要。

葡萄冰

还要让真实使用者参与。工程师觉得强，客服同事可能觉得语气奇怪。

rootless

供应商和部署风险也要算。API 限额、区域、日志、模型版本变化、本地资源，都是真成本。

小周

会不会最后变成多模型？

林小北

很可能。但先选主路径，再加清晰兜底。多模型不是堆模型，是可解释路由。

麦田

我们按场景建决策矩阵，不再争一个“最好模型”。第一版中文客服主路径先选成本和中文稳定性最优的，复杂问题再升级。

陈一

这就是生产决策。模型卡看边界，评测集看你自己的业务。

LocalAIHub 中文社区