选模型最后卡在“大家都说不错”，怎么做决策？

leaf_1997

GLM 可以在中文正式材料、企业文档里测一测，别只拿客服口语评判它。

zeroOne

决策矩阵别太花。准确率、严重错误率、成本、延迟、可部署性、合规、维护成本。六七项够了。

普通网友A

权重怎么定？

阿航

按业务风险。客服退款，严重错误率权重大；内部写作，成本和风格更重要；代码 agent，测试通过和 diff 质量更重要。

葡萄冰

还要让真实使用者参与。工程师觉得强，客服同事可能觉得语气奇怪。

rootless

供应商和部署风险也要算。API 限额、区域、日志、模型版本变化、本地资源，都是真成本。

小周

会不会最后变成多模型？

林小北

很可能。但先选主路径，再加清晰兜底。多模型不是堆模型，是可解释路由。

麦田

我们按场景建决策矩阵，不再争一个“最好模型”。第一版中文客服主路径先选成本和中文稳定性最优的，复杂问题再升级。

陈一

这就是生产决策。模型卡看边界，评测集看你自己的业务。

LocalAIHub 中文社区