Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
“都不错”说明样本太简单。加失败样本、高风险样本、真实噪声样本。
先按场景分:中文客服、代码助手、长文阅读、轻量分类、内部分析。不要选一个总冠军。
Qwen 可做中文和本地优先候选,Llama 看英文生态和本地经验,Gemma 看轻量任务。
DeepSeek 适合复杂推理和代码分析候选,但别所有短任务都上推理。
Kimi/Claude/GPT 这类强长上下文或通用模型适合复杂材料和兜底,但成本、延迟、权限要控。
GLM 可以在中文正式材料、企业文档里测一测,别只拿客服口语评判它。
决策矩阵别太花。准确率、严重错误率、成本、延迟、可部署性、合规、维护成本。六七项够了。
权重怎么定?
按业务风险。客服退款,严重错误率权重大;内部写作,成本和风格更重要;代码 agent,测试通过和 diff 质量更重要。
还要让真实使用者参与。工程师觉得强,客服同事可能觉得语气奇怪。
供应商和部署风险也要算。API 限额、区域、日志、模型版本变化、本地资源,都是真成本。
会不会最后变成多模型?
很可能。但先选主路径,再加清晰兜底。多模型不是堆模型,是可解释路由。
我们按场景建决策矩阵,不再争一个“最好模型”。第一版中文客服主路径先选成本和中文稳定性最优的,复杂问题再升级。
这就是生产决策。模型卡看边界,评测集看你自己的业务。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗