中文客服场景，Qwen、GLM、Kimi、GPT 到底怎么选？

陈一

GLM 我们拿来做过政企材料问答，中文正式文风比较稳。但客服不一定要太正式，容易像公告。

nora

Kimi 如果资料很长，产品手册一大坨塞进去，它挺舒服。问题是别把“长上下文”当成不用检索，后面楼里肯定有人会踩这个坑。

今天不想改配置

GPT 做兜底体验会好一点，尤其用户问题含糊时会追问。但成本控制要早做，不然后面财务看账单脸色不好。

小潘同学

有没有必要一开始就多模型路由？比如中文普通问题 Qwen，复杂投诉 GPT。

阿航

可以，但别第一天就做太细。先用单模型跑出错误分布，再路由。否则你不知道“复杂投诉”到底怎么判。

葡萄冰

我们之前做过粗路由，按字数和关键词分，后来发现最贵的是短问题，因为短问题缺上下文，模型会追问好几轮。

zeroOne

先建 100 条内部评测：退款、发票、物流、账号、辱骂、越权、无资料。每个模型跑一遍，看人工评分，不要只看一次聊天感觉。

小吴

中文能力是不是 Qwen/GLM/Kimi 天然比 GPT/Claude 好？

leaf_1997

不一定。“中文读得懂”和“按你们公司口径说中文”是两件事。官方模型卡只能告诉能力边界，最终还是要用你自己的工单集测。

下班再看

还有延迟。客服聊天里 4 秒和 9 秒差别很大。我们后来小模型先出“我查一下”，大模型补完整答案。

米饭

但“我查一下”如果每次都说，也像机器人。我宁愿先流式输出一句有内容的澄清。

小郑

明白。先做 100 条工单评测，Qwen/GLM/Kimi/GPT 各跑一次，不急着路由。长资料还是走检索，不直接全塞。

LocalAIHub 中文社区