中文能力评测，不要只看古诗和成语

葡萄冰

我们测客服中文，会放“你们这破系统又扣我钱了”这种句子，看模型能不能既不顶嘴也不乱承诺。

melo

还要测地域和行业词。比如“抬头”“红冲”“对账”“工单挂起”，通用中文好不代表业务中文好。

小蓝

Qwen/GLM/Kimi 在中文材料里通常容易上手，但 GPT/Claude 在复杂指令和跨语言资料上也很强。不能预设结论。

leaf_1997

中文评测要区分“理解”和“表达”。有的模型理解对了，输出像翻译腔；有的表达自然，但证据引用错。

阿宁

我还会测“不要说官话”。模型很喜欢“感谢您的理解与支持”，用户看多了烦。

普通网友A

那评分维度怎么写？

zeroOne

准确性、业务口径、语气、简洁度、是否追问、是否引用证据、是否越权。每项 1-5 分。

小周

错别字要不要测？真实用户会打错。

林小北

要测。拼音缩写、语音转文字错字、半句输入都要有。中文产品别只测干净书面语。

nora

多轮也要测。第一轮能中文，后面被英文文档带跑变英文，这种很常见。

小曹

我把古诗成语降到很小比例，主测真实工单、会议纪要、财务术语、口语投诉。

陈一

对。模型中文能力不是考试作文，是能不能在你的产品里帮用户办事。

葡萄冰

最后别忘人工盲评，去掉模型名。品牌滤镜会影响判断。

LocalAIHub 中文社区