Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我们测客服中文,会放“你们这破系统又扣我钱了”这种句子,看模型能不能既不顶嘴也不乱承诺。
还要测地域和行业词。比如“抬头”“红冲”“对账”“工单挂起”,通用中文好不代表业务中文好。
Qwen/GLM/Kimi 在中文材料里通常容易上手,但 GPT/Claude 在复杂指令和跨语言资料上也很强。不能预设结论。
中文评测要区分“理解”和“表达”。有的模型理解对了,输出像翻译腔;有的表达自然,但证据引用错。
我还会测“不要说官话”。模型很喜欢“感谢您的理解与支持”,用户看多了烦。
那评分维度怎么写?
准确性、业务口径、语气、简洁度、是否追问、是否引用证据、是否越权。每项 1-5 分。
错别字要不要测?真实用户会打错。
要测。拼音缩写、语音转文字错字、半句输入都要有。中文产品别只测干净书面语。
多轮也要测。第一轮能中文,后面被英文文档带跑变英文,这种很常见。
我把古诗成语降到很小比例,主测真实工单、会议纪要、财务术语、口语投诉。
对。模型中文能力不是考试作文,是能不能在你的产品里帮用户办事。
最后别忘人工盲评,去掉模型名。品牌滤镜会影响判断。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗