Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我们评中文能力时,让模型写一段介绍,都写得挺顺。然后业务问答还是错。中文能力到底测什么?
会写中文只是最低层。要测口语理解、简称、错别字、行业词、语气、拒答、长句条件。
还有中文里的省略。用户说“这个还能报吗”,模型要知道“这个”指前面哪个项目。
我会加同义问法。比如“发票丢了”“票没了”“报销票据找不到”,看能不能归到同一规则。
还有地域词。我们这边用户说“社保基数咋弄”,不同城市口径不一样。
让模型翻译成英文再推理会不会更准?
有时有帮助,但中文业务细节可能丢。别把中文场景绕成英文场景。
中文能力也包括不端着。有些模型回答像公告,用户看不下去。
那评测要让业务看语气吗?
要,但语气不能压过事实。先正确,再好读。
代码混中文也要测。很多团队 issue 是中文描述、英文变量、拼音缩写混在一起。
合规词也很重要。人事、财务、合同里有些话不能乱承诺。
所以中文评测不该是作文题。
对。应该是中文真实工作样例。
让模型写漂亮中文,和让它处理中文业务,是两回事。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗