Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
会写中文只是最低层。要测口语理解、简称、错别字、行业词、语气、拒答、长句条件。
还有中文里的省略。用户说“这个还能报吗”,模型要知道“这个”指前面哪个项目。
我会加同义问法。比如“发票丢了”“票没了”“报销票据找不到”,看能不能归到同一规则。
还有地域词。我们这边用户说“社保基数咋弄”,不同城市口径不一样。
让模型翻译成英文再推理会不会更准?
有时有帮助,但中文业务细节可能丢。别把中文场景绕成英文场景。
中文能力也包括不端着。有些模型回答像公告,用户看不下去。
那评测要让业务看语气吗?
要,但语气不能压过事实。先正确,再好读。
代码混中文也要测。很多团队 issue 是中文描述、英文变量、拼音缩写混在一起。
合规词也很重要。人事、财务、合同里有些话不能乱承诺。
所以中文评测不该是作文题。
对。应该是中文真实工作样例。
让模型写漂亮中文,和让它处理中文业务,是两回事。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗