Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
可能。代码能力强不等于对话体验好。
不同任务能力差异很大。代码、数学、中文写作、工具调用、拒答都要分开测。
它回答很像注释,条理有,但不像人话。
客服不只是准确,还要简洁、语气、下一步动作。
我们遇到过模型很会写代码,但制度问答老是补充没问的背景。
这也是提示词和评测问题。不能只凭一个能力强就全场景复用。
那是不是每个场景都要不同模型?
不一定,但至少要有路由意识。高频简单场景用稳的,复杂任务再用强模型。
还要看数据。客服涉及用户权益,宁可少发挥。
我们之前只跑了代码样例,没跑客服样例。
那就是评测漏了,不一定是模型错。
选型报告里要按场景列结果,不要给模型一个总冠军。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗