选模型时到底先看榜单还是先看任务

陈一

我会先让 Qwen、DeepSeek、GPT、Claude 各跑一遍同一批样例。别用“感觉中文好”这种词，给可判分的样例。

nora

还要看数据边界。不是所有内容都适合走海外云模型。选型不是只选能力。

小潘同学

但本地模型评测太慢，业务方等不了。

melo

小批次也能测。先 80 条真实样例，10 条高风险样例，别上来搞大工程。

阿航

注意历史消息。很多模型单轮答得好，多轮带旧上下文就开始漂。

小吴

我们之前只测单轮。

林小北

那不够。知识库产品至少要测追问、纠错、补充条件、用户说“不是这个意思”的情况。

小蓝

还有输出风格。有的模型答案很像论文，有的更像客服。这个也会影响接受度。

Grace

最终通常不是一个模型打天下。低风险走便宜模型，高风险或复杂推理再升级。

小吴

这样我准备改成模型路由评测，不做单一冠军。

LocalAIHub 中文社区