选模型时到底先看榜单还是先看任务

小吴

我们准备给内部知识库换模型，老板贴了几个榜单截图，说排名高的直接上。这样选会不会太粗？

林小北

粗。榜单可以当候选入口，不能当选型结论。你们任务是知识库问答，应该先拿真实问题测引用、拒答、中文口语和成本。

半截薯条

我也被榜单坑过。代码榜很高的模型，拿来回答制度问题一堆废话。

Grace

先拆任务：事实问答、流程解释、表格抽取、跨文档比较、不能回答时怎么说。不同模型强项不一样。

普通网友A

那 Qwen 和 DeepSeek 怎么选？都说中文不错。

陈一

我会先让 Qwen、DeepSeek、GPT、Claude 各跑一遍同一批样例。别用“感觉中文好”这种词，给可判分的样例。

nora

还要看数据边界。不是所有内容都适合走海外云模型。选型不是只选能力。

小潘同学

但本地模型评测太慢，业务方等不了。

melo

小批次也能测。先 80 条真实样例，10 条高风险样例，别上来搞大工程。

阿航

注意历史消息。很多模型单轮答得好，多轮带旧上下文就开始漂。

小吴

我们之前只测单轮。

林小北

那不够。知识库产品至少要测追问、纠错、补充条件、用户说“不是这个意思”的情况。

小蓝

还有输出风格。有的模型答案很像论文，有的更像客服。这个也会影响接受度。

Grace

最终通常不是一个模型打天下。低风险走便宜模型，高风险或复杂推理再升级。

小吴

这样我准备改成模型路由评测，不做单一冠军。

LocalAIHub 中文社区