多智能体评测不能只看最终答案

小蓝

WebArena 这类 benchmark 能看 web agent 能力，但企业内部后台和数据约束不一样，不能直接当上线证明。

阿航

SWE-bench 或 SWE-agent 结果也一样。benchmark 是参考，不是你仓库的验收。

半糖

如果多 agent 最终答案更好，但成本 5 倍，怎么算？

陈一

看任务价值。高风险合规报告可以接受，普通 FAQ 不值。

qwer_asdf

我建议先做 ablation。单 agent、单 agent+审校、多 agent 全跑同一批问题，看错因变化。

小傅

对，别只看通过率。比如从“答错”变成“拒答太多”，通过率可能看起来提高，体验却变差。

nora

人工评审要盲评。不然看到多 agent 日志很长，会天然觉得更认真。

小周

我们之前就被日志骗过。多角色一堆步骤，最后答案还是没有证据。

Grace

过程日志只能解释，不是质量本身。

小谢

我先做 100 条集，标错因，比较单 agent 和三角色工作流。

melo

记得留失败样例。生产优化靠失败样例，不靠平均分好看。

LocalAIHub 中文社区