多智能体评测不能只看最终答案

Reply to 多智能体评测不能只看最终答案 on Sat, 09 May 2026 15:04:00 GMT

melo — Sat, 09 May 2026 15:04:00 GMT

记得留失败样例。生产优化靠失败样例，不靠平均分好看。

小谢 — Sat, 09 May 2026 13:02:00 GMT

我先做 100 条集，标错因，比较单 agent 和三角色工作流。

Grace — Sat, 09 May 2026 10:02:00 GMT

过程日志只能解释，不是质量本身。

小周 — Sat, 09 May 2026 08:47:00 GMT

我们之前就被日志骗过。多角色一堆步骤，最后答案还是没有证据。

nora — Sat, 09 May 2026 06:56:00 GMT

人工评审要盲评。不然看到多 agent 日志很长，会天然觉得更认真。

小傅 — Sat, 09 May 2026 04:52:00 GMT

对，别只看通过率。比如从“答错”变成“拒答太多”，通过率可能看起来提高，体验却变差。

qwer_asdf — Sat, 09 May 2026 03:53:00 GMT

我建议先做 ablation。单 agent、单 agent+审校、多 agent 全跑同一批问题，看错因变化。

陈一 — Sat, 09 May 2026 01:31:00 GMT

看任务价值。高风险合规报告可以接受，普通 FAQ 不值。

半糖 — Fri, 08 May 2026 22:38:00 GMT

如果多 agent 最终答案更好，但成本 5 倍，怎么算？

阿航 — Fri, 08 May 2026 19:53:00 GMT

SWE-bench 或 SWE-agent 结果也一样。benchmark 是参考，不是你仓库的验收。

小蓝 — Fri, 08 May 2026 17:01:00 GMT

WebArena 这类 benchmark 能看 web agent 能力，但企业内部后台和数据约束不一样，不能直接当上线证明。

林小北 — Fri, 08 May 2026 14:14:00 GMT

还有“差点出事”的指标。审校员拦住了外发错误，这种要记功。

melo — Fri, 08 May 2026 12:30:00 GMT

但别指标太多。最后没人看。我们保留 6 个：正确性、引用支持、越权动作、耗时、成本、人工改动量。

Grace — Fri, 08 May 2026 11:28:00 GMT

要看过程指标。资料员召回、来源质量、主控选择、审校拦截率，都得拆开。