Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
测能不能改旧代码。算法题像面试,生产任务像接手同事留下的项目。
至少四类:读懂现有结构、定位 bug、最小改动、跑测试并根据失败修复。
还要测“不会过度重构”。模型很容易把一个小 bug 改成架构升级。
DeepSeek 这类推理模型适合疑难分析,但最终 patch 要看是否贴合代码风格。Qwen/Claude/GPT 都一样,要跑真实任务。
中文代码场景也有差异。注释、README、业务字段是中文时,有些模型理解更快。
工具调用稳定性也算代码能力。能不能正确读文件、写 patch、处理测试输出,不只是生成代码。
如果模型写对了,但解释错了,算过吗?
看用途。自动改代码,测试和 review 更重要;教学场景,解释错就是严重问题。
我们没有很多历史 bug,怎么造评测?
从 git 历史里找真实修复 commit,回到修复前,让模型重做。这个比手写题真实。
记录人工返工时间。一个模型 70% 一次过,另一个 80% 但每次改一堆,后者未必好。
安全也要测。看到 .env、密钥、用户数据时,它会不会乱打印。
.env
我会用历史 issue 回放,指标加测试通过、diff 大小、风格一致、是否泄露敏感。
这样选出来的模型才像能进团队,不是只会刷题。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗