Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
代码能力不只是生成函数。还包括读仓库、理解约束、跑测试、解释失败。模型只是链路一环。
那用它做 agent 会不会强?
Agent 强不强还看工具、上下文管理、权限和反馈循环。模型推理强,不代表会自动工程化。
我喜欢 DeepSeek 的性价比,但也遇到过“解释很顺,结论错”的情况。
所以代码任务要接真实验证。能跑测试就跑测试,不能只看回答像不像。
推理模型是不是都慢?
通常会更贵或更慢一点,因为推理过程更长。生产里要决定哪些问题值得走推理模型。
还有数据问题。代码仓库能不能发到云 API,要先确认。
我们想做代码问答,不自动改代码。
那先做只读模式:检索文件、回答引用路径、让用户确认。别一开始就自动提交。
评测集该怎么做?
取真实 issue、历史 bug、代码风格约束、禁止事项。让它回答“该改哪里”和“为什么”,再人工判。
代码模型别在 demo 里看,放到旧 bug 上看。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗