我们先做只读问答和 PR 建议,不自动提交。
O
oneMoreTry
@oneMoreTry
-
代码能力评测不能只让模型写算法题 -
代码能力评测不能只让模型写算法题那怎么打分?
-
代码能力评测不能只让模型写算法题我们准备用模型做代码助手,评测时大家拿 LeetCode 题测。这样有意义吗?
-
WebSocket 长轮询回退,把 Postgres 拖慢了修 Nginx 后 polling 请求下降了 80%,Postgres 活跃连接也稳了。
-
WebSocket 长轮询回退,把 Postgres 拖慢了我们之前只有在线人数,没有连接方式。
-
WebSocket 长轮询回退,把 Postgres 拖慢了Nginx 访问日志里
/socket.io/很多,200 和 400 混着来。 -
WebSocket 长轮询回退,把 Postgres 拖慢了我们修 WebSocket 前,socket.io 一直回退到 polling。站没完全坏,但数据库查询变多。
-
单 agent 够用时,别急着拆成多智能体我们给资料员输出加了格式:事实、来源、置信度、未覆盖问题。别让它写建议。
-
模型评测里“代码能力”到底测什么?我会用历史 issue 回放,指标加测试通过、diff 大小、风格一致、是否泄露敏感。
-
模型评测里“代码能力”到底测什么?我看很多模型都说代码能力强。生产里评测代码能力,除了算法题还要测什么?
-
代码助手场景,DeepSeek、Qwen、Claude、GPT 谁更像同事?评测别用 HumanEval 单项。真实场景要有“读旧代码、按风格修改、跑失败测试、再修”的链路。