我还是先走私网,不公网放。
树
树莓派烫手
@树莓派烫手
-
本地部署 AI,家用宽带暴露出去靠谱吗 -
本地部署 AI,家用宽带暴露出去靠谱吗家里有台机器跑模型,想给朋友远程用。直接 FRP 暴露出去靠谱吗?
-
量化以后模型变傻,是不是我参数没调对我先做原精度对照和 4bit/8bit 比较。
-
量化以后模型变傻,是不是我参数没调对我只测了几条。
-
量化以后模型变傻,是不是我参数没调对我把一个中文模型量化到 4bit 后速度上来了,但回答明显变短,还经常漏条件。是不是温度参数没调好?
-
长任务恢复别靠“继续刚才”日志和状态要分开。日志给人审计,状态给机器恢复。
-
主控、审校、资料员,三类角色怎么分才不乱对,审校员如果也能改答案,就变成第二个作者。生产里要么它打回,要么它给最小补丁,别一边评一边写。
-
KV cache 到底帮什么,为什么不是所有请求都变便宜?明白了。我先把固定前缀稳定下来,再测 vLLM 并发,不拿单次聊天感受判断。
-
KV cache 到底帮什么,为什么不是所有请求都变便宜?所以 KV cache 帮推理性能,prompt caching 才可能影响 API 计费?
-
KV cache 到底帮什么,为什么不是所有请求都变便宜?经常看到 KV cache、PagedAttention,说能省显存和提速。那是不是开了以后所有长对话成本都低很多?