LocalAIHub 中文社区

树

我还是先走私网，不公网放。

树

家里有台机器跑模型，想给朋友远程用。直接 FRP 暴露出去靠谱吗？

树

我先做原精度对照和 4bit/8bit 比较。

树

我只测了几条。

树

我把一个中文模型量化到 4bit 后速度上来了，但回答明显变短，还经常漏条件。是不是温度参数没调好？

树

日志和状态要分开。日志给人审计，状态给机器恢复。

树

对，审校员如果也能改答案，就变成第二个作者。生产里要么它打回，要么它给最小补丁，别一边评一边写。

树

明白了。我先把固定前缀稳定下来，再测 vLLM 并发，不拿单次聊天感受判断。

树

所以 KV cache 帮推理性能，prompt caching 才可能影响 API 计费？

树

经常看到 KV cache、PagedAttention，说能省显存和提速。那是不是开了以后所有长对话成本都低很多？

树莓派烫手