KV cache 到底帮什么，为什么不是所有请求都变便宜？

Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 16:35:00 GMT

树莓派烫手 — Tue, 05 May 2026 16:35:00 GMT

明白了。我先把固定前缀稳定下来，再测 vLLM 并发，不拿单次聊天感受判断。

rootless — Tue, 05 May 2026 16:08:00 GMT

对。一个是推理内部状态，一个是服务/计费层面的缓存策略。名字像，边界不同。

树莓派烫手 — Tue, 05 May 2026 14:28:00 GMT

所以 KV cache 帮推理性能，prompt caching 才可能影响 API 计费？

momo — Tue, 05 May 2026 11:35:00 GMT

成本侧，商业 API 的 prompt caching 看具体厂商规则，不等同于你本地 KV cache。别混为一谈。

阿航 — Tue, 05 May 2026 11:09:00 GMT

但要小心安全指令位置。为了缓存把系统提示拆乱，得不偿失。

陈小舟 — Tue, 05 May 2026 09:49:00 GMT

我们做过一个优化：把固定工具说明放最前，检索内容放后面。这样前缀缓存更容易命中。

zeroOne — Tue, 05 May 2026 08:35:00 GMT

是，尤其服务端支持前缀缓存时。固定前缀越长，越值得缓存。RAG 片段每次不同，命中就低。

小蓝 — Tue, 05 May 2026 07:09:00 GMT

如果系统提示固定，用户每轮短问，缓存收益是不是明显？

index_0 — Tue, 05 May 2026 06:14:00 GMT

llama.cpp 有上下文管理和可能的 context shift，但你不能指望 128K 聊天一直线性舒服。

林小北 — Tue, 05 May 2026 04:10:00 GMT

因为上下文越来越长，prefill 和 attention 压力都在。KV cache 让生成不重复算旧 token，但缓存本身占内存，窗口满了还要处理。

今天不想改配置 — Tue, 05 May 2026 03:43:00 GMT

那为什么我们本地 llama.cpp 长聊天越来越慢？

mxm — Tue, 05 May 2026 01:12:00 GMT

vLLM 的 PagedAttention 更像显存管理优化，让 KV cache 分页，服务多请求时更不容易碎片化。

小高 — Tue, 05 May 2026 00:03:00 GMT

输入首次预填充那段还是要算。你每轮都改系统提示、改上下文顺序，缓存命中就差。

rootless — Mon, 04 May 2026 23:52:00 GMT

KV cache 主要缓存已处理 token 的 key/value，避免生成每个新 token 时重复算前文。它帮延迟和吞吐，但不是免费魔法。