<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[KV cache 到底帮什么，为什么不是所有请求都变便宜？]]></title><description><![CDATA[<p dir="auto">经常看到 KV cache、PagedAttention，说能省显存和提速。那是不是开了以后所有长对话成本都低很多？</p>
]]></description><link>https://localaihub.com/topic/83/kv-cache-到底帮什么-为什么不是所有请求都变便宜</link><generator>RSS for Node</generator><lastBuildDate>Wed, 03 Jun 2026 18:50:48 GMT</lastBuildDate><atom:link href="https://localaihub.com/topic/83.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 04 May 2026 22:34:00 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 16:35:00 GMT]]></title><description><![CDATA[<p dir="auto">明白了。我先把固定前缀稳定下来，再测 vLLM 并发，不拿单次聊天感受判断。</p>
]]></description><link>https://localaihub.com/post/528</link><guid isPermaLink="true">https://localaihub.com/post/528</guid><dc:creator><![CDATA[树莓派烫手]]></dc:creator><pubDate>Tue, 05 May 2026 16:35:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 16:08:00 GMT]]></title><description><![CDATA[<p dir="auto">对。一个是推理内部状态，一个是服务/计费层面的缓存策略。名字像，边界不同。</p>
]]></description><link>https://localaihub.com/post/527</link><guid isPermaLink="true">https://localaihub.com/post/527</guid><dc:creator><![CDATA[rootless]]></dc:creator><pubDate>Tue, 05 May 2026 16:08:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 14:28:00 GMT]]></title><description><![CDATA[<p dir="auto">所以 KV cache 帮推理性能，prompt caching 才可能影响 API 计费？</p>
]]></description><link>https://localaihub.com/post/526</link><guid isPermaLink="true">https://localaihub.com/post/526</guid><dc:creator><![CDATA[树莓派烫手]]></dc:creator><pubDate>Tue, 05 May 2026 14:28:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 11:35:00 GMT]]></title><description><![CDATA[<p dir="auto">成本侧，商业 API 的 prompt caching 看具体厂商规则，不等同于你本地 KV cache。别混为一谈。</p>
]]></description><link>https://localaihub.com/post/525</link><guid isPermaLink="true">https://localaihub.com/post/525</guid><dc:creator><![CDATA[momo]]></dc:creator><pubDate>Tue, 05 May 2026 11:35:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 11:09:00 GMT]]></title><description><![CDATA[<p dir="auto">但要小心安全指令位置。为了缓存把系统提示拆乱，得不偿失。</p>
]]></description><link>https://localaihub.com/post/524</link><guid isPermaLink="true">https://localaihub.com/post/524</guid><dc:creator><![CDATA[阿航]]></dc:creator><pubDate>Tue, 05 May 2026 11:09:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 09:49:00 GMT]]></title><description><![CDATA[<p dir="auto">我们做过一个优化：把固定工具说明放最前，检索内容放后面。这样前缀缓存更容易命中。</p>
]]></description><link>https://localaihub.com/post/523</link><guid isPermaLink="true">https://localaihub.com/post/523</guid><dc:creator><![CDATA[陈小舟]]></dc:creator><pubDate>Tue, 05 May 2026 09:49:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 08:35:00 GMT]]></title><description><![CDATA[<p dir="auto">是，尤其服务端支持前缀缓存时。固定前缀越长，越值得缓存。RAG 片段每次不同，命中就低。</p>
]]></description><link>https://localaihub.com/post/522</link><guid isPermaLink="true">https://localaihub.com/post/522</guid><dc:creator><![CDATA[zeroOne]]></dc:creator><pubDate>Tue, 05 May 2026 08:35:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 07:09:00 GMT]]></title><description><![CDATA[<p dir="auto">如果系统提示固定，用户每轮短问，缓存收益是不是明显？</p>
]]></description><link>https://localaihub.com/post/521</link><guid isPermaLink="true">https://localaihub.com/post/521</guid><dc:creator><![CDATA[小蓝]]></dc:creator><pubDate>Tue, 05 May 2026 07:09:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 06:14:00 GMT]]></title><description><![CDATA[<p dir="auto">llama.cpp 有上下文管理和可能的 context shift，但你不能指望 128K 聊天一直线性舒服。</p>
]]></description><link>https://localaihub.com/post/520</link><guid isPermaLink="true">https://localaihub.com/post/520</guid><dc:creator><![CDATA[index_0]]></dc:creator><pubDate>Tue, 05 May 2026 06:14:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 04:10:00 GMT]]></title><description><![CDATA[<p dir="auto">因为上下文越来越长，prefill 和 attention 压力都在。KV cache 让生成不重复算旧 token，但缓存本身占内存，窗口满了还要处理。</p>
]]></description><link>https://localaihub.com/post/519</link><guid isPermaLink="true">https://localaihub.com/post/519</guid><dc:creator><![CDATA[林小北]]></dc:creator><pubDate>Tue, 05 May 2026 04:10:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 03:43:00 GMT]]></title><description><![CDATA[<p dir="auto">那为什么我们本地 llama.cpp 长聊天越来越慢？</p>
]]></description><link>https://localaihub.com/post/518</link><guid isPermaLink="true">https://localaihub.com/post/518</guid><dc:creator><![CDATA[今天不想改配置]]></dc:creator><pubDate>Tue, 05 May 2026 03:43:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 01:12:00 GMT]]></title><description><![CDATA[<p dir="auto">vLLM 的 PagedAttention 更像显存管理优化，让 KV cache 分页，服务多请求时更不容易碎片化。</p>
]]></description><link>https://localaihub.com/post/517</link><guid isPermaLink="true">https://localaihub.com/post/517</guid><dc:creator><![CDATA[mxm]]></dc:creator><pubDate>Tue, 05 May 2026 01:12:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Tue, 05 May 2026 00:03:00 GMT]]></title><description><![CDATA[<p dir="auto">输入首次预填充那段还是要算。你每轮都改系统提示、改上下文顺序，缓存命中就差。</p>
]]></description><link>https://localaihub.com/post/516</link><guid isPermaLink="true">https://localaihub.com/post/516</guid><dc:creator><![CDATA[小高]]></dc:creator><pubDate>Tue, 05 May 2026 00:03:00 GMT</pubDate></item><item><title><![CDATA[Reply to KV cache 到底帮什么，为什么不是所有请求都变便宜？ on Mon, 04 May 2026 23:52:00 GMT]]></title><description><![CDATA[<p dir="auto">KV cache 主要缓存已处理 token 的 key/value，避免生成每个新 token 时重复算前文。它帮延迟和吞吐，但不是免费魔法。</p>
]]></description><link>https://localaihub.com/post/515</link><guid isPermaLink="true">https://localaihub.com/post/515</guid><dc:creator><![CDATA[rootless]]></dc:creator><pubDate>Mon, 04 May 2026 23:52:00 GMT</pubDate></item></channel></rss>