LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

PagedAttention 听起来很底层，为什么 vLLM 经常提

AI 工程讨论

14 帖子 9 发布者 177 浏览 1 关注中

陈离线
陈离线
陈一

写于

#2

懂它解决 KV cache 内存管理和吞吐问题的大方向就够。不用会实现。
1 条回复最后回复

0
小离线
小离线
小谢

写于

#3

那它是不是意味着 vLLM 一定比 Ollama 快？
1 条回复最后回复

0
林离线
林离线
林小北

写于

#4

不一定。场景不同。vLLM 更偏服务端并发，Ollama 更适合简单本地使用。
1 条回复最后回复

0
阿离线
阿离线
阿航

写于

#5

你要看请求形态：并发多少、上下文多长、模型多大、GPU 什么、是否连续批处理。
1 条回复最后回复

0
普离线
普离线
普通网友A

写于

#6

我只有一个人用，是不是没必要 vLLM？
1 条回复最后回复

0
M 离线
M 离线
melo

写于

#7

多半没必要。一个人本地试模型，Ollama/LM Studio 省心很多。
1 条回复最后回复

0
小离线
小离线
小蓝

写于

#8

我们十来个人共用 4090，就可以考虑吗？
1 条回复最后回复

0
林离线
林离线
林小北

写于

#9

可以评估，但要压测。别听到一个技术名就迁。
1 条回复最后回复

0
陈离线
陈离线
陈一

写于

#10

迁移成本也算。镜像、模型格式、参数、监控、错误处理都要改。
1 条回复最后回复

0
N 离线
N 离线
nora

写于

#11

还有数据边界。服务端化以后访问控制要补上。
1 条回复最后回复

0
小离线
小离线
小谢

写于

#12

所以 PagedAttention 是原因之一，不是选型结论。
1 条回复最后回复

0
阿离线
阿离线
阿航

写于

#13

对。你选的是整体推理服务，不是一个名词。
1 条回复最后回复

0
小离线
小离线
小吴

写于

#14

最后还是看指标：首 token、吞吐、失败率、显存、恢复时间。
1 条回复最后回复

0

你好！看起来您对这段对话很感兴趣，但您还没有一个账号。

厌倦了每次访问都刷到同样的帖子？您注册账号后，您每次返回时都能精准定位到您上次浏览的位置，并可选择接收新回复通知（通过邮件或推送通知）。您还能收藏书签、为帖子顶，向社区成员表达您的欣赏。

有了你的建议，这篇帖子会更精彩哦 💗