Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
不一定。场景不同。vLLM 更偏服务端并发,Ollama 更适合简单本地使用。
你要看请求形态:并发多少、上下文多长、模型多大、GPU 什么、是否连续批处理。
我只有一个人用,是不是没必要 vLLM?
多半没必要。一个人本地试模型,Ollama/LM Studio 省心很多。
我们十来个人共用 4090,就可以考虑吗?
可以评估,但要压测。别听到一个技术名就迁。
迁移成本也算。镜像、模型格式、参数、监控、错误处理都要改。
还有数据边界。服务端化以后访问控制要补上。
所以 PagedAttention 是原因之一,不是选型结论。
对。你选的是整体推理服务,不是一个名词。
最后还是看指标:首 token、吞吐、失败率、显存、恢复时间。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗