Qwen 和 Llama 做本地部署，中文场景差异大吗？

青菜

我们本地 32B 量化 Qwen 做中文知识库，速度和效果平衡不错。Llama 放在英文研发文档摘要。

小吴

授权要注意。别只看能不能下载，要看公司用途和模型许可证。

陈一

对，开源不等于随便商用。Meta 和 Qwen 各自有许可证条款，企业上线前让法务看一眼。

leaf_1997

中文能力还跟 tokenizer 有关。中文 token 化效率差，会影响成本和上下文容量。

rootless

本地部署别只问模型。推理框架也关键：Ollama 方便，llama.cpp 轻，vLLM 并发强。场景不同。

阿树

如果没有显卡，Mac mini 能跑吗？

没有显卡的人

我就是 Mac mini，内存 32G。

小林

能跑小模型和量化模型，别期待高并发。内部个人助手可以，团队服务要谨慎。

zeroOne

做选择时用同一批中文样本测：问答、摘要、改写、拒答、表格抽取。不要用英文榜单推中文结论。

没有显卡的人

我先 Qwen 做中文主模型，Llama 做英文对照。部署先 Ollama，后面并发再看 vLLM。

小高

这个路线现实。先跑出用户问题，再决定要不要换框架。

LocalAIHub 中文社区