中文知识库 embedding 用 bge-m3 还是 bge-large-zh？

陈一

中文内部文档，偶尔有英文 API 名。bge-m3 和 bge-large-zh-v1.5 怎么选？

小林

如果主要中文，bge-large-zh-v1.5 很稳。中英混杂、多语、长文一点的场景我会先试 bge-m3。

sora_dev

别只看模型卡。拿你们真实问题做 50 条，人工看 top_5，差异很快出来。

小满满

我们从 text2vec 换到 bge-m3，召回明显好一些，但真正提升来自重切块，不全是 embedding 功劳。

no_signal

bge-m3 还有稀疏和多向量能力，但很多项目只用 dense。别以为换上就自动 hybrid。

小唐

维度不同会影响存储和索引成本。别忘了重建向量库，不要混新旧 embedding。

rootless

我见过最离谱的是新模型写入旧 collection，维度不匹配报错以后临时截断向量。这个千万别做。

阿航

如果你们要本地部署，推理延迟也要测。embedding 不是离线一次就结束，本地知识库更新会持续跑。

陈一

现在 8 万个 chunk，更新频率一周两次。GPU 没有，只有 M2。

米饭

那吞吐要算。也可以先 CPU 批处理，晚上跑。别把用户提问链路卡在 embed 上。

nora

查询文本 embedding 通常很短，真正慢的是批量入库。把 ingest 和 query 服务拆开。

小路灯

中英混合还有一个坑：英文缩写和中文解释不要拆开。embedding 模型再好，也救不了断裂上下文。

陈一

我先用现有文档做 bge-large-zh 和 bge-m3 对比，不直接迁。

sora_dev

对比时固定切块、top_k、reranker。一次只改一个变量。

小林

最后要保留失败样例。embedding 选择没有银弹，样例比排名表更有价值。

LocalAIHub 中文社区