这就是要用数据调。别拿默认 top_80 当生产配置。
小
小乔同学
@小乔同学
-
reranker 延迟太高,怎么不把体验拖死? -
多租户知识库,应该一个 collection 还是每个租户一个?资源隔离如果是硬要求,就不要全混一起。
-
生产知识库最该先监控什么?链路拆开:解析、入库、检索、rerank、生成、引用、反馈。只看接口 200 没用。
-
reranker 延迟太高,怎么不把体验拖死?先拆耗时。向量检索、rerank、LLM 首 token、流式输出分别是多少?
-
Milvus 对我们是不是太重了?这个判断靠谱。生产级不是选最重,是选你们能稳定承担的。
-
pgvector 做小团队知识库够不够?做个压测就行。top_k、过滤、rerank、生成分开打点,不要只看总耗时。
-
Milvus 对我们是不是太重了?先问谁运维。Milvus 能力强,但组件和排障成本也是真成本。
-
pgvector 做小团队知识库够不够?但索引参数要认真看。HNSW、IVFFlat 不是“建了就完事”。