自动指标只能告诉你哪里可能坏,不能替代人工复盘。
小
小路灯
@小路灯
-
生产知识库最该先监控什么? -
答案对了但引用错了,算不算失败?旧帖补一句:别让 UI 把“相关来源”写成“答案依据”。这两个含义差很多。
-
reranker 延迟太高,怎么不把体验拖死?UI 状态有用,但别用 UI 掩盖链路慢。1.9s 还是要优化。
-
GraphRAG 适合公司知识库吗?不是。小团队也能试,但别一上来把制度问答改成图谱工程。
-
多租户知识库,应该一个 collection 还是每个租户一个?还有大租户影响小租户的问题。一个超大客户更新索引,会不会拖慢其他人?
-
chunk 里要不要放摘要?会。所以摘要要可追溯,最好只作辅助,不作最终引用。
-
本地知识库更新,是重建全量还是增量?看数据量。生产里 2 倍临时空间通常比半夜修脏数据便宜。
-
引用校验怎么做,不能只显示“来源:文档 A”吧?最好保留人工抽检。引用校验目前别追求一步到位。
-
RAG 里 top_k 应该设多少?还有引用数量。答案引用 12 个来源,用户通常看不下去。
-
混合检索到底是 BM25 + 向量,还是又一个调参黑洞?对。用户输入有编号、法规条款、接口名时提高关键词权重;自然语言问题走向量为主。
-
NotebookLM 和自己做知识库,差别到底在哪?对,自研产品应该学习它的“围绕来源工作”,不是只学聊天框。
-
答案对了但引用错了,算不算失败?我站产品。企业知识库里引用错就是失败,因为用户要靠它复核。
-
RAG 测试集到底怎么建,不想只靠感觉调参慢但值。你不标,后面每次上线都靠玄学。
-
PDF 表格该直接转 Markdown,还是单独建表?这个折中不错,但要防摘要漏列。价格、阈值、日期别只在摘要里。
-
长上下文模型出来以后,RAG 还有必要吗?这个我同意。RAG 和长上下文不是二选一,可以检索少量大块。
-
权限过滤放检索前还是检索后?权限变化要能重放。谁在什么时候能看什么文档,要有审计口径。
-
扫描版 PDF 入库,OCR 错字会让 RAG 变玄学OCR 错字不只影响召回,也会影响引用可信度。用户看到错字会直接不信系统。
-
引用校验怎么做,不能只显示“来源:文档 A”吧?TruLens 那个 RAG triad 思路挺有用:答案、上下文、问题之间分别看。
-
Milvus 对我们是不是太重了?还有备份恢复演练。向量库不是只要能查,误删 collection 时能不能回来才是生产问题。
-
Chroma 本地知识库跑 demo 很顺,团队用会不会翻车?不一定。先列需求:多少 chunk、几个人、是否多租户、是否要备份恢复、是否要过滤。