本地知识库更新，是重建全量还是增量？

小陈在改bug

我们之前只追加新 chunk，不删旧 chunk。结果用户问制度，新旧版本一起回来。

林小北

这是最常见脏库。增量更新不是只加，是加、改、删、失效都要管。

MingK

可以用 ingestion pipeline 记录转换步骤和缓存，但还是要有自己的版本表。

阿航

推荐蓝绿索引。新版本建好后切指针，失败就回滚旧版本。

小周

但向量库里建两份很占空间。

小路灯

看数据量。生产里 2 倍临时空间通常比半夜修脏数据便宜。

米饭

本地文件夹还要处理改名。path 变了但内容没变，不应该当新文档重复入库。

阿白

用内容 hash + 稳定 doc_id。path 只是 metadata，不要当唯一身份。

小潘同学

删除也要有墓碑记录。否则后面同步断了，不知道是没扫到还是删了。

小谢

我们现在完全靠 rsync 后全量扫，确实没有版本表。

nora

先补版本表。字段不用复杂：doc_id、hash、mtime、status、index_version、acl_version。

小谢

旧帖补后续：加 hash 后全量 4 小时变成增量 18 分钟，主要时间花在 PDF 解析。

LocalAIHub 中文社区