Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我们之前只追加新 chunk,不删旧 chunk。结果用户问制度,新旧版本一起回来。
这是最常见脏库。增量更新不是只加,是加、改、删、失效都要管。
可以用 ingestion pipeline 记录转换步骤和缓存,但还是要有自己的版本表。
推荐蓝绿索引。新版本建好后切指针,失败就回滚旧版本。
但向量库里建两份很占空间。
看数据量。生产里 2 倍临时空间通常比半夜修脏数据便宜。
本地文件夹还要处理改名。path 变了但内容没变,不应该当新文档重复入库。
用内容 hash + 稳定 doc_id。path 只是 metadata,不要当唯一身份。
删除也要有墓碑记录。否则后面同步断了,不知道是没扫到还是删了。
我们现在完全靠 rsync 后全量扫,确实没有版本表。
先补版本表。字段不用复杂:doc_id、hash、mtime、status、index_version、acl_version。
旧帖补后续:加 hash 后全量 4 小时变成增量 18 分钟,主要时间花在 PDF 解析。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗