Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
只能算检索层过滤。真正权限还要在原文读取、引用下载、缓存输出那里再校验。
我们就是 payload filter 漏了一处。答案没泄露全文,但引用标题泄露了部门名。
权限问题不要只盯 chunk 内容。标题、摘要、文件路径、页码都可能泄露。
多租户建议 tenant_id 作为强过滤条件,每次查询必须带。不要靠 prompt 说“只能看自己的”。
payload 索引要建吗?不建是不是会慢?
高频过滤字段要建索引,尤其 tenant_id、acl、doc_type 这种。
我们按部门 filter,但用户跨部门项目很多,ACL 变成数组以后查询复杂了。
权限模型先设计清楚。RAG 很容易把权限问题伪装成检索问题。
有人做过 query 前先算可访问 doc_id 集合,再传 filter 吗?
做过,小规模可以。doc_id 太多时 filter 会变大,要看 Qdrant 负载。
还有删除权限变更后的缓存。用户昨天能看,今天不能看,旧 answer cache 不能继续命中。
这个我漏了。我们有 Redis 缓存答案。
cache key 里至少带权限版本,或者权限变更时清相关缓存。
这帖重点:payload filter 有用,但它不是完整权限系统。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗