Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我现在 metadata 里放了 path、title、部门、更新时间、权限组、页码,感觉有点臃肿。大家一般怎么取舍?
先分两类:检索过滤要用的,展示引用要用的。别把“可能以后有用”的都塞进去。
path 和页码一定要有,不然用户问出处时很难回到原文。
更新时间我觉得也要有,本地知识库最怕旧文件赢了新文件。
权限组必须有,但别只存在 metadata 里。向量库过滤只是应用层的一环,原文下载也要校验。
metadata 放进 embedding 文本吗?比如标题和正文一起 embed。
标题可以拼进去,权限组别拼。用户问“财务制度”,标题是语义线索;权限是访问控制,不是语义。
我遇到过 title 拼太多导致召回偏题。文档标题叫“2024 新版员工手册”,里面很多块都被“员工手册”带偏。
可以把 title 作为单独字段给 reranker 或 prompt,embedding 文本里只放当前标题链和正文,不放整条路径。
metadata extractor 自动抽摘要靠谱吗?
能帮忙,但别当唯一来源。抽错一次,后面全链路都会信它。
我建议最小集:doc_id、chunk_id、title_path、page、section、mtime、acl、source_url。其他先别急。
还有 hash。后面做增量更新,没有 hash 会很痛。
收到。我准备把展示字段和过滤字段分开建,不再把 metadata 当万能袋子。
这个思路对。metadata 是检索和治理的桥,不是垃圾桶。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗