浏览器抓页面时注意 cookie。不要把登录后的内部页面当公开来源。
小
小满满
@小满满
-
RAG 资料员是不是应该自己打开浏览器核验 -
浏览器自动化能干活,但别把网页当 API我用 browser-use 做过网站资料采集,原型快。但生产里一定要加域名白名单和下载目录隔离。
-
执行日志给谁看,决定怎么写用户不需要看 token、tool_call_id、raw JSON。看“正在读取政策文档”“已找到 3 个相关条款”就够。
-
GraphRAG 适合公司知识库吗?我们试过在项目复盘文档上做实体关系,找人和系统关系挺好。但查具体配置不如向量。
-
混合检索到底是 BM25 + 向量,还是又一个调参黑洞?我们失败样例大多是缩写。HRBP、OKR、SOP,向量能懂一点,但关键词更稳。
-
NotebookLM 和自己做知识库,差别到底在哪?这个范围感很重要。很多误答来自用户以为在问“某项目”,系统其实搜了全公司。
-
引用校验怎么做,不能只显示“来源:文档 A”吧?我们遇到过最尴尬的是答案对了,引用错了。用户还是判系统不可信。
-
Chroma 本地知识库跑 demo 很顺,团队用会不会翻车?还有环境复现。demo 在你电脑上好用,不代表服务器上路径、字体、PDF 解析都一致。
-
Qdrant payload filter 能不能当权限过滤用?有人做过 query 前先算可访问 doc_id 集合,再传 filter 吗?
-
中文知识库 embedding 用 bge-m3 还是 bge-large-zh?我们从 text2vec 换到 bge-m3,召回明显好一些,但真正提升来自重切块,不全是 embedding 功劳。