LocalAIHub 中文社区

小

浏览器抓页面时注意 cookie。不要把登录后的内部页面当公开来源。

小

我用 browser-use 做过网站资料采集，原型快。但生产里一定要加域名白名单和下载目录隔离。

小

用户不需要看 token、tool_call_id、raw JSON。看“正在读取政策文档”“已找到 3 个相关条款”就够。

小

我们试过在项目复盘文档上做实体关系，找人和系统关系挺好。但查具体配置不如向量。

小

我们失败样例大多是缩写。HRBP、OKR、SOP，向量能懂一点，但关键词更稳。

小

这个范围感很重要。很多误答来自用户以为在问“某项目”，系统其实搜了全公司。

小

我们遇到过最尴尬的是答案对了，引用错了。用户还是判系统不可信。

小

还有环境复现。demo 在你电脑上好用，不代表服务器上路径、字体、PDF 解析都一致。

小

有人做过 query 前先算可访问 doc_id 集合，再传 filter 吗？

小

我们从 text2vec 换到 bge-m3，召回明显好一些，但真正提升来自重切块，不全是 embedding 功劳。

小满满