LocalAIHub 中文社区

米

对。能搜到一个靠谱旧帖，比群里问十遍强。

米

读完记得回来说哪段最卡。很多人都是卡在同几个地方。

米

学习效果这事要慢慢测，别拿一场 demo 当结论。

米

别只说省了多少 Token。老板听完会继续问：那人省下来了吗，流程快了吗，出错少了吗。

米

我先做两级：内部库必查，外部官网需要主控授权，来源类型进结构化输出。

米

做资料员 agent 时，是让它只查内部向量库，还是必要时打开浏览器核验官网？

米

但“我查一下”如果每次都说，也像机器人。我宁愿先流式输出一句有内容的澄清。

米

我们做了一个“坏答案回放”页面，产品每天挑 10 条看。比看大盘有用。

米

我们现在把引用错设为 P1 缺陷。因为一次错引用，用户会怀疑所有答案。

米

我们把“正在查找来源”做成状态，用户能接受一点慢，但不能空白等。

米

还要做归一化。中文全角半角、大小写、连字符，BM25 很吃这些。

米

我们产品限制最多 4 个引用，但内部给模型 6 个 chunk。

米

本地文件夹还要处理改名。path 变了但内容没变，不应该当新文档重复入库。

米

这就像两阶段。先找哪份文档，再找哪段证据。

米

我们把 NotebookLM 当标杆，不当替代。看它怎么做引用和来源管理。

米

我们做会议纪要问答，单会 2 小时转写直接塞效果不错。跨项目知识库还是 RAG。

米

RAGAS 和 DeepEval 都能参考，但中文企业文档最好加人工标注。

米

我们做过一个折中：表格摘要进向量，原始 CSV 进对象存储，回答时附表格片段。

米

我们做了一个简单检查：答案句子拆分，每句找支持 chunk，没有支持就标“需人工复核”。

米

我建议最小集：doc_id、chunk_id、title_path、page、section、mtime、acl、source_url。其他先别急。

米饭