跳转至内容
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
LocalAIHub 中文社区

LocalAIHub 中文社区

米

米饭

@米饭
取消关注 关注
关于
帖子
25
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 本地 AI 社区最该沉淀什么内容
    米 米饭

    对。能搜到一个靠谱旧帖,比群里问十遍强。

    社区公告 community localaihub discussion

  • 读 Transformer 论文,对做应用到底有什么用
    米 米饭

    读完记得回来说哪段最卡。很多人都是卡在同几个地方。

    AI 工程讨论 paper-reading transformer engineering

  • AI 教育产品里,模型讲得很顺不代表学生学会了
    米 米饭

    学习效果这事要慢慢测,别拿一场 demo 当结论。

    AI 工程讨论 education ai-product evaluation

  • 老板问 AI 项目 ROI,别只拿 Token 账单说事
    米 米饭

    别只说省了多少 Token。老板听完会继续问:那人省下来了吗,流程快了吗,出错少了吗。

    AI 工程讨论 enterprise roi local-ai

  • RAG 资料员是不是应该自己打开浏览器核验
    米 米饭

    我先做两级:内部库必查,外部官网需要主控授权,来源类型进结构化输出。

    AI 工程讨论 rag browser researcher-agen source

  • RAG 资料员是不是应该自己打开浏览器核验
    米 米饭

    做资料员 agent 时,是让它只查内部向量库,还是必要时打开浏览器核验官网?

    AI 工程讨论 rag browser researcher-agen source

  • 中文客服场景,Qwen、GLM、Kimi、GPT 到底怎么选?
    米 米饭

    但“我查一下”如果每次都说,也像机器人。我宁愿先流式输出一句有内容的澄清。

    AI 工程讨论 qwen glm kimi gpt 中文能力

  • 生产知识库最该先监控什么?
    米 米饭

    我们做了一个“坏答案回放”页面,产品每天挑 10 条看。比看大盘有用。

    实践复盘 生产监控 rag 质量回归

  • 答案对了但引用错了,算不算失败?
    米 米饭

    我们现在把引用错设为 P1 缺陷。因为一次错引用,用户会怀疑所有答案。

    实践复盘 产品信任

  • reranker 延迟太高,怎么不把体验拖死?
    米 米饭

    我们把“正在查找来源”做成状态,用户能接受一点慢,但不能空白等。

    实践复盘 reranker batching

  • 混合检索到底是 BM25 + 向量,还是又一个调参黑洞?
    米 米饭

    还要做归一化。中文全角半角、大小写、连字符,BM25 很吃这些。

    AI 工程讨论 hybrid-search bm25 sparse-vector qdrant

  • RAG 里 top_k 应该设多少?
    米 米饭

    我们产品限制最多 4 个引用,但内部给模型 6 个 chunk。

    AI 工程讨论 topk rerank context-budget

  • 本地知识库更新,是重建全量还是增量?
    米 米饭

    本地文件夹还要处理改名。path 变了但内容没变,不应该当新文档重复入库。

    实践复盘 本地知识库 增量更新 hash ingestion

  • chunk 里要不要放摘要?
    米 米饭

    这就像两阶段。先找哪份文档,再找哪段证据。

    AI 工程讨论 chunk-summary embedding metadata

  • NotebookLM 和自己做知识库,差别到底在哪?
    米 米饭

    我们把 NotebookLM 当标杆,不当替代。看它怎么做引用和来源管理。

    AI 工程讨论 notebooklm 知识库产品 团队协作

  • 长上下文模型出来以后,RAG 还有必要吗?
    米 米饭

    我们做会议纪要问答,单会 2 小时转写直接塞效果不错。跨项目知识库还是 RAG。

    AI 工程讨论 长上下文 rag 边界 lost in the mid

  • RAG 测试集到底怎么建,不想只靠感觉调参
    米 米饭

    RAGAS 和 DeepEval 都能参考,但中文企业文档最好加人工标注。

    AI 工程讨论 rag 评估 ragas deepeval 测试集

  • PDF 表格该直接转 Markdown,还是单独建表?
    米 米饭

    我们做过一个折中:表格摘要进向量,原始 CSV 进对象存储,回答时附表格片段。

    AI 工程讨论 pdf 表格解析 camelot pymupdf

  • 引用校验怎么做,不能只显示“来源:文档 A”吧?
    米 米饭

    我们做了一个简单检查:答案句子拆分,每句找支持 chunk,没有支持就标“需人工复核”。

    AI 工程讨论 引用校验 ragas trulens citation

  • metadata 到底放多少,放多了会不会拖慢检索?
    米 米饭

    我建议最小集:doc_id、chunk_id、title_path、page、section、mtime、acl、source_url。其他先别急。

    AI 工程讨论 metadata 文档治理 llamaindex
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
Powered by NodeBB Contributors
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员