Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
理论上能塞,不等于应该塞。长上下文贵、慢,而且模型不一定从后半段稳定拿到关键句。
我们试过把 180 页 PDF 直接塞给长上下文模型,问第一章还行,问中间表格就开始编。
长上下文适合“少量长材料”的精读,比如合同、会议纪要、单份手册。知识库长期问答还是要检索和结构化。
但 Kimi 这类长上下文不是优势吗?
是优势,但优势是能处理更长输入,不是免疫信息噪声。长材料里有过期政策,模型也会认真引用。
我更怕历史聊天。用户前面说“不要发票”,后面又说“要发票”,全塞进去模型可能两边都引用。
做历史摘要时要保留状态,不是保留所有原话。比如“当前诉求=开票,已确认抬头,未确认税号”。
那长上下文什么时候比 RAG 好?
单文档推理、跨章节对照、要保留原文语境时。多文档知识库、频繁更新、权限过滤,RAG 更稳。
我见过一个误区:把 RAG 检索到的 20 段再加全量聊天记录,最后 token 爆掉,只能截断系统提示,灾难。
系统提示和安全边界不能被业务上下文挤掉。预算应该先给指令、工具协议、用户当前问题,再给证据。
可以做两层:检索 Top 8,压缩成可引用事实,再让长上下文模型综合。这样不浪费窗口。
明白,长上下文当能力上限,不当架构方案。我们先保留 RAG,只把单份大文档问答走长上下文。
对,最好把“引用了哪段资料”显示给内部审核。长上下文错了也要能追。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗