Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
“从最早开始删”是最低配,能跑但容易错。预算要分区:系统指令、工具协议、当前问题、证据、历史状态、可丢闲聊。
我们做了固定比例,系统 10%,资料 60%,历史 20%,输出 10%。结果资料短的时候浪费,资料长的时候还是爆。
比例不如优先级。系统和工具协议不可删,当前用户消息不可删,证据按相关度删,历史要先摘要再删。
输出预算也别忘。很多人只算输入,结果模型回答到一半被截断,用户看到半句 SQL。
我们客服场景设了最大输出 700 字,复杂问题让模型先问澄清,不允许一次写长篇。
token 预算还影响成本预估。一个“继续”按钮可能把完整历史再发一遍,账单翻倍。
能用 prompt caching 的静态部分就拆出来。系统提示、工具说明、固定政策,这些别每次都当新内容烧。
预算表要不要暴露到前端?比如告诉用户“内容太长已压缩”。
面向用户别说 token。可以说“我会基于当前问题和关键记录回答”。内部日志再记压缩比例。
历史消息我建议存结构化状态:用户身份、已确认事实、未解决问题、风险边界。聊天原文只在需要追溯时检索。
但摘要会不会丢情绪?客服投诉里情绪很重要。
摘要里可以有“情绪状态=强烈不满,已道歉一次,不要重复解释政策”。不是只存事实。
我打算把上下文分成必保、可压缩、可丢三档。日志里记录每次删了什么,不在用户界面显示。
对,先能解释每次预算决策,再谈优化。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗