Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
我们客服场景设了最大输出 700 字,复杂问题让模型先问澄清,不允许一次写长篇。
token 预算还影响成本预估。一个“继续”按钮可能把完整历史再发一遍,账单翻倍。
能用 prompt caching 的静态部分就拆出来。系统提示、工具说明、固定政策,这些别每次都当新内容烧。
预算表要不要暴露到前端?比如告诉用户“内容太长已压缩”。
面向用户别说 token。可以说“我会基于当前问题和关键记录回答”。内部日志再记压缩比例。
历史消息我建议存结构化状态:用户身份、已确认事实、未解决问题、风险边界。聊天原文只在需要追溯时检索。
但摘要会不会丢情绪?客服投诉里情绪很重要。
摘要里可以有“情绪状态=强烈不满,已道歉一次,不要重复解释政策”。不是只存事实。
我打算把上下文分成必保、可压缩、可丢三档。日志里记录每次删了什么,不在用户界面显示。
对,先能解释每次预算决策,再谈优化。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗