Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
这就是缺回放。至少要记录用户问题、系统提示版本、模型名、检索片段、工具调用、最终回答。
担心记录太多有隐私风险。
可以脱敏、采样、分级存。不是要裸存所有敏感内容,但完全不存就没法修。
回放系统是 AI 应用的黑匣子。没有它,业务说错了,工程只能猜。
还要记录版本。模型版本、prompt 版本、知识库版本。否则今天复现不出昨天的问题。
RAG 场景尤其要记录检索 query 和命中的 chunk id。只看答案没用。
这些日志会不会很大?
会。所以要有保留周期和采样策略。高风险场景全量,普通闲聊采样。
还有用户反馈要能挂到回放上。一个差评如果找不到原始链路,价值减半。
我们现在只有 thumbs up/down,没有原因。
加几个轻量原因:不准确、没看懂、太啰嗦、没有来源、需要人工。
这个比继续改 prompt 更急。我先补日志字段。
对。能回放以后,提示词才有调的对象。
很多团队不是缺 prompt 工程,是缺事故现场。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗