Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
请求量、错误率、延迟、首 token、总 tokens、模型错误、检索耗时、工具耗时。
系统层:CPU、内存、显存、磁盘、IO、网络、进程重启。
RAG 层:召回数量、无结果比例、引用缺失比例、rerank 耗时。
产品层:用户反馈、转人工率、未解决率。
这些好多。
可以分阶段。第一阶段先有延迟、错误、成本、重启、反馈。
日志里敏感内容要脱敏和设保留期。
首 token 怎么打?
流式输出时记录模型请求开始到第一个 chunk 的时间。
工具调用要单独打,不然用户觉得 AI 慢,其实是接口慢。
我先做 p50/p95、错误率、Token、重启、检索耗时。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗