Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
那先查第一次崩溃日志,别看最后一次。后面可能都是连带错误。
容器重启还可能打断 WebSocket、队列任务、索引更新。用户感知会比监控严重。
日志最早是数据库连接失败,后面就是应用启动失败。
数据库启动顺序和 readiness 要处理。depends_on 不等于数据库可用。
depends_on
加启动前等待只是缓解,真正要应用能优雅处理依赖短暂不可用。
我们之前 migration 失败后容器一直重启,最后管理员以为是流量高。
告警要看 restart count 和启动时间,不要只看容器状态 running。
现在加了 restart count 告警,也把数据库 readiness 拆出来。
再补一个启动后烟测。容器 running 后,真实接口能读写才算上线。
复盘重点:自动重启是保险丝,不是运维策略。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗