Zero Day Notes

Life Oriented Programming

一次业务发布后Prometheus高频抖动告警触发告警风暴,Alertmanager将上万条告警集中投递至邮件系统和企业微信机器人,Postfix队列被打满,企业微信触发限流,核心DB主从中断告警被淹没,运维整整2小时未发现真实故障。从告警规则、Alertmanager路由分组、抑制规则、降级策略四层重构根治。
阅读全文 »

一台生产服务器磁盘显示仍有30GB空闲,但所有应用日志写入失败、文件创建报"No space left on device"。排查发现df -h显示空间充足但df -i显示inode使用率100%,根因是定时清理脚本缺陷导致/tmp下累积了八百多万个零字节锁文件。
阅读全文 »
0%