一次Kafka消费者Rebalance风暴导致业务数据延迟2小时的排查实录 发表于 2026-06-25 分类于 运维 , 服务运维 本文字数: 2.9k 阅读时长 ≈ 11 分钟 订单实时处理链路中Kafka Consumer Group在凌晨出现持续Rebalance,Lag飙升至2300万条,下游报表延迟超2小时,排查发现max.poll.records与session.timeout配置冲突是祸根。 阅读全文 »
一次Windows更新后打印机Spooler服务反复崩溃的全网排查实录 发表于 2026-06-24 分类于 运维 , 桌面运维 本文字数: 3.3k 阅读时长 ≈ 12 分钟 财务部全员报修无法打印,Spooler服务每隔30秒自动挂掉,从事件日志到驱动隔离层层排查,最终锁定Windows更新引入的通用驱动与京瓷打印机冲突。 阅读全文 »
一次BGP双线接入因AS-PATH策略错误导致业务流量全部走错运营商的排查实录 发表于 2026-06-23 分类于 运维 , 网络运维 本文字数: 2.2k 阅读时长 ≈ 8 分钟 总部机房双线BGP接入电信联通,因误配AS-PATH正则表达式把学到的合法运营商路由全部拒绝,业务流量全部走错运营商导致关键业务延迟飙升400ms。 阅读全文 »
一次MySQL主从同步因大事务延迟导致订单数据不一致的排查实录 发表于 2026-06-22 分类于 运维 , 服务运维 本文字数: 2.3k 阅读时长 ≈ 8 分钟 订单系统凌晨跑批大批量UPDATE,从库延迟飙升到40分钟,前端查询命中从库读到旧数据引发线上资损。 阅读全文 »
AD域环境下打印机批量部署失败的排查手记 发表于 2025-11-03 更新于 2026-06-20 分类于 运维 , 桌面运维 本文字数: 2k 阅读时长 ≈ 7 分钟 同一份GPO推送脚本,80台电脑成功了30台就报错,最终定位到打印后台Print Spooler服务依赖链断裂。 阅读全文 »
一次FortiGate防火墙策略配置错误导致内网DNS解析失败的排查实录 发表于 2025-08-15 更新于 2026-06-21 分类于 运维 , 网络运维 本文字数: 2.7k 阅读时长 ≈ 10 分钟 某分公司内网用户反映网页打开缓慢、部分域名无法解析,排查发现是新上线FortiGate防火墙的策略配置错误导致DNS流量被误拦截,本文记录完整排查过程。 阅读全文 »
一次NTP时间同步异常导致Kerberos认证全部失效的排查实录 发表于 2025-07-14 分类于 运维 , 网络运维 本文字数: 1.7k 阅读时长 ≈ 6 分钟 公司内网突然出现大范围Kerberos认证失败,员工无法访问域内资源,排查后发现是NTP服务器故障导致部分机器时间偏差超过5分钟,触发Kerberos安全机制。 阅读全文 »
一次员工电脑批量蓝屏的排查实录 发表于 2025-05-20 分类于 运维 , 桌面运维 本文字数: 1.7k 阅读时长 ≈ 6 分钟 公司内多台员工电脑在同一天集中出现蓝屏死机,BSOD错误码各不相同,排查发现是前一天推送的一个驱动更新包与特定网卡型号不兼容导致。 阅读全文 »
一次DHCP地址池耗尽导致大面积断网的排查实录 发表于 2025-03-27 更新于 2026-06-20 分类于 运维 , 网络运维 本文字数: 3k 阅读时长 ≈ 11 分钟 企业办公网突发大面积断网,排查发现DHCP地址池被大量非法设备耗尽,通过端口安全与ACL策略彻底根治 阅读全文 »
一次AD域控GPO策略推送失败导致终端安全基线不生效的排查实录 发表于 2024-12-10 分类于 运维 , 桌面运维 本文字数: 3.6k 阅读时长 ≈ 13 分钟 企业AD域控新安全GPO策略推送后全员未生效,从组策略应用顺序、WMI筛选器、ACL权限到SYSVOL同步层层排查,最终锁定DFS复制延迟与策略版本号未更新的双重根因 阅读全文 »