about blog github

22 May 2026
警告优化建议

警告优化建议。

警告分级

核心功能的流量波动是 P0,非核心功能流量波动是 P1,单机故障或者磁盘上涨是 P2。P0 报警一般都有电话通知,P1 是短信通知,如果 P1 长时间不处理,会上升为 P0。

警告合并

把相同或相似的报警信息进行合并,以减少重复报警,我们可以在报警平台里面采取一些报警抑制,比如同一个服务在 1 分钟内,同时有可用性、延迟、CPU 等多个报警,就可以合并成一条;也可以采用 top-n 报警优化,只展示最严重的前 n 个报警,帮助团队集中注意力处理最关键的问题。

不断优化阈值

合理设置报警阈值,可以避免因小幅度波动而频繁触发报警。

优化警告规则

定期审查和优化报警规则,确保它们仍然符合当前的业务需求和系统状态。

有效的报警响应流程

我们应该建立有效的报警响应流程,确保团队能够及时、有效地处理报警。比如设置上升机制,Oncall 同学没有接手,上升到 leader,如果再没人接手就继续上升,一直上升到部门负责人。



LEo at 00:12

about blog github