第一时间确认告警范围与影响面:判断是单节点、单线路、单POP还是跨区域。查看监控平台(如Zabbix/Prometheus/Grafana)中延迟、丢包、接口错误等指标,记录告警时间与趋势。
进行主动探测:从本地/边缘设备执行 ping(如 ping -c 5 目标)和 traceroute(如 traceroute -T -p 80 目标 或 mtr -rwzbc100)以判断故障跳点与是否为跨境中间跳点问题。
Linux: ping, traceroute, mtr;路由器: show interfaces, show ip route, show bgp neighbors;抓包: tcpdump -i eth0 host 目标IP。
确认时间同步(NTP)、监控数据采样间隔,避免单点短时抖动误判。若为链路抖动优先保存PCAP与监控曲线用于回溯。
采用分段法定位:从本端到最近出口、出口到上游ISP、上游ISP到对端运营商、对端到香港目标。分别在每段点位执行ping/traceroute/MTR并记录每跳RTT与丢包率。
使用ISP Looking Glass与路由服务器:在疑似上游ASN或对端ASN上查询BGP路由、AS PATH和到达性,以判断是否为路由黑洞或路径变更导致的丢包。
mtr -r -c 100 目标IP;traceroute -T -p 443 目标IP;在Looking Glass上查询如:show route 目标前缀、show bgp neighbors。
当中间设备出现“间歇性丢包”的情况,应在不同时间点采样并开启抓包,保持每段数据时间戳一致,便于回溯对比。
首先确认BGP邻居状态与路由表:查看 show bgp summary、邻居是否Established、是否有大量更新。检查本端是否正确宣布前缀以及上游是否接收你的公告。
核对路由策略与社区:查看route-map/route-policy,是否有社区被传播或被上游过滤。对比BGP UPDATE日志与MRT dump以定位何时出现不正常的路由更改。
可临时使用更具体前缀(/32-/24视情况)宣布、调整local-preference或community以吸引流量,或临时切换到备份出口线路并通知上游ISP进行协助。
任何对路由的紧急更改都应有回滚计划并在变更窗口最小化影响,注意避免产生路由震荡或影响其他客户流量。
事件时间线:精确到秒的检测告警时间、人工确认时间、采取措施时间与恢复时间。配置变更记录:包括变更前后配置、变更人员与审批单。
监控与抓包证据:保存监控曲线、接口历史采样、BGP update日志(MRT)、pcap文件与设备syslog,用于还原故障过程与分析包丢失点。
使用集中式日志与存储(ELK/Graylog)、配置管理(Git/Ansible)、路由历史快照(BGP MRT archive),确保历史数据可搜索与可下载。
所有记录使用统一时间(UTC),并标注时区转换,保证跨团队审查时时间线一致性;保留必要的原始文件以备审计。
检测→分级→隔离→缓解→通知→回溯→恢复。发生故障后NOC负责初判与临时缓解,L2/L3负责深度排查与技术恢复,运维经理协调资源与外部沟通。
通知流程应包含:内部渠道(钉钉/Slack/电话群)、上游ISP联系人、客户代表、变更审批与记录人。保持透明并及时更新事件状态。
任何配置变更必须具备自动或手动回滚命令集(如配置备份/commit replace、撤销路由公告)。回滚前确认当前状态并评估回滚风险,必要时在低峰执行。
事后必须编写RCA并更新运维手册与Runbook,优化监控阈值、自动化检测与预案,确保同类故障快速处置与降级影响。