1. 在开始排查前,先采集关键信息:目标IP/域名、发生时间段、受影响的源/目的端(内网IP、出口设备)、出现的问题类型(高延迟/丢包/连接重置)。
1.1 在Linux服务器上执行:uname -a; ip addr show; ip route show,记录出口接口与默认路由。
1.2 记录链路带宽、MTU、是否使用GRE/IPSec/VPN,以及最近是否有配置变更或软件升级。
2. 登录出口路由/防火墙设备,查看接口状态:使用ip -s link或ifconfig,关注RX/TX错误、丢包、collisions。
2.1 若为物理交换机,使用ethtool -S ethX查看硬件统计,检查错误计数是否累计。
2.2 如发现错误,先重启链路两端接口(按照变更流程),并在重启前后对比统计。
3. 使用ping -c 10 -s 1200 目标IP检测是否分片问题;若MTU问题可看到DF报错或丢包随包长増加。
3.1 使用traceroute -n -T -p 443 目标IP(TCP方式)和traceroute -n 目标IP(UDP/ICMP)比较路径差异,记录每跳延迟与丢包点。
3.2 若有差异,说明防火墙/中间节点对ICMP/UDP做了差异化处理,优先以TCP/应用端口方式做诊断。
4. 在Linux上运行mtr -r -c 200 -w 目标IP,保存输出(mtr -r -c 100 目标IP > mtr.txt)。
4.1 观察从本地到目的端每跳的丢包情况,若中间节点开始出现持续性丢包且随后跳数也受影响,通常为网络问题而非终端。
4.2 若丢包在本地出口或第一跳出现,优先排查本地链路与交换设备。
5. 使用tcpdump进行应用层抓包:tcpdump -i eth0 host 目标IP and \(tcp or icmp\) -s 0 -w /tmp/capture.pcap,保证抓包覆盖问题发生时段。
5.1 若怀疑TCP重传或RTO,过滤tcp.flags.syn、tcp.analysis.retransmission(Wireshark解析)来确认重传原因。
5.2 抓包后观察MSS/Window/MTU信息,若频繁出现ICMP Fragmentation Needed,则需调整MTU或开启TCP MSS调整。
6.1 从边缘设备查看BGP路由:show bgp ipv4 unicast 目标前缀,检查AS路径、next-hop与本地优先级。
6.2 使用公网上BGP Looking Glass(如bgp.he.net、routeviews)查询到达路线并比对是否存在黑洞或不一致的宣告。
6.3 若发现BGP收敛差或路径绕行,尝试临时手工调优策略(prepend/社区/本地优先)并观察效果,变更需走变更审批。
7. 调整MTU/MSS:在路由器上设置ip tcp mss clamp 1360(示例),以防跨境链路分片导致丢包。
7.1 在Linux上可在接口设置mtu:ip link set dev eth0 mtu 1500,并在应用层测试确认。
7.2 对于高延迟链路,合理调整TCP窗口与拥塞控制(如启用BBR)来提升吞吐。
8. 提交工单时务必包含:故障时间(UTC/本地)、目标IP、traceroute/mtr输出、tcpdump样本、接口统计(ifconfig/ethtool)、BGP路由信息。
8.1 示例工单要点:故障描述、复现步骤、问题影响范围(业务/用户)、优先级(业务中断/严重/普通)。
8.2 附上抓包及mtr文件(压缩包),并请求NOC在指定时间窗口做PST(Path Simulation Test)或内部链路检测。
9. 场景A:单向丢包——检查ACL/NAT设备、对端是否丢包并提交对端NOC工单;场景B:整体高延迟——先测MTR定位是哪一段延迟激增,若在CN2香港出口上游,通知安畅NOC。
9.1 对临时影响的业务可配置备用BGP路径或走其他ISP做临时切换,变更前需做好流量黑洞回滚方案。
10. 问:如何判断问题是不是出在安畅CN2 GIA链路而非我方服务器?
10. 答:先在本地和其他站点(非受影响机房)同时做mtr/traceroute与tcpdump对比:若本地出口第一跳正常但到达CN2网络某跳开始丢包/延迟且多个源到同目的地表现一致,问题倾向于CN2链路;同时提交抓包与mtr给安畅NOC确认。
11. 问:遇到跨境间歇性丢包,临时应急怎么处理以降低业务影响?
11. 答:临时措施包括:1) 在BGP上宣布备用路径或切换到其它运营商;2) 在应用层使用重试机制与容错(短超时/指数退避);3) 调整MSS/MTU并短期将流量导向稳定链路,随后提交详细诊断给安畅。
12. 问:提交工单后如何与安畅NOC高效沟通加速定位?
12. 答:提供完整可复现的信息(时间窗、traceroute/mtr、tcpdump、接口统计、BGP信息),在工单中明确期望(例如请求链路loopback测试或设备日志),并附上影响业务与联系方式,必要时申请电话会议共同分析。