1.
初步确认与信息收集
- 确认问题范围:是单个用户、局域网还是全国性故障。
- 收集基本信息:服务器公网IP、域名、提供商与机房(示例:HK-TOK1,IP 203.0.113.45)。
- 获取时间点与日志:连接失败时间段、nginx/sshd日志片段、系统负载。
- 采集网络数据:本地 ping、traceroute/mtr、telnet 端口测试(示例命令:ping -c 5 203.0.113.45)。
- 检查监控告警:带宽峰值、并发连接数、DDoS 报警记录(示例:峰值流量 800Mbps)。
- 建议保存命令输出便于后续对比与上报给运营商。
2.
DNS 与域名解析问题排查
- 使用 dig/nslookup 检查解析:dig A 域名 @8.8.8.8 +short(示例返回 203.0.113.45)。
- 确认 DNS TTL 与缓存:本地解析与全球各地解析是否一致。
- 检查域名是否被污染或解析到大陆黑洞 IP:对比多地解析结果。
- 验证域名解析到 CDN 时是否有误:CDN 回源配置或节点异常会导致访问不可达。
- 如果域名解析错误,修改解析并等待生效,同时可临时使用 hosts 指向真实 IP 测试。
- 推荐记录示例:dig 返回时间 23ms,TTL 300,解析节点 us-east/sg/hk 一致。
3.
路由与链路问题检测
- 使用 traceroute 或 mtr 检查路径丢包与跳数(示例:traceroute 到 203.0.113.45 显示第5跳丢包 40%)。
- 检查本地 ISP 到香港的出口路由是否阻塞或限速。
- 验证 MPLS/骨干链路是否存在故障:对比不同源头的追踪路径。
- 测试不同端口与协议(ICMP/TCP/UDP)以排除仅限单端口被阻断情况。
- 若出现第三方 ASN 丢包,高概率需要联系上游运营商或调整 BGP 路由(如变更出口 ASN)。
- 示例数据表(居中、边框1):
| 跳数 | IP | 丢包率 | 延迟(ms) |
| 1 | 192.168.1.1 | 0% | 1 |
| 5 | 203.0.113.1 | 40% | 120 |
| 9 | 203.0.113.45 | 0% | 135 |
4.
服务器端配置与防火墙检查
- 检查服务器防火墙规则(示例:iptables -L 或 nft list ruleset)是否误阻断外网IP。
- 查看服务监听端口:ss -tunlp | grep -E "ssh|nginx|443"(示例:nginx 0.0.0.0:80)。
- 检查内核网络参数:sysctl net.ipv4.ip_forward、net.ipv4.tcp_mtu_probing 是否异常。
- 确认主机带宽与连接数:ifstat 或 vnstat 输出(示例峰值 900Mbps,平均 120Mbps)。
- 查看 DDoS 防护策略是否触发:云厂商或本地防火墙的黑名单与连接限制。
- 若是防火墙误判,临时放行 IP 或调整阈值,记录变更以便回滚。
5.
CDN、回源与 TLS 配置问题
- 若使用 CDN,检查回源连接是否正常,回源主机是否只允许 CDN 节点访问。
- 验证 TLS/证书链是否完整:openssl s_client -connect 域名:443 -servername 域名。
- 确认 CDN 与服务器间 MTU 与 MSS 未导致分片问题(常见于 VPN 或 IPSec)。
- 检查 HTTP 服务器配置(示例 nginx.conf 中 keepalive、worker_connections 设置)。
- 若 CDN 节点异常,可切换回直连或更换回源策略以确认是否为 CDN 引起。
- 提供示例:服务器配置 CPU 4 核、内存 8GB、带宽 1Gbps,nginx worker_connections 10240,证书到期日 2026-09-01。
6.
真实案例与最终解决方案
- 案例简介:某电商 2025-11-02 出现部分用户无法访问香港节点,订单回报率下降30%。
- 排查步骤:收集 traceroute(第5跳丢包),检查 DNS(解析正常),服务器无负载异常。
- 定位原因:上游运营商在夜间维护导致经由香港的部分链路丢包且未切换备路由。
- 解决方案:临时启用另一家 CDN 回源,联系运营商修复路由并调整 BGP 优先级,增加 DDoS 抵御并启用 TCP MSS clamping。
- 结果与数据:故障后1小时内可达率从70%恢复到99.8%,峰值时延从400ms降至120ms。
- 建议:配置多线出口、监控自动告警、与机房签订 SLA 并准备应急切换 SOP。
来源:解决步骤详解无法连接香港服务器的常见原因与排查方法