1.
问题定义与范围确认
- 明确“老掉”的含义:是短时丢包、会话中断、链路切换还是长时间不可用。
- 确定受影响系统与时间窗:应用/业务、峰值时段、影响面(客户/内部)。
- 输出一页「影响清单」:服务名、受影响用户、首次发现时间、最常见故障时间段(用于后续统计)。
2.
准备检测工具与环境
- 必备工具:ping、mtr、traceroute、iperf3、tcpdump、SNMP采集器(例如Zabbix/Prometheus+node_exporter)、BGP路由查看工具。
- 时间同步:所有测点都要开启NTP,日志采用UTC,并记录时区偏差。
- 部署测点:在香港/中国大陆两端各至少1台测试主机;若可能在ISP侧或客户侧也部署。记录IP、接口与测点位置。
3.
建立基线与持续监控
- 初始24-72小时主动检测:每30秒一次ping、每分钟一次mtr,lf测试保留原始结果。
- 指标定义:可用率(Availability)、平均响应时延(平均/95/99百分位)、丢包率、路由跳数变化、BGP路由切换次数。
- 将数据入库并绘图:用Grafana或Excel绘制时间序列,标注异常窗口以便与供应商对照。
4.
复现与定位步骤(技术排查)
- 本地化排查顺序:物理链路→光模块/光口→交换机端口→路由/ACL→上游ISP。每步拍照/截屏。
- 使用mtr/traceroute辨别是否在CN2骨干链路中出现丢包或延迟突增;tcpdump抓取在发生中断时的SYN/ACK交互。
- 做跨路径对比:同时对比经CN2和经其它回程(如电信普通链路、联通/移动)结果,证明问题特定于CN2。
5.
证据打包规范(上报给供应商必备)
- 每个故障事件需包含:开始/结束时间(UTC)、持续时长、测点IP、raw ping/mtr/iperf输出、tcpdump截图、设备日志(带时间戳)、影响应用的用户/会话样本。
- 汇总表格:事件ID、时间、影响等级、涉及业务、证据文件名、是否复现、初步定位结论。保存为CSV或Excel便于共享。
6.
计算SLA损失与合同条款核对
- 用SLA公式计算:可用率 = (总观察秒数 - 不可用秒数) / 总观察秒数。列出按月/按计费周期的计算结果。
- 核对合同中的关键条款:定义可用性的测量方法(监测点/间隔)、免责条款、服务恢复时间(MTTR)、赔偿/服务信用(service credits)、升级与通知流程。标注与真实检测方法不一致处。
7.
谈判前准备(策略与资料包)
- 资料包清单:事件汇总表、原始日志压缩包(按事件编号)、图表(可用率/丢包/延迟趋势)、影响声明(业务损失估算或用户投诉证据)。
- 目标设定:明确首要目标(如要求永久修复、增加冗余或要求服务信用/退款)、次要目标(如临时技术支持、路由优化)。
- 角色分工:指定一名技术代表、一名商业代表、一名法律/合同联络人,准备会议议程与时长。
8.
与供应商沟通的实操步骤
- 第一次通知(邮件/工单):附上1份简明事件摘要和关键证据链接,要求48小时内响应并给出临时缓解措施。示例句式:请在48小时内确认是否在贵端检测到相同异常并提供临时缓解方案。
- 若无满意回应:在72小时内升级为书面正式申诉,引用合同条款并要求工单编号、责任人及恢复时间表。
- 持续跟踪:在每次沟通后记录会议纪要、双方承诺与SLA影响估算;若需,要求供应商提供RFO(Root-Failure-Analysis)报告并在7-14日内提交修复计划。
9.
谈判技巧与杠杆使用
- 用数据为王:只用经时间同步的原始数据,不依赖主观描述;把可视化图表放在首位。
- 合理使用合同杠杆:如果合同有服务信用或退费条款,明确计算方法和要求时间窗;若无,提出合同补充条款作为解决条件。
- 提出可对等的替代方案:例如临时免费提高带宽/开通备份线路、优先派驻工程师、或在下一计费期给予信用额度。
10.
法律与合同修正建议
- 建议加入/修正条款:明确监测方法与测点、事件分类与通知时限、MTTR与升级路径、服务信用计算示例、审计权(可要求第三方监测)。
- 对于频繁故障可要求:明确的补偿阶梯(如连续三个月达不到可用率则允许终止合同且退还剩余费用)。将这些条款交给法务审定并注明生效时间。
11.
实施修复与验证步骤
- 在供应商实施变更时要求“先在测试窗口做变更验证”:实时观测ping/mtr/iperf,记录变更前后对比。
- 验证标准:连续7天在业务峰值时间段内丢包<0.1%、可用率≥99.9%(或合同另有约定)。若未达标,按合同启动赔偿流程并要求再次修复。
12.
长期改进与监控自动化
- 引入外部第三方监测点(例如RIPE Atlas或商业监测服务)作为仲裁数据源。
- 自动化告警与工单触发:当丢包/延迟阈值被触发时自动生成工单并抄送相关供应商与内部负责人,缩短响应时间。
13.
问:如果供应商否认问题并要求更多证据,我该如何应对?
- 答:维持数据链完整性并提供打包证据;如果供应商仍否认,建议启用第三方独立测评(如ISP互测或RIPE/CAIDA),并参考合同中可接受的仲裁机制。若合同允许,申请第三方证据作为仲裁或退款依据。
14.
问:在谈判中怎样提出补偿要求才更有说服力?
- 答:用明确计算公式(示例:按月可用率低于99.9%,每降低0.1%退还当月费用的5%)并附上事件明细和影响估算;同时提出可替代方案(临时备线、优先支援)以提高谈判成功率。
15.
问:短期内如何临时缓解CN2链路不稳定对关键业务的影响?
- 答:立即启用备份回程(例如BGP多线或SD-WAN策略下的流量切换),对关键业务做流量策略(会话保持、重试机制),并与应用团队协作降低重连敏感度;同时要求供应商开通紧急支持并在修复后验证回流路径稳定性。
来源:IT主管指南 应对香港cn2专线老掉的SLA与供应商谈判技巧