常见字段包括:时间戳(timestamp)、源/目标IP(src_ip / dst_ip)、端口(src_port / dst_port)、协议类型(protocol)、流量大小(bytes/packets)、会话/连接状态(flags)、攻击类型说明(attack_type)、匹配规则或签名(rule_id)、防护动作(action,如drop/redirect)、触发阈值信息以及省略/截断标记。运维人员应重点关注时间分布、源IP集中度、协议分布与每秒包速率,这些字段直接决定是否触发告警响应与后续处置策略。
首先做基线比对:将当前流量与历史正常峰值、业务发布窗口对比。其次检查流量特征:攻防模式(单一源高并发、多源反射)、包大小分布、SYN/ACK比等。结合应用层日志(如web访问日志、API错误率)进行关联,如果仅网络层流量异常但应用无异常,多为误报或爬虫。再使用IP信誉库与地理信息排查合法流量(CDN回源、第三方爬取)。自动化工具(SIEM/IDS)加速判断,但最终应由运维人员结合业务窗口与变更记录确认。
告警策略需要分级:信息级(轻微流量波动)、警告级(接近阈值)、紧急级(超过防护阈值或触发防护动作)。阈值设置应基于历史峰值与业务SLA,建议对不同协议设定独立阈值(例如TCP、UDP、ICMP)。启用聚合告警,避免同一事件生成大量重复通知;配置抑制窗口与自动恢复条件。告警内容须包含触发字段快照、推荐初步处置(如临时封禁IP段、调整ACL),并在通知中嵌入可执行Runbook链接,便于运维快速响应。
标准流程可分四步:1) 初筛(Triage):核实告警真伪、确认受影响范围与业务影响;2) 缓解(Mitigation):在边界层执行速率限制、黑白名单、WAF规则或切换到清洗服务;3) 深入分析:抓包、关联日志、确认攻击向量并记录证据;4) 恢复与复盘:逐步解除临时限制,评估防护效果并更新Runbook与告警阈值。整个过程中应保持与腾讯云技术支持和业务负责人沟通,并在工单中记录时间线与处置命令以便审计。
建议将20G DDoS日志集中入库(如ELK/OSS/SIEM),并做索引与标签化,便于按时间、IP、规则快速检索;设置冷/热存储策略满足合规与成本平衡。构建常用仪表盘(流量趋势、Top IP、攻击类型分布)与自动化报警回溯。定期演练攻防场景、更新IP信誉库与WAF签名,并将处置脚本(黑名单、流量限速)自动化。最后,结合业务发布计划调整阈值,确保在业务波动期不会误触发高优先级告警。