吴晓波的个人网站

吴晓波的个人网站

详解腾讯云宕机故障:光纤挖断后的150秒

3 月 23 日 16 时左右,腾讯服务器发生了大规模宕机,有网友发微博称旗下《王者荣耀》、《刺激战场》等多款热门游戏和网络服务产品“集体阵亡”。

除了腾讯系手游出现问题,比如王者荣耀、奇迹暖暖、掌盟、红警等等登录不了,微信、QQ、QQ 音乐全民 K 歌等服务也受到波及。

@腾讯游戏在当日 16 时做出了回应,称本次崩溃是因上海当地网络运营商的光纤线路大面积故障,使得腾讯游戏及外部多个网络应用的使用均受到影响。目前运营商正在紧急抢修中,公司也正在积极做容灾处理,业务陆续恢复中。

晚上 19 点 54 分,腾讯回应已基本修复,各业务基本正常运行。类目太多未公布各类游戏补偿奖励。

据腾讯 2018 年财报显示,全年游戏营收 1284 亿,核算停止营运 4 个小时,粗略损失 5800 多万收入;而这 4 个小时其他运营成本没有减少。

此事也被当地电视新闻当晚报道,未披露施工方信息,目前还没有相关单位发声明对此事负责。

3 月初,阿里云出现大规模宕机故障,华北地区很多互联网公司都受波及,一大波程序员、运维专员都从睡梦中被叫醒跑去办公室干活。

对此,阿里云官方回应称,宕机原因为:华北 2 地域可用区 C 部分 ECS 服务器等实例出现 IO HANG,后经紧急排查处理后逐步恢复。

3 月 20 日淘宝、天猫、淘宝直播、闲鱼等 App 崩溃,紧接着 12306 也躺枪。这次腾讯光纤又被挖,AT 两大巨头仅时隔三天。

对此次事故,有网民评价道:“上次是萧山拔阿里网线,这次是上海拔企鹅的网线!什么互联网+大数据,终究干不过传统工业的一铲子。”

接下来,我们来看看腾讯云在光纤被挖断后的 150 秒到底发生了什么?

上周末的这起光纤中断事故引发了一场声势浩大的断网危机。在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。

腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部 T 级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。

“ 这项技术的厉害之处在于,即使遇到运营商的光纤故障,这套调度系统能够根据需要自动绕过故障点,从而第一时间恢复公网用户的网络覆盖。”

—— 腾讯云工程师 kris

正常来说,如果没有这套流量调度系统,只能被动的等待运营商来完成修复,这样的结果是可能需要更长的时间。

从架构上看,腾讯云公网流量智能调度系统:

(1)一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息。

(2)另一方面和公网出口设备建立 BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。

最终结果是,此次光纤故障,腾讯云从发现到恢复故障,全程只有 2 分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在短短 150 秒之内就快速恢复了网络,企业运维人员几乎无任何感知。

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。

首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。

腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离。

同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证了用户的网络高可用性和稳定性。

另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。

什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用 3 条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在 50 毫秒级自动切换。

除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。

2019-03-29 0 /
分类:人文知识
/

评论回复 · 倒序排列

回到顶部