北京儿童插座价格联盟

拯救背锅侠:一次架构迁移的故事

只看楼主 收藏 回复
  • - -
楼主

我认识 UCloud 的季昕华是因为阿里云盾的吴翰清。吴翰清是我的好朋友,在阿里人称小黑,在江湖上人们都叫他刺总,或道哥。当年他写「道哥黑板报」的时候,话里话外都非常推崇季老师,不是因为大家都是安全圈里的顶级,而是因为「转身」。一代宗师里叶问评价宫二,说你缺一个转身。季老师转了,还挺利索。

道哥说,老季最早是做安全的,在安全行业是响当当的人。后来转身做了云计算。为了摆脱自己身上安全的标签,老季后来在任何公开的场合都只讲云计算,只讲 UCloud,有人若是请他再讲讲安全,都是一律推辞。

季昕华在安全圈里有多牛呢?他是首代代表人物,是国内最早的一批。2000年左右,他因为发现了各种操作系统的致命漏洞、侦测到冲击波、震荡波等蠕虫病毒而声名播于四野。如果不创办 UCloud,涉足云计算领域,季老师也许会是安全领域的一个大牛,但是,他转身创业了,并且没有选择最熟悉的安全,而是选择了更有想象空间的云计算。

我多次在技术大会上与季老师相见,还与他一起参加过一次技术论坛。每次相逢,季老师都让人如沐春风,温和,内敛。你不会想象这个笑眯眯的中年人就是当年那个神采飞扬的少年。从他那里不再有安全的谈资,云计算、UCloud 变成了他新的烙印和标签。

今天的故事就和 UCloud 有关。

2016年7月29日,脉脉的 CEO 林凡写了一篇「脉脉失联的十五个小时」,。

2016年9月,脉脉已经将全部服务迁移到了 UCloud 云计算的北京 BGP 机房。

一个成熟的规模性互联网服务的技术体系和架构是极其复杂的,内容可能包括并不限于:结构化和非结构化的数据存储,集群、限流、分流、负载均衡,服务治理,消息传输和事件管理,前端技术,后端架构,前后端的分离,推送系统,搜索,推荐,缓存,虚拟化,安全……等等。任何一个环节,都牵一发而动全身,想做一次完整的迁移,谈何容易!

所以,脉脉的这次迁移,由传统 IDC 向混合云转型,确实是一场的精彩迁移实战,我们也看到,越来越多的互联网厂商对云计算有了更为深刻的认知。

回顾

回顾一下脉脉失联的十五个小时。今年7月28日凌晨3点,脉脉的服务器网络传输遭到严重破坏,整个机群连不上网络,所有报警措施都失效,导致其会员无法收到此次故障的有效通知。无数的用户都在微信、微博、知乎上反馈脉脉无法登录了,这个状况一直持续了十五个小时,脉脉才恢复了正常使用的状态。

这次事故的原因是脉脉原 IDC 服务商受到联通大整顿被迫断网造成的。「不少公司,以 IDC 业务的名义从运营商申请到低价的骨干网带宽,但其中仅有一部分带宽自用,而另一部分则分批出售给一些第三方宽带企业。」这种不规范接入的现象,被称为「流量穿透」。2016年7月,联通正式发布了《规范互联网接入及大带宽管理的通知》,北京联通按照这一规定整顿旗下40多个 IDC 机房中的不规范接入情况,大批不合规接入均被断网,脉脉的原 IDC 服务商也因此受到了影响。

除了脉脉之外,还有一大批互联网公司因此受到波及,如著名的A站(AcFun)——自8月4日至6日,整整失联了48个小时。

运维人的基本素养

公司的服务出了系统级别的故障,运维总是站在团队第一排的背锅侠。善守者藏于九地之下,善攻者动于九天之上,运维人员平时总是默默躲在设计、产品和工程师们的背后,成为无名英雄。一旦出现故障,他们就开始浮出水面,应对危机。脉脉的运维经理叫黄华平,绰号兔子,在脉脉失联的15个小时里,他在忙什么?

什么都没干。

「干啥也没有用,我们做了很多事情,比如说骂娘,这个显然没有用。」兔子无奈地吐槽道,「催IDC,这个成功率50%。什么叫成功率50%呢?你50%的概率打不进去电话,因为他们电话已经被打爆了。」

此次事件后,兔子成了背锅侠,他在某关于容灾的分享会上表示,「运维的基本职业素养就是,先背锅,再甩锅。说得通俗一点就是,先反省自己,透彻了以后,如有必要,再去指责别人。」

由于脉脉的基础架构中,采用海量的内存来维系人脉的网络数据,导致其多机房的容灾策略,相对于一般应用要有挑战得多。在兔子的规划中,脉脉出于对人力,成本,业务的快速增长和迭代,以及服务的扩展性、高可用性之间平衡的全面考量,多机房容灾策略方案本将在今年的第四季度落地实施,然而在这个节骨眼上却出现了这意想不到的大坑。

被断网事故发生后,为避免再次遇到不能有效通知用户的情况,兔子在事后立刻启用了第三方域名解析服务商 DNSPod 的企业服务;而出于对传统 IDC 在基础架构服务方面的隐忧,兔子在7月29日联系了 UCloud 云计算。

探讨

7月29日 下午14:00,UCloud 技术支持团队来到脉脉总部,与脉脉技术团队紧锣密鼓地展开了方案探讨。

兔子此前对混合云已有初步的了解,这一次深度接触,兔子以资深运维工程师的独到视角,一口气问了100多个技术问题,包括网络拓扑交流,停机迁移方案,不停机迁移方案,双 POP 点双星型的网络,以及 UCloud 异地专线、高防服务等等,几乎问遍了 UCloud 混合云方案的所有技术细节。

「兔子有着运维工程师该有的挑剔与骄傲。」UCloud 资深架构师叶仲华如是说。

最终,UCloud 既能充分利用脉脉的现有IT资产,又能同时输出公有云的各项特性的混合云技术方案获得了挑剔的兔子的认可。

而脉脉与 UCloud 混合云技术方案的讨论记录,在不知不觉间已超过了150页。

迁移

脉脉的用户更多集中在一线城市。在都市人结束了一周的辛苦工作后,周六的凌晨,成为脉脉在线率最低的时刻,也是最适合迁移的时机。然而由于种种「难以名状」的原因阻挠,原本计划8月27日(周六)的迁移,延后到29日。

8月29日凌晨的北京,脉脉与 UCloud 针对整个过程着手制定迁移方案。在仔细核对了每个时间段的安排,每个时间点的负责人等细节后,双方齐心协力,有条不紊地开始了迁移工作。服务器分批下架,装车,运送到新机房,上机架,插线,插电源,开机,调试所有的服务,确认数据没有问题。在所有人的努力下,这次的迁移最终顺利完成。

而入驻这个全新的家,在保证脉脉的在线业务稳定运行的同时,也能使其能在一些离线场景、GPU计算、大数据分析等更多的创新业务上,向云端做更多的探索。

UCloud 怎么看

UCloud 内部也对此次混合云的合作做了进一步的复盘和思考:

1、 15个小时的失联,对于一家拥有海量用户的互联网公司的业务可谓灾难,事件背后暴露了传统 IDC 体系下很多非常复杂的问题。由于新一代运维人挑剔的自我要求,和基础架构运维的更高标准,大量传统的 IDC 企业正在加速分化和淘汰。在这个过程中,云计算运营商的价值被进一步放大。

2、 怎样才算对一个运维最基本的尊重?

兔子在自己的自留地写道:「 IDC 圈子这两年的无序扩张带来了许多问题,同质化,服务水准下降,恶性竞争等等。我可以理解销售同学们的 KPI 可能的确要通过堵门来完成 —— 但是你们理解过我么?对待一个技术人员,请用你们对自己产品的了解,用你们特色的服务,用你们坚不可摧的技术架构来打动我。」

在 UCloud 看来,用产品和态度说话,让每一个细节超出预期,以及保持透明的沟通,是对一个运维最基本的尊重。

3、每一个用户,都值得尊重

兔子在给 UCloud 的寄语中说,希望 UCloud 越来越大以后,依然能像现在一样,呈现同样的态度与服务。其实,很多用户有着同样的诉求,因为他们从心里上不希望需求被忽略、业务被耽搁,所以他们特别期待,当 UCloud 越来越大之后,还能够像现在一样提供亲民的服务。  

对于 UCloud 来说,每个用户都值得尊重,让他们获得业内最高的服务标准和绝佳体验。这样的价值理念,是 UCloud 和其他巨头差异化的存在,是需要时刻坚守的荣光。


故事讲完了,希望脉脉、UCloud 和季老师都有一个很好的未来。我在之前的文章中说过,未来创业型和中小型公司会越来越依赖云计算平台,云服务能够为我们带来很多基础设施服务,比如容灾,虚拟化,自动扩展,弹性计算、安全和 CDN 等等。除了这些,云计算服务商还提供了各种技术服务,比如存储、数据库 RDS、缓存服务、搜索服务、日志服务、构建服务、监控服务等等。

云计算厂商可以帮助企业走的更远,也可以让运维人员更专注于平台和业务。如果你现在依然是个背锅侠,那么,也许是时候考虑一下云服务了。

点击「阅读原文」了解更多 UCloud 混合云详情!

UCloud,国内领先的专业云计算服务商


举报 | 1楼 回复

友情链接