跳至正文

阿里云又宕机!

点击蓝字关注更多To B大事

作者 /伍杏玲、窦悦怡 ·编辑 /Jenny

来源/CSDN、数字观察

在云界流传着一句话:“运行不稳定,宕机两行泪!”

这不,昨日凌晨因为阿里云宕机,不少华北互联网公司的程序员、运维人员接到报警后从被窝爬起来干活去了。

58一程序员如此描述今早的惊魂几小时:“很多朋友经历了昨晚阿里云3小时左右的故障,我司的业务也收到了一定影响,技术的同事一起熬夜奋战,最终观察服务稳定运行了两个多小时,直到凌晨五六点多才逐渐登出VPN。”[1]

对此,阿里云官方发布公告:华北2地域可用区C部分ECS服务器等实例出现IOHANG。针对本次故障,将根据SLA协议,尽快处理赔偿事宜。

这已经不是阿里云第一次出事故了:10天前,阿里云泄露 40 家名企源代码;去年6月份,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。

1

为何阿里云宕机影响巨大?

在CSDN的2018-2019开发者大调查报告显示,在国内公有云市场中,阿里云的市场占额最大,高达67%,远超第2至5名的总和。

据阿里云官方文档显示:“中国有40%的网站都运行在阿里云上,一半独角兽公司都在阿里云。”

所以说,阿里云轻微一抖动,影响中国近半数的互联网网站啊!

02

“云”非百分百靠谱,且云且珍惜

虽然阿里云承诺会赔偿,可阿里云故障频出,不仅让众多IT人忙得人仰马翻,还让网友略微心寒啊:

  • 这不仅仅是一个赔偿的问题,对于客户来说访问不了或造成高于赔偿多少倍的有形无形损失,技术方面仍然需要过硬啊!

  • 把业务系统部署在平台上,要的就是安全、稳定和可靠,不是赔偿的事儿。

甚至有人想更换一个云商,但无论是公司自搭建服务器平台或者各家云商,从没有说自己的产品是100%安全的。

阿里云的官方文档清楚地写道:“对于单实例维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.95%;对于单地域多可用区维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.99%”。

03

云厂商普遍缺乏云灾备意识

那么面对复杂异构的混合云和多云的环境,我们不禁再次质疑,上云真的安全吗?为什么这种事情频发发生?云厂商就不能规避或者解决这些问题吗?

带着这些问题,我们请教了云信达创始人张兵。云厂商频繁发生宕机,数据丢失的事件,从根本上来说是云灾备、数据管理意识普遍不强。不管是阿里云还是腾讯云,这些云厂商普遍灾备意识不强,没有很健全的灾备建设。[3]

“过去像电信这种数据中心,都是有几十年的沉淀,而现在基于云的数据中心普遍建立年份短,技术和意识积淀不深,进而整个数据管理体系不完善。

这次事故很明显,是阿里云IO HANG出现了故障,也就是整个存储部分发生了问题。不过,这种故障不能避免,而是需要从头就要有灾备预防的意识,对整个数据中心进行保护。”

张兵介绍道,以前数据中心产品架构是一个集中架构,基本上每个环节都定义的很清楚,中间就几台机器、几条链路,给他们全部加上云,不会有任何单点的故障。

而现在,在云的大环境下,整个企业的IT架构都变得更复杂。表面上,这些架构是在云上,但其背后的物理意义就是一个个数据中心、一个个的链路,这是任何IT架构逃不掉的。

所以说,数据中心涉及到链路,就跟以前传统企业的IT架构没有什么差别,无论是企业还是云厂商都考虑的比较欠缺。

“从很久之前,国内很多厂商就没有备份意识,以为买个网盘,双机做了热备,就是买备份了。

当遇到宕机或者其他事故,企业客户数据丢失了,才发现自己的逻辑错误,才开始意识到灾备重要性,开始补足这块,而出事的企业客户也等于花钱交学费,意识开始布局灾备了。

同时,传统的IT架构是没有盲点的,而基于云的架构有很多盲点。例如,去年腾讯云的事故,虽然对方说做了多副本的数据存储,但是这三个副本逻辑一样,有没有备份就没差别,一旦出事,三个副本都出事。”

04

加强混合云布局或强化云灾备意识

从企业客户角度,有时候会“丧失”一些控制权,看网上介绍公有云好,就一根筋的把自己的业务都搬上去,根本不考虑多云这件事。

其实,大家应该少交一点学费,多有敬畏之心,不要相信上云后,不会出现任何问题。过去,IBM给很多企业做IT咨询时候,都建议企业在基础建设里,把灾备、备份、数据安全等全部布局,这些都会提出来,用不用,就是企业的事情。

而现在,这些互联网云厂商,从自己的角度就没有这方面意识,根本不会帮客户想到这些,只有出事了,让客户花钱交学费,才或多或少有意识。

那么,对于如何防范这类事情再次发生呢?

张兵建议,上云并不是安全的事情,不要把自己的身价姓名都交给公有云。企业要么就布局混合云,要么就有多云意识。

“云内部的数据分布,如果不是分布在一个数据中心里面,要么就是数据中心链路断了,那么就是这些数据资源可以放其他的地方管理。我建议大家要采用多云的管理策略,一旦公有云出现问题,私有云还可以顶上去,这样能降低不少危险。

其次,大家不但要有上云的意识,还要有下云的意识。就是企业把数据放到一个云上,再另一个云上做备份,但是不点亮,这样就可以降低很多成本,一旦出现问题,没被点亮的云就可以及时派上用场。”

此外,一位云计算行业专家曾公开表示,凡是在使用的数据都有丢失的风险。首先基础设施就存在局限性,因为没有设备能达到100%可靠;其次,人为因素风险难以避免,目前绝大部分的数据丢失其实都是人为操作造成的,比如说中病毒、误操作等等。

所以,综合起来就是,数据丢失的风险必须主动考虑,数据丢失的可能性永远存在,数据容灾能力是必须具备的。

Veritas公司全球现场运营执行副总裁Scott Genereux曾经对i黑马&数字观察说过,企业对云服务中断缺乏透彻的理解。云恢复是云服务提供商和企业的共同责任。如果企业采取更为积极主动的方式来确保云中应用程序的运行时间,快速从云服务中断中恢复是完全可控的,而这也是企业的责任。

正确部署战略意味着能够缩短宕机时间,降低经济损失,减轻客户的不信任度与品牌信誉损失。

“从传统观念来看,很多企业客户认为数据保护主要就是备份。其实,备份在企业数据管理战略当中非常重要,备份是核心基础。但除了备份之外,企业还需要考虑其他问题,例如,创建面向未来的数据管理战略、云战略和区别化。

简单来说,企业在创建数据管理战略的时候要思考这些问题。第一,保护无处不在的数据。第二,优化存储。第三,降低成本。第四,支持上云。第五,确保合规。

参考资料:

[1]架构师之路《这一次,除了骂阿里云,还能做些什么?》

[2]阿里云社区《IT之家,这不是个案》

[3]数字观察《从阿里云再次宕机事件来看,云厂商们都忽略了什么?

— END

本文系授权转载,不代表企服行业头条立场。转载/投稿/内容合作/寻求报道请联系微信:qifutoutiaozhushou3W

热文精选

2018最新To B独角兽企业名单(含估值)

不得不承认,国内独角兽公司的成长周期变得越来越短。

2018 BAT投资交卷

2018,一个不平稳的年份。

中国云计算的十年江湖

有云的地方,就有江湖。有江湖的地方,就免不了战乱纷争。

ToC衰退,ToB兴起

To B互联网注定是一场马拉松式的产业革命。

推荐阅读

点击文字即可阅读

阿里云京东金融丨纷享销客公司宝

51社保丨Coremail石墨文档丨互动吧

慧算账丨数澜科技丨猪八戒网丨Udesk

企加云丨达观数据智能一点丨分贝通

特斯联丨盖雅工场丨声智科技丨媒介匣

微思敦快合财税丨唐桥科技安华云

上上签丨致趣百川丨眼神科技丨知呱呱

快法务企业盒子钱包行云|天络行

环信丨青云QingCloud拉勾云路书

青松云安全人人译视界|特赞云之家

上上签丨云帐房|造动丨知呱呱|英方云

日志易丨活动行|融云|英方云天络行

客如云好租丨极限元|英方云丨百场汇

CELLA|特赞无讼丨云测诸葛io云敞

作者 /伍杏玲、窦悦怡·编辑 /Jenny

来源/CSDN、数字观察


原文始发于微信公众号(ToB行业头条):阿里云又宕机!

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注