相信很多 IT 界的朋友,昨天都被这条新闻刷屏了:阿里云宕机故障导致华北地区多家公司 App 和网站瘫痪。虽然目前阿里回应称故障已全部修复,但宕机事件对企业用户的影响和损失是巨大的。
3 月 3 日凌晨,有微博网友反映阿里云疑似出现宕机事故。这次宕机出现得丝毫没有征兆,以至于听说有不少工程师都是半夜里被从被窝里薅出来的。
此次宕机引发众多网友吐槽,不过网友的反应很现实,他们心中关心的只有“花呗”:
阿里云方面表示,从 3 月 2 日 23:55 分左右开始,监控发现华北 2 地域可用区 C 部分 ECS 实例状态异常。
后经排查处理,为 ECS 服务器等实例出现 IO HANG,其他地域及可用区经过排查后未发现此类情况。所谓 IO HANG,就是云服务器的磁盘无响应。
对此,阿里云回应称,经紧急排查处理后全部恢复,针对本次故障,将根据 SLA 协议,尽快处理赔偿事宜,但阿里云并未公开详细的赔偿细节。
而根据阿里云开发者论坛上的网友说法,赔偿通常是按照故障时间的 100 倍进行的,而方案则根据包年包月预付费模式和按量付费模式有所不同,但总额不超过支付的单台云服务器费用总额。
经过 10 多年发展,云计算技术已经逐渐成熟,企业对于云计算的接受程度也在进一步提高。
由于云计算能够给企业 IT 运营、业务创新等带来明显效用,上云已经成为企业常态。
同样是 3 月 3 日的消息,全球云管理服务厂商 RightScale 发布 2019 年云状况调查报告,受调查用户表示 2019 年在公有云服务上的支出增长速度将是私有云的 3 倍,而包括阿里云在内的全球公有云厂商将受益于这一趋势。
根据 RightScale 最新的报告,在被调查企业中公有云采用率为 91%,私有云采用率为 72%,也就是说,差不多超过 9 成的企业已经有工作流跑在公有云上。这一数据较上年持平,但较几年前出现了大幅上升。
公有云市场的大幅增长,除了其成本低,扩展性好之外,安全性越来越高也是重要的原因。但尽管双方约定的可用性为 99.99%,但意外的发生仍不可避免。
此次阿里云宕机事件,凡是会读写故障盘的系统软件或服务程序,都会受到影响,涉及很多互联网公司、App、网站。云上不可能做到绝对不出事,所以,容灾灾备才是负责任的做法。
针对企业的特点,构建健全的容灾制度、完整的容灾方案、良好的容灾系统,并在实践中不断的进行评估、反复测试、随时调