大家好,我是小北。 先通知个事: 最近拿到了阿里云内部福利,免费给大家送服务器(2核2G一年,原价1500+一年),去年也送过 1000+ 台,今年已送出 300 多台了,也都给返现了。(虽然昨天故障了,不影响领取服务器~~ 目前大概还有不到 200 个左右的名额,如果你要参与,可以点击这个链接参与哈,文末有加群方式:免费领取阿里云一年服务器 错过了就真的没了,预计就这两天就会结束了。 这里直接给出群号吧:717460452 --------- 大家昨天应该都在热搜看到了,阿里的基础设施阿里云故障,导致阿里系产品几乎都受到了影响。 故障的原因据说是阿里云底层关键组件 oss 故障导致的,更加具体的原因需要等阿里云官方出具故障报告了。 总之几乎是所有云产品都受影响,并且控制台也故障,导致流量切换等操作无法进行。 而且受影响的不止阿里自家产品,很多部署在阿里云上的业务都受到了影响。 最最关键的是 政务云、金融云等独立部署的集群,也一样受到影响。 最最最关键的是故障时间让人无法接受: 2023-11-12 17:44 结束时间 (GMT+8) : 2023-11-12 21:11 我昨天出停车场,停车场扫码缴费的系统也报 500 系统错误,充电,汇充电的服务器也报错,这种关键基础设施真的不能出问题,影响民生的面太广! 总之,无论如何,阿里云今年的可用性指标肯定达不成了,好像今年这不是第一次了。 而且云厂商一般对外,尤其是大的商户,都有 SLA(服务级别协议),会签订可用性、性能等指标,一旦达不到就要赔偿! 根据可用性指标,全年允许的停机时间:
像金融机构,尤其是支付宝、微信支付这种国民支付工具,都是要求 5个9的,也就是全年只能 五分钟不可用,五分钟就意味着现网一定不能出问题,所有保障措施都要做在事前,因为五分钟根本不足以应对任何现网的问题! 程序员都知道定位问题、修复、发布至少十几分钟起步吧。 同样,作为程序员,我也非常理解阿里云的会出故障,毕竟程序员都会写出bug!但是最大的问题是恢复时间太久了,感觉缺乏充分的应急预案和演练。 不管咋说,看在阿里云送了我免费服务器的份上,再说一句: 阿里云加油! (上次语雀领取的会员还没用完呢~ 阿里云这波格局大了呀。。。 |
|