
最近一段时间, 接二连三出现安全和运维事故, 先是支付宝服务因线路被挖,局部服务中断; 接着是携程整站被删,给企业带来了巨大的损失,到目前为止,携程用了10多个小时全部恢复过来。其间,各种消息满天飞,有在讨论为何没有备份,有在讨论双活为何没生效,有在讨论系统被黑,有在讨论内部员工干的,也有说是出打bug了,发布的东西立即被删,最后被官方确定为员工误操作引起等。历史以来的事故背后,总会有一连串的故事, 但归根结底,还是那些烂熟于胸的分类:硬件故障,人为破坏,误操作,软件设计缺陷等。我还是引用微信上说的话,安全是细活,但做得再细,再强大的团队也是无法规避问题的出现。但,如何规避呢?