青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 互联网思维的四大构成要件恢复删除文件的方法 »

企业如何做好数据保护

  最近一段时间, 接二连三出现安全和运维事故, 先是支付宝服务因线路被挖,局部服务中断; 接着是携程整站被删,给企业带来了巨大的损失,到目前为止,携程用了10多个小时全部恢复过来。其间,各种消息满天飞,有在讨论为何没有备份,有在讨论双活为何没生效,有在讨论系统被黑,有在讨论内部员工干的,也有说是出打bug了,发布的东西立即被删,最后被官方确定为员工误操作引起等。历史以来的事故背后,总会有一连串的故事, 但归根结底,还是那些烂熟于胸的分类:硬件故障,人为破坏,误操作,软件设计缺陷等。我还是引用微信上说的话,安全是细活,但做得再细,再强大的团队也是无法规避问题的出现。但,如何规避呢?

  其实,万变不离其中,任何复杂的问题,无论是内是外,是因漏洞被入侵还是流程机制缺陷,是硬件还是软件,除了必备的基本防御和安全控制流程外,最后到数据保护这里,都可以简单化处理,做好最简单,最容易实施的事情:做好有效备份措施,守好安全最后一道防线!只是,这个最后一道防线,不是一般的企业能真正落实做好的 ,不少企业的负责人和中高层执行团队的意识上其实还没跟上来,所以才导致小概率事情发生。一般来说,对业务的保护,要有防线层次,实施分级的策略来实施 ,我们来仔细看看。

  手动实施,基础入门措施,没做的,赶紧做起来

  在线类业务/核心业务,特别对于依赖互联网渠道销售的企业来说,是企业重中之中,应当作为第1优先级来保护。首当其冲,是对其核心数据库进行主从部署,如果有银子,另外这些节点应当都具备一定的节点容错能力,也就是说Raid这些技术上去。但主从的问题,实际上,不少企业没有做从啊,好可怕的。这里如果做了,+1分。做了从以后,还要在本地备份,对如果有备份意识的,其实已经做了。但是否就足够了呢? NO,本机备份只是很简单的方案,理论上,出现问题的概率也基本一样,一样被删,硬件故障一样没用。这时候,就需要手动复制一份到其他地方去,进行异地备份。这里做了,再+1分,遗憾的是更少的企业会做这个。

  以上是一个简单的对核心数据库进行备份的方案,但这也仅仅是一个基础,数据小,业务简单也不是难事,写几个脚本就可以了。一旦当数据和业务规模发展起来后,数据量,业务种类,节点数目,版本迭代,研发流程等都会全面影响数据管理策略。遗憾的是,从目前了解的信息看,不少企业的负责人或执行团队,并没有与业务一起进步,忽略了数据连续性的价值,才导致看起来很低概率发生,最后变成了下一携程。

  总体来说,手动方案靠1个有态度,且敬业的团队,否则,这个方案出问题的可能性很大

  全程自动化,系统化,数据大、业务多、团队大的场景,更鼓励用此方案

  我们简单想象一样,数十TB级数据,100个节点,10台DB,30个业务,加上互联网敏捷式的按天,按周的迭代,互联网企业运维团队常用的备份小技巧,主从,手动,本地,异地,手动归档等会变成麻烦起来了: 忘记做备份, 空间满备份失败,找不到备份版本, 备份慢,传输异常中断,恢复慢,换人了,甚至备份了,也不敢用来恢复,……你说有啥用呢。

  实际场景会更复杂,在线系统,内部研发系统,关键业务支撑系统等,加上团队规模一大,基本上这块事情就变复杂了。

  对此,比较好的方案就是系统梳理业务类型,数据类型(DB,图片,视频,文档,代码),是抓取的,还是编辑产生的,内部,外部,需要保护的策路,包括频率,以及数据保留的历史周期,选择好容错能力的存储设施,业务数据的敏感程度等,抽象几种行为的结果,统一对数据,应用代码进行本地和异地备份,对比较历史的数据直接归档到离线位置。同时考虑在出现紧急问题后,最好能够快速对核心系统恢复,甚至瞬间对部分核心环节的文件,数据库单表进行恢复。结合自动化逻辑,不管规模有多大,按内外,按业务,按部门等视图,集中在一个系统管理起来,一个系统全局掌握企业的核心业务分布,数据保护状态;当出现这类紧急情况后,通过自动化系统,只需要在数十分钟,有序就恢复了;一切尽在掌握。你说,这样该有多好啊?当然实际携程的网络结构会更复杂,对全网实施,需要比较长时间梳理和设计,如5.28这种全网出问题后,恢复的时间会略长。

  自动化方案就比较多,做数据管理和保护的IT公司不下500家,像IBM、HP、Dell、EMC、赛门铁克、康沃、飞康、爱恩铁山、CA、carbonite这些老牌的上市公司,由于历史传统IT基因,这类对互联网类型基本难适应,互联网类公司一般也不原意用;还有很多新型的互联网创业公司,如Datto、code42、durva、Rubrik等企业。深圳的一家企业,多备份,算是后起之秀,互联网化的产品,全新混合云自动备份保护路线,一站式支持各型主流DB系统,OS,各型类型数据集中管理保护。无论在线,还是内部系统,文件和数量多大,可以对IT运维团队非常友好,一个面板集中管理起来,更适合携程这种现象的治理。

  那,已经做了,如何?不把鸡蛋放在一个篮子

  同1个磁盘,同1个节点,同1个机房,同一个人维护,统一钟存储设备等都是鸡蛋放在篮子的表现,对于重要的数据,这不是良策。不少情况出问题,都由这几类原因发生。因此

  无论如何,一个健壮的数据保护系统,必须要有能力规避掉。多点存储,异地,交叉检查,还是要结合用上的。

  我经常听到不少同学提到,我们是用的云,我们是用的这家云,很牛的云,很多案例,但又能怎么样呢?云不是万能的,都是人写代码,加上机器垒起来的,是人就会犯错误,硬件不例外,数据中心也不例外,微软发生过,AWS也发生过。对于云磁盘本身的快照也只能做到整体恢复,存储重点也是解决硬件故障。出问题的恢复动作其实满大的,数据越大,越不容易可控 , 对于可靠的备份机制来说,细粒度备份和恢复时必要的,备份的场景和恢复的需求太多, 云平台强项是虚拟化计算和存储。这就是为什么云平台包括AWS,阿里云等都有备份保护类的服务。

  从另外1个角度看,一个平台依然存在一个篮子问题,所以我们鼓励企业在做数据备份的时候,进行交叉部署,交叉备份管理,特别对于关键的业务系统和重要数据,尤其要注意,尤其是在关键发展阶段的企业,即将要上市的企业啊,特别要注意的。

  目前此环节,市面上传统的IT企业推出的硬件方案,比较难做到这点,一般都需要采购一批硬件进行部署,实施的成本还是比较高的。面向云的方案是比较适应这类场景,国外有些企业比如Datto,Rubrik等都是基于云和本地混合保护方案 ; 而在国内,可以根据需要进行异构,异地,异云的交叉组合。

  有心无力怎么办

  当然,也有超强备份保护数据意识的企业执行团队,问题在于数据一大,预算就马上爬升, 这样的情况,有心无力,那怎么办呢? 其实还有第2个方案,就是基于混合云的技术。基于云的技术一次投入超低,几千块就起飞了,成本随企业的发展,其实都已经摊薄,这样天然就是异地的方案,如果说你担心安全,其实也没必要,数据加密上去,退一万步讲,云平台被入侵了也不担心,其实国内主流的云平台都是一线企业,舍他选谁?安全是他们生命,比任何一个企业都在乎;如果这样你还不放心,你说你数据比银行要求还机密,这样一些相对历史或边缘的数据,可以选择加密上云。当然,只有云还不能解决快速恢复的问题,特别对于数据规模比较大的情况下,这时候,就要用本地和云混合的方案来解决。本地用一般的NAS,服务器,或再数据上到10TB级,专业点用SAN,当出现问题后,可以并行从本地往各个节点,系统进行同步恢复。类似携程这种情况,几分钟到几十分钟也就OK了,至少对于关键几个业务系统。随后周边一些业务在主系统恢复的时候,逐步按批次恢复。基本也就在1-2个小时就全网恢复了。万一本地的备份系统也被干掉了,那还可以从云端以数Gb级的速度做灾难恢复。国内了解到有一些创新型企业都在做此类事情,提供自动化,基于混合云,集中管理的方案,无论多复杂的业务结构,都可以清晰梳理,并有序管理起来,有效规避人为,自然,系统因素。

  最后,如何整起?

  当然,你说你是很牛的企业,人多,钱多,愿意投入数十人的IT运维工具开发团队,花几十到百万,开发一套系统自动化做这些事情。但是,你愿意不,你能做到不?只有不到1/1000的企业会这样投入做。当然,你说可以结合开源的工具来做,包括文件同步,数据库导出工具,甚至二机制日志,也不是不行,最大的问题,还是在于数据量,业务量,网络结构复杂后,这些都会变成问题 ;逐渐你的企业会变成依赖一个不愿意反复做类似事情的团队,而不是一套针对性的系统来解决问题 .

  所以,本文的最后的观点是:以小投入换基业常青!专业的事,就交给专业的服务去干吧!互联网的问题,用互联网的工具来解决!

  来源:投稿,作者:多备份CTO陈元强



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/4256.html
  • 文章排行:
  • 1.乐濛
  • 请求帮助。我们美国公益组织的网页在中国打不开,请问有什么方法能够解决的办法吗?谢谢!
  • 2015/6/7 4:27:51   支持(10)反对(5) 回复
  • 2.乐濛
  • Hi William, 没有找到联系你的方式,只好在评论里向你请教了。我是美国一个非盈利公益组织的秘书。最近我们的公益活动扩展到了中国,但中国内地无法访问我们在美国的网站。我们怎么样才能让我们的网站在国内畅通无阻呢?是否得在国内重做网站和注册域名等,还是可以在国内注册了域名并把域名挂上我们的在美国的网站?如果你能指点迷津,我们将不胜感激。谢谢!
    Simba 于 2015-6-8 18:01:39 回复
    这个问题您应该去询问你们网站的空间供应商,跟域名关系不大。你们应该寻找那些没有被中国屏蔽的空间供应商。
    彩贝网络 于 2015-7-13 17:03:18 回复
    主要是服务器的问题,联系我,可以帮助你一下,比较热衷公益事业
  • 2015/6/7 4:22:06   支持(10)反对(8) 回复
  • 3.叶正勋
  • Hi,文章中指出的其实没有解决干线网络故障的问题,另外如果是内部人员故意操作也不是简单的工具可以解决的.没打到重点,看上去好像广告贴呀~
  • 2015/6/8 10:14:26   支持(8)反对(9) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

相关文章

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.