容災漏洞致互聯(lián)網企業(yè)事故頻發(fā)
2015年06月08日 09:30
來源:京華時報
5月27日、28日,支付寶和攜程雙雙出現(xiàn)用戶無法正常使用的問題,盡管事故原因并不相同,卻也為互聯(lián)網企業(yè)的運行安全敲響了警鐘。之前并不怎么被人提起的容災能力建設,也重新回到人們的視野。
■分析
事故背后的容災漏洞
“這次的兩件事原因完全不同,支付寶的事故可以說是天災,攜程就完全是人禍了。”有多年災備工作經驗的某公司信息安全部總監(jiān)劉小雄對記者分析,支付寶的事故偶然因素更大,提前預防的難度也更大,而攜程的事故則完全是內部問題。不過,這兩起事故都反映出兩家企業(yè)在容災工作上的不足和漏洞。
支付寶機房建設或存在不足
支付寶此次的事故,根源是機房光纜被挖斷,從這個角度講,有一定“不可抗力”的因素,但是也不能說支付寶本身就不存在任何問題。
藍汛技術專家認為,支付寶對外宣稱自己的容災方式是“異地雙活”,但是從實際處理來看,用戶受到影響的時間還是長達2小時,如果是真正做到了“異地雙活”,就不應該有這2個小時的服務中斷,由此可以推斷,支付寶的容災系統(tǒng)可能并沒有真正做到異地雙活。不過他也表示,支付寶與其他互聯(lián)網企業(yè)不同,它的業(yè)務是交易類的,實時的數據交互量非常龐大,想要做到異地雙活,技術難度非常大。“說實話,以阿里的實力,如果支付寶都做不到,那其他互聯(lián)網企業(yè)就更不用說了。”
這位技術專家還指出,從支付寶的故障進行倒推,其在機房的建設上也可能存在著不足。按照施工規(guī)范,連接兩個機房之間起碼要有兩條獨立的鏈路,而且兩條鏈路要走不同的路線,當其中的一條被挖斷時,就不會影響到兩個機房間的數據傳輸。
攜程缺乏應急預案和演練
對于攜程遇到的事故,容災方面的專家認為,其原因更多的是攜程本身應對的問題,如果應對得當,事故影響是可以降低的。
劉小雄認為,從攜程此次事故的細節(jié)判斷,攜程給出的解釋似乎不大能站得住腳。“單純的誤操作很難帶來這么大的影響,它說是一些執(zhí)行代碼被誤刪除了,可線上和源頭同時被刪除的可能性是非常低的。”劉小雄判斷,攜程出問題的真正原因應該是遭遇到了網絡攻擊,或者是在應對攻擊時維護人員出現(xiàn)了重大失誤,或者是純粹的外界攻擊對它造成了破壞,“不管怎么說,我覺得網絡攻擊都是造成其嚴重事故的主因。”
他表示,網絡公司如果發(fā)現(xiàn)及時應對得當,是可以抵御或者降低危害的,可攜程的問題說明,他們或者沒有及時發(fā)現(xiàn)惡意攻擊,或者是安全防護人員能力較差,才會造成如此后果。
藍汛相關人士也認為,從攜程的應對來看,其明顯缺乏對此類情況的處置預案,似乎沒有做過相應的演練,否則按照預案與日常演練進行處理,不會用12個小時才恢復正常。“對緊急情況缺乏預案和演練的互聯(lián)網企業(yè)應該不在少數。”
■追訪
防范風險容災建設要合規(guī)
“出了事的認倒霉,沒出事的看熱鬧。”劉小雄稱,這是不少互聯(lián)網企業(yè)之前對于嚴重事故的態(tài)度,出過事的可能會對原有流程和設備進行完善,而沒有出過事的可能還抱著僥幸心理不加重視。不過,在支付寶和攜程的事故之后,多數互聯(lián)網企業(yè)還是應該會有所觸動的。“不只是企業(yè)自身,今后國家可能也會向企業(yè)提出更高的安全要求。”
劉小雄表示,想要避免出現(xiàn)嚴重的安全事故,企業(yè)對容災的重視程度和相關制度的合規(guī)非常重要。他介紹,在一些大型互聯(lián)網公司,主要業(yè)務部門必須有災備方案,還必須接受對災備預案和演練情況的審核。此外,公司本身也有對于容災的嚴格規(guī)定。“比如我們內部的容災分為三個步驟,第一是明確哪些業(yè)務需要進行容災;第二是按照業(yè)務的實際情況每半年或者一年進行一次容災演練;第三就是當突發(fā)情況真的發(fā)生時,按照預案和演練進行操作就可以了。”
他認為,一些企業(yè)存在誤解,認為容災會增加成本,實際上如果容災沒有做好,出現(xiàn)事故,所帶來的損失要遠大于容災的投入。
(京華時報記者 古曉宇)
相關新聞:
網羅天下
頻道推薦
智能推薦
圖片新聞
視頻
-
滕醉漢醫(yī)院耍酒瘋 對醫(yī)生大打出手
播放數:1133929
-
西漢?;韬钅钩鐾链罅恐窈喣緺?填史料空缺
播放數:4135875
-
電話詐騙44萬 運營商被判賠償
播放數:2845975
-
被擊落戰(zhàn)機殘骸畫面首度公布
播放數:535774













