容災漏洞致互聯網企業事故頻發
2015年06月08日 09:30
來源:京華時報
5月27日、28日,支付寶和攜程雙雙出現用戶無法正常使用的問題,盡管事故原因并不相同,卻也為互聯網企業的運行安全敲響了警鐘。之前并不怎么被人提起的容災能力建設,也重新回到人們的視野。
原標題:容災漏洞致互聯網企業事故頻發
5月27日、28日,支付寶和攜程雙雙出現用戶無法正常使用的問題,盡管事故原因并不相同,卻也為互聯網企業的運行安全敲響了警鐘。之前并不怎么被人提起的容災能力建設,也重新回到人們的視野。
連續兩天兩起事故
“說起來也真是夠寸的,平時很少發生的事故這回一下就是兩起,而且連續兩天發生,應該是很小概率的情況。”一位互聯網業內人士感慨道,他所說的小概率事件,就是上周支付寶和攜程連續發生的嚴重事故。
5月27日下午,支付寶出現大規模癱瘓,國內很多支付寶用戶在PC端和移動端均無法轉賬付款,這一事故持續了差不多兩小時。支付寶方面對外表示,造成此次事故的原因,是由于市政施工使得杭州市蕭山區某地光纜被挖斷,進而導致支付寶一個主要機房受影響。
無獨有偶,第二天,攜程又出事了。從當天中午開始,攜程官方網站及APP出現了無法正常使用的情況,更為嚴重的是,這一事故持續了12個小時才被修復,這也引發了外界對攜程的種種猜測。最終攜程方面給出的解釋是,由于員工錯誤操作,刪除了生產服務器上的執行代碼。
中國領先的CDN服務提供商藍汛通信的技術專家表示,像支付寶和攜程這么嚴重的事故確實很少見,連續兩天發生更是罕見。該專家介紹,互聯網企業發生事故,可以分為機器級和機房級兩類,前者主要原因是系統架構不是很好,遇到訪問量過多會帶來“宕機”;后者則主要是外部攻擊造成的,會造成機房的癱瘓。“機器級的故障主要是實力較弱的互聯網企業會遇到,像支付寶、攜程這樣的大企業,這一類問題應該不會發生在他們身上了。能夠給這樣的企業帶來威脅的,一般就是機房級的故障了。”
機房級事故之前也是偶有發生。例如,2013年7月,由于上海一條光纜被挖斷,就導致微信在很多地區無法正常使用,時間長達7小時;2014年10月,也是因為上海機房出現故障,導致微信全國大面積故障2小時。
容災建設不容忽視
“雖然這一次的兩起事故看似很偶然,可也能反映出互聯網企業在容災能力上的漏洞,而漏洞的存在,又使得事故遲早會發生。”藍汛方面表示。容災是指企業對于可能發生的系統故障的防范性準備,比較準確的解釋是“建立兩套或多套功能相同的IT系統,當一處系統停止工作時,整個應用系統可以切換到另一處,使得該系統功能可以繼續正常工作。”
據業內人士向記者介紹,根據容災系統對災難的抵抗程度,可分為數據容災和應用容災。數據容災是指建立一個異地的數據系統,對關鍵的數據進行備份存儲,當故障造成本地數據丟失時,可以通過備份找回;應用容災層次更高,即在異地建立一套完整的、與本地數據系統相當的備份應用系統,在災難出現后,遠程應用系統迅速接管或承擔本地應用系統的業務運行。業內人士稱,現在對于數據安全的重要性,多數互聯網企業都有清楚的認識,數據的備份都做得比較完備,這方面出問題的可能性不大,可能會出現問題的,還主要是在應用容災上。
藍汛技術專家介紹,容災企業建設主要有三種方式,一種是冷備份,也就是備份服務器平時并不運行,只有發生事故后才開機啟動,這種備份方式由于需要啟動,系統恢復的時間會比較長;一種是熱備份,備份站點也和主站一樣處于運行狀態,但只備份數據,不承擔業務,只有當出現意外情況時,備份站點才接替主站點的業務,這種備份方式也會存在一定的時延;另外一種就是異地雙活的容災方式,也就是在相隔較遠的地方分別建立兩個機房,且都處于工作狀態,共同承擔日常運行工作,一旦其中一個出現意外,則另一個承擔起全部工作。直觀地說,異地雙活的方式,就好比一個人可以完成的工作,在日常卻安排兩個人來同時完成,當其中一個人有事不能工作時,另一個人可以獨立完成。相比其他方式,異地雙活的容災,對意外情況的響應幾乎可以做到零時延,可能用戶根本就不會感覺到就實現切換了。
相關新聞:
頻道推薦
智能推薦
圖片新聞
視頻
-
滕醉漢醫院耍酒瘋 對醫生大打出手
播放數:1133929
-
西漢海昏侯墓出土大量竹簡木牘 填史料空缺
播放數:4135875
-
電話詐騙44萬 運營商被判賠償
播放數:2845975
-
被擊落戰機殘骸畫面首度公布
播放數:535774













