今天的網勢也會是我們將來美好的網勢
吃完飯付不了款、搶到特價商品卻眼睜睜看著交易關閉、公共自行車掃碼支付失敗,只好走著去上班……7月22日上午
支付寶扛得住雙十一 為何扛不住一個機房故障?
■IT時報 吳雨欣
吃完飯付不了款、搶到特價商品卻眼睜睜看著交易關閉、公共自行車掃碼支付失敗,只好走著去上班……7月22日上午,不少用戶發(fā)現(xiàn),支付寶出現(xiàn)故障,不管是買火車票、網上訂餐還是轉賬、提現(xiàn)均無法實現(xiàn),更不可思議的是,上午明明顯示轉賬失敗,通過其他方式轉賬后,下午支付寶就變成了轉賬成功。看著頁面 “網絡不給力,請稍后再試”的提示,不管你怎么切換網絡,重啟路由器,結果還是一樣。
作為全球最大的第三方支付機構,這不是支付寶第一次不給力,2015年5月28日,支付寶因杭州蕭山的光纖被挖斷出現(xiàn)全國范圍系統(tǒng)癱瘓長達2.5小時。14個月后,在阿里巴巴宣稱攻克了“服務器資源彈性部署”和“數(shù)據(jù)中心異地雙活”兩項技術難題后,此次發(fā)生的故障依然持續(xù)2個多小時。
當支付寶逐漸替代錢包成為人們的隨身支付工具時,兩個小時的網絡中斷所影響的人群和支付事項越來越多,而且再度引發(fā)專家對支付寶災備能力的質疑。
深圳機房發(fā)生故障
7月22日上午10點10分左右,有用戶開始在網上吐槽支付寶不可使用。11點44分,支付寶官方微博表示,上午10時多,由于支付寶在華南的一處機房出現(xiàn)故障,技術團隊緊急將業(yè)務逐步切流到其他機房,過程中影響了部分用戶對部分功能的使用,用戶的資金和信息安全不受影響。直到12點36分,支付寶再次回應稱,系統(tǒng)已經恢復正常。
“以目前阿里云的處理能力,在假想極端情況下,即便杭州的數(shù)據(jù)中心全部宕掉,依然能夠平穩(wěn)度過雙十一,互聯(lián)網創(chuàng)業(yè)網,不影響用戶的購物體驗。”阿里備戰(zhàn)2015年雙十一時的豪言猶在耳邊。很難想象,在一個既非雙十一也非節(jié)假日的周五,支付寶一個機房的故障竟然導致服務中斷持續(xù)了兩個小時。
“出問題的機房在深圳,切流時間長且恢復慢,是有點不太正常。”一位接近支付寶深圳機房的知情人士向《IT時報》記者透露,這次事故的原因是多方面的,互聯(lián)網創(chuàng)業(yè)網,既有機房機件等硬件設施的原因,也有網絡故障方面的因素。他舉了個例子,支付寶就像是一輛小汽車,運營商提供的高速公路是通的,但小汽車內部出了問題卡在了半路,數(shù)據(jù)從一個地方送不到另外一個地方。
“異地多活”架構沒起充分作用
在2015年全球架構師峰會上,阿里巴巴高級系統(tǒng)工程師曾歡(阿里花名為善衡)結合互聯(lián)網金融業(yè)務及系統(tǒng)特性,分享了支付寶的高可用與容災架構演進,表示支付寶在該方面已進入成熟的青年時期,有快速恢復的容災能力,可做到同城內數(shù)據(jù)中心之間,甚至城市和城市之間在故障發(fā)生時自如地進行應急切換,使得支付寶實現(xiàn)“異地多活”的架構能力。
“所謂異地多活是指數(shù)據(jù)中心在機房基礎設施、地理空間、網絡資源、軟硬件部署上是分布的,多中心之間可以并行為業(yè)務訪問提供服務,互為備份,地位均等。一個數(shù)據(jù)中心出問題,其他數(shù)據(jù)中心可對業(yè)務接管實現(xiàn)無縫切換,用戶無感知。支付寶雙十一能撐起8.59萬筆/秒的交易峰值及支付寶平時的處理速度也是得益于異地多活,只是不知道為什么這次異地多活沒起太大作用?!币晃粯I(yè)內人士向《IT時報》記者表示,正是因為異地多活所需的設備量,阿里機房摒棄了昂貴的專業(yè)高端設備,選用X86服務器和國產的開源軟件。支付寶這次的故障很可能是因為網絡出口有單點故障,瓶頸堵塞,導致引流出現(xiàn)問題。
據(jù)了解,國內商業(yè)銀行采用的多是“兩地三中心”模式。以交通銀行為例,交通銀行的中心機房在上海,同城及1000公里外的地方各設一個災備中心,當中心機房出現(xiàn)故障,ATM、POS等72小時不間斷的重要業(yè)務要做到秒級切換,無縫連接,即使考慮到通信延遲,這個時間也要控制在30秒內。根據(jù)信息系統(tǒng)的時間敏感性,交通銀行把應用系統(tǒng)的災難恢復分成三個等級,亦將災備的不同場景分為十個等級,六等級以上支付終端,中斷服務持續(xù)兩小時要上報銀監(jiān)會和央行,區(qū)域發(fā)生癱瘓四小時上報國務院。
一位交通銀行的內部人士告訴《IT時報》記者,交通銀行要求各分行至數(shù)據(jù)中心的網絡采用多運營商通道,以防止某一家運營商網絡出問題,同時會與運營商達成協(xié)議,把網絡收斂時間控制在一定時間內,所謂“網絡收斂”,是指當A機房徹底癱瘓,網絡中所有結點全部更新它們的路由表,將網絡指向B機房的時間,在這段時間內,銀行的其他業(yè)務會被相繼切換。
中國銀聯(lián)在京滬兩地也是三個數(shù)據(jù)中心,兩城三地之間的數(shù)據(jù)一致,切換速度在分鐘以內,當任何一個數(shù)據(jù)中心發(fā)生問題,絲毫不會影響消費者的刷卡交易。
相較于開放、靈活的異地多活模式,“兩地三中心”投資巨大,所采用的設備大多是IBM、ORACLE(甲骨文)、EMC等高端設備,價格驚人,這幾年國內盡管一直在要求“去IOE”,但出于對安全的考慮,很多銀行都不敢輕舉妄動。
第三方支付缺少災備監(jiān)管
故障修復后,支付寶強調,用戶的資金安全和信息安全不會受到任何影響。但不少用戶擔憂,自己充手機話費、叫外賣、網購、銀行轉賬、還貸,都習慣在支付寶上進行,如果以后類似故障再次發(fā)生,給生活造成的影響可能會更大。
據(jù)中國支付清算協(xié)會統(tǒng)計,截至2015年底,完成實名認證的支付賬戶共有13.46億個,占總支付賬戶總量的51.07%。在今年4月舉行的哥本哈根Money2020大會上,螞蟻金服國際事業(yè)部總裁彭翼捷預測,螞蟻金服旗下的支付寶未來10年的用戶量將增加至20億。
當?shù)谌街Ц杜c人們的生活越來越息息相關,使用頻次甚至超過銀行卡時,對于信息數(shù)據(jù)和交易的安全要求,是否享受和銀行同樣的“待遇”呢?
2008年,中國人民銀行出臺的行業(yè)標準《銀行業(yè)信息系統(tǒng)災難恢復管理規(guī)范》中,將信息系統(tǒng)按時間敏感性分為三類需求等級,確定了每類信息系統(tǒng)災難恢復的時間。2015年,銀監(jiān)會發(fā)布的《商業(yè)銀行業(yè)務連續(xù)性監(jiān)管指引》中,要求商業(yè)銀行應當在銀行集團內建立內部重大事項報告制度,附屬機構要及時報告經營活動中的重大事項、重大風險以及境內外監(jiān)管機構采取的重大監(jiān)管行動和監(jiān)管措施。商業(yè)銀行還應當就各類風險分不同情景定期開展銀行集團層面的壓力測試,充分考慮各種情景的相互作用,并根據(jù)結果制定相應預案,確保銀行集團能夠有效應對各類不利情景。特別是對于重度壓力情景下的測試結果,商業(yè)銀行應當在銀行集團內建立詳細、完備的應對預案。
2015年3月30日,證監(jiān)會證券基金監(jiān)管部開出一份罰單:由于2015年1月5日上午工商銀行三方存管系統(tǒng)出現(xiàn)異常,影響90家證券公司54709名客戶、48.8億元的銀證轉賬操作,造成部分投資者無法資金轉賬,9家證券公司出現(xiàn)客戶資金賬戶匯總余額虛增1237萬元。證監(jiān)會要求,工行需在2015年4月30日前予以改正,完善技術系統(tǒng),規(guī)范應急處理,杜絕此類問題再次發(fā)生,同時應當在2015年5月10日前,向證監(jiān)會提交書面報告,證監(jiān)會將組織檢查驗收。
但對于第三方支付機構的災備方案,《IT時報》記者僅在今年7月1日起施行、由中國人民銀行發(fā)布的《非銀行支付機構網絡支付業(yè)務管理辦法》的第三十二條和三十八條中看到這樣的表述:支付機構應當制定突發(fā)事件應急預案,建立災備系統(tǒng),保障業(yè)務連續(xù)性和系統(tǒng)安全性;支付機構應當于每年1月31日前,將前一年度發(fā)生的風險事件、客戶風險損失、客戶損失賠付等情況在網站對外公告。記者并未查閱到監(jiān)管部門對第三方支付更細致的指引。
7月26日,支付寶內部人士向《IT時報》記者表示,故障具體原因已向監(jiān)管機構及合作伙伴說明,不便向媒體透露。
今天的網勢也會是我們將來美好的往事