前天語(yǔ)雀發(fā)生重大故障導(dǎo)致長(zhǎng)達(dá) 7 個(gè)小時(shí)無(wú)法正常訪問(wèn),語(yǔ)雀月日原因有個(gè)員藍(lán)對(duì)于一款擁有千萬(wàn)級(jí)用戶的公布故障產(chǎn)品,發(fā)生如此長(zhǎng)的人用廣州外圍美女(電話微信189-4469-7302)提供頂級(jí)外圍,空姐,網(wǎng)紅,明星,車模等優(yōu)質(zhì)資源,可滿足你的一切要求故障時(shí)間,著實(shí)讓人有些震驚。戶贈(zèng)
昨天晚上語(yǔ)雀在其公眾號(hào)解釋了故障原因,送半沒(méi)想到竟然是點(diǎn)網(wǎng)新的運(yùn)維工具 bug 導(dǎo)致華東地區(qū)的生產(chǎn)服務(wù)器被誤下線;又因?yàn)榇鎯?chǔ)系統(tǒng)使用的機(jī)器類別較老無(wú)法直接操作上線,沒(méi)辦法語(yǔ)雀只能從備份系統(tǒng)里恢復(fù)存儲(chǔ)數(shù)據(jù),語(yǔ)雀月日原因有個(gè)員藍(lán)這需要大量時(shí)間,公布故障恢復(fù)備份數(shù)據(jù)后又需要進(jìn)行校驗(yàn),人用廣州外圍美女(電話微信189-4469-7302)提供頂級(jí)外圍,空姐,網(wǎng)紅,明星,車模等優(yōu)質(zhì)資源,可滿足你的一切要求直到晚上 9 點(diǎn)鐘才恢復(fù)正常。戶贈(zèng)
這次故障也讓大家知道了語(yǔ)雀使用的送半容災(zāi)架構(gòu)是同 Region 多副本容災(zāi)而不是異地容災(zāi)方案,語(yǔ)雀稱后續(xù)將升級(jí)為兩地三中心的點(diǎn)網(wǎng)高可用能力,設(shè)計(jì)足夠的語(yǔ)雀月日原因有個(gè)員藍(lán)數(shù)據(jù)和系統(tǒng)冗余實(shí)現(xiàn)快速恢復(fù)并進(jìn)行定期的容災(zāi)應(yīng)急演練。

補(bǔ)償問(wèn)題:
對(duì)于語(yǔ)雀?jìng)€(gè)人版用戶全部贈(zèng)送半年會(huì)員,公布故障操作流程:進(jìn)入工作臺(tái)賬戶設(shè)置、人用點(diǎn)擊會(huì)員信息、在會(huì)員信息里點(diǎn)擊立即領(lǐng)取即可獲得贈(zèng)送服務(wù)。
針對(duì)語(yǔ)雀空間用戶由于情況比較復(fù)雜,語(yǔ)雀會(huì)單獨(dú)制定賠償方案,請(qǐng)空間管理員留意語(yǔ)雀站內(nèi)信。
當(dāng)然語(yǔ)雀的這次問(wèn)題也再次為個(gè)人和企業(yè)用戶敲響警鐘,那就是要保證數(shù)據(jù)離線可用,不知道這次過(guò)后有多少用戶會(huì)離開(kāi)語(yǔ)雀。
下面是語(yǔ)雀公布的故障說(shuō)明:
10 月 23 日下午,服務(wù)語(yǔ)雀的數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)在進(jìn)行升級(jí)操作時(shí),由于新的運(yùn)維升級(jí)工具 bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲(chǔ)服務(wù)器被誤下線。受其影響,語(yǔ)雀數(shù)據(jù)服務(wù)發(fā)生嚴(yán)重故障,造成大面積的服務(wù)中斷。為了盡快恢復(fù)服務(wù),我們和數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)全力進(jìn)行數(shù)據(jù)恢復(fù)工作,但受限于恢復(fù)方案、數(shù)據(jù)量級(jí)等因素,整體用時(shí)較長(zhǎng)。具體過(guò)程如下:
14:07 數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)收到監(jiān)控系統(tǒng)報(bào)警,定位到原因是存儲(chǔ)在升級(jí)中因新的運(yùn)維工具 bug 導(dǎo)致節(jié)點(diǎn)機(jī)器下線;14:15 聯(lián)系硬件團(tuán)隊(duì)嘗試將下線機(jī)器重新上線;15:00 確認(rèn)因存儲(chǔ)系統(tǒng)使用的機(jī)器類別較老,無(wú)法直接操作上線,立即調(diào)整恢復(fù)方案為從備份系統(tǒng)中恢復(fù)存儲(chǔ)數(shù)據(jù)。15:10 開(kāi)始新建存儲(chǔ)系統(tǒng),從備份中開(kāi)始恢復(fù)數(shù)據(jù),由于語(yǔ)雀數(shù)據(jù)量龐大,此過(guò)程歷時(shí)較長(zhǎng),19 點(diǎn)完成數(shù)據(jù)恢復(fù);同時(shí)為保障數(shù)據(jù)完整性,在完成恢復(fù)后,用時(shí) 2 個(gè)小時(shí)進(jìn)行數(shù)據(jù)校驗(yàn);21 點(diǎn)存儲(chǔ)系統(tǒng)通過(guò)完整性校驗(yàn),開(kāi)始和語(yǔ)雀團(tuán)隊(duì)聯(lián)調(diào),最終在 22 點(diǎn)恢復(fù)語(yǔ)雀全部服務(wù)。用戶所有數(shù)據(jù)均未丟失。
改進(jìn)措施:
通過(guò)這次故障我們深刻認(rèn)識(shí)到,語(yǔ)雀作為一款服務(wù)千萬(wàn)級(jí)客戶的文檔產(chǎn)品,應(yīng)該做到更完善的技術(shù)風(fēng)險(xiǎn)保障和高可用架構(gòu)設(shè)計(jì),尤其是面向技術(shù)變更操作的 “可監(jiān)控,可灰度,可回滾” 的系統(tǒng)化建設(shè)和流程審計(jì),從同 Region 多副本容災(zāi)升級(jí)為兩地三中心的高可用能力,設(shè)計(jì)足夠的數(shù)據(jù)和系統(tǒng)冗余實(shí)現(xiàn)快速恢復(fù),并進(jìn)行定期的容災(zāi)應(yīng)急演練。只有這樣,才能提升嚴(yán)重基礎(chǔ)設(shè)施故障時(shí)的恢復(fù)速度,并從根本上避免這類故障再次出現(xiàn)。為此我們制定了如下改進(jìn)措施:
1、升級(jí)硬件版本和機(jī)型,實(shí)現(xiàn)離線后的快速上線。該措施在本次故障修復(fù)中已完成;
2、運(yùn)維團(tuán)隊(duì)加強(qiáng)運(yùn)維工具的質(zhì)量保障與測(cè)試,杜絕此類運(yùn)維 bug 再次發(fā)生;
3、縮小運(yùn)維動(dòng)作灰度范圍,增加灰度時(shí)間,提前發(fā)現(xiàn) bug;
4、從架構(gòu)和高可用層面改進(jìn)服務(wù),為語(yǔ)雀增加存儲(chǔ)系統(tǒng)的異地災(zāi)備。