您的位置:首頁 > 業(yè)內(nèi)資訊 > 從“支付寶故障”說起:我們的互聯(lián)網(wǎng)為何如此脆弱?
在故障的當下,定位故障原因是大忌,這往往讓故障時長變得不可控,因為會直接影響MTTR(平均修復(fù)時間),影響用戶的業(yè)務(wù)使用。不過有人會有疑問,不知道故障原因怎么知道如何解決?從經(jīng)驗來看,你一定有一些簡單粗暴的原則去隔離故障,比如說服務(wù)器重啟,鏈路禁用,DNS切換等等。
4、故障發(fā)生后,仔細的復(fù)盤
每一次故障發(fā)生后,運維人需要牽頭去復(fù)盤故障,剛剛說了我們恢復(fù)是第一要務(wù),所以故障的根本原因我們可能還不知道,此時就需要運維、測試和研發(fā)一起仔細的去看整個的故障過程,看看到底哪兒有什么問題?基本上也是從剛才說的四個方面來評估。不斷的審視我們運維的能力和IT的能力,說“故障是運維最好的老師”的原因也在于此,它能夠不斷驅(qū)使我們走向更高的成熟度。
運維是復(fù)盤的首要負責人,復(fù)盤是為了找到根因(Root Cause),根因和故障現(xiàn)象不同,舉個例子,故障現(xiàn)象是交換機故障,根因是因為技術(shù)架構(gòu)沒有對交換機故障做到容錯,根因是運維對這種故障缺乏有效的臨時應(yīng)對機制。
復(fù)盤是為了讓我們走向更好的運維階段!
5、故障發(fā)生后,復(fù)盤措施有講究
故障復(fù)盤后,我們一定會寫改進措施,對于這些改進措施,還是有些講究的,看過一些故障報告,非常的不合要求。我個人的經(jīng)驗如下:
故障的措施必須是可落實,且具體的,要落實到具體的負責人,具體的時間
故障的措施優(yōu)先是必須技術(shù)的,然后是流程,最后是人的
故障的措施可以分為長期措施和臨時措施
故障的措施一定要僅僅扣住故障的根因,避免流于形式和表面
故障的措施切忌“亡羊補牢”式的,需要全面細致的分析
故障的措施一定要保證后續(xù)的持續(xù)跟進
一葉可以障目,但也可以一葉知秋,就看我們是否真的去認真對待。你們真的重視故障了么?你們真的重視運維了么?故障不能帶來運維人的春天,從根本上去意識到運維的重要性,那才是運維人真正的春天。
小編推薦閱讀本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]
湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2025 haote.com 好特網(wǎng)