您的位置:首頁 > 業(yè)內(nèi)資訊 > 從“支付寶故障”說起:我們的互聯(lián)網(wǎng)為何如此脆弱?
5、知乎故障,直接說是機(jī)房故障,太簡單了,但我覺得最大的可能應(yīng)該是Tengine后端服務(wù)超時(shí)導(dǎo)致的,而非簡單的一個(gè)機(jī)房故障引起。
在每一次故障發(fā)生的時(shí)候,其實(shí)都是傷害了我們的用戶,內(nèi)部的表述就是可用性或者質(zhì)量。因此我們必須要足夠的重視,更需要我們把它變成寶貴的經(jīng)驗(yàn)。那到底什么是可用性和可靠性?影響可用性的因素有哪些?運(yùn)維如何提高可用性?等等。
一、什么是可用性和可靠性
可靠性是在給定的時(shí)間間隔和給定條件下,系統(tǒng)能正確執(zhí)行其功能的概率?捎眯允侵赶到y(tǒng)在執(zhí)行任務(wù)的任意時(shí)刻能正常工作的概率。先來看一些指標(biāo)定義:
1. MTBF——全稱是Mean Time Between Failure,即平均無故障工作時(shí)間。就是從新的產(chǎn)品在規(guī)定的工作環(huán)境條件下開始工作到出現(xiàn)第一個(gè)故障的時(shí)間的平均值。MTBF越長表示可靠性越高正確工作能力越強(qiáng)。
2. MTTR——全稱是Mean Time To Repair,即平均修復(fù)時(shí)間。是指可修復(fù)產(chǎn)品的平均修復(fù)時(shí)間,就是從出現(xiàn)故障到修復(fù)中間的這段時(shí)間。MTTR越短表示易恢復(fù)性越好。
3. MTTF——全稱是Mean Time To Failure,即平均失效時(shí)間。系統(tǒng)平均能夠正常運(yùn)行多長時(shí)間,才發(fā)生一次故障。系統(tǒng)的可靠性越高,平均無故障時(shí)間越長。
可用性Availability = MTBF / (MTBF + MTTR),一般我們都是用N個(gè)9來表達(dá)系統(tǒng)可用性,用宕機(jī)時(shí)長來說更好理解,如果以全年為周期(24*365=8760個(gè)小時(shí)),3個(gè)9(99.9%)就意味著全年宕機(jī)時(shí)長是525.6分鐘,4個(gè)9(99.99%)是52.6分鐘,5個(gè)9(99.999%)是5分鐘。
從這些時(shí)間指標(biāo)上可以反向去推導(dǎo)IT能力不足的地方,比如說一個(gè)故障恢復(fù)時(shí)間很長,一定是自動恢復(fù)、運(yùn)維意識、處理過程、系統(tǒng)架構(gòu)等地方不對,導(dǎo)致了這個(gè)宕機(jī)時(shí)間過長;平均失效時(shí)間短,一定是系統(tǒng)的可靠性出了問題,找技術(shù)設(shè)計(jì)的問題,找依賴的硬件環(huán)境問題等等
二、影響可用性的因素
影響可用性的因素非常的多,但是可以從幾個(gè)維度去看,人與組織、流程、技術(shù)和業(yè)務(wù)管理等四個(gè)維度。
小編推薦閱讀
情侶黃鉆,qq情侶黃鉆一個(gè)是黃鉆開了以后另一個(gè)是黃鉆嗎
閱讀男孩第4季促銷宣布“ Supe Lives Matter”和“使美國再次超級”
閱讀Prime視頻現(xiàn)在可能有廣告,但是亞馬遜不會關(guān)閉FreeVee
閱讀亞馬遜的幾個(gè)狂戰(zhàn)士收藏品都可以預(yù)訂
閱讀一個(gè)安靜的地方:第一天預(yù)告片揭示了外星人來到地球的那一天
閱讀在有限的時(shí)間內(nèi),Amazon的狂歡漫畫豪華版在亞馬遜享受50%的折扣
閱讀13代i9+滿血RTX4060,機(jī)械師曙光16Pro開啟預(yù)售!
閱讀艾克索拉:一家創(chuàng)辦17年的全球化公司,正在凸顯“沉淀”對游戲支付的價(jià)值
閱讀燃的不止卡塔爾!2022英特爾大師挑戰(zhàn)賽網(wǎng)咖及電競酒店聯(lián)賽燃情謝幕
閱讀本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]
湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2025 haote.com 好特網(wǎng)