您的位置:首頁 > 業(yè)內(nèi)資訊 > 從“支付寶故障”說起:我們的互聯(lián)網(wǎng)為何如此脆弱?

從“支付寶故障”說起:我們的互聯(lián)網(wǎng)為何如此脆弱?

來源:互聯(lián)網(wǎng)運(yùn)維雜談 | 時(shí)間:2015-06-18 11:52:21 | 閱讀:131 |  標(biāo)簽: 攜程 支付寶   | 分享到:

5、知乎故障,直接說是機(jī)房故障,太簡單了,但我覺得最大的可能應(yīng)該是Tengine后端服務(wù)超時(shí)導(dǎo)致的,而非簡單的一個(gè)機(jī)房故障引起。

在每一次故障發(fā)生的時(shí)候,其實(shí)都是傷害了我們的用戶,內(nèi)部的表述就是可用性或者質(zhì)量。因此我們必須要足夠的重視,更需要我們把它變成寶貴的經(jīng)驗(yàn)。那到底什么是可用性和可靠性?影響可用性的因素有哪些?運(yùn)維如何提高可用性?等等。

一、什么是可用性和可靠性

可靠性是在給定的時(shí)間間隔和給定條件下,系統(tǒng)能正確執(zhí)行其功能的概率?捎眯允侵赶到y(tǒng)在執(zhí)行任務(wù)的任意時(shí)刻能正常工作的概率。先來看一些指標(biāo)定義:

1. MTBF——全稱是Mean Time Between Failure,即平均無故障工作時(shí)間。就是從新的產(chǎn)品在規(guī)定的工作環(huán)境條件下開始工作到出現(xiàn)第一個(gè)故障的時(shí)間的平均值。MTBF越長表示可靠性越高正確工作能力越強(qiáng)。

2. MTTR——全稱是Mean Time To Repair,即平均修復(fù)時(shí)間。是指可修復(fù)產(chǎn)品的平均修復(fù)時(shí)間,就是從出現(xiàn)故障到修復(fù)中間的這段時(shí)間。MTTR越短表示易恢復(fù)性越好。

3. MTTF——全稱是Mean Time To Failure,即平均失效時(shí)間。系統(tǒng)平均能夠正常運(yùn)行多長時(shí)間,才發(fā)生一次故障。系統(tǒng)的可靠性越高,平均無故障時(shí)間越長。

可用性Availability = MTBF / (MTBF + MTTR),一般我們都是用N個(gè)9來表達(dá)系統(tǒng)可用性,用宕機(jī)時(shí)長來說更好理解,如果以全年為周期(24*365=8760個(gè)小時(shí)),3個(gè)9(99.9%)就意味著全年宕機(jī)時(shí)長是525.6分鐘,4個(gè)9(99.99%)是52.6分鐘,5個(gè)9(99.999%)是5分鐘。

從這些時(shí)間指標(biāo)上可以反向去推導(dǎo)IT能力不足的地方,比如說一個(gè)故障恢復(fù)時(shí)間很長,一定是自動恢復(fù)、運(yùn)維意識、處理過程、系統(tǒng)架構(gòu)等地方不對,導(dǎo)致了這個(gè)宕機(jī)時(shí)間過長;平均失效時(shí)間短,一定是系統(tǒng)的可靠性出了問題,找技術(shù)設(shè)計(jì)的問題,找依賴的硬件環(huán)境問題等等

二、影響可用性的因素

影響可用性的因素非常的多,但是可以從幾個(gè)維度去看,人與組織、流程、技術(shù)和業(yè)務(wù)管理等四個(gè)維度。

小編推薦閱讀

好特網(wǎng)發(fā)布此文僅為傳遞信息,不代表好特網(wǎng)認(rèn)同期限觀點(diǎn)或證實(shí)其描述。

相關(guān)視頻攻略

更多

同類最新

更多

掃二維碼進(jìn)入好特網(wǎng)手機(jī)版本!

掃二維碼進(jìn)入好特網(wǎng)微信公眾號!

本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]

湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2025 haote.com 好特網(wǎng)