您的位置:首頁 > 業(yè)內資訊 > 谷歌是如何做到幾乎從不宕機的?

谷歌是如何做到幾乎從不宕機的?

來源:互聯網 | 時間:2016-04-12 13:52:58 | 閱讀:174 |  標簽: 谷歌   | 分享到:

Chef公司的Jacob認為這里所提到的50%的比率并沒有那么重要,但是他喜歡這種態(tài)度。他說“那是業(yè)務,總要有人去處理運營工作;而且運營工作幾乎是無窮無盡的,所以你硬要給他們扣上一頂帽子也是可以理解的!

在雇傭SRE時,Google甚至制定了嚴格的規(guī)范。在招募的人員中,有50%到60%的人員會通過像其他所有Google工程師那樣的嚴格考核,剩下的需要擁有85%到99%的Google工程師技能,加上一些特殊適用于SRE但是大多數軟件工程師不具備的技能——比如說對于UNIX操作系統和硬件網絡協議了如指掌等。這些都是為了保證開發(fā)和運營之間能夠保證一個恰當的平衡。

SRE的雄心

從多種層面上而言,這是一種全新的理念。但是在他的書中,當他們試圖描述這種理念的時候,Google團隊卻選用了一個比較老舊的例子。Google SRE的精神先行者是一個來自MIT的名為Margaret Hamilton的程序員,她在六十年代為阿波羅飛船編寫了登月程序。正如Hamiltion自己說的那樣,阿波羅項目中衍生出的部分文化是向所有人和所有事物學習,包括那些看起來學不到什么的人和事。

雖然Hamilton是一個碼農,但她在運營中承擔重要角色。為了證明這一點,這本書中講了一個故事:她經常帶她的女兒Lauren進入到計算機實驗室,有一天,Lauren恰好碰到一個按鈕,然后把阿波羅的預發(fā)射程序植入到一個正在運行“發(fā)射后場景”程序的計算機中去。

這一下讓整個系統卡死;Hamilton試圖在系統中添加一段錯誤監(jiān)測代碼,以便在真實的飛行過程中能夠阻止這種錯誤。她的上司否決了整個想法,辯稱宇航員絕不會犯這種錯誤;但是在阿波羅8號中,宇航員的確犯了這么一個錯誤。幸運的是,Hamilton在系統文檔中加入了一個變通方案。在后續(xù)工作中,她還是加入了這段錯誤監(jiān)測代碼。

如果你過來跟我說“它會死機”,那沒有什么用;但是如果你說“它會死機,讓我來告訴你怎么解決”,那你就很棒了——Underwood說!岸谖覀冞@里,會有人既知道會出現一些問題,也知道問題出在哪里,并且能找出方案防止問題發(fā)生!

小編推薦閱讀

好特網發(fā)布此文僅為傳遞信息,不代表好特網認同期限觀點或證實其描述。

相關視頻攻略

更多

同類最新

更多

掃二維碼進入好特網手機版本!

掃二維碼進入好特網微信公眾號!

本站所有軟件,都由網友上傳,如有侵犯你的版權,請發(fā)郵件[email protected]

湘ICP備2022002427號-10 湘公網安備:43070202000427號© 2013~2025 haote.com 好特網