在好萊塢大片《星際穿越》中,墨菲定律的旋律無處不在:“會(huì)出錯(cuò)的事(shì)總會(huì)出錯(cuò)-Anything that can go wrong , will go wrong。”數據中心基礎設施的運維團隊,面臨著(zhe)同樣的挑戰:如何運行一(yī)個(gè)龐雜(zá)的機(jī)房,進行無數的主動和被動的操作,同時避免錯(cuò)誤導緻的數據中心故障。全球行業(yè)專家們都認可:通(tōng)過一(yī)系列的努力,可以最大程度控制潛在故障的影響範圍,保證數據中心最高(gāo)效穩定的運行。
Steve Covey為(wèi)高(gāo)效人士總結了7個(gè)習慣。我們基于對行業(yè)最佳實踐的觀察,總結了高(gāo)效數據中心運維團隊的7個(gè)習慣。
1. 以終為(wèi)始
以終為(wèi)始是一(yī)種以結果為(wèi)導向的思維方式,提示人們在做事(shì)情前要先明确做事(shì)情的最終目的,也就(jiù)是“不忘初心,方得始終”。數據中心的終極目标是支持業(yè)務系統的不間斷運行。在接手一(yī)個(gè)數據中心的運維任務之前,我們首先需要明确業(yè)務連續性目标,然後才能(néng)制定相(xiàng)應的運維策略。
2. 以人為(wèi)本
70%的數據中心故障是由人為(wèi)造成的。與此同時,即使有最先進的監控系統,數據中心内無論主動保養操作,還(hái)是應急反應,都還(hái)需要依賴于人員(yuán)的最終決策和操作。所以,配備足夠的人員(yuán)、有責任心、經驗豐富的人員(yuán)、對于數據中心的安全運行至關重要。
3. 培訓與學習
學習是一(yī)種修煉。有一(yī)種說法“最好的運維團隊隻不過是犯了足夠的錯(cuò)誤就(jiù)修煉出來的”。數據中心基礎設施牽涉到(dào)電(diàn)力、暖通(tōng)、弱電(diàn)、消防、建築等諸多(duō)專業(yè),對于數據中心運維團隊來說,需要學習的專業(yè)知識非常多(duō)。同時,每一(yī)個(gè)數據中心的配置和特定的操作流程都不完全相(xiàng)同。因此,培訓與學習應該成為(wèi)運維 團隊管理的一(yī)個(gè)重要組成部門(mén)。
4. 建立管理體系
數據中心基礎設施的運維管理工(gōng)作的管理對象包括整個(gè)龐大的基礎設施、運維團隊、服務對象(IT部門(mén)或者IDC客戶),是一(yī)項系統性很強的工(gōng)作,需要建立起一(yī)個(gè)管理體系。在整個(gè)管理體系中最重要的三個(gè)方面是設備保養體系、與所有相(xiàng)關部門(mén)的溝通(tōng)機(jī)制、以及支持整個(gè)數據中心生(shēng)命周期管理的财務預算(suàn)體系。
5. 規範操作流程
任何規範化的企業(yè)管理,都不可避免地需要引入流程,數據中心運維管理也不例外。完全基于個(gè)人經驗和判斷的操作,往往隐藏著(zhe)重大的故障風險。數據中心就(jiù)是要強化流程管理。任何重要的操作,必須嚴格按照(zhào)流程執行。建立流程文化是數據中心規範化管理的一(yī)個(gè)重要環節。數據中心最重要的三類流程是标準操作流程(SOP),維護保養操作流程(MOP),和應急相(xiàng)應流程(EOP)。
6. 動态管控
除了之前提到(dào)的管理體系和操作流程這些相(xiàng)對靜(jìng)态的工(gōng)作以外,數據中心還(hái)需要進行動态的管控。近幾年(nián),IT負載的動态性表現得越來越明顯。一(yī)方面,IT設備的增加速度比較快。新的業(yè)務系統上(shàng)線可能(néng)導緻IT負載在短期内有較大的增加。另一(yī)方面,企業(yè)大量采用虛拟化技(jì)術(shù)以後,可能(néng)會(huì)出現機(jī)房内各機(jī)櫃的IT負載在一(yī)天範圍内有較大變化的情況。基礎設施運維團隊需要針對這種IT負載的動态性作出相(xiàng)應的對策。
7. 持續改善
大型數據中心的出現隻是近幾年(nián)的事(shì)情。當數據中心超過一(yī)定規模的時候,管理變得複雜(zá),已經超越原來簡單的依賴于少數運維人員(yuán)的責任心的時代,需要的是完整的管理思想和方法論。國(guó)内數據中心基礎設施運維體系的成熟度大緻處于三個(gè)等級的狀态:基礎級、成長(cháng)級、文化級。
掃描二維碼添加昊雲公衆訂閱号
掃描二維碼添加昊雲公衆服務号