對于數據中心,運維工(gōng)作的重要性不言而喻,在數據中心生(shēng)命周期中運維管理是曆時時間最長(cháng)的一(yī)個(gè)階段。數據中心運維的工(gōng)作主要是對數據中心各項管理對象進行系統的計劃、組織、協調與控制,是信息系統服務有關各項管理工(gōng)作的總稱,具體包括對機(jī)房環境基礎設施部分的維護,系統與數據維護,管理工(gōng)具的使用,人員(yuán)的管理等方面。投資巨大的數據中心,為(wèi)了能(néng)夠盡快得到(dào)收益,就(jiù)需要在運維的工(gōng)作上(shàng)多(duō)下(xià)工(gōng)夫,切勿進入“一(yī)流設備、二流設計、三流運維”的不良運營之中,高(gāo)品質數據中心運維的工(gōng)作至關重要。那麽如何才能(néng)提升數據中心的運維水(shuǐ)平,本文提出了數據中心運維工(gōng)作制勝的四大法寶,做好這四個(gè)方面的工(gōng)作将使數據中心一(yī)直運行于最佳狀态,為(wèi)數據中心創造最大的受益。
工(gōng)程文檔
文檔對數據中心運維的工(gōng)作非常重要。包括數據中心的安裝、配置、優化、組網、設備互連等方方面面,通(tōng)過這些文檔可以對數據中心的運營了如指掌,在出現故障時迅速排查,找到(dào)故障點。文檔還(hái)有一(yī)個(gè)重要的作用就(jiù)是工(gōng)作的傳承,當有人員(yuán)離開(kāi)時,他隻要留下(xià)工(gōng)作的文檔,其它人交接工(gōng)作就(jiù)很容易。還(hái)有就(jiù)是工(gōng)作經驗的積累文檔。雖然各種數據中心大同小(xiǎo)異,基本是靠服務器(qì)、網絡和存儲三大件(jiàn)打天下(xià),但每個(gè)數據中心又(yòu)都有自(zì)己的風格,自(zì)己的優勢與劣勢。通(tōng)過對數據中心運維而輸出的各種技(jì)術(shù)文檔,将為(wèi)後來人提供方便,并且可以提升數據中心整體的運維能(néng)力。數據中心的文檔五華八門(mén),你不知道什麽時候其中的哪些文檔就(jiù)會(huì)派上(shàng)用場。根據以往經驗,數據中心的文檔主要集中于三類:一(yī)是數據中心内部架構文檔,比如:組網介紹、設備互連關系、IP分配情況、空調系統、機(jī)電(diàn)系統、布線系統等的基本狀況;二是數據中心管理文檔,比如:機(jī)房管理制度、機(jī)房值班和交接制度、機(jī)房巡檢制度、設備操作規範制度,安全防護制度等等。三是數據中心改造,優化工(gōng)程文檔。比如:升級指導書、網絡變更計劃書、應急措施指導、軟件(jiàn)回退方案等等。四是數據中心運維的經驗文檔。比如:網絡中斷問題分析、現有機(jī)房環境評估、如果進行業(yè)務不丢包切換等等。利用這些文檔,即使一(yī)個(gè)新人來做數據中心維護,也可以迅速上(shàng)手。其實不僅對于數據中心這個(gè)行業(yè),其它任何行業(yè),任何工(gōng)作都是如此,養成輸出文檔的好習慣,為(wèi)自(zì)己也為(wèi)别人提供方便,可以大大提升工(gōng)作效率。
業(yè)務備份
數據中心的業(yè)務要求全年(nián)24小(xiǎo)時連續運行,然而數據中心一(yī)個(gè)故障都不出是不可能(néng)的,甚至一(yī)些數據中心幾乎天天都在上(shàng)演各種故障。擁有數十萬台設備的數據中心,每天壞一(yī)台服務器(qì)或一(yī)個(gè)端口都是在正常不過的事(shì)情了,這就(jiù)要求我們對數據業(yè)務有備份。小(xiǎo)到(dào)服務器(qì)、網絡到(dào)存儲,大到(dào)數據中心,都需要有備份,包含軟件(jiàn)的備份和硬件(jiàn)的備份。通(tōng)過備份,可以在數據中心運行出問題時,及時做業(yè)務調整,确保業(yè)務無中斷或者短時中斷。如今的數據中心可以做到(dào)多(duō)數據中心互為(wèi)備份,就(jiù)算(suàn)其中一(yī)個(gè)數據中心癱掉,業(yè)務也可以順利由其它數據中心接管,繼續正常運行,所以隻要不是世界末日到(dào)來,在不同地方建設多(duō)個(gè)數據中心,就(jiù)能(néng)保證數據中心業(yè)務的長(cháng)期穩态運行。業(yè)務備份是龐大的系統工(gōng)程,涉及到(dào)方方面面,任何一(yī)個(gè)環節都有一(yī)些備份技(jì)術(shù),在數據中心裡(lǐ)不可能(néng)任何地方都部署備份技(jì)術(shù),那将使得數據中心成本過高(gāo),設計過于複雜(zá),但是沒有備份肯定是不行的,這就(jiù)需要在兩者之間找到(dào)一(yī)個(gè)平衡點。不管怎樣,業(yè)務備份在數據中心裡(lǐ)不可缺少。
在線監測
數據中心運行是動态的,每時每刻都在變化。我們無法預知未來會(huì)發生(shēng)哪些突發故障,就(jiù)算(suàn)是每個(gè)環節都有備份,也需要有監測的手段,來保證業(yè)務切換到(dào)運行正常的設備上(shàng)來。對于數據中心在線監測必不可少。在線監測包括網管的監測,服務器(qì)運行狀态的監測,空調系統的監測,機(jī)房環境的監測等等,當發現異常時,即使将告警通(tōng)知運維人員(yuán),或者軟件(jiàn)自(zì)動啓用備用系統,确保數據中心繼續穩定運行。在線監測是确保數據中心無故障運行的保證,有效的在線監測可以減少數據中心故障發生(shēng)時,對業(yè)務造成影響。
周期巡檢
俗話說“防患于未然”,對于數據中心日常的周期巡檢是不可缺少的。通(tōng)過周期巡檢,及時發現一(yī)些運行隐患,然後排除,可以大大降低(dī)數據中心發生(shēng)嚴重故障的可能(néng)性。周期巡檢可以包括對各種設備的檢查,環境的檢查,電(diàn)源、空調設備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通(tōng)過以往記錄的數據進行綜合分析,一(yī)旦某些數據有波動或者異常,應該及時采取有效措施,避免隐患引發故障。通(tōng)過周期巡檢也可以對整個(gè)數據中心有個(gè)全面的了解,一(yī)旦要進行系統改造或者擴容等工(gōng)作,有了前期這些巡檢數據參考,制定的改造或擴容方案才更有針對性。千萬不要以為(wèi)周期巡檢隻是記錄一(yī)些設備運行的基本參數,通(tōng)過這些參數可以看(kàn)到(dào)整個(gè)數據中心的運行狀态。對于一(yī)個(gè)剛從(cóng)事(shì)運維的新手來說,通(tōng)過周期巡檢可以迅速了解到(dào)數據中心的各個(gè)環節,獨立展開(kāi)維護工(gōng)作。
總結
工(gōng)程文檔、業(yè)務備份、在線監測、周期巡檢是數據中心運維工(gōng)作的四個(gè)重要方面,隻有做好這四個(gè)方面的工(gōng)作,才能(néng)讓數據中心保持長(cháng)期穩定運行,并能(néng)産生(shēng)良好的效益,是數據中心運維水(shuǐ)平高(gāo)低(dī)的主要體現,擁有這四大法寶,将使數據中心終身受益。
微信掃一(yī)掃
關注昊雲訂閱号