什麽叫數據中心?維基百科給出的定義是“數據中心是一(yī)整套複雜(zá)的設施。它不僅僅包括計算(suàn)機(jī)系統和其它與之配套的設備(例如通(tōng)信和存儲系統),還(hái)包含冗餘的 數據通(tōng)信連接、環境控制設備、監控設備以及各種安全裝置”。在雲大行其道的今天,随著(zhe)數據中心建設規模的不斷擴大,新技(jì)術(shù)的層出不窮,數據中心變得越來越 複雜(zá)。大型數據中心往往是由很多(duō)規模龐大的集群系統組成,其運維工(gōng)作需要具備方方面面的知識,包括硬件(jiàn)、網絡、服務器(qì)、存儲、安全以及業(yè)務上(shàng)的東西(xī),需要 上(shàng)下(xià)打通(tōng)地去做運維工(gōng)作。
當一(yī)個(gè)數據中心的規模非常大,面臨的挑戰和問題也比較超前,很多(duō)在小(xiǎo)環境小(xiǎo)體系下(xià)不是問題的問題在這樣的規模下(xià)也就(jiù)凸顯出來了,所以要做好大型數據中心的 運維工(gōng)作,對整個(gè)數據中心技(jì)術(shù)體系的系統學習就(jiù)要花費(fèi)比較長(cháng)的時間,隻有對這個(gè)數據中心整體非常了解,才能(néng)有針對性地制定一(yī)些運維方案,甚至可以二次開(kāi)發 一(yī)些監控運維軟件(jiàn),對整個(gè)數據中心進行有效管理與監控,提升整個(gè)數據中心的運行效率、減少故障的發生(shēng),從(cóng)而将運維工(gōng)作推向新的高(gāo)度。一(yī)個(gè)大型的數據中心内 部往往都包含了很多(duō)小(xiǎo)系統,運維工(gōng)作都是圍繞著(zhe)這些具體的應用系統展開(kāi)的,具體的可以分為(wèi)基礎運維管理、日常業(yè)務運維、網絡、服務器(qì)、存儲、安全六大部 分,本文就(jiù)來說一(yī)說一(yī)般大型的數據中心應該具備的哪些運維方法和能(néng)力。
首先從(cóng)數據中心的基礎運維管理方面來說,則主要有硬件(jiàn)配置管理、可維護性優化、監控、報(bào)警處理、自(zì)動化運維、斷網,斷電(diàn)、機(jī)房容災等運維工(gōng)作。硬件(jiàn)配置管 理包含機(jī)櫃裡(lǐ)每台服務器(qì)的型号和硬件(jiàn)配置,并清楚是哪些業(yè)務系統在使用這些服務器(qì)。即便是虛拟化運行環境,也需要知道這些虛機(jī)都在哪些物(wù)理機(jī)組成的資源池 中流動。數據中心物(wù)理機(jī)和虛機(jī)數量都很龐大,使用自(zì)動化運維是非常有必要的。自(zì)動化運維不僅能(néng)提升運維的工(gōng)作效率,還(hái)可以減少人為(wèi)的參與,同時讓數據中心 自(zì)己管理自(zì)己,釋放(fàng)人力。并對數據中心可能(néng)發生(shēng)的故障還(hái)做好監控與報(bào)警處理,以便能(néng)夠在故障發生(shēng)的第一(yī)時間知曉問題,往往一(yī)次大的故障都是從(cóng)開(kāi)始的一(yī)點小(xiǎo) 故障逐漸擴展最終引發整個(gè)大系統的崩潰的,所以在出現一(yī)些小(xiǎo)的異常時一(yī)定要及時消除,而這些異常就(jiù)要靠完善的監控和報(bào)警系統來檢測。
從(cóng)數據中心的日常業(yè)務運維方面考慮,則主要有資源、機(jī)器(qì)分配、資源使用、網絡吞吐、故障恢複、備份應用,集群搭建、流量,壓力,遷移擴容,升級、上(shàng)下(xià)級業(yè) 務關聯情況、資源利用率、異常處理、應急預案等等。這些日常運維工(gōng)作實際上(shàng)要花費(fèi)大量的人力和時間,是運維工(gōng)作的主體,也最煩瑣,但卻最不能(néng)體現業(yè)績的部 分。一(yī)個(gè)數據中心能(néng)夠長(cháng)久安全穩定運行,就(jiù)是靠這些日常的工(gōng)作積累,隻有平時注意這些細微的變化,才能(néng)不斷優化。壓力測試、軟件(jiàn)升級、業(yè)務部署、異常處理 等幾乎成為(wèi)了運維工(gōng)作的日常必修課,隻有将這些工(gōng)作做好,才能(néng)避免出現大的故障,并能(néng)夠快速部署新的業(yè)務,根據資源使用情況及時擴容設備。
從(cóng)數據中心網絡方面考慮,則主要有網絡硬件(jiàn)設備、ACL、OSPF、LACP、VIP、流量、負載均衡、二三四七層情況、網絡監控、萬兆闆卡、核心交換 等。網絡是數據中心的重要組成部分,是一(yī)切工(gōng)作運行的基本保證,沒有網絡數據中心就(jiù)無法運轉起來,所以保證網絡穩定是數據中心運維工(gōng)作中的重中之重。這裡(lǐ) 主要關注的就(jiù)是網絡的硬件(jiàn)問題,ACL部署還(hái)有流量監控情況。網絡可以說是包羅萬象,涉及太多(duō)的設備和協議技(jì)術(shù),所以也需要不斷地學習,加深對網絡技(jì)術(shù) 的理解,這樣才能(néng)做好網絡運維工(gōng)作。
掃描二維碼
關注昊雲訂閱号