一(yī)、雲運維與傳統數據中心運維比較
“雲是數據中心的新IT形态”,雲與傳統數據中心的建設目标是一(yī)緻的,都是為(wèi)企業(yè)提供IT服務。運維人員(yuán)的職責都是保障IT服務的質量,圍繞服務等級協議SLA展開(kāi)各種運維活動。然而在運維技(jì)術(shù)、管理模式、财務流程、服務分級、業(yè)務要求、運維職責劃分等方面兩者又(yòu)有所不同。
·相(xiàng)對于傳統的數據中心,雲數據中心的服務特征更加明顯,雲數據中心将基礎設施(IaaS)、平台(PaaS)、軟件(jiàn)(SaaS)以服務的形式提供給最終用戶,它利用虛拟化、SDN等技(jì)術(shù)将網絡、計算(suàn)、存儲以及應用等資源池化,通(tōng)過自(zì)動化技(jì)術(shù)按需為(wèi)用戶分配IT資源。因此在雲運維中IT請求交付(RequestFulfillment)流程的地位不斷突出,也使得雲運維顯示出明顯的運營性質。
·雲也改變了傳統數據中心的财務管理模式和采購模式,傳統數據中心原來的采購流程變為(wèi)了服務審批流程。要申請雲數據中心資源,面向雲業(yè)務的計費(fèi)系統也應運而生(shēng)。雲計費(fèi)除了用于真正的收費(fèi)場景外,更多(duō)的時候應用于企業(yè)内部,通(tōng)過内部核算(suàn),也就(jiù)是經濟杠杆去有效約束IT資源需求,形成在服務質量和IT資源間的平衡,有效提升IT資源利用率。
·雲數據中心對IT服務交付速度提出了更高(gāo)的要求,然而雲數據中心的基礎結構卻比傳統數據中心更加複雜(zá),手工(gōng)交付難以滿足雲服務交付的速度要求,更容易發生(shēng)故障,自(zì)動化交付就(jiù)成為(wèi)了雲服務交付的必要手段。
在傳統數據中心,運維人員(yuán)需要關注基礎設施的維護,而在在混合雲和公有雲應用場景中,應用管理的地位更加突出。運維人員(yuán)不必關心部署在公有雲上(shàng)的業(yè)務所依賴的基礎設施,而業(yè)務監控的職責也轉移給公有雲提供商。公有雲提供商不但要保障IT基礎設施本身,還(hái)要更加關注承載業(yè)務的運行狀态。
二、雲數據中心運維簡介
在雲數據中心維護過程中,雲服務請求交付系統、計費(fèi)組件(jiàn)以及自(zì)動化部署組件(jiàn)已經從(cóng)雲運維系統中剝離出來,形成相(xiàng)對獨立的運營平台—雲平台。雲平台提供了服務目錄、自(zì)助服務台、雲服務自(zì)動部署、以及一(yī)體化的計費(fèi)和核算(suàn)功能(néng),因此雲平台對雲數據中心的正常運轉至關重要。
而傳統的網絡監控、服務器(qì)監控、機(jī)房監控、業(yè)務監控、事(shì)态管理、變更管理、問題管理、配置管理對雲數據中心而言依然不可或缺。
雲平台是雲數據中心的對外服務和展示窗(chuāng)口,是雲租戶對雲數據中心的直觀體驗。雲數據中心運維是雲服務水(shuǐ)平的後台保障,二者就(jiù)像客機(jī)上(shàng)的空乘和地勤一(yī)樣,在雲數據中心缺一(yī)不可。
1、雲運維過程中需要關注哪些問題?
在雲運維過程中主要需要關注如下(xià)幾個(gè)問題:
選擇開(kāi)放(fàng)架構
雲雖然已經到(dào)達了可實際部署階段,但是雲平台架構、計算(suàn)虛拟化技(jì)術(shù)、網絡虛拟化技(jì)術(shù)、雲與大數據的配合等技(jì)術(shù)依然發展迅速。為(wèi)保障雲運維的持續發展,應該優先選擇正在不斷演進的開(kāi)放(fàng)平台作為(wèi)基礎架構。
CMDB作用愈加明顯
在私有雲和混合雲應用場景中,高(gāo)度集中的業(yè)務、高(gāo)度集中的設施、廣泛應用的虛拟化技(jì)術(shù)、衆多(duō)的雲設施和軟件(jiàn)供應商、多(duō)樣的雲服務消費(fèi)者,以上(shàng)這些因素組合在一(yī)起,使雲運維的複雜(zá)度成指數級增長(cháng)。雲數據中心的設備信息、應用信息、策略信息、維保信息、組織信息、負責人等各維度的信息交織成複雜(zá)的關系網,實際運維時如果能(néng)從(cóng)這張關系網中将所關注的信息抽絲撥繭,将大幅提升雲運維的效率。反之如果沒有有效手段管理這些關系,雲運維可能(néng)會(huì)變得混亂和無序,運維效率低(dī)下(xià),使雲服務體驗大打折扣。設計合理的CMDB(配置管理數據庫)恰恰是解決這個(gè)問題的最佳途徑。CMDB自(zì)動同步配置項信息,将割裂的各維度信息關聯在一(yī)起,幫助雲運維人員(yuán)全面、準确和及時地了解業(yè)務相(xiàng)關的組織、資源、環境和服務等不同維度信息,使運維人員(yuán)快速準确地了解事(shì)件(jiàn)影響範圍,作出正确的決策。
·使用必要手段全局監控業(yè)務質量
在混合雲應用場景中,部分開(kāi)放(fàng)的業(yè)務會(huì)部署到(dào)公有雲上(shàng),企業(yè)運維人員(yuán)無法有效的監控到(dào)公有雲的基礎設施,在這種情況下(xià),公有雲的服務等級SLA就(jiù)成了一(yī)個(gè)黑(hēi)盒,無從(cóng)監控。所以必須要有有效的手段全局監控業(yè)務質量,從(cóng)而間接評價公有雲服務等級SLA。
明确雲架構下(xià)各機(jī)構的責任主體
由于企業(yè)組織架構是按照(zhào)傳統的網絡、應用、計算(suàn)來劃分的,而在混合雲場景中,雲服務商與企業(yè)運維人員(yuán)也不屬于同一(yī)組織機(jī)構,所以當部署在雲上(shàng)的業(yè)務出現故障時,容易出現組織間的推卸責任的問題,從(cóng)而延長(cháng)了問題的定位和解決周期。因此企業(yè)運維人員(yuán)要有手段基于業(yè)務按照(zhào)網絡、計算(suàn)、應用等不同維度的出具資源健康度報(bào)告,明确問題責任主體。
雲場景下(xià)如何有效控制開(kāi)銷
雲應用場景中還(hái)有另外一(yī)個(gè)問題,就(jiù)是如何使用最小(xiǎo)的開(kāi)銷(公有雲資源),最大限度地保障業(yè)務的質量。為(wèi)了保障業(yè)務的穩定運行,企業(yè)運維人員(yuán)通(tōng)常為(wèi)每個(gè)業(yè)務申請一(yī)定的資源餘量,然而過多(duō)的餘量會(huì)增加财務成本,如何确定這個(gè)量,就(jiù)成企業(yè)運維人員(yuán)關注的問題。一(yī)份能(néng)将業(yè)務運行時所需要的CPU、内存、磁盤等曆史信息進行有效分析的可度量的業(yè)務容量分析報(bào)告,将對企業(yè)運維人員(yuán)非常有用。如果在資源不足發生(shēng)前,有工(gōng)具能(néng)夠提前預警,給企業(yè)運維人員(yuán)充分時間調整資源分配策略,将有效節省公有雲開(kāi)銷。
使用可控的自(zì)動化手段提升管理效率
雲數據中心的資源規模、業(yè)務規模、組織規模遠(yuǎn)遠(yuǎn)超過傳統數據中心。新設備的快速部署、快速上(shàng)線、納管監控、資源編排、定期巡檢、升級和配置變更這些原本就(jiù)頗為(wèi)複雜(zá)的工(gōng)作在規模和速度的雙重壓力下(xià)都變得更加艱巨。傳統的手工(gōng)方式效率低(dī)下(xià),出錯(cuò)風險高(gāo),自(zì)動化手段逐步成為(wèi)雲運維的首選。随著(zhe)虛拟化、PXE、SDN、Overlay、服務鏈等技(jì)術(shù)不斷廣泛應用,自(zì)動部署、自(zì)動編排、自(zì)動巡檢、自(zì)動升級等自(zì)動化手段越來越多(duō)應用于雲運維。然而自(zì)動化仍然要在可控、可跟蹤、可審計、可回退的前提下(xià)進行,避免單個(gè)錯(cuò)誤的擴大化。雖然自(zì)動化還(hái)存在一(yī)定風險,雲運維的自(zì)動化趨勢已經不可逆轉。
2、如何選擇有效運維工(gōng)具
運維工(gōng)具産品種類繁多(duō),每種運維工(gōng)具都有自(zì)己适合的應用場景。雲數據中心架構複雜(zá),業(yè)務集中,應該如何選擇适合雲運維工(gōng)具産品呢(ne),下(xià)面将展開(kāi)詳盡的分析。
大集中的雲數據中心降低(dī)了IT整體維護成本,也增加了業(yè)務風險。精密空調故障、UPS故障、火災、漏水(shuǐ)任一(yī)風險如果不能(néng)及時處置都可能(néng)給整個(gè)雲數據中心造成無法修複的大面積損壞。這種損害影響程度遠(yuǎn)遠(yuǎn)大于單設備的故障。所以實時的機(jī)房監控工(gōng)具對于雲數據中心運維依然非常重要。
對于雲運維而言,如果仍然按照(zhào)傳統的網絡、計算(suàn)、存儲、虛拟化、應用去分别管理,對雲運維人員(yuán)講,不但頭緒繁多(duō)、而且效率低(dī)下(xià)。最好能(néng)選擇一(yī)套工(gōng)具,能(néng)夠将應用、網絡、計算(suàn)、存儲、虛拟化等IT資源的性能(néng)及告警信息綜合分析,通(tōng)過簡潔易懂(dǒng)的界面,直觀呈現業(yè)務健康水(shuǐ)平。當出現故障時,能(néng)夠先從(cóng)全部業(yè)務的宏觀視角,确定關聯和影響,再通(tōng)過智能(néng)鑽取和故障定位技(jì)術(shù),縮小(xiǎo)故障定位範圍是在計算(suàn)、應用還(hái)是網絡,從(cóng)而明确問題職責,幫助IT管理員(yuán)準确定位業(yè)務故障位置。
選擇合适的數據中心容量管理對數據中心運維也非常重要,容量管理工(gōng)具要能(néng)從(cóng)業(yè)務、集群、機(jī)房等多(duō)個(gè)角度分析數據中心容量趨勢,預測容量風險,指導資源優化,為(wèi)IT投資提供量化依據。業(yè)務容量管理要能(néng)根據業(yè)務負載及資源消耗趨勢,預測系統資源瓶頸,為(wèi)管理者提供容量預警和擴容建議。集群容量管理應該全面監控集群内物(wù)理和虛拟化資源,智能(néng)分析資源超配比例,指導資源配置。
選擇合适的CMDB工(gōng)具會(huì)給雲運維帶來事(shì)半功倍的效果。CMDB工(gōng)具讓雲運維人員(yuán)全面、準确和及時地了解業(yè)務相(xiàng)關的環境、資源、組織、服務信息,有效幫助雲運維機(jī)構消除信息孤島,提升信息關聯性和透明度。
雲運維監控工(gōng)具除了上(shàng)述特性方面的考慮外,還(hái)需要注意工(gōng)具的廣泛的資源監控能(néng)力。隻有具備監控各種應用、多(duō)個(gè)廠家的網絡設備、不同服務器(qì)款型、不同虛拟化産品等IT資源的能(néng)力,才能(néng)進一(yī)步作到(dào)融合分析和統一(yī)運維。如果沒有廣泛的适配能(néng)力,雲運維工(gōng)具就(jiù)成了中看(kàn)不中用的花架子,難以産生(shēng)真正的價值。
運維工(gōng)具在選擇時還(hái)要注意一(yī)點,不能(néng)将運維工(gōng)具想象成萬能(néng)的,所有問題都依賴工(gōng)具解決。運維工(gōng)具是配合雲運維規劃、企業(yè)組織架構和企業(yè)管理制度一(yī)起來保障雲服務質量的,它僅僅是雲運維的一(yī)個(gè)組成部分。雲運維仍然需要遵從(cóng)PDCA(計劃、執行、檢查、行動)的規律不斷改進和優化。随企業(yè)的業(yè)務要求變化、管理體質調整和技(jì)術(shù)發展,運維工(gōng)具也需要不斷演進、不斷優化,所以雲運維工(gōng)具的選擇也應循序漸進,不能(néng)一(yī)口吃(chī)個(gè)胖子。
結束語
雲運維是個(gè)複雜(zá)的系統工(gōng)程,選擇好的雲運維工(gōng)具無疑會(huì)使雲運維變得輕松,高(gāo)效。然而選擇這樣的工(gōng)具前,首先需要考慮雲運維的組織應該如何更好的為(wèi)雲服務,清晰的組織劃分,明确的責任定位,完善的流程規劃,能(néng)夠幫助确定雲運維工(gōng)具的軟件(jiàn)定位,從(cóng)而使快速找到(dào)合适的運維工(gōng)具事(shì)半功倍。雲運維工(gōng)具仍然依托于傳統的IT設施監控和應用監控,沒有這個(gè)基礎雲運維将變成空中樓閣。在此基礎上(shàng),雲運維工(gōng)具更加重視系統級的業(yè)務監控,更加重視業(yè)務、資源、服務和人之間的關聯性,更加重視智能(néng)排障能(néng)力,更加重視容量管理,更加重視自(zì)動化能(néng)力。有了合适的運維工(gōng)具軟件(jiàn),雲運維自(zì)然變得簡單。
山東昊雲與國(guó)際知名IT廠商IBM、HP、DELL、EMC、ORACLE/SUN、SAP/SYBASE、CISCO、H3C、華為(wèi)、中興等密切合作,為(wèi)電(diàn)信、金融、政府、企業(yè)客戶提供信息系統集成服務、運維和維保服務、專業(yè)機(jī)房搬遷服務及備品備件(jiàn)服務。公司有IBM、HP、ORACLE、CISCO、VMware、H3C、華為(wèi)等主流廠商的頂級認證工(gōng)程師(shī)及PMP認證項目經理近20人;小(xiǎo)型機(jī)、服務器(qì)、存儲、交換路(lù)由、網絡安全等備機(jī)備件(jiàn)豐富充足;基于ITIL的服務管理流程,為(wèi)客戶提供專業(yè)的高(gāo)可靠性IT服務!
獲取更多(duō)專業(yè)資訊
微信掃一(yī)掃