數(shù)據(jù)中心運維的工作主要是對數(shù)據(jù)中心各項管理對象進行系統(tǒng)的計劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務(wù)有關(guān)各項管理工作的總稱,具體包括對機房環(huán)境基礎(chǔ)設(shè)施部分的維護,系統(tǒng)與數(shù)據(jù)維護,管理工具的使用,人員的管理等方面。
秘密武器一:工程文檔文檔對數(shù)據(jù)中心運維的工作非常重要
包括數(shù)據(jù)中心的安裝、配置、優(yōu)化、組網(wǎng)、設(shè)備互連等方方面面,通過這些文檔可以對數(shù)據(jù)中心的運營了如指掌,在出現(xiàn)故障時迅速排查,找到故障點。文檔還有一個重要的作用就是工作的傳承,當有人員離開時,他只要留下工作的文檔,其它人交接工作就很容易。還有就是工作經(jīng)驗的積累文檔。雖然各種數(shù)據(jù)中心大同小異,基本是靠服務(wù)器、網(wǎng)絡(luò)和存儲三大件打天下,但每個數(shù)據(jù)中心又都有自己的風格,自己的優(yōu)勢與劣勢。通過對數(shù)據(jù)中心運維而輸出的各種技術(shù)文檔,將為后來人提供方便,并且可以提升數(shù)據(jù)中心整體的運維能力。
秘密武器二:業(yè)務(wù)備份數(shù)據(jù)中心的業(yè)務(wù)要求全年小時連續(xù)運行
然而數(shù)據(jù)中心一個故障都不出是不可能的,甚至一些數(shù)據(jù)中心幾乎天天都在上演各種故障。擁有數(shù)十萬臺設(shè)備的數(shù)據(jù)中心,每天壞一臺服務(wù)器或一個端口都是在正常不過的事情了,這就要求我們對數(shù)據(jù)業(yè)務(wù)有備份。小到服務(wù)器、網(wǎng)絡(luò)到存儲,大到數(shù)據(jù)中心,都需要有備份,包含軟件的備份和硬件的備份。通過備份,可以在數(shù)據(jù)中心運行出問題時,及時做業(yè)務(wù)調(diào)整,確保業(yè)務(wù)無中斷或者短時中斷。
秘密武器三:在線監(jiān)測數(shù)據(jù)中心運行是動態(tài)的,每時每刻都在變化
我們無法預(yù)知未來會發(fā)生哪些突發(fā)故障,就算是每個環(huán)節(jié)都有備份,也需要有監(jiān)測的手段,來保證業(yè)務(wù)切換到運行正常的設(shè)備上來。對于數(shù)據(jù)中心在線監(jiān)測必不可少。在線監(jiān)測包括網(wǎng)管的監(jiān)測,服務(wù)器運行狀態(tài)的監(jiān)測,空調(diào)系統(tǒng)的監(jiān)測,機房環(huán)境的監(jiān)測等等,當發(fā)現(xiàn)異常時,即使將告警通知運維人員,或者軟件自動啟用備用系統(tǒng),確保數(shù)據(jù)中心繼續(xù)穩(wěn)定運行。
秘密武器四:周期巡檢俗話說“防患于未然”
對于數(shù)據(jù)中心日常的周期巡檢是不可缺少的。通過周期巡檢,及時發(fā)現(xiàn)一些運行隱患,然后排除,可以大大降低數(shù)據(jù)中心發(fā)生嚴重故障的可能性。周期巡檢可以包括對各種設(shè)備的檢查,環(huán)境的檢查,電源、空調(diào)設(shè)備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通過以往記錄的數(shù)據(jù)進行綜合分析,一旦某些數(shù)據(jù)有波動或者異常,應(yīng)該及時采取有效措施,避免隱患引發(fā)故障。通過周期巡檢也可以對整個數(shù)據(jù)中心有個全面的了解,一旦要進行系統(tǒng)改造或者擴容等工作,有了前期這些巡檢數(shù)據(jù)參考,制定的改造或擴容方案才更有針對性。
總而言之,工程文檔、業(yè)務(wù)備份、在線監(jiān)測、周期巡檢是數(shù)據(jù)中心運維工作的四個重要方面,只有做好這四個方面的工作,才能讓數(shù)據(jù)中心保持長期穩(wěn)定運行,并能產(chǎn)生良好的效益,是數(shù)據(jù)中心運維水平高低的主要體現(xiàn),擁有這四大秘密武器,將使數(shù)據(jù)中心終身受益,企業(yè)萬不可忽視。
審核編輯 黃宇
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4686瀏覽量
71954
發(fā)布評論請先 登錄
相關(guān)推薦
評論