服務(wù)器故障是影響各種類型和規(guī)模組織的一個(gè)常見問題,服務(wù)器停機(jī)的成本還包括系統(tǒng)無(wú)法訪問關(guān)鍵業(yè)務(wù)數(shù)據(jù)的時(shí)間。這可能導(dǎo)致操作問題、服務(wù)中斷和維修成本。
發(fā)生故障的潛在原因可能源自服務(wù)器硬件、軟件或數(shù)據(jù)中心設(shè)施。如果了解可能導(dǎo)致服務(wù)器故障的原因,則可以在故障發(fā)生之前解決問題,并完全避免停機(jī),但是,如果確實(shí)發(fā)生了服務(wù)器故障,則組織最好制定應(yīng)急計(jì)劃。
是什么導(dǎo)致服務(wù)器出現(xiàn)故障?
如果收到警報(bào)或發(fā)現(xiàn)有故障,解決服務(wù)器故障的第一步是確定服務(wù)器發(fā)生故障的方式和原因;組織實(shí)施這一操作的時(shí)間可能是停機(jī)時(shí)間分鐘數(shù)和天數(shù)之間的差異。服務(wù)器故障的常見原因包括:
過熱。如果服務(wù)器在過高的溫度下運(yùn)行,則可能導(dǎo)致性能下降或發(fā)生故障。
硬件問題。有時(shí)硬件組件會(huì)損壞。這可能是由于實(shí)際組件的故障,例如電池故障或硬盤故障、冷卻系統(tǒng)故障或設(shè)備老化。
軟件問題。過時(shí)的操作系統(tǒng)可能會(huì)在高負(fù)荷的操作下崩潰,未經(jīng)審查的補(bǔ)丁程序可能會(huì)導(dǎo)致錯(cuò)誤或數(shù)據(jù)損壞。軟件升級(jí)和更新也可能失敗并導(dǎo)致新問題。
系統(tǒng)過載。高峰流量時(shí)段和完整的服務(wù)器日志可能導(dǎo)致系統(tǒng)過載和故障。
網(wǎng)絡(luò)攻擊。缺乏網(wǎng)絡(luò)安全或過時(shí)、不受支持的操作系統(tǒng)會(huì)使服務(wù)器容易受到網(wǎng)絡(luò)攻擊,從而使服務(wù)器癱瘓或崩潰。
自然災(zāi)害。地震、火災(zāi)、洪水和雷雨可能對(duì)網(wǎng)絡(luò)系統(tǒng)造成嚴(yán)重破壞,并導(dǎo)致服務(wù)中斷。
如何防止常見服務(wù)器故障
持續(xù)不斷的重新引導(dǎo)和突然的緩慢指示服務(wù)器有故障。越能清楚地看到這些跡象,就可以更快地采取行動(dòng)。服務(wù)器監(jiān)視軟件可以幫助組織保持服務(wù)器正常運(yùn)營(yíng)狀態(tài),并密切監(jiān)視關(guān)鍵系統(tǒng),并獲得任何潛在問題的警報(bào)。
除了監(jiān)視工具集之外,還可以執(zhí)行預(yù)防性維護(hù)步驟,以確保服務(wù)器正常運(yùn)行。
(1) 確保最佳環(huán)境溫度。服務(wù)器需要適當(dāng)?shù)耐L(fēng)和溫度控制,以免發(fā)生過熱。檢查內(nèi)外表面是否積有灰塵,并根據(jù)需要調(diào)整溫度設(shè)置。
(2) 進(jìn)行日常維護(hù)。硬件問題往往是最難預(yù)測(cè)和預(yù)防的,因?yàn)樗鼈兛赡軙?huì)隨機(jī)發(fā)生。需要注意每臺(tái)服務(wù)器的使用壽命,執(zhí)行例行磁盤檢查,并定期更新/升級(jí)系統(tǒng)。當(dāng)服務(wù)器工作使用壽命到期之后,將過時(shí)的零件或機(jī)器全部更換。預(yù)測(cè)分析還可以幫助識(shí)別部件何時(shí)可能出現(xiàn)故障。
(3) 定期安裝更新。定期安裝軟件、操作系統(tǒng)更新和補(bǔ)丁。這樣可以保持性能,并保護(hù)服務(wù)器免受容易利用的軟件漏洞的影響。
(4) 維護(hù)嚴(yán)格的訪問控制和詳細(xì)的事件日志。人為錯(cuò)誤幾乎不可能消除。采用自動(dòng)化技術(shù)可以最大限度地減少人為錯(cuò)誤,但仍然需要人為干預(yù)。為了降低風(fēng)險(xiǎn),嚴(yán)格記錄可以訪問服務(wù)器機(jī)房和管理軟件的人員。組織還應(yīng)該保存詳細(xì)的事件日志,并定期對(duì)其進(jìn)行檢查。
(5) 監(jiān)視性能趨勢(shì)。通過持續(xù)的性能監(jiān)視檢查,組織可以更好地預(yù)測(cè)高峰期所需的資源,并確定性能低下,這可能表示即將發(fā)生故障。這些趨勢(shì)還可能揭示潛在的硬件和軟件問題或需要額外散熱的服務(wù)器機(jī)房區(qū)域。確保維護(hù)日志文件、清空回收站、刪除臨時(shí)文件夾中的文件,以及對(duì)硬盤任務(wù)進(jìn)行碎片整理,以保持性能水平并避免系統(tǒng)過載。
(6) 制定服務(wù)器應(yīng)急計(jì)劃。冗余是防止服務(wù)器故障導(dǎo)致停機(jī)的重要組成部分。服務(wù)器應(yīng)急計(jì)劃應(yīng)建立可用的輔助硬件,例如多個(gè)電源、冗余內(nèi)存和備份服務(wù)器。
(7) 設(shè)計(jì)災(zāi)難和數(shù)據(jù)恢復(fù)計(jì)劃。如果發(fā)生自然災(zāi)害或安全漏洞,災(zāi)難恢復(fù)計(jì)劃和數(shù)據(jù)恢復(fù)計(jì)劃將使企業(yè)免于長(zhǎng)時(shí)間的停機(jī)和災(zāi)難性的數(shù)據(jù)丟失,并在最壞的情況下制定備份計(jì)劃至關(guān)重要。
如何解決服務(wù)器故障并從中恢復(fù)
即使服務(wù)器在預(yù)防性維護(hù)的情況下發(fā)生故障,管理人員也可以采取一些步驟來有效地恢復(fù)。除了重新啟動(dòng),還有視覺提示和診斷軟件可以用來查找可能的原因。
一旦確定了根本原因,就可以切換到備份服務(wù)器,并采取必要的步驟來修復(fù)故障。
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9021瀏覽量
85184 -
網(wǎng)絡(luò)安全
+關(guān)注
關(guān)注
10文章
3127瀏覽量
59600 -
故障
+關(guān)注
關(guān)注
6文章
386瀏覽量
29370
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論