服務器支撐著整個企業的信息數據,在日常運轉過程中,服務器也會因為其復雜的硬件結構、繁瑣的運行原理而出現一些大大小小的故障,而如如何快速排查診斷并修復服務器的故障事關整個公司業務正常開展與運作。
今天分享一篇讀者來稿,一起來看看他是如何排除和應對工控服務器磁盤陣列常見故障問題的?
工控服務器磁盤陣列故障排除法
我們生產線有兩個服務器機房,由于一年四季運行,出現服務器宕機問題也是常有的事,不過我們生產線服務器都是雙備份冗余配置,一臺出現問題對生產影響不是太大。這么多年來就遇到的問題和排查方法及注意事項個人做了一些記錄和匯總,正好看到威剛工控舉辦相關主題征文,在此與大家一起分享。
硬盤每時每刻都在讀取數據,不間斷的工作使得出現故障的可能性也比較大,而硬盤發生故障的時候,通常會有一系列表現:
1、故障提示:這是最直接的一種故障表現方式,硬盤也具備自我監測的能力,當硬盤中的部件與我們設置的正常范圍值不同時,就會自動發出提示信息。我們就可以根據這個提示信息,進行相應的維護。整理一下服務器,檢查內部安裝和接口,再觀察一段時間,仍然出現故障提示,更換硬件。雖然有可能是背板或者主板問題引起一般,但這種情況不太多。
2、運行報錯:硬盤運行出錯表現在掃描時自身出現錯誤,顯示壞道等情況,這個時候表示硬盤部件出現問題,需要將其修復或隔離。我們發現此類錯誤一般都是更換硬盤,因為即使修復隔離也說明硬盤帶病工作,很容易罷工,對生產線產品和質量會造成損失。
3、硬盤無法讀取或識別: 啟動服務器時,硬盤無法正常被讀取,或者被識別后,系統仍然無法顯示硬盤,這就證明硬盤出現錯誤。更換硬盤至原先可以正常檢測到的槽位,根據現象排查故障,如果故障現象一樣,再繼續排查一下硬盤背板是不是故障,最后硬盤更換一般都是原廠備件更換,避免硬件出現兼容性不匹配問題,運行不穩定。這個現象我們也遇到過,著實讓工程師們頭疼。
4、初始化死機: 一旦初始化就出現死機,雖然也有可能是內存、病毒感染等問題,但最可能的還是硬盤故障,出現這種情況時,先通過清除CMOS,恢復資源初始配置,擴展第三方I/O卡屬于該機型兼容列表TPL,仍然不行考慮更換硬盤。
5、藍屏、頻繁重啟:內存和主板是導致硬件藍屏的主要原因,可對內存進行校驗排查,其他的還有殺毒軟件、驅動問題等。分析日志記錄排查故障是工程師朋友常用的方法。
6、外設故障引發故障:鍵盤會導致開機報錯、顯示器會導致黑屏…
學會利用狀態指示燈,高端服務器一般都有狀態指示燈,不同的機器指示燈含義不同,通過指示燈的顏色、閃爍、亮滅排查故障結合本身日志記錄確定問題,是工程師人員基本要求。
總的來說,在服務器安全運行管理中,可能造成服務器安全運行的威脅因素遠不止以上幾個方面,要保障服務器安全運行,工程師人員要有一定的技術能力和維護經驗,給企業營造一個安全穩定的運行平臺。
如何避免服務器出現上述的存儲故障,,選對合適耐用的存儲產品很關鍵。對此,威剛科技推出一系列高品質、高性能存儲解決方案。
PCIe M.2 2280固態硬盤
● PCIe超高速界面,短時間內處理海量數據,充分滿足IoT物聯網/云計算/邊緣運算的需求;
● 總擦寫次數(P/E cycles)達 3K次,耐用可靠;
● LDPC ECC糾錯機制,確保數據傳輸準確穩定。
DDR4 2666/3200超高速內存
● 高效能、低延遲,充分滿足IoT物聯網/云計算/邊緣運算的需求;
● 高達32GB的大容量,輕松存儲海量數據;
● 嚴選原廠顆粒,質量優異,耐用可靠。
編輯:hfy
-
存儲技術
+關注
關注
5文章
723瀏覽量
45733 -
服務器
+關注
關注
12文章
8701瀏覽量
84554 -
PCIe
+關注
關注
15文章
1165瀏覽量
81987 -
固態硬盤
+關注
關注
11文章
1413瀏覽量
56958
發布評論請先 登錄
相關推薦
評論