中文字幕乱码人妻无码久久_精品国产免费人成网站_亚洲AV无码专区国产不卡顿

作為一名合格的 Linux 運維工程師，一定要有一套清晰、明確的解決故障思路，當問題出現時，才能迅速定位、解決問題，這里給出一個處理問題的一般思路：

重視報錯提示信息：每個錯誤的出現，都是給出錯誤提示信息，一般情況下這個提示基本定位了問題的所在，因此一定要重視這個報錯信息，如果對這些錯誤信息視而不見，問題永遠得不到解決。

查閱日志文件：有時候報錯信息只是給出了問題的表面現象，要想更深入的了解問題，必須查看相應的日志文件，而日志文件又分為系統日志文件（/var/log）和應用的日志文件，結合這兩個日志文件，一般就能定位問題所在。

分析、定位問題：這個過程是比較復雜的，根據報錯信息，結合日志文件，同時還要考慮其它相關情況，最終找到引起問題的原因。

解決問題：找到了問題出現的原因，解決問題就是很簡單的事情了。

從這個流程可以看出，解決問題的過程就是分析、查找問題的過程，一旦確定問題產生的原因，故障也就隨之解決了。

結合上面介紹的 Linux 運維問題的解決思路后，下面我們挑選了6個比較典型的 Linux 運維問題，來看看是如何分析和解決的：

問題 1：文件系統破壞導致系統無法啟動

Checking root filesystem

/dev/sda6 contains a file system with errors, check forced

An error occurred during the file system check

這個錯誤可以看出，操作系統 / dev/sda6 分區文件系統出現了問題，這個問題發生的機率很高，通常引起這個問題的原因主要是系統突然斷電，引起文件系統結構不一致，一般情況下，解決此問題的方法是采用 fsck 命令，進行強制修復。

# umount /dev/sda6

# fsck.ext3 -y /dev/sda6

問題 2：“Argument list too long” 錯誤與解決方法

# crontab -e

編輯完后保存退出后，報錯 no space left on device

根據上面的報錯了解到是磁盤空間滿了，那么首先是檢查磁盤空間，

# df -h

查看到是 / var 磁盤分區空間已經達到 100%，至此定位了問題所在。是 / var 磁盤空間飽滿導致，因為 crontab 會在保存時將文件信息寫到 / var 目錄下面，然而這個磁盤沒有空間了，所以報錯。

接著通過命令 du –sh * 命令檢查 / var 目錄下面的所有文件或者目錄的大小，發現 / var/spool/clientmqueue 目錄占用了 / var 整個分區大小的 90%，那么 / var/spool/clientmqueue 目錄下的文件都是怎么產生的，能否刪除，基本上都是郵件信息，可以刪除

# rm *

/bin/rm :argument list too long

當在 linux 系統中試圖傳遞太多參數給一個命令時，就會出現 “argument list too long” 錯誤，這是 linux 系統一直以來都有的限制，查看這個限制可以通過命令 “getconf ARG_MAX” 來實現，

# getconf ARG_MAX

# more /etc/issue 查看版本

解決方法：1、

# rm [a-n]* -rf

# rm [o-z]* -rf

2、使用 find 命令來刪除

# find /var/spool/clientmqueue –type f –print –exec rm –f {} ;

3、通過 shell 腳本

#/bin/bash

RM_DIR=’/var/spool/clientmqueue’

cd $RM_DIR

for I in `ls`

rm –f $i

done

4、重新編譯內核

需要手動增加內核中分配給命令行參數的頁數，打開 kernel source 下面的 include/linux/binfmts.h 文件，找到如下行：

#denfine MAX_ARG_PAGES 32

將 32 改為更大的值，例如 64 或者 128，然后重新編譯內核

問題 3：inode 耗盡導致應用故障

客戶的一臺 Oracle 數據庫如武器在關機重啟后，Oracle 監聽無法啟動，提示報錯 Linux error : No space left on device

從輸出信息看出來是因為磁盤耗盡導致監聽無法啟動，因為 Oracle 在啟動監聽時需要創建監聽日志文件，于是首先查看磁盤空間使用情況

# df -h

從磁盤輸出信息可知，所有的分區磁盤空間都還有剩余不少，而 Oracle 監聽寫日志的路徑在 / var 分區下，/var 下分區空間足夠。

解決思路：

既然錯誤提示語磁盤空間有關，那就深入研究關于磁盤空間的問題，在 linux 系統中對磁盤空間的占用分為三個部分：第一個是物理磁盤空間，第二個是 inode 節點所占用的磁盤空間，第三個是 linux 用來存放信號量的空間，而平時接觸較多的是物理磁盤空間。既然不是物理磁盤空間的問題，接著就檢查是否是 inode 節點耗盡的問題，通過執行命令 “df -i” 查看可用的 inode 節點。由輸出結果看出確實是因為 inode 耗盡導致無法寫入文件。

可以通過下面的命令查看某個磁盤分區 inode 的總數

# dumpe2fs -h /dev/sda3 |grep ‘Inode count’

每個 inode 都有一個號碼，操作系統用 inode 號碼來區分不同的文件，通過‘ls -i’命令可以查看文件名對應的 inode 號

如果要查看這個文件更詳細的 inode 信息，可以通過 stat 命令來實現

# stat install.log

解決問題

# find /var/spool/clientmqueue/ -name “*” -exec rm -rf {} ;

問題 4：文件已經刪除，但是空間沒有釋放的原因

運維監控系統發來通知，報告一臺服務器空間滿了，登陸服務器查看，根分區確實滿了，這里先說一下服務器的一些刪除策略，由于 linux 沒有回收站功能，所以線上服務器上所有要刪除的文件都會先移到系統 / tmp 目錄下，然后定期清除 / tmp 目錄下的數據。這個策略本身沒有什么問題，但是通過檢查發現這臺服務器的系統分區中并沒有單獨劃分 / tmp 分區，這樣 / tmp 下的數據其實占用根分區的空間，既然找到了問題，那么刪除 / tmp 目錄下一些占用空間較大的數據文件即可。

# du -sh /tmp/* | sort -nr |head -3

通過命令發現在 / tmp 目錄下有個 66G 大小的文件 access_log，這個文件應該是 apache 產生的訪問日志文件，從日志大小來看，應該是很久沒有清理的 apache 日志文件了，基本判定是這個文件導致的根空間爆滿，在確認此文件可以刪除后，執行如下刪除命令，

# rm /tmp/access_Iog

# df -h

從輸出來看，根分區空間仍然沒有釋放，這是怎么回事

一般來說不會出現刪除文件后空間不釋放的情況，但是也存在例外，比如文件進程鎖定，或者有進程一直在向這個文件寫數據，要理解這個問題，就需要知道 linux 下文件的存儲機制和存儲結構。

一個文件在文件系統中存放分為兩個部分：數據部分和指針部分，指針位于文件系統的 meta-data 中，在將數據刪除后，這個指針就從 meta-data 中清除了，而數據部分存儲在磁盤中。在將數據對應的指針從 meta-data 中清除后，文件數據部分占用的空間就可以被覆蓋并寫入新的內容，之所以出現刪除 access_log 文件后，空間還沒有釋放，就是因為 httpd 進程還在一直向這個文件寫入內容，導致雖然刪除了 access_Ilog 文件，但是由于進程鎖定，文件對應的指針部分并未從 meta-data 中清除，而由于指針并未刪除，系統內核就認為文件并未被刪除，因此通過 df 命令查詢空間并未釋放。

問題排查：

既然有了解決思路，那么接下來看看是否有進程一直在向 access_log 文件中寫入數據，這里需要用到 linux 下的 losf 命令，通過這個命令可以獲取一個仍然被應用程序占用的已刪除文件列表

# lsof | grep delete

從輸出可以看出，/tmp/access_log 文件被進程 httpd 鎖定，而 httpd 進程還一直向這個文件寫入日志數據，最后一列的‘deleted’狀態說明這個日志文件已經被刪除，但是由于進程還在一直向此文件寫入數據，因此空間并未釋放。

解決問題：

到這里問題就基本排查清楚了，解決這一類問題的方法有很多，最簡單的方法就是關閉或者重啟 httpd 進程，當然重啟操作系統也可以。不過這些并不是最好的辦法，對待這種進程不停對文件寫日志的操作，要釋放文件占用的磁盤空間，最好的方法是在線清空這個文件，具體可以通過如下命令完成:

# echo “”>/tmp/access_log

通過這種方法，磁盤空間不但可以馬上釋放，也可以保障進城繼續向文件寫入日志，這種方法經常用于在線清理 apache /tomcat/nginx 等 web 服務產生的日志文件。

問題 5："too many open files" 錯誤與解決方法

問題現象：這是一個基于 java 的 web 應用系統，在后臺添加數據時提示無法添加，于是登陸服務器查看 tomcat 日志，發現如下異常信息，java.io.IOException: Too many open files

通過這個報錯信息，基本判斷是系統可以用的文件描述符不夠了，由于 tomcat 服務室系統 www 用戶啟動的，于是以 www 用戶登陸系統，通過 ulimit –n 命令查看系統可以打開最大文件描述符的數量，輸出如下：

$ ulimit -n

65535

可以看到這臺服務器設置的最大可以打開的文件描述符已經是 65535 了，這么大的值應該夠用了，但是為什么提示這樣的錯誤呢

解決思路，這個案例涉及 ulimit 命令的使用

在使用 ulimit 時，有以下幾種使用方法：

1、在用戶環境變量中加入

如果用戶使用的是 bash，那么可以在用戶目錄的環境變量文件. bashrc 或者. bash_profile 中加入 “ulimit –u128” 來限制用戶最多可以使用 128 個進程

2、在應用程序的啟動腳本中加入

如果應用程序是 tomcat，那么可以再 tomcat 的啟動腳本 startup.sh 中加入‘ulimit -n 65535’來限制用戶最多可以使用 65535 個文件描述符

3、直接在 shell 命令終端執行 ulimit 命令

這種方法的資源限制僅僅在執行命令的終端生效，在退出或者和關閉終端后，設置失效，并且這個設置不影響其他 shell 終端

解決問題：

在了解 ulimit 知識后，接著上面的案例，既然 ulimit 設置沒有問題，那么一定是設置沒有生效導致的，接下來檢查下啟動 tomcat 的 www 用戶環境變量是否添加 ulimit 限制，檢查后發現，www 用戶并無 ulimit 限制。于是繼續檢查 tomcat 啟動腳本 startup.sh 文件是否添加了 ulimit 限制，檢查后發現也沒有添加。最后考略是否將限制加到了 limits.conf 文件中，于是檢查 limits.conf 文件，操作如下

# cat /etc/security/limits.conf | grep www

www soft nofile 65535

www hard nofile 65535

從輸出可知，ulimit 限制加在 limits.conf 文件中，既然限制已經添加了，配置也沒有什么錯，為何還會報錯，經過思考，判斷只有一種可能，那就是 tomcat 的啟動時間早于 ulimit 資源限制的添加時間，于是首先查看下 tomcat 啟動時間，操作如下

# uptime

Up 283 days

# pgrep -f tomcat

4667

# ps -eo pid,lstart,etime|grep 4667

4667 Sat Jul 6 09;33:39 2013 77-05:26:02

從輸出可以看出，這臺服務器已經有 283 沒有重啟了，而 tomcat 是在 2013 年 7 月 6 日 9 點啟動的，啟動了將近 77 天，接著繼續看看 limits.conf 文件的修改時間，

# stat /etc/security/limits.conf

通過 stat 命令清除的看到，limits.conf 文件最后的修改時間是 2013 年 7 月 12，晚于 tomcat 啟動時間，清楚問題后，解決問題的方法很簡單，重啟一下 tomcat 就可以了。

問題 6：Read-only file system 錯誤與解決方法

解析：出現這個問題的原因有很多種，可能是文件系統數據塊出現不一致導致的，也可能是磁盤故障造成的，主流 ext3/ext4 文件系統都有很強的自我修復機制，對于簡單的錯誤，文件系統一般都可以自行修復，當遇到致命錯誤無法修復的時候，文件系統為了保證數據一致性和安全，會暫時屏蔽文件系統的寫操作，講文件系統變為只讀，今兒出現了上面的 “read-only file system” 現象。

手工修復文件系統錯誤的命令式 fsck，在修復文件系統前，最好卸載文件系統所在的磁盤分區

# umount /www/data

Umount : /www/data: device is busy

提示無法卸載，可能是這個磁盤中還有文件對應的進程在運行，檢查如下：

# fuser -m /dev/sdb1

/dev/sdb1: 8800

接著檢查一下 8800 端口對應的什么進程，

# ps -ef |grep 8800

檢查后發現時 apache 沒有關閉，停止 apache

# /usr/local/apache2/bin/apachectl stop

# umount /www/data

# fsck -V -a /dev/sdb1

# mount /dev/sdb1 /www/data

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Linux

Linux

+關注

關注
87

文章
11123

瀏覽量
207885

原文標題：6 個 Linux 運維典型問題，大牛的分析解決思路在這里

文章出處：【微信號：LinuxHub，微信公眾號：Linux愛好者】歡迎添加關注！文章轉載請注明出處。

Linux運維常見故障排查和處理的33個技巧匯總

從中總結經驗，查找問題，匯總并分析故障的原因，這是一個Linux運維工程師良好的習慣。每一次技術的突破，都經歷著苦悶，伴隨著快樂，可我們還是

發表于 03-20 09:09 ?5468次閱讀

Linux中常用的MySQL運維腳本

在Linux中，使用MySQL進行常見的運維任務時，可以編寫一些腳本來簡化操作。以下是一些常用的MySQL運維腳本,希望對你的工作有所幫助。

發表于 09-07 09:49 ?700次閱讀

老男孩Linux運維培訓教程

`　　繼《跟老男孩學習Linux運維:Web集群實戰》和《跟老男孩學習Linux運維:Shell

發表于 12-15 15:16

linux運維命令大全

Linux高端運維學習需要掌握大量的命令及相關工具，通讀bash man page、掌握VIM使用、了解SSH是Linux高端運

發表于 03-15 16:36

學習Linux運維發展方向

　現下Linux應用廣泛，從桌面到服務器，從操作系統到企業應用，Linux像雨后春筍般迅速成長，Linux人才需求持續升溫。其中Linux系統運

發表于 07-25 17:15

（轉）6 個 Linux 運維典型問題，大牛的分析解決思路在這里

隨之解決了。結合上面介紹的 Linux 運維問題的解決思路后，下面我們挑選了6個比較

發表于 08-13 14:10

Linux運維都要會哪些shell技能

。兩者之間，shell幾乎是IT企業必須使用的運維自動化編程語言，特別是在運維工作中的服務監控、業務快速部署、服務啟動停止、數據備份及處理、日制分析

發表于 11-30 17:38

2019年Linux運維工程師的高薪出路在哪

早在2015年國家就提出了“供給側”改革思想，簡言之，就是告訴企業里的Linux運維工程師要從以往平時人肉部署各種業務環境，處理各種故障(負載高、CPU高、服務宕機、被攻擊)，每天火燒

發表于 01-28 18:02

linux運維怎么排查

linux運維排查常用命令（開發專享）

發表于 11-11 06:34

Linux運維常見故障排查和處理的33個技巧匯總

Linux運維常見故障排查和處理的33個技巧匯總。作為linux

發表于 03-05 13:39 ?1.2w次閱讀

2018年Linux運維必須抓住的前沿技能

Linux運維作為眾多工作中需求人數最多，薪資待遇最高的崗位，本文重點介紹Linux運維的職業，

發表于 03-26 15:55 ?8133次閱讀

運維工程師的四個階段

Linux系統目前主要應用在企業服務器上，學習Linux，更多的是向Linux系統/運維工程師方向進軍。比如云計算系統工程師，大數據

發表于 03-26 16:22 ?5759次閱讀

如何定義linux運維工程師

相信讀者們必定聽說過linux，也聽說過運維工程師。那么運維工程師是個什么概念呢？

發表于 08-21 15:51 ?2998次閱讀

Linux運維工程師的發展前景

它是一個非常新穎的崗位，目前從行業角度分析，隨著國內軟件行業不斷發展壯大，越來越多的復雜系統應運而生，為了保證系統的穩定運行，必須要有足夠多的linux運

發表于 08-21 15:57 ?3623次閱讀

Linux運維經常使用的40個命令總結

本文檔的主要內容詳細介紹的是Linux運維經常使用的40個命令總結

發表于 11-22 11:14 ?2477次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

利用6 個 Linux 運維典型問題來分析處理問題的思路

評論

Linux運維常見故障排查和處理的33個技巧匯總

Linux中常用的MySQL運維腳本

老男孩Linux運維培訓教程

linux運維命令大全

學習Linux運維發展方向

（轉）6 個 Linux 運維典型問題，大牛的分析解決思路在這里

Linux運維都要會哪些shell技能

2019年Linux運維工程師的高薪出路在哪

linux運維怎么排查

Linux運維常見故障排查和處理的33個技巧匯總

2018年Linux運維必須抓住的前沿技能

運維工程師的四個階段

如何定義linux運維工程師

Linux運維工程師的發展前景

Linux運維經常使用的40個命令總結