背景
在做系統(tǒng)監(jiān)控時(shí),CPU的使用率是一個(gè)關(guān)鍵的指標(biāo),它反映了系統(tǒng)的性能穩(wěn)定性以及是否存在異常情況,能幫助我們了解系統(tǒng)的負(fù)載情況。通過監(jiān)控CPU使用率,可以判斷系統(tǒng)是否正常運(yùn)行或者是否存在性能問題。如果CPU使用率過高,可能表示系統(tǒng)存在資源瓶頸,需要進(jìn)行優(yōu)化或升級(jí)。
CPU監(jiān)控的難點(diǎn)
現(xiàn)有的監(jiān)控平臺(tái)提供了多種方式來(lái)獲取容器和JVM的CPU使用率,并能夠?qū)崟r(shí)發(fā)送CPU跳點(diǎn)的報(bào)警。然而,對(duì)于運(yùn)維人員來(lái)說(shuō),這些功能遠(yuǎn)遠(yuǎn)不夠,因?yàn)槲覀冃枰钊肓私鈱?dǎo)致CPU高的原因。由于CPU是一個(gè)動(dòng)態(tài)變化的指標(biāo),僅僅在收到報(bào)警后通過運(yùn)維平臺(tái)的手動(dòng)操作進(jìn)行排查,很難抓住事故發(fā)生的現(xiàn)場(chǎng)情況。因此,我們需要一個(gè)能夠自動(dòng)記錄現(xiàn)場(chǎng)的工具。
自動(dòng)DUMP工具
對(duì)于Linux系統(tǒng),我們可以通過設(shè)置一個(gè)周期的定時(shí)任務(wù)來(lái)檢測(cè)CPU使用率。如果我們發(fā)現(xiàn)CPU使用率高,我們可以獲取CPU使用率高的線程,并進(jìn)一步處理JVM線程抓包的問題。
我們可以使用top命令來(lái)獲取進(jìn)程的CPU使用率以及線程的CPU使用率。針對(duì)JAVA應(yīng)用程序,我們可以使用Jstack來(lái)dump當(dāng)前線程的堆棧信息。然后,我們可以解析這兩者的輸出,并通過線程號(hào)進(jìn)行匹配,最終生成一個(gè)包含CPU使用率的線程堆棧清單。最后,我們可以將此清單持久化到一個(gè)文本文件中。
最終的輸出文件格式如下:
當(dāng)前JAVA進(jìn)程ID:205 當(dāng)前JAVA進(jìn)程ID(205)CPU使用率:99% Top 10 CPU占用線程信息: ======================================================= 線程TID: 1511, THREAD_NID:5e7, CPU使用率: 77.2% "Thread-31" #415 daemon prio=5 os_prio=0 tid=0x00007f00900cc800 nid=0x5e7 runnable [0x00007f01c5839000] java.lang.Thread.State: RUNNABLE at ... ... java.lang.reflect.Executable.sharedGetParameterAnnotations(Executable.java:553) at java.util.concurrent.CompletableFuture$AsyncRun.run(CompletableFuture.java:1626) at java.lang.Thread.run(Thread.java:748) ======================================================= 線程TID: 208, THREAD_NID:d0, CPU使用率: 2.0% "Gang worker#0 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02a000 nid=0xd0 runnable ======================================================= 線程TID: 209, THREAD_NID:d1, CPU使用率: 2.0% "Gang worker#1 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02b800 nid=0xd1 runnable =======================================================
具體實(shí)現(xiàn)步驟如下:
從環(huán)境變量中讀取CPU閾值和線程數(shù)閾值,腳本的兩個(gè)配置項(xiàng),不同分組和不同環(huán)境可以設(shè)置不同的閾值。
獲取JAVA進(jìn)程ID:使用pgrep命令獲取當(dāng)前運(yùn)行中的Java進(jìn)程的PID,并將其保存到變量中。
獲取當(dāng)前CPU使用率:使用top命令獲取當(dāng)前CPU使用率,主要是獲取JAVA進(jìn)程的CPU使用率。
檢查CPU使用率是否超過閾值:與預(yù)設(shè)的CPU閾值進(jìn)行比較,如果超過閾值,則執(zhí)行后續(xù)操作,否則結(jié)束。
查找JAVA進(jìn)程內(nèi)占用CPU最高的線程:使用top命令查找占用CPU最高的前十個(gè)線程,并獲取它們的相關(guān)信息。
捕捉JVM線程快照:使用jstack命令捕捉JVM線程快照,并將其保存到指定的日志文件中。
輸出線程信息:解析并匹配線程棧文件,將占用CPU最高的前十個(gè)線程的信息包括線程的PID和堆棧信息合并到同一行輸出。
日志記錄和保存:將相關(guān)的CPU使用率及線程快照信息記錄到日志文件中,方便后續(xù)分析和優(yōu)化。
使用方式
在應(yīng)用的啟動(dòng)腳本(start.sh)中添加命令,在crontab中添加一個(gè)分鐘周期的定時(shí)任務(wù)
echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab -
注:如果需要更細(xì)周期粒度的監(jiān)控,也可以通過while true加sleep來(lái)控制運(yùn)行周期,如果使用更細(xì)粒度周期時(shí)需要注意腳本本身造成的CPU使用率。
總結(jié)
該腳本是一個(gè)用于CPU性能監(jiān)控的實(shí)用工具,通過定時(shí)檢測(cè)并觸發(fā)線程快照的方式,方便我們快速發(fā)現(xiàn)CPU異常占用以及定位問題所在。通過設(shè)置合適的閾值和線程數(shù),可以根據(jù)具體項(xiàng)目的需求來(lái)應(yīng)用該腳本,并根據(jù)日志記錄的線程信息進(jìn)行問題分析和優(yōu)化。
注意:在使用該腳本時(shí),需要根據(jù)具體環(huán)境配置相關(guān)的路徑和變量,并根據(jù)項(xiàng)目的需要進(jìn)行相應(yīng)的調(diào)整和優(yōu)化。
希望本文對(duì)您理解和運(yùn)用該腳本提供了一些幫助,如有疑問或需要進(jìn)一步了解,請(qǐng)隨時(shí)聯(lián)系我。
附錄
完整的腳本文件cpu-peak-dump.sh
#!/bin/bash # 由crontab觸發(fā)每分鐘執(zhí)行一次,判斷CPU使用率大于閾值時(shí)觸發(fā)dump # 使用方式: # 把當(dāng)前文件放到項(xiàng)目中與start.sh相同的目錄 # 修改start.sh 在腳本最后加一行,一般是這一行后邊 echo "$APP_NAME is up runnig :)" # echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab - # 可配置項(xiàng): # 觸發(fā)dump的cpu閾值。default 70 # STACK_DUMP_CPU_THRESHOLD=xxx # 觸發(fā)dump時(shí)列舉的線程數(shù)(按使用率由高到低排列) default 10 # STACK_DUMP_THREAD_COUNT=xxx # 配置方式,使用行云分組的環(huán)境變量配置即可 # stack log 存放目錄 /export/Logs/ # stack log 文件名: jstack_snapshot_$(date +%Y%m%d%H%M%S).log # 最后,記得配置相應(yīng)的日志清理策略 # 設(shè)置CPU閾值,當(dāng)CPU使用率達(dá)到該閾值時(shí)觸發(fā)線程快照 CPU_THRESHOLD="${STACK_DUMP_CPU_THRESHOLD:-70}" THREAD_COUNT="${STACK_DUMP_THREAD_COUNT:-10}" echo "Current CPU_THRESHOLD is $CPU_THRESHOLD" JAVA_PID=$(pgrep -d, -x java) echo "Current JAVA_PID is $JAVA_PID" # 使用top命令獲取當(dāng)前CPU使用率,并提取其中的CPU利用率百分比 CPU_USAGE=$(top -b -n 1 | grep -A10 "PID USER" | grep java | grep "$JAVA_PID" | awk '{print $9}' | cut -d'.' -f1) echo "Current Java($JAVA_PID) CPU_USAGE :$CPU_USAGE"% if [ -z "$JAVA_PID" ]; then echo "No Java process found." exit 1 fi # 檢查CPU使用率是否超過閾值 if [[ $CPU_USAGE -gt $CPU_THRESHOLD ]]; then # 使用top命令查找占用CPU最高的前十個(gè)線程,并獲取它們的信息 TOP_THREADS=$(top -H -b -n 1 -p "$JAVA_PID" | grep -A$THREAD_COUNT 'PID USER' | head -n $THREAD_COUNT | grep -v 'PID') # 使用jstack捕捉JVM線程快照 # 請(qǐng)將下面的Java進(jìn)程ID替換為你要監(jiān)視的Java進(jìn)程的實(shí)際進(jìn)程ID JSTACK_OUTPUT=$(/export/servers/jdk1.8.0_191/bin/jstack "$JAVA_PID") JSTACK_OUTPUT_FILE="/export/Logs/jstack_snapshot_$(date +%Y%m%d%H%M%S).log" echo "當(dāng)前JAVA進(jìn)程ID($JAVA_PID)CPU使用率:$CPU_USAGE"% >>$JSTACK_OUTPUT_FILE # 獲取占用CPU最高的前十個(gè)線程的信息,包括線程的PID和堆棧信息,并將它們合并到同一行輸出 echo "Top ${THREAD_COUNT} CPU占用線程信息:" >>$JSTACK_OUTPUT_FILE while read -r THREAD_INFO; do THREAD_TID=$(echo "$THREAD_INFO" | awk '{print $1}') THREAD_NID=$(printf "%xn" $THREAD_TID) THREAD_STACK=$(echo "$JSTACK_OUTPUT" | sed -n "/nid=0x$THREAD_NID /,/^$/p") THREAD_CPU_USAGE=$(echo "$THREAD_INFO" | awk '{print $9}') echo "=======================================================" >>$JSTACK_OUTPUT_FILE echo "線程TID: $THREAD_TID, THREAD_NID:$THREAD_NID, CPU使用率: $THREAD_CPU_USAGE%" >>$JSTACK_OUTPUT_FILE echo "$THREAD_STACK" >>$JSTACK_OUTPUT_FILE done <"$TOP_THREADS" # echo "====all stack as below:====" >>$JSTACK_OUTPUT_FILE # echo "$JSTACK_OUTPUT" >>$JSTACK_OUTPUT_FILE echo "捕捉了JVM線程快照并保存到 $JSTACK_OUTPUT_FILE" fi 審核編輯 黃宇
-
cpu
+關(guān)注
關(guān)注
68文章
10640瀏覽量
208646 -
JAVA
+關(guān)注
關(guān)注
19文章
2934瀏覽量
103771 -
dump
+關(guān)注
關(guān)注
0文章
13瀏覽量
9483
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論