自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="0f18t"><p id="0f18t"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Linux故障排查清單：讓你調(diào)試不再迷茫！

作者：往事敬秋風(fēng) 2025-02-12 09:44:47

系統(tǒng) Linux

在 Linux 系統(tǒng)運(yùn)行過(guò)程中，系統(tǒng)層面的故障較為常見(jiàn)且影響較大。系統(tǒng)崩潰重啟是一種嚴(yán)重的故障現(xiàn)象，通常由硬件錯(cuò)誤，如內(nèi)存故障、硬盤損壞等引起，也可能是軟件層面的問(wèn)題，如內(nèi)核模塊沖突、嚴(yán)重的軟件 bug 等。

在當(dāng)今數(shù)字化時(shí)代，Linux 操作系統(tǒng)憑借其開(kāi)源、穩(wěn)定、高效等特性，在服務(wù)器領(lǐng)域占據(jù)著舉足輕重的地位。從大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心，到小型創(chuàng)業(yè)公司的后端服務(wù)器，Linux 的身影無(wú)處不在。據(jù)權(quán)威統(tǒng)計(jì)，Linux 在服務(wù)器領(lǐng)域的市場(chǎng)份額已高達(dá) 75% 以上，廣泛應(yīng)用于 Web 服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、負(fù)載均衡服務(wù)器等關(guān)鍵場(chǎng)景。

然而，就像任何復(fù)雜的系統(tǒng)一樣，Linux 服務(wù)器在長(zhǎng)期運(yùn)行過(guò)程中難免會(huì)出現(xiàn)各種故障。這些故障可能由硬件老化、軟件漏洞、配置錯(cuò)誤、網(wǎng)絡(luò)波動(dòng)等多種因素引發(fā)，小到進(jìn)程異常退出，大到系統(tǒng)崩潰，嚴(yán)重影響業(yè)務(wù)的正常運(yùn)行。想象一下，一家電商平臺(tái)在促銷活動(dòng)期間，服務(wù)器突然出現(xiàn)故障，導(dǎo)致用戶無(wú)法下單，這將給企業(yè)帶來(lái)巨大的經(jīng)濟(jì)損失和聲譽(yù)損害。因此，對(duì)于系統(tǒng)管理員和運(yùn)維工程師來(lái)說(shuō)，掌握 Linux 問(wèn)題故障定位的技巧至關(guān)重要。它不僅能幫助我們快速恢復(fù)系統(tǒng)正常運(yùn)行，減少業(yè)務(wù)中斷時(shí)間，還能提前發(fā)現(xiàn)潛在問(wèn)題，防患于未然。接下來(lái)，本文將詳細(xì)介紹一系列實(shí)用的 Linux 故障定位技巧，希望能為大家在日常運(yùn)維工作中提供有力的幫助。

一、Linux常見(jiàn)故障類型

1.1系統(tǒng)層面

在 Linux 系統(tǒng)運(yùn)行過(guò)程中，系統(tǒng)層面的故障較為常見(jiàn)且影響較大。系統(tǒng)崩潰重啟是一種嚴(yán)重的故障現(xiàn)象，通常由硬件錯(cuò)誤，如內(nèi)存故障、硬盤損壞等引起，也可能是軟件層面的問(wèn)題，如內(nèi)核模塊沖突、嚴(yán)重的軟件 bug 等。例如，當(dāng)內(nèi)存出現(xiàn)故障時(shí)，系統(tǒng)在讀取或?qū)懭霐?shù)據(jù)時(shí)會(huì)出現(xiàn)錯(cuò)誤，導(dǎo)致系統(tǒng)無(wú)法正常運(yùn)行，進(jìn)而崩潰重啟。

長(zhǎng)時(shí)間無(wú)響應(yīng)也是令人頭疼的故障，可能是由于系統(tǒng)中某個(gè)進(jìn)程陷入死循環(huán)，占用了大量的 CPU 資源，使得其他進(jìn)程無(wú)法獲得足夠的運(yùn)行時(shí)間，導(dǎo)致系統(tǒng)整體無(wú)響應(yīng)。比如，一個(gè)編寫不當(dāng)?shù)难h(huán)代碼，在沒(méi)有正確的退出條件下，會(huì)一直執(zhí)行，消耗 CPU 資源，最終拖垮系統(tǒng)。此外，系統(tǒng)資源耗盡，如內(nèi)存不足、文件描述符用盡等，也會(huì)導(dǎo)致系統(tǒng)長(zhǎng)時(shí)間無(wú)響應(yīng)。當(dāng)內(nèi)存不足時(shí)，系統(tǒng)頻繁進(jìn)行內(nèi)存交換，性能急劇下降，甚至出現(xiàn)無(wú)響應(yīng)的情況。

系統(tǒng)短暫卡頓則可能是由于系統(tǒng)負(fù)載過(guò)重，大量進(jìn)程同時(shí)運(yùn)行，競(jìng)爭(zhēng) CPU、內(nèi)存等資源，導(dǎo)致系統(tǒng)響應(yīng)變慢。例如，在進(jìn)行大數(shù)據(jù)處理時(shí)，多個(gè)計(jì)算任務(wù)同時(shí)啟動(dòng)，會(huì)使系統(tǒng)瞬間變得卡頓。同時(shí)，I/O 瓶頸也是導(dǎo)致卡頓的原因之一，當(dāng)磁盤讀寫速度跟不上系統(tǒng)的需求時(shí)，數(shù)據(jù)讀取和寫入延遲增加，從而引發(fā)系統(tǒng)卡頓。

1.2硬件相關(guān)

硬件故障是導(dǎo)致 Linux 系統(tǒng)異常的重要原因之一。內(nèi)存故障是較為常見(jiàn)的硬件問(wèn)題，當(dāng)內(nèi)存出現(xiàn)故障時(shí)，可能導(dǎo)致系統(tǒng)頻繁死機(jī)、藍(lán)屏，或者出現(xiàn)內(nèi)存錯(cuò)誤相關(guān)的提示信息。比如，內(nèi)存芯片損壞，會(huì)使系統(tǒng)在運(yùn)行過(guò)程中隨機(jī)出現(xiàn)錯(cuò)誤，導(dǎo)致程序崩潰。另外，內(nèi)存兼容性問(wèn)題也不容忽視，不同品牌、型號(hào)的內(nèi)存條混合使用時(shí)，可能會(huì)出現(xiàn)不兼容的情況，引發(fā)系統(tǒng)故障。

處理器故障同樣會(huì)對(duì)系統(tǒng)性能產(chǎn)生嚴(yán)重影響。如果處理器過(guò)熱，會(huì)自動(dòng)降頻，導(dǎo)致計(jì)算速度變慢，系統(tǒng)響應(yīng)遲緩。這通常是由于散熱風(fēng)扇故障、散熱硅脂干涸等原因?qū)е碌?。此外，處理器硬件損壞，如核心損壞，會(huì)使系統(tǒng)無(wú)法正常運(yùn)行，甚至無(wú)法開(kāi)機(jī)。

顯卡和外設(shè)故障也會(huì)給用戶帶來(lái)困擾。顯卡故障可能導(dǎo)致屏幕顯示異常，如出現(xiàn)花屏、黑屏等現(xiàn)象。這可能是由于顯卡驅(qū)動(dòng)程序不兼容、顯卡硬件損壞等原因造成的。對(duì)于外設(shè)故障，如 USB 設(shè)備無(wú)法識(shí)別、打印機(jī)無(wú)法正常工作等，可能是驅(qū)動(dòng)程序問(wèn)題，也可能是硬件連接故障或外設(shè)本身?yè)p壞。

1.3服務(wù)與應(yīng)用

服務(wù)啟動(dòng)失敗和應(yīng)用程序崩潰是在 Linux 系統(tǒng)中經(jīng)常遇到的問(wèn)題。服務(wù)啟動(dòng)失敗可能是由于配置文件錯(cuò)誤，比如配置文件中的參數(shù)設(shè)置不正確、路徑錯(cuò)誤等，導(dǎo)致服務(wù)無(wú)法按照預(yù)期的方式啟動(dòng)。例如，在配置 Web 服務(wù)器時(shí)，如果配置文件中指定的網(wǎng)站根目錄不存在，服務(wù)器就無(wú)法正常啟動(dòng)。

依賴缺失也是導(dǎo)致服務(wù)啟動(dòng)失敗的常見(jiàn)原因。許多服務(wù)依賴于其他軟件包或庫(kù)文件，如果這些依賴項(xiàng)沒(méi)有正確安裝，服務(wù)就無(wú)法啟動(dòng)。比如，一個(gè)基于 Python 開(kāi)發(fā)的服務(wù)，依賴于特定版本的 Python 庫(kù)，如果這些庫(kù)未安裝或版本不匹配，服務(wù)就會(huì)啟動(dòng)失敗。

應(yīng)用程序崩潰則可能是由于代碼漏洞，如內(nèi)存泄漏、空指針引用等。當(dāng)應(yīng)用程序存在內(nèi)存泄漏時(shí)，隨著時(shí)間的推移，內(nèi)存占用會(huì)不斷增加，最終導(dǎo)致系統(tǒng)內(nèi)存不足，應(yīng)用程序崩潰?？罩羔樢脛t是在程序中訪問(wèn)了一個(gè)空的指針，導(dǎo)致程序異常終止。此外，應(yīng)用程序與系統(tǒng)環(huán)境不兼容，如不同的操作系統(tǒng)版本、內(nèi)核版本等，也可能引發(fā)崩潰問(wèn)題。

二、Linux故障定位方法論

2.1信息收集

在進(jìn)行 Linux 故障定位時(shí)，全面且準(zhǔn)確的信息收集是至關(guān)重要的第一步。系統(tǒng)日志是了解系統(tǒng)運(yùn)行狀況的重要窗口，通過(guò)查看/var/log/messages日志文件，我們可以獲取系統(tǒng)的各種事件記錄，包括系統(tǒng)啟動(dòng)、服務(wù)狀態(tài)變化、硬件錯(cuò)誤等信息。例如，當(dāng)系統(tǒng)出現(xiàn)硬件故障時(shí)，該日志文件中可能會(huì)記錄諸如 “Hardware Error: Memory parity error detected” 之類的錯(cuò)誤提示，這能幫助我們快速定位到問(wèn)題的源頭。此外，/var/log/syslog日志文件也包含了系統(tǒng)的一般性信息和錯(cuò)誤消息，對(duì)于排查故障同樣具有重要價(jià)值。

利用監(jiān)控工具能實(shí)時(shí)掌握系統(tǒng)的運(yùn)行狀態(tài)。top 是一個(gè)常用的系統(tǒng)監(jiān)控工具，它可以實(shí)時(shí)顯示系統(tǒng)中各個(gè)進(jìn)程的資源使用情況，如 CPU 使用率、內(nèi)存占用等。通過(guò)觀察 top 命令的輸出，我們可以快速發(fā)現(xiàn)占用大量資源的進(jìn)程。例如，如果某個(gè)進(jìn)程的 CPU 使用率持續(xù)居高不下，可能是該進(jìn)程存在死循環(huán)或其他異常情況，導(dǎo)致系統(tǒng)資源被大量消耗。htop 是 top 的增強(qiáng)版，它提供了更友好的界面和更多的功能，支持鼠標(biāo)操作，能更直觀地展示系統(tǒng)資源使用情況。

獲取用戶反饋也是信息收集的重要環(huán)節(jié)。用戶是系統(tǒng)的直接使用者，他們能第一時(shí)間發(fā)現(xiàn)系統(tǒng)出現(xiàn)的異常情況。比如，用戶反饋系統(tǒng)響應(yīng)緩慢，這可能是由于系統(tǒng)負(fù)載過(guò)高、網(wǎng)絡(luò)延遲等原因?qū)е碌?。通過(guò)與用戶溝通，了解他們?cè)诓僮鬟^(guò)程中遇到的具體問(wèn)題和出現(xiàn)問(wèn)題的時(shí)間、場(chǎng)景等信息，有助于我們縮小故障排查的范圍。

網(wǎng)絡(luò)監(jiān)控對(duì)于保障系統(tǒng)的網(wǎng)絡(luò)通信正常至關(guān)重要。netstat 命令可以用于查看網(wǎng)絡(luò)連接、路由表、接口統(tǒng)計(jì)等信息。通過(guò)netstat -anp命令，我們可以查看當(dāng)前系統(tǒng)所有的網(wǎng)絡(luò)連接，包括 TCP 和 UDP 連接，以及對(duì)應(yīng)的進(jìn)程 ID 和程序名稱。這在排查網(wǎng)絡(luò)連接異常時(shí)非常有用，比如發(fā)現(xiàn)某個(gè)端口被異常占用，就可以通過(guò)該命令找到占用端口的進(jìn)程，進(jìn)而分析問(wèn)題所在。iftop 工具則可以實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)帶寬的使用情況，幫助我們發(fā)現(xiàn)網(wǎng)絡(luò)帶寬被大量占用的情況，判斷是否存在網(wǎng)絡(luò)攻擊或異常流量。

2.2初步分析

在收集到足夠的信息后，接下來(lái)需要對(duì)這些信息進(jìn)行初步分析，以確定問(wèn)題的大致方向。系統(tǒng)負(fù)載是衡量系統(tǒng)繁忙程度的重要指標(biāo)，通過(guò)查看系統(tǒng)的負(fù)載情況，我們可以了解系統(tǒng)是否處于高負(fù)載狀態(tài)。使用uptime命令可以快速查看系統(tǒng)的平均負(fù)載，該命令會(huì)顯示系統(tǒng)當(dāng)前時(shí)間、系統(tǒng)運(yùn)行時(shí)間、登錄用戶數(shù)以及過(guò)去 1 分鐘、5 分鐘和 15 分鐘的平均負(fù)載。如果平均負(fù)載過(guò)高，說(shuō)明系統(tǒng)可能面臨著資源緊張的問(wèn)題。

資源瓶頸分析也是初步分析的關(guān)鍵內(nèi)容。通過(guò)查看 CPU 使用率、內(nèi)存使用情況、磁盤 I/O 和網(wǎng)絡(luò)帶寬等資源的使用情況，判斷是否存在資源瓶頸。使用top命令查看 CPU 使用率，如果%us（用戶空間 CPU 使用率）、%sy（系統(tǒng)空間 CPU 使用率）過(guò)高，可能表示 CPU 資源不足；free -m命令可以查看內(nèi)存使用情況，當(dāng)內(nèi)存使用率過(guò)高且剩余內(nèi)存較少時(shí)，可能會(huì)導(dǎo)致系統(tǒng)性能下降。另外，通過(guò)iostat -d -x命令可以查看磁盤 I/O 的詳細(xì)信息，包括磁盤的讀寫速度、等待時(shí)間等，如果磁盤 I/O 等待時(shí)間過(guò)長(zhǎng)，說(shuō)明可能存在磁盤瓶頸。

進(jìn)程行為分析有助于發(fā)現(xiàn)異常進(jìn)程。通過(guò)ps -ef命令查看所有進(jìn)程的詳細(xì)信息，包括進(jìn)程 ID、父進(jìn)程 ID、啟動(dòng)時(shí)間、執(zhí)行命令等。觀察進(jìn)程的狀態(tài)和運(yùn)行時(shí)間，判斷是否有異常進(jìn)程。例如，某個(gè)進(jìn)程長(zhǎng)時(shí)間處于僵死狀態(tài)（Z 狀態(tài)），可能會(huì)導(dǎo)致系統(tǒng)資源被占用，影響其他進(jìn)程的正常運(yùn)行。還可以使用lsof命令查看某個(gè)進(jìn)程打開(kāi)的文件和網(wǎng)絡(luò)連接，進(jìn)一步分析進(jìn)程的行為。

網(wǎng)絡(luò)狀況分析對(duì)于解決網(wǎng)絡(luò)相關(guān)的故障至關(guān)重要。通過(guò)ping命令測(cè)試網(wǎng)絡(luò)連通性，如果無(wú)法 ping 通目標(biāo)主機(jī)，可能是網(wǎng)絡(luò)連接中斷、路由錯(cuò)誤或目標(biāo)主機(jī)故障等原因?qū)е碌?。使用traceroute命令可以追蹤數(shù)據(jù)包在網(wǎng)絡(luò)中的傳輸路徑，查看數(shù)據(jù)包在哪個(gè)節(jié)點(diǎn)出現(xiàn)延遲或丟失，從而定位網(wǎng)絡(luò)故障的位置。此外，檢查網(wǎng)絡(luò)配置，如 IP 地址、子網(wǎng)掩碼、網(wǎng)關(guān)等是否正確，也是網(wǎng)絡(luò)狀況分析的重要內(nèi)容。

日志文件分析是發(fā)現(xiàn)問(wèn)題線索的重要途徑。仔細(xì)查看系統(tǒng)日志文件，尋找錯(cuò)誤信息和異常事件記錄。例如，在/var/log/messages日志文件中，如果出現(xiàn)大量的 “Out of memory” 錯(cuò)誤提示，說(shuō)明系統(tǒng)可能存在內(nèi)存不足的問(wèn)題；如果有 “Connection refused” 的錯(cuò)誤信息，可能表示某個(gè)服務(wù)未正常啟動(dòng)或端口被占用。

系統(tǒng)調(diào)用分析可以幫助我們了解程序在運(yùn)行過(guò)程中與操作系統(tǒng)內(nèi)核的交互情況。使用strace命令可以跟蹤一個(gè)進(jìn)程的系統(tǒng)調(diào)用，查看程序執(zhí)行的每一個(gè)系統(tǒng)調(diào)用及其參數(shù)和返回值。通過(guò)分析系統(tǒng)調(diào)用的結(jié)果，我們可以發(fā)現(xiàn)程序是否存在錯(cuò)誤的系統(tǒng)調(diào)用，或者在哪些系統(tǒng)調(diào)用上出現(xiàn)了異常。

2.3深入排查

當(dāng)初步分析無(wú)法確定問(wèn)題的根本原因時(shí)，就需要進(jìn)行深入排查。系統(tǒng)配置文件是系統(tǒng)正常運(yùn)行的重要依據(jù)，仔細(xì)檢查與故障相關(guān)的系統(tǒng)配置文件，確保各項(xiàng)配置正確無(wú)誤。對(duì)于 Web 服務(wù)器，需要檢查/etc/httpd/conf/httpd.conf配置文件，確認(rèn)服務(wù)器的端口設(shè)置、網(wǎng)站根目錄、虛擬主機(jī)配置等是否正確。如果配置文件中指定的網(wǎng)站根目錄不存在，或者端口被其他服務(wù)占用，就會(huì)導(dǎo)致 Web 服務(wù)器無(wú)法正常啟動(dòng)。

內(nèi)核參數(shù)對(duì)系統(tǒng)的性能和行為有著重要影響。通過(guò)查看和調(diào)整內(nèi)核參數(shù)，解決一些與內(nèi)核相關(guān)的問(wèn)題。使用sysctl -a命令可以查看所有的內(nèi)核參數(shù)，比如vm.swappiness參數(shù)表示系統(tǒng)將內(nèi)存數(shù)據(jù)交換到磁盤交換空間的傾向程度，默認(rèn)值為 60。如果系統(tǒng)內(nèi)存緊張，頻繁進(jìn)行內(nèi)存交換，可以適當(dāng)降低該值，減少內(nèi)存交換的頻率，提高系統(tǒng)性能。修改內(nèi)核參數(shù)可以通過(guò)編輯/etc/sysctl.conf配置文件來(lái)實(shí)現(xiàn)，修改完成后執(zhí)行sysctl -p使參數(shù)生效。

硬件狀態(tài)檢查也是深入排查的重要環(huán)節(jié)。使用硬件檢測(cè)工具，如smartmontools檢查硬盤的健康狀態(tài)，該工具可以讀取硬盤的 S.M.A.R.T.（自我監(jiān)測(cè)、分析及報(bào)告技術(shù)）數(shù)據(jù)，提前發(fā)現(xiàn)硬盤可能存在的故障。例如，如果硬盤的 S.M.A.R.T. 數(shù)據(jù)中出現(xiàn) “Reallocated Sectors Count”（重新分配扇區(qū)計(jì)數(shù)）數(shù)值異常增加，說(shuō)明硬盤可能存在壞道。使用memtest86+工具可以檢測(cè)內(nèi)存的穩(wěn)定性，長(zhǎng)時(shí)間運(yùn)行該工具，檢查內(nèi)存是否存在錯(cuò)誤。此外，檢查硬件的連接是否松動(dòng)，如內(nèi)存、硬盤、顯卡等硬件的數(shù)據(jù)線和電源線是否插好，也能避免因硬件連接問(wèn)題導(dǎo)致的系統(tǒng)故障。

三、實(shí)用工具大揭秘

3.1CPU 性能分析

在 Linux 系統(tǒng)中，有許多實(shí)用工具可用于 CPU 性能分析，幫助我們深入了解系統(tǒng)的運(yùn)行狀況。uptime 命令是一個(gè)簡(jiǎn)單而實(shí)用的工具，它可以快速查看系統(tǒng)的平均負(fù)載，輸出信息包括系統(tǒng)當(dāng)前時(shí)間、運(yùn)行時(shí)間、登錄用戶數(shù)以及過(guò)去 1 分鐘、5 分鐘和 15 分鐘的平均負(fù)載。例如，執(zhí)行uptime命令后，可能得到如下輸出：14:13:09 up 3:27, 4 users, load average: 0.00, 0.00, 0.00，其中l(wèi)oad average后面的三個(gè)數(shù)值分別表示 1 分鐘、5 分鐘和 15 分鐘的平均負(fù)載。平均負(fù)載是指單位時(shí)間內(nèi)，系統(tǒng)處于可運(yùn)行狀態(tài)和不可中斷狀態(tài)的平均進(jìn)程數(shù)，它反映了系統(tǒng)的繁忙程度。

vmstat 命令用于報(bào)告虛擬內(nèi)存統(tǒng)計(jì)信息，也能展示 CPU 的使用情況。通過(guò)vmstat 1命令，我們可以每秒獲取一次系統(tǒng)的統(tǒng)計(jì)信息，包括 CPU 的用戶空間使用率（%us）、系統(tǒng)空間使用率（%sy）、空閑率（%id）等。如果%us和%sy過(guò)高，說(shuō)明 CPU 在用戶態(tài)和內(nèi)核態(tài)的工作負(fù)載較大，可能存在性能瓶頸。

mpstat 是一款常用的多核 CPU 性能分析工具，使用mpstat -P ALL 1命令可以實(shí)時(shí)查詢每個(gè) CPU 的性能指標(biāo)，以及所有 CPU 的平均指標(biāo)。它會(huì)顯示每個(gè) CPU 的使用率、中斷次數(shù)、上下文切換次數(shù)等信息，幫助我們?nèi)媪私?CPU 的運(yùn)行情況。例如，在一個(gè)多核服務(wù)器上，通過(guò)該命令可以查看每個(gè)核心的負(fù)載均衡情況，判斷是否存在某個(gè)核心負(fù)載過(guò)高的問(wèn)題。

top 命令是一個(gè)實(shí)時(shí)的系統(tǒng)資源監(jiān)視器，它能動(dòng)態(tài)顯示系統(tǒng)中各個(gè)進(jìn)程的資源使用情況，包括 CPU 使用率、內(nèi)存占用等。在 top 命令的輸出界面中，我們可以看到每個(gè)進(jìn)程的詳細(xì)信息，按1鍵可以查看每個(gè) CPU 核心的使用情況。通過(guò)觀察 CPU 使用率較高的進(jìn)程，我們可以進(jìn)一步分析這些進(jìn)程的行為，判斷是否存在異常。

pidstat 命令可以對(duì)單個(gè)進(jìn)程的 CPU 使用情況進(jìn)行統(tǒng)計(jì)，使用pidstat -u 1 -p pid命令（其中pid為要監(jiān)控的進(jìn)程 ID），可以每秒輸出一次指定進(jìn)程的 CPU 使用率、用戶態(tài)時(shí)間、內(nèi)核態(tài)時(shí)間等信息。這在排查某個(gè)特定進(jìn)程占用大量 CPU 資源的問(wèn)題時(shí)非常有用，能幫助我們快速定位到問(wèn)題進(jìn)程。

perf 是一個(gè)功能強(qiáng)大的性能分析工具，它可以跟蹤進(jìn)程內(nèi)部具體函數(shù)的耗時(shí)情況。使用perf top -p pid -e cpu-clock命令（其中pid為要監(jiān)控的進(jìn)程 ID），可以實(shí)時(shí)查看指定進(jìn)程中各個(gè)函數(shù)的 CPU 使用情況，找出最耗時(shí)的函數(shù)，從而進(jìn)行針對(duì)性的優(yōu)化。例如，在分析一個(gè)性能較差的應(yīng)用程序時(shí)，通過(guò) perf 工具可以發(fā)現(xiàn)某個(gè)函數(shù)的執(zhí)行時(shí)間過(guò)長(zhǎng)，進(jìn)而對(duì)該函數(shù)的代碼進(jìn)行優(yōu)化，提高程序的整體性能。

//查看系統(tǒng)cpu使用情況
top

//查看所有cpu核信息
mpstat -P ALL 1

//查看cpu使用情況以及平均負(fù)載
vmstat 1

//進(jìn)程cpu的統(tǒng)計(jì)信息
pidstat -u 1 -p pid

//跟蹤進(jìn)程內(nèi)部函數(shù)級(jí)cpu使用情況
perf top -p pid -e cpu-clock

3.2內(nèi)存問(wèn)題診斷

在 Linux 系統(tǒng)中，準(zhǔn)確診斷內(nèi)存問(wèn)題對(duì)于保障系統(tǒng)穩(wěn)定運(yùn)行至關(guān)重要。free 命令是查看系統(tǒng)內(nèi)存使用情況的常用工具，使用free -m命令可以以 MB 為單位顯示系統(tǒng)的內(nèi)存總量、已使用內(nèi)存、空閑內(nèi)存、緩存和緩沖內(nèi)存量等信息。比如，輸出結(jié)果中的Mem: Total表示總物理內(nèi)存，Used表示已使用的內(nèi)存，F(xiàn)ree表示空閑內(nèi)存，Buff/Cache表示緩存和緩沖內(nèi)存。通過(guò)這些數(shù)據(jù)，我們可以直觀地了解系統(tǒng)內(nèi)存的整體使用狀況。

vmstat 命令不僅能用于 CPU 性能分析，還能提供內(nèi)存相關(guān)的統(tǒng)計(jì)信息。執(zhí)行vmstat 1命令，在輸出結(jié)果中，si列表示從磁盤交換到內(nèi)存的頁(yè)面數(shù)，so列表示從內(nèi)存交換到磁盤的頁(yè)面數(shù)。如果si和so的值較大，說(shuō)明系統(tǒng)頻繁進(jìn)行內(nèi)存交換，可能存在內(nèi)存不足的問(wèn)題。

top 命令在內(nèi)存問(wèn)題診斷中也發(fā)揮著重要作用。它不僅可以實(shí)時(shí)顯示進(jìn)程的 CPU 使用率，還能展示進(jìn)程的內(nèi)存使用情況。在 top 命令的輸出界面中，RES列表示進(jìn)程實(shí)際使用的物理內(nèi)存大小，VIRT列表示進(jìn)程虛擬內(nèi)存的大小。通過(guò)觀察這些數(shù)據(jù)，我們可以發(fā)現(xiàn)占用大量?jī)?nèi)存的進(jìn)程，進(jìn)而分析這些進(jìn)程是否存在內(nèi)存泄漏或其他異常情況。

pidstat 命令可以對(duì)進(jìn)程的內(nèi)存使用情況進(jìn)行統(tǒng)計(jì)。使用pidstat -p pid -r 1命令（其中pid為要監(jiān)控的進(jìn)程 ID），可以每秒獲取一次指定進(jìn)程的內(nèi)存使用統(tǒng)計(jì)信息，包括內(nèi)存的分配和釋放情況。這有助于我們跟蹤某個(gè)進(jìn)程的內(nèi)存使用趨勢(shì)，判斷是否存在內(nèi)存泄漏的跡象。

pmap 命令用于查看進(jìn)程的內(nèi)存映像信息，使用pmap -d pid命令（其中pid為要查看的進(jìn)程 ID），可以詳細(xì)了解進(jìn)程的內(nèi)存布局，包括每個(gè)內(nèi)存段的起始地址、大小、權(quán)限以及映射的文件等信息。通過(guò)分析這些信息，我們可以發(fā)現(xiàn)進(jìn)程中是否存在異常的內(nèi)存使用情況，比如某個(gè)內(nèi)存段的大小異常增大，可能暗示著內(nèi)存泄漏的發(fā)生。

valgrind 是一款強(qiáng)大的內(nèi)存調(diào)試工具，專門用于分析內(nèi)存泄漏問(wèn)題。使用valgrind --tool=memcheck --leak-check=full --log-file=./log.txt./程序名命令，可以對(duì)指定的程序進(jìn)行內(nèi)存檢測(cè)，并將詳細(xì)的檢測(cè)結(jié)果輸出到log.txt文件中。Valgrind 會(huì)模擬程序的執(zhí)行過(guò)程，分析程序在運(yùn)行時(shí)的內(nèi)存使用情況，準(zhǔn)確報(bào)告內(nèi)存泄漏的位置和大小，幫助我們快速定位和解決內(nèi)存泄漏問(wèn)題。

/查看系統(tǒng)內(nèi)存使用情況
free -m

//虛擬內(nèi)存統(tǒng)計(jì)信息
vmstat 1

//查看系統(tǒng)內(nèi)存情況
top

//1s采集周期，獲取內(nèi)存的統(tǒng)計(jì)信息
pidstat -p pid -r 1

//查看進(jìn)程的內(nèi)存映像信息
pmap -d pid

//檢測(cè)程序內(nèi)存問(wèn)題
valgrind --tool=memcheck --leak-check=full --log-file=./log.txt  ./程序名

3.3磁盤 I/O 監(jiān)測(cè)

在 Linux 系統(tǒng)中，有效地監(jiān)測(cè)磁盤 I/O 對(duì)于保障系統(tǒng)性能至關(guān)重要。iotop 命令是一個(gè)用來(lái)監(jiān)視磁盤 I/O 使用狀況的 top 類工具，它具有與 top 相似的 UI 界面，能實(shí)時(shí)顯示每個(gè)進(jìn)程的磁盤 I/O 讀寫情況。使用iotop命令后，我們可以看到每個(gè)進(jìn)程的 PID、用戶、I/O 讀寫速率等信息。例如，通過(guò)觀察DISK READ和DISK WRITE列的數(shù)據(jù)，我們可以快速找出占用大量磁盤 I/O 資源的進(jìn)程，判斷是否存在異常的 I/O 操作。

iostat 命令用于統(tǒng)計(jì)磁盤 I/O 的詳細(xì)信息，是系統(tǒng)級(jí)別的 IO 監(jiān)控工具。使用iostat -d -x -k 1 10命令，將每秒輸出一次磁盤設(shè)備的詳細(xì) I/O 統(tǒng)計(jì)信息，共輸出 10 次。輸出結(jié)果中，tps表示每秒向磁盤設(shè)備請(qǐng)求數(shù)據(jù)的次數(shù)，rkB/s表示每秒從磁盤讀的數(shù)據(jù)量，wkB/s表示每秒向磁盤寫的數(shù)據(jù)量，await表示平均每次 IO 請(qǐng)求等待時(shí)間。通過(guò)分析這些指標(biāo)，我們可以全面了解磁盤的性能狀況，判斷是否存在 I/O 瓶頸。

pidstat 命令可以查看進(jìn)程級(jí)的 IO 信息，使用pidstat -d 1 -p pid命令（其中pid為要監(jiān)控的進(jìn)程 ID），可以每秒顯示一次指定進(jìn)程的 IO 活動(dòng)，包括每秒讀的千字節(jié)數(shù)（kB_rd/s）和每秒寫的千字節(jié)數(shù)（kB_wr/s）。這在排查某個(gè)特定進(jìn)程的磁盤 I/O 問(wèn)題時(shí)非常有用，能幫助我們確定該進(jìn)程對(duì)磁盤的讀寫操作是否正常。

當(dāng)發(fā)現(xiàn)系統(tǒng) IO 異常時(shí)，可以使用 perf 工具調(diào)查系統(tǒng) IO 請(qǐng)求。使用perf record -e block:block_rq_issue -ag命令，然后按下^C組合鍵停止記錄，再執(zhí)行perf report命令，就可以查看系統(tǒng) IO 請(qǐng)求的詳細(xì)報(bào)告，分析到底是什么原因?qū)е碌?IO 異常。例如，通過(guò) perf 工具可以發(fā)現(xiàn)某個(gè)進(jìn)程頻繁發(fā)起大量的小 IO 請(qǐng)求，從而導(dǎo)致系統(tǒng) IO 性能下降，進(jìn)而對(duì)該進(jìn)程的 IO 操作進(jìn)行優(yōu)化。

//查看系統(tǒng)io信息
iotop

//統(tǒng)計(jì)io詳細(xì)信息
iostat -d -x -k 1 10

//查看進(jìn)程級(jí)io的信息
pidstat -d 1 -p  pid

//查看系統(tǒng)IO的請(qǐng)求，比如可以在發(fā)現(xiàn)系統(tǒng)IO異常時(shí)，可以使用該命令進(jìn)行調(diào)查，就能指定到底是什么原因?qū)е碌腎O異常
perf record -e block:block_rq_issue -ag
^C
perf report

3.4網(wǎng)絡(luò)故障排查

在 Linux 系統(tǒng)中，快速準(zhǔn)確地排查網(wǎng)絡(luò)故障對(duì)于保障網(wǎng)絡(luò)通信的順暢至關(guān)重要。netstat 命令是一個(gè)常用的網(wǎng)絡(luò)分析工具，使用netstat -s命令可以顯示網(wǎng)絡(luò)統(tǒng)計(jì)信息，包括 TCP、UDP、ICMP 等協(xié)議的各種統(tǒng)計(jì)數(shù)據(jù)，幫助我們了解網(wǎng)絡(luò)協(xié)議的運(yùn)行情況。使用netstat -nu命令可以顯示當(dāng)前 UDP 連接狀況，查看 UDP 端口的使用情況；netstat -apu命令可以顯示 UDP 端口號(hào)的使用情況以及對(duì)應(yīng)的進(jìn)程信息。通過(guò)分析這些信息，我們可以發(fā)現(xiàn)網(wǎng)絡(luò)連接中的異常情況，比如某個(gè) UDP 端口被大量不明來(lái)源的連接占用，可能存在網(wǎng)絡(luò)攻擊的風(fēng)險(xiǎn)。

ss 命令是新一代的網(wǎng)絡(luò)工具，它可以更高效地顯示網(wǎng)絡(luò)連接信息。使用ss -t -a命令可以顯示當(dāng)前所有的 TCP 連接，ss -s命令可以顯示 sockets 摘要信息，包括 TCP、UDP 等協(xié)議的連接數(shù)統(tǒng)計(jì)。ss -u -a命令用于顯示所有 UDP socket 的信息。與 netstat 相比，ss 命令在處理大量連接時(shí)具有更高的效率，能夠更快速地獲取網(wǎng)絡(luò)連接狀態(tài)。

sar 命令可以用于統(tǒng)計(jì)網(wǎng)絡(luò)相關(guān)的信息，使用sar -n TCP,ETCP 1命令可以查看 TCP 和 ETCP 的統(tǒng)計(jì)信息，包括 TCP 連接的建立、關(guān)閉、重傳等情況；sar -n DEV 1命令可以查看網(wǎng)絡(luò)接口的統(tǒng)計(jì)信息，如接收和發(fā)送的數(shù)據(jù)包數(shù)量、字節(jié)數(shù)等。通過(guò)這些統(tǒng)計(jì)數(shù)據(jù)，我們可以分析網(wǎng)絡(luò)的流量趨勢(shì)和連接穩(wěn)定性，判斷是否存在網(wǎng)絡(luò)擁塞或連接異常的問(wèn)題。

tcpdump 命令是一個(gè)強(qiáng)大的網(wǎng)絡(luò)抓包工具，使用tcpdump -i eth1 host 192.168.1.1 and port 80命令，可以在eth1網(wǎng)絡(luò)接口上抓取目標(biāo)主機(jī)為192.168.1.1且端口為 80 的數(shù)據(jù)包。抓取到的數(shù)據(jù)包信息可以幫助我們深入分析網(wǎng)絡(luò)通信的內(nèi)容，排查網(wǎng)絡(luò)協(xié)議錯(cuò)誤、數(shù)據(jù)傳輸異常等問(wèn)題。例如，通過(guò)分析抓包數(shù)據(jù)，可以發(fā)現(xiàn)某個(gè) HTTP 請(qǐng)求在傳輸過(guò)程中出現(xiàn)了數(shù)據(jù)丟失或錯(cuò)誤的情況，進(jìn)而定位問(wèn)題所在。

tcpflow 命令也是一個(gè)網(wǎng)絡(luò)分析工具，它可以將抓取到的數(shù)據(jù)包以流為單位顯示數(shù)據(jù)內(nèi)容，使用tcpflow -cp host 192.168.1.11命令，可以對(duì)與目標(biāo)主機(jī)192.168.1.11相關(guān)的網(wǎng)絡(luò)流量進(jìn)行分析。與 tcpdump 不同的是，tcpflow 更注重將數(shù)據(jù)包按照數(shù)據(jù)流進(jìn)行重組和顯示，便于我們查看完整的網(wǎng)絡(luò)通信過(guò)程，對(duì)于分析網(wǎng)絡(luò)應(yīng)用層協(xié)議的問(wèn)題非常有幫助。

//顯示網(wǎng)絡(luò)統(tǒng)計(jì)信息
netstat -s

//顯示當(dāng)前UDP連接狀況
netstat -nu

//顯示UDP端口號(hào)的使用情況
netstat -apu

//統(tǒng)計(jì)機(jī)器中網(wǎng)絡(luò)連接各個(gè)狀態(tài)個(gè)數(shù)
netstat -a | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

//顯示TCP連接
ss -t -a

//顯示sockets摘要信息
ss -s

//顯示所有udp sockets
ss -u -a

//tcp,etcp狀態(tài)
sar -n TCP,ETCP 1

//查看網(wǎng)絡(luò)IO
sar -n DEV 1

//抓包以包為單位進(jìn)行輸出
tcpdump -i eth1 host 192.168.1.1 and port 80 

//抓包以流為單位顯示數(shù)據(jù)內(nèi)容
tcpflow -cp host 192.168.1.1

四、案例實(shí)戰(zhàn)解析

⑴案例背景

假設(shè)我們運(yùn)營(yíng)著一個(gè)基于 Linux 系統(tǒng)的電商網(wǎng)站，服務(wù)器采用的是 CentOS 7 操作系統(tǒng)，Web 服務(wù)器使用 Nginx，后端應(yīng)用基于 Python 的 Django 框架開(kāi)發(fā)，數(shù)據(jù)庫(kù)為 MySQL。在某一天的業(yè)務(wù)高峰期，用戶反饋網(wǎng)站訪問(wèn)非常緩慢，部分頁(yè)面甚至出現(xiàn)了 500 錯(cuò)誤，嚴(yán)重影響了用戶體驗(yàn)和業(yè)務(wù)的正常進(jìn)行。

⑵定位過(guò)程

系統(tǒng)負(fù)載查看：通過(guò)uptime命令查看系統(tǒng)平均負(fù)載，發(fā)現(xiàn)過(guò)去 1 分鐘、5 分鐘和 15 分鐘的平均負(fù)載分別為 2.5、3.0 和 3.5，遠(yuǎn)高于服務(wù)器的 CPU 核心數(shù)（假設(shè)為 2 核），表明系統(tǒng)負(fù)載過(guò)高。再使用top命令進(jìn)一步觀察，發(fā)現(xiàn)%us（用戶空間 CPU 使用率）和%sy（系統(tǒng)空間 CPU 使用率）之和較高，且有一個(gè)名為python的進(jìn)程占用了大量的 CPU 資源。
進(jìn)程行為分析：使用ps -ef | grep python命令查看該 Python 進(jìn)程的詳細(xì)信息，發(fā)現(xiàn)它是 Django 應(yīng)用的主進(jìn)程。接著使用lsof -p pid（pid為該 Python 進(jìn)程的 ID）查看該進(jìn)程打開(kāi)的文件和網(wǎng)絡(luò)連接，發(fā)現(xiàn)它與 MySQL 數(shù)據(jù)庫(kù)建立了大量的連接，且有一些連接處于TIME_WAIT狀態(tài)。
網(wǎng)絡(luò)狀況分析：使用ping命令測(cè)試服務(wù)器與 MySQL 數(shù)據(jù)庫(kù)服務(wù)器之間的網(wǎng)絡(luò)連通性，結(jié)果顯示網(wǎng)絡(luò)延遲正常。但通過(guò)netstat -anp | grep :3306（3306 為 MySQL 數(shù)據(jù)庫(kù)的默認(rèn)端口）查看與 MySQL 數(shù)據(jù)庫(kù)的連接情況，發(fā)現(xiàn)有大量的連接處于ESTABLISHED狀態(tài)，可能存在連接泄漏的問(wèn)題。
日志文件分析：查看 Nginx 的錯(cuò)誤日志/var/log/nginx/error.log，發(fā)現(xiàn)有大量的 “500 Internal Server Error” 錯(cuò)誤記錄，并且提示 “Gateway Time-out”，表明 Nginx 在轉(zhuǎn)發(fā)請(qǐng)求到后端應(yīng)用時(shí)出現(xiàn)了超時(shí)。查看 Django 應(yīng)用的日志/var/log/django/django.log，發(fā)現(xiàn)有一些數(shù)據(jù)庫(kù)查詢錯(cuò)誤，如 “Too many connections”，進(jìn)一步驗(yàn)證了數(shù)據(jù)庫(kù)連接可能存在問(wèn)題。
系統(tǒng)調(diào)用分析：使用strace -p pid（pid為 Django 應(yīng)用的主進(jìn)程 ID）跟蹤該進(jìn)程的系統(tǒng)調(diào)用，發(fā)現(xiàn)它在執(zhí)行數(shù)據(jù)庫(kù)查詢時(shí)，頻繁地進(jìn)行connect和close系統(tǒng)調(diào)用，這可能是導(dǎo)致連接泄漏和系統(tǒng)負(fù)載過(guò)高的原因。

⑶解決方法

優(yōu)化代碼：檢查 Django 應(yīng)用的代碼，發(fā)現(xiàn)存在一些數(shù)據(jù)庫(kù)查詢沒(méi)有正確關(guān)閉連接的問(wèn)題。在代碼中添加了正確的連接關(guān)閉邏輯，確保每個(gè)數(shù)據(jù)庫(kù)查詢結(jié)束后都能及時(shí)關(guān)閉連接，避免連接泄漏。

調(diào)整配置參數(shù)：在 MySQL 數(shù)據(jù)庫(kù)的配置文件/etc/my.cnf中，適當(dāng)增加max_connections參數(shù)的值，以允許更多的并發(fā)連接。同時(shí)，調(diào)整wait_timeout和interactive_timeout參數(shù)，縮短空閑連接的等待時(shí)間，及時(shí)釋放空閑連接。在 Django 應(yīng)用的配置文件中，優(yōu)化數(shù)據(jù)庫(kù)連接池的配置，設(shè)置合理的最大連接數(shù)和最小連接數(shù)，提高連接的復(fù)用率。

負(fù)載均衡與緩存機(jī)制：考慮到業(yè)務(wù)高峰期的負(fù)載壓力，在 Nginx 前面增加了一層負(fù)載均衡器，如 HAProxy，將請(qǐng)求均勻地分發(fā)到多個(gè)后端服務(wù)器上，減輕單個(gè)服務(wù)器的壓力。同時(shí)，在應(yīng)用層和數(shù)據(jù)庫(kù)層增加緩存機(jī)制，如使用 Redis 作為緩存服務(wù)器，緩存常用的數(shù)據(jù)和查詢結(jié)果，減少數(shù)據(jù)庫(kù)的查詢次數(shù)。

硬件升級(jí)：如果業(yè)務(wù)量持續(xù)增長(zhǎng)，當(dāng)前的硬件配置無(wú)法滿足需求，可以考慮升級(jí)服務(wù)器硬件，如增加 CPU 核心數(shù)、內(nèi)存容量和磁盤 I/O 性能，以提高系統(tǒng)的整體性能。

責(zé)任編輯：武曉燕來(lái)源：深度Linux

Linux 系統(tǒng)服務(wù)器

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="y1vzi"><p id="y1vzi"></p></sub>

^{<blockquote id="y1vzi"><i id="y1vzi"></i></blockquote>}