自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="pb39q"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一整套Java線上故障排查技巧，愛了！

作者：fredalxin 2020-10-20 17:15:05

開發(fā) 后端

線上故障主要會(huì)包括 CPU、磁盤、內(nèi)存以及網(wǎng)絡(luò)問題，而大多數(shù)故障可能會(huì)包含不止一個(gè)層面的問題，所以進(jìn)行排查時(shí)候盡量四個(gè)方面依次排查一遍。

線上故障主要會(huì)包括 CPU、磁盤、內(nèi)存以及網(wǎng)絡(luò)問題，而大多數(shù)故障可能會(huì)包含不止一個(gè)層面的問題，所以進(jìn)行排查時(shí)候盡量四個(gè)方面依次排查一遍。

同時(shí)例如 jstack、jmap 等工具也是不囿于一個(gè)方面的問題的，基本上出問題就是 df、free、top 三連，然后依次 jstack、jmap 伺候，具體問題具體分析即可。

CPU

一般來講我們首先會(huì)排查 CPU 方面的問題。CPU 異常往往還是比較好定位的。原因包括業(yè)務(wù)邏輯問題(死循環(huán))、頻繁 GC 以及上下文切換過多。

而最常見的往往是業(yè)務(wù)邏輯(或者框架邏輯)導(dǎo)致的，可以使用 jstack 來分析對(duì)應(yīng)的堆棧情況。

①使用 jstack 分析 CPU 問題

我們先用 ps 命令找到對(duì)應(yīng)進(jìn)程的 pid（如果你有好幾個(gè)目標(biāo)進(jìn)程，可以先用 top 看一下哪個(gè)占用比較高）。

接著用top -H -p pid來找到 CPU 使用率比較高的一些線程：

然后將占用最高的 pid 轉(zhuǎn)換為 16 進(jìn)制 printf '%x\n' pid 得到 nid：

接著直接在 jstack 中找到相應(yīng)的堆棧信息 jstack pid |grep 'nid' -C5 –color：

可以看到我們已經(jīng)找到了 nid 為 0x42 的堆棧信息，接著只要仔細(xì)分析一番即可。

當(dāng)然更常見的是我們對(duì)整個(gè) jstack 文件進(jìn)行分析，通常我們會(huì)比較關(guān)注 WAITING 和 TIMED_WAITING 的部分，BLOCKED 就不用說了。

我們可以使用命令 cat jstack.log | grep "java.lang.Thread.State" | sort -nr | uniq -c 來對(duì) jstack 的狀態(tài)有一個(gè)整體的把握，如果 WAITING 之類的特別多，那么多半是有問題啦。

②頻繁 GC

當(dāng)然我們還是會(huì)使用 jstack 來分析問題，但有時(shí)候我們可以先確定下 GC 是不是太頻繁。

使用 jstat -gc pid 1000 命令來對(duì) GC 分代變化情況進(jìn)行觀察，1000 表示采樣間隔（ms），S0C/S1C、S0U/S1U、EC/EU、OC/OU、MC/MU 分別代表兩個(gè) Survivor 區(qū)、Eden 區(qū)、老年代、元數(shù)據(jù)區(qū)的容量和使用量。

YGC/YGT、FGC/FGCT、GCT 則代表 YoungGc、FullGc 的耗時(shí)和次數(shù)以及總耗時(shí)。

如果看到 GC 比較頻繁，再針對(duì) GC 方面做進(jìn)一步分析，具體可以參考一下 GC章節(jié)的描述。

③上下文切換

針對(duì)頻繁上下文問題，我們可以使用 vmstat 命令來進(jìn)行查看：

cs（context switch）一列則代表了上下文切換的次數(shù)。如果我們希望對(duì)特定的 pid 進(jìn)行監(jiān)控那么可以使用 pidstat -w pid 命令，cswch 和 nvcswch 表示自愿及非自愿切換。

磁盤

磁盤問題和 CPU 一樣是屬于比較基礎(chǔ)的。首先是磁盤空間方面，我們直接使用 df -hl 來查看文件系統(tǒng)狀態(tài)：

更多時(shí)候，磁盤問題還是性能上的問題。我們可以通過 iostatiostat -d -k -x 來進(jìn)行分析：

最后一列 %util 可以看到每塊磁盤寫入的程度，而 rrqpm/s 以及 wrqm/s 分別表示讀寫速度，一般就能幫助定位到具體哪塊磁盤出現(xiàn)問題了。

另外我們還需要知道是哪個(gè)進(jìn)程在進(jìn)行讀寫，一般來說開發(fā)自己心里有數(shù)，或者用 iotop 命令來進(jìn)行定位文件讀寫的來源。

不過這邊拿到的是 tid，我們要轉(zhuǎn)換成 pid，可以通過 readlink 來找到 pidreadlink -f /proc/*/task/tid/../..。

找到 pid 之后就可以看這個(gè)進(jìn)程具體的讀寫情況 cat /proc/pid/io：

我們還可以通過 lsof 命令來確定具體的文件讀寫情況 lsof -p pid：

內(nèi)存

內(nèi)存問題排查起來相對(duì)比 CPU 麻煩一些，場(chǎng)景也比較多。主要包括 OOM、GC 問題和堆外內(nèi)存。

一般來講，我們會(huì)先用 free 命令先來檢查一發(fā)內(nèi)存的各種情況：

堆內(nèi)內(nèi)存

內(nèi)存問題大多還都是堆內(nèi)內(nèi)存問題。表象上主要分為 OOM 和 Stack Overflow。

①OOM

JMV 中的內(nèi)存不足，OOM 大致可以分為以下幾種：

Exception in thread "main" java.lang.OutOfMemoryError: unable to create new native thread

這個(gè)意思是沒有足夠的內(nèi)存空間給線程分配 Java 棧，基本上還是線程池代碼寫的有問題，比如說忘記 shutdown，所以說應(yīng)該首先從代碼層面來尋找問題，使用 jstack 或者 jmap。

如果一切都正常，JVM 方面可以通過指定 Xss 來減少單個(gè) thread stack 的大小。

另外也可以在系統(tǒng)層面，可以通過修改 /etc/security/limits.confnofile 和 nproc 來增大 os 對(duì)線程的限制。

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

這個(gè)意思是堆的內(nèi)存占用已經(jīng)達(dá)到 -Xmx 設(shè)置的最大值，應(yīng)該是最常見的的 OOM 錯(cuò)誤了。

解決思路仍然是先應(yīng)該在代碼中找，懷疑存在內(nèi)存泄漏，通過 jstack 和 jmap 去定位問題。如果說一切都正常，才需要通過調(diào)整 Xmx 的值來擴(kuò)大內(nèi)存。

Caused by: java.lang.OutOfMemoryError: Meta space

這個(gè)意思是元數(shù)據(jù)區(qū)的內(nèi)存占用已經(jīng)達(dá)到 XX:MaxMetaspaceSize 設(shè)置的最大值，排查思路和上面的一致，參數(shù)方面可以通過 XX:MaxPermSize 來進(jìn)行調(diào)整（這里就不說 1.8 以前的永久代了）。

②Stack Overflow

棧內(nèi)存溢出，這個(gè)大家見到也比較多。

Exception in thread "main" java.lang.StackOverflowError

表示線程棧需要的內(nèi)存大于 Xss 值，同樣也是先進(jìn)行排查，參數(shù)方面通過Xss來調(diào)整，但調(diào)整的太大可能又會(huì)引起 OOM。

③使用 JMAP 定位代碼內(nèi)存泄漏

上述關(guān)于 OOM 和 Stack Overflow 的代碼排查方面，我們一般使用 JMAPjmap -dump:format=b,file=filename pid 來導(dǎo)出 dump 文件：

通過 mat（Eclipse Memory Analysis Tools）導(dǎo)入 dump 文件進(jìn)行分析，內(nèi)存泄漏問題一般我們直接選 Leak Suspects 即可，mat 給出了內(nèi)存泄漏的建議。

另外也可以選擇 Top Consumers 來查看最大對(duì)象報(bào)告。和線程相關(guān)的問題可以選擇 thread overview 進(jìn)行分析。

除此之外就是選擇 Histogram 類概覽來自己慢慢分析，大家可以搜搜 mat 的相關(guān)教程。

日常開發(fā)中，代碼產(chǎn)生內(nèi)存泄漏是比較常見的事，并且比較隱蔽，需要開發(fā)者更加關(guān)注細(xì)節(jié)。

比如說每次請(qǐng)求都 new 對(duì)象，導(dǎo)致大量重復(fù)創(chuàng)建對(duì)象；進(jìn)行文件流操作但未正確關(guān)閉；手動(dòng)不當(dāng)觸發(fā) GC；ByteBuffer 緩存分配不合理等都會(huì)造成代碼 OOM。

另一方面，我們可以在啟動(dòng)參數(shù)中指定 -XX:+HeapDumpOnOutOfMemoryError 來保存 OOM 時(shí)的 dump 文件。

④GC 問題和線程

GC 問題除了影響 CPU 也會(huì)影響內(nèi)存，排查思路也是一致的。一般先使用 jstat 來查看分代變化情況，比如 youngGC 或者 FullGC 次數(shù)是不是太多呀；EU、OU 等指標(biāo)增長(zhǎng)是不是異常呀。

線程的話太多而且不被及時(shí) GC 也會(huì)引發(fā) OOM，大部分就是之前說的 unable to create new native thread。

除了 jstack 細(xì)細(xì)分析 dump 文件外，我們一般先會(huì)看下總體線程，通過 pstreee -p pid |wc -l。

或者直接通過查看 /proc/pid/task 的數(shù)量即為線程數(shù)量。

堆外內(nèi)存

如果碰到堆外內(nèi)存溢出，那可真是太不幸了。首先堆外內(nèi)存溢出表現(xiàn)就是物理常駐內(nèi)存增長(zhǎng)快，報(bào)錯(cuò)的話視使用方式都不確定。

如果由于使用 Netty 導(dǎo)致的，那錯(cuò)誤日志里可能會(huì)出現(xiàn) OutOfDirectMemoryError 錯(cuò)誤，如果直接是 DirectByteBuffer，那會(huì)報(bào) OutOfMemoryError: Direct buffer memory。

堆外內(nèi)存溢出往往是和 NIO 的使用相關(guān)，一般我們先通過 pmap 來查看下進(jìn)程占用的內(nèi)存情況 pmap -x pid | sort -rn -k3 | head -30，這段意思是查看對(duì)應(yīng) pid 倒序前 30 大的內(nèi)存段。

這邊可以再一段時(shí)間后再跑一次命令看看內(nèi)存增長(zhǎng)情況，或者和正常機(jī)器比較可疑的內(nèi)存段在哪里。

我們?nèi)绻_定有可疑的內(nèi)存端，需要通過 gdb 來分析 gdb --batch --pid {pid} -ex "dump memory filename.dump {內(nèi)存起始地址} {內(nèi)存起始地址+內(nèi)存塊大小}"。

獲取 dump 文件后可用 heaxdump 進(jìn)行查看 hexdump -C filename | less，不過大多數(shù)看到的都是二進(jìn)制亂碼。

NMT 是 Java7U40 引入的 HotSpot 新特性，配合 jcmd 命令我們就可以看到具體內(nèi)存組成了。

需要在啟動(dòng)參數(shù)中加入 -XX:NativeMemoryTracking=summary 或者 -XX:NativeMemoryTracking=detail，會(huì)有略微性能損耗。

一般對(duì)于堆外內(nèi)存緩慢增長(zhǎng)直到爆炸的情況來說，可以先設(shè)一個(gè)基線 jcmd pid VM.native_memory baseline。

然后等放一段時(shí)間后再去看看內(nèi)存增長(zhǎng)的情況，通過 jcmd pid VM.native_memory detail.diff(summary.diff) 做一下 summary 或者 detail 級(jí)別的 diff。

可以看到 jcmd 分析出來的內(nèi)存十分詳細(xì)，包括堆內(nèi)、線程以及 GC（所以上述其他內(nèi)存異常其實(shí)都可以用 nmt 來分析），這邊堆外內(nèi)存我們重點(diǎn)關(guān)注 Internal 的內(nèi)存增長(zhǎng)，如果增長(zhǎng)十分明顯的話那就是有問題了。

detail 級(jí)別的話還會(huì)有具體內(nèi)存段的增長(zhǎng)情況，如下圖：

此外在系統(tǒng)層面，我們還可以使用 strace 命令來監(jiān)控內(nèi)存分配 strace -f -e "brk,mmap,munmap" -p pid。

這邊內(nèi)存分配信息主要包括了 pid 和內(nèi)存地址：

不過其實(shí)上面那些操作也很難定位到具體的問題點(diǎn)，關(guān)鍵還是要看錯(cuò)誤日志棧，找到可疑的對(duì)象，搞清楚它的回收機(jī)制，然后去分析對(duì)應(yīng)的對(duì)象。

比如 DirectByteBuffer 分配內(nèi)存的話，是需要 Full GC 或者手動(dòng) system.gc 來進(jìn)行回收的（所以最好不要使用-XX:+DisableExplicitGC）。

那么其實(shí)我們可以跟蹤一下 DirectByteBuffer 對(duì)象的內(nèi)存情況，通過 jmap -histo:live pid 手動(dòng)觸發(fā) Full GC 來看看堆外內(nèi)存有沒有被回收。

如果被回收了，那么大概率是堆外內(nèi)存本身分配的太小了，通過 -XX:MaxDirectMemorySize 進(jìn)行調(diào)整。

如果沒有什么變化，那就要使用 jmap 去分析那些不能被 GC 的對(duì)象，以及和 DirectByteBuffer 之間的引用關(guān)系了。

GC 問題

堆內(nèi)內(nèi)存泄漏總是和 GC 異常相伴。不過 GC 問題不只是和內(nèi)存問題相關(guān)，還有可能引起 CPU 負(fù)載、網(wǎng)絡(luò)問題等系列并發(fā)癥，只是相對(duì)來說和內(nèi)存聯(lián)系緊密些，所以我們?cè)诖藛为?dú)總結(jié)一下 GC 相關(guān)問題。

我們?cè)?CPU 章介紹了使用 jstat 來獲取當(dāng)前 GC 分代變化信息。

而更多時(shí)候，我們是通過 GC 日志來排查問題的，在啟動(dòng)參數(shù)中加上 -verbose:gc，-XX:+PrintGCDetails，-XX:+PrintGCDateStamps，-XX:+PrintGCTimeStamps 來開啟 GC 日志。

常見的 Young GC、Full GC 日志含義在此就不做贅述了。針對(duì) GC 日志，我們就能大致推斷出 youngGC 與 Full GC 是否過于頻繁或者耗時(shí)過長(zhǎng)，從而對(duì)癥下藥。

我們下面將對(duì) G1 垃圾收集器來做分析，這邊也建議大家使用 G1-XX:+UseG1GC。

①youngGC 過頻繁

youngGC 頻繁一般是短周期小對(duì)象較多，先考慮是不是 Eden 區(qū)/新生代設(shè)置的太小了，看能否通過調(diào)整 -Xmn、-XX:SurvivorRatio 等參數(shù)設(shè)置來解決問題。

如果參數(shù)正常，但是 youngGC 頻率還是太高，就需要使用 Jmap 和 MAT 對(duì) dump 文件進(jìn)行進(jìn)一步排查了。

②youngGC 耗時(shí)過長(zhǎng)

耗時(shí)過長(zhǎng)問題就要看 GC 日志里耗時(shí)耗在哪一塊了。以 G1 日志為例，可以關(guān)注 Root Scanning、Object Copy、Ref Proc 等階段。

Ref Proc 耗時(shí)長(zhǎng)，就要注意引用相關(guān)的對(duì)象。Root Scanning 耗時(shí)長(zhǎng)，就要注意線程數(shù)、跨代引用。

Object Copy 則需要關(guān)注對(duì)象生存周期。而且耗時(shí)分析它需要橫向比較，就是和其他項(xiàng)目或者正常時(shí)間段的耗時(shí)比較。

比如說圖中的 Root Scanning 和正常時(shí)間段比增長(zhǎng)較多，那就是起的線程太多了。

③觸發(fā) Full GC

G1 中更多的還是 mixedGC，但 mixedGC 可以和 youngGC 思路一樣去排查。

觸發(fā) Full GC 了一般都會(huì)有問題，G1 會(huì)退化使用 Serial 收集器來完成垃圾的清理工作，暫停時(shí)長(zhǎng)達(dá)到秒級(jí)別，可以說是半跪了。

FullGC 的原因可能包括以下這些，以及參數(shù)調(diào)整方面的一些思路：

并發(fā)階段失?。?/strong>在并發(fā)標(biāo)記階段，MixGC 之前老年代就被填滿了，那么這時(shí)候 G1 就會(huì)放棄標(biāo)記周期。

這種情況，可能就需要增加堆大小，或者調(diào)整并發(fā)標(biāo)記線程數(shù) -XX:ConcGCThreads。

晉升失?。?/strong>在 GC 的時(shí)候沒有足夠的內(nèi)存供存活/晉升對(duì)象使用，所以觸發(fā)了 Full GC。

這時(shí)候可以通過 -XX:G1ReservePercent 來增加預(yù)留內(nèi)存百分比，減少 -XX:InitiatingHeapOccupancyPercent 來提前啟動(dòng)標(biāo)記，-XX:ConcGCThreads 來增加標(biāo)記線程數(shù)也是可以的。

大對(duì)象分配失敗：大對(duì)象找不到合適的 Region 空間進(jìn)行分配，就會(huì)進(jìn)行 Full GC，這種情況下可以增大內(nèi)存或者增大 -XX:G1HeapRegionSize。

程序主動(dòng)執(zhí)行 System.gc()：不要隨便寫就對(duì)了。

另外，我們可以在啟動(dòng)參數(shù)中配置 -XX:HeapDumpPath=/xxx/dump.hprof 來 dump fullGC 相關(guān)的文件，并通過 jinfo 來進(jìn)行 GC 前后的 dump：

jinfo -flag +HeapDumpBeforeFullGC pid
jinfo -flag +HeapDumpAfterFullGC pid

這樣得到兩份 dump 文件，對(duì)比后主要關(guān)注被 GC 掉的問題對(duì)象來定位問題。

網(wǎng)絡(luò)

涉及到網(wǎng)絡(luò)層面的問題一般都比較復(fù)雜，場(chǎng)景多，定位難，成為了大多數(shù)開發(fā)的噩夢(mèng)，應(yīng)該是最復(fù)雜的了。

這里會(huì)舉一些例子，并從 TCP 層、應(yīng)用層以及工具的使用等方面進(jìn)行闡述。

①超時(shí)

超時(shí)錯(cuò)誤大部分處在應(yīng)用層面，所以這塊著重理解概念。超時(shí)大體可以分為連接超時(shí)和讀寫超時(shí)，某些使用連接池的客戶端框架還會(huì)存在獲取連接超時(shí)和空閑連接清理超時(shí)。

讀寫超時(shí)：readTimeout/writeTimeout，有些框架叫做 so_timeout 或者 socketTimeout，均指的是數(shù)據(jù)讀寫超時(shí)。

注意這邊的超時(shí)大部分是指邏輯上的超時(shí)。soa 的超時(shí)指的也是讀超時(shí)。讀寫超時(shí)一般都只針對(duì)客戶端設(shè)置。

連接超時(shí)：connectionTimeout，客戶端通常指與服務(wù)端建立連接的最大時(shí)間。

服務(wù)端這邊 connectionTimeout 就有些五花八門了，Jetty 中表示空閑連接清理時(shí)間，Tomcat 則表示連接維持的最大時(shí)間。

其他：包括連接獲取超時(shí) connectionAcquireTimeout 和空閑連接清理超時(shí) idleConnectionTimeout。多用于使用連接池或隊(duì)列的客戶端或服務(wù)端框架。

我們?cè)谠O(shè)置各種超時(shí)時(shí)間中，需要確認(rèn)的是盡量保持客戶端的超時(shí)小于服務(wù)端的超時(shí)，以保證連接正常結(jié)束。

在實(shí)際開發(fā)中，我們關(guān)心最多的應(yīng)該是接口的讀寫超時(shí)了。如何設(shè)置合理的接口超時(shí)是一個(gè)問題。

如果接口超時(shí)設(shè)置的過長(zhǎng)，那么有可能會(huì)過多地占用服務(wù)端的 TCP 連接。而如果接口設(shè)置的過短，那么接口超時(shí)就會(huì)非常頻繁。

服務(wù)端接口明明 RT 降低，但客戶端仍然一直超時(shí)又是另一個(gè)問題。這個(gè)問題其實(shí)很簡(jiǎn)單，客戶端到服務(wù)端的鏈路包括網(wǎng)絡(luò)傳輸、排隊(duì)以及服務(wù)處理等，每一個(gè)環(huán)節(jié)都可能是耗時(shí)的原因。

②TCP 隊(duì)列溢出

TCP 隊(duì)列溢出是個(gè)相對(duì)底層的錯(cuò)誤，它可能會(huì)造成超時(shí)、RST 等更表層的錯(cuò)誤。因此錯(cuò)誤也更隱蔽，所以我們單獨(dú)說一說。

如上圖所示，這里有兩個(gè)隊(duì)列：

syns queue（半連接隊(duì)列）

accept queue（全連接隊(duì)列）

三次握手，在 server 收到 client 的 syn 后，把消息放到 syns queue，回復(fù) syn+ack 給 client，server 收到 client 的 ack。

如果這時(shí) accept queue 沒滿，那就從 syns queue 拿出暫存的信息放入 accept queue 中，否則按 tcp_abort_on_overflow 指示的執(zhí)行。

tcp_abort_on_overflow 0 表示如果三次握手第三步的時(shí)候 accept queue 滿了那么 server 扔掉 client 發(fā)過來的 ack。

tcp_abort_on_overflow 1 則表示第三步的時(shí)候如果全連接隊(duì)列滿了，server 發(fā)送一個(gè) RST 包給 client，表示廢掉這個(gè)握手過程和這個(gè)連接，意味著日志里可能會(huì)有很多 connection reset/connection reset by peer。

那么在實(shí)際開發(fā)中，我們?cè)趺茨芸焖俣ㄎ坏?TCP 隊(duì)列溢出呢？

netstat 命令，執(zhí)行 netstat -s | egrep "listen|LISTEN"：

如上圖所示，overflowed 表示全連接隊(duì)列溢出的次數(shù)，sockets dropped 表示半連接隊(duì)列溢出的次數(shù)。

ss 命令，執(zhí)行 ss -lnt：

上面看到 Send-Q 表示第三列的 Listen 端口上的全連接隊(duì)列最大為 5，第一列 Recv-Q 為全連接隊(duì)列當(dāng)前使用了多少。

接著我們看看怎么設(shè)置全連接、半連接隊(duì)列大小吧：全連接隊(duì)列的大小取決于 min（backlog，somaxconn）。

Backlog 是在 Socket 創(chuàng)建的時(shí)候傳入的，somaxconn 是一個(gè) OS 級(jí)別的系統(tǒng)參數(shù)。而半連接隊(duì)列的大小取決于 max（64, /proc/sys/net/ipv4/tcp_max_syn_backlog）。

在日常開發(fā)中，我們往往使用 Servlet 容器作為服務(wù)端，所以我們有時(shí)候也需要關(guān)注容器的連接隊(duì)列大小。

在 Tomcat 中 backlog 叫做 acceptCount，在 Jetty 里面則是 acceptQueueSize。

③RST 異常

RST 包表示連接重置，用于關(guān)閉一些無用的連接，通常表示異常關(guān)閉，區(qū)別于四次揮手。

在實(shí)際開發(fā)中，我們往往會(huì)看到 connection reset/connection reset by peer 錯(cuò)誤，這種情況就是 RST 包導(dǎo)致的。

端口不存在：如果像不存在的端口發(fā)出建立連接 SYN 請(qǐng)求，那么服務(wù)端發(fā)現(xiàn)自己并沒有這個(gè)端口則會(huì)直接返回一個(gè) RST 報(bào)文，用于中斷連接。

主動(dòng)代替 FIN 終止連接：一般來說，正常的連接關(guān)閉都是需要通過 FIN 報(bào)文實(shí)現(xiàn)，然而我們也可以用 RST 報(bào)文來代替 FIN，表示直接終止連接。

實(shí)際開發(fā)中，可設(shè)置 SO_LINGER 數(shù)值來控制，這種往往是故意的，來跳過 TIMED_WAIT，提供交互效率，不閑就慎用。

客戶端或服務(wù)端有一邊發(fā)生了異常，該方向?qū)Χ税l(fā)送 RST 以告知關(guān)閉連接：我們上面講的 TCP 隊(duì)列溢出發(fā)送 RST 包其實(shí)也是屬于這一種。

這種往往是由于某些原因，一方無法再能正常處理請(qǐng)求連接了（比如程序崩了，隊(duì)列滿了），從而告知另一方關(guān)閉連接。

接收到的 TCP 報(bào)文不在已知的 TCP 連接內(nèi)：比如，一方機(jī)器由于網(wǎng)絡(luò)實(shí)在太差 TCP 報(bào)文失蹤了，另一方關(guān)閉了該連接，然后過了許久收到了之前失蹤的 TCP 報(bào)文，但由于對(duì)應(yīng)的 TCP 連接已不存在，那么會(huì)直接發(fā)一個(gè) RST 包以便開啟新的連接。

一方長(zhǎng)期未收到另一方的確認(rèn)報(bào)文，在一定時(shí)間或重傳次數(shù)后發(fā)出 RST 報(bào)文。

這種大多也和網(wǎng)絡(luò)環(huán)境相關(guān)了，網(wǎng)絡(luò)環(huán)境差可能會(huì)導(dǎo)致更多的 RST 報(bào)文。

之前說過 RST 報(bào)文多會(huì)導(dǎo)致程序報(bào)錯(cuò)，在一個(gè)已關(guān)閉的連接上讀操作會(huì)報(bào) connection reset，而在一個(gè)已關(guān)閉的連接上寫操作則會(huì)報(bào) connection reset by peer。

通常我們可能還會(huì)看到 broken pipe 錯(cuò)誤，這是管道層面的錯(cuò)誤，表示對(duì)已關(guān)閉的管道進(jìn)行讀寫，往往是在收到 RST，報(bào)出 connection reset 錯(cuò)后繼續(xù)讀寫數(shù)據(jù)報(bào)的錯(cuò)，這個(gè)在 glibc 源碼注釋中也有介紹。

我們?cè)谂挪楣收蠒r(shí)候怎么確定有 RST 包的存在呢？當(dāng)然是使用 tcpdump 命令進(jìn)行抓包，并使用 wireshark 進(jìn)行簡(jiǎn)單分析了。

tcpdump -i en0 tcp -w xxx.cap，en0 表示監(jiān)聽的網(wǎng)卡：

接下來我們通過 wireshark 打開抓到的包，可能就能看到如下圖所示，紅色的就表示 RST 包了。

④TIME_WAIT 和 CLOSE_WAIT

TIME_WAIT 和 CLOSE_WAIT 是啥意思相信大家都知道。

在線上時(shí)，我們可以直接用命令 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'來查看 time-wait 和 close_wait 的數(shù)量。

用 ss 命令會(huì)更快 ss -ant | awk '{++S[$1]} END {for(a in S) print a, S[a]}'：

TIME_WAIT：time_wait 的存在一是為了丟失的數(shù)據(jù)包被后面連接復(fù)用，二是為了在 2MSL 的時(shí)間范圍內(nèi)正常關(guān)閉連接。

它的存在其實(shí)會(huì)大大減少 RST 包的出現(xiàn)。過多的 time_wait 在短連接頻繁的場(chǎng)景比較容易出現(xiàn)。

這種情況可以在服務(wù)端做一些內(nèi)核參數(shù)調(diào)優(yōu)：

#表示開啟重用。允許將TIME-WAIT sockets重新用于新的TCP連接，默認(rèn)為0，表示關(guān)閉
net.ipv4.tcp_tw_reuse = 1
#表示開啟TCP連接中TIME-WAIT sockets的快速回收，默認(rèn)為0，表示關(guān)閉
net.ipv4.tcp_tw_recycle = 1

當(dāng)然我們不要忘記在 NAT 環(huán)境下因?yàn)闀r(shí)間戳錯(cuò)亂導(dǎo)致數(shù)據(jù)包被拒絕的坑了，另外的辦法就是改小 tcp_max_tw_buckets，超過這個(gè)數(shù)的 time_wait 都會(huì)被干掉，不過這也會(huì)導(dǎo)致報(bào) time wait bucket table overflow 的錯(cuò)。

CLOSE_WAIT：close_wait 往往都是因?yàn)閼?yīng)用程序?qū)懙挠袉栴}，沒有在 ACK 后再次發(fā)起 FIN 報(bào)文。

close_wait 出現(xiàn)的概率甚至比 time_wait 要更高，后果也更嚴(yán)重。往往是由于某個(gè)地方阻塞住了，沒有正常關(guān)閉連接，從而漸漸地消耗完所有的線程。

想要定位這類問題，最好是通過 jstack 來分析線程堆棧來排查問題，具體可參考上述章節(jié)。這里僅舉一個(gè)例子。

開發(fā)同學(xué)說應(yīng)用上線后 CLOSE_WAIT 就一直增多，直到掛掉為止，jstack 后找到比較可疑的堆棧是大部分線程都卡在了 countdownlatch.await 方法。

找開發(fā)同學(xué)了解后得知使用了多線程但是確沒有 catch 異常，修改后發(fā)現(xiàn)異常僅僅是最簡(jiǎn)單的升級(jí) SDK 后常出現(xiàn)的 class not found。

責(zé)任編輯：龐桂玉來源： Java團(tuán)長(zhǎng)

Java 故障排查命令

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

Linux系統(tǒng)線上故障排查的幾種技巧
流量高峰期，服務(wù)器CPU使用率過高報(bào)警，你登錄Linux上去top完之后，卻不知道怎么進(jìn)一步定位，到底是系統(tǒng)CPU資源太少，還是程序并發(fā)部分寫得有問題

2019-03-29 10:22:08

Linux系統(tǒng)故障技巧

飛魚星為孔府家酒建立一整套上網(wǎng)行為管理機(jī)制
曲阜孔府家酒業(yè)有限公司項(xiàng)目組經(jīng)過對(duì)品質(zhì)、技術(shù)、售后、口碑等多方面的考慮，選擇飛魚星山東辦事提供的無線網(wǎng)絡(luò)解決方案，采用了一臺(tái)VR4900、一臺(tái)VS5524GA、六臺(tái)VE982W，實(shí)現(xiàn)了公司無線網(wǎng)絡(luò)的建設(shè)，并實(shí)現(xiàn)了對(duì)員工上網(wǎng)行為管理的問題。

2011-07-18 10:07:41

新一代數(shù)據(jù)管理平臺(tái)戴爾易安信PowerProtect|有這一整套方案，數(shù)據(jù)保護(hù)穩(wěn)了！
戴爾科技作為20年Gartner數(shù)據(jù)保護(hù)魔力象限領(lǐng)導(dǎo)者，在數(shù)據(jù)保護(hù)領(lǐng)域有著雄厚的技術(shù)和經(jīng)驗(yàn)的積累，最新發(fā)布的數(shù)據(jù)保護(hù)大殺器方案，能夠幫助我們的客戶保證數(shù)據(jù)的安全，從而提升業(yè)務(wù)的可用性和抵御勒索病毒攻擊的能力。

2020-12-09 15:34:21

戴爾

線上故障排查全套路，拿走不謝
線上故障主要會(huì)包括CPU、磁盤、內(nèi)存以及網(wǎng)絡(luò)問題，而大多數(shù)故障可能會(huì)包含不止一個(gè)層面的問題，所以進(jìn)行排查時(shí)候盡量四個(gè)方面依次排查一遍。

2020-05-18 07:50:47

線上故障排查

Linux系統(tǒng)故障排查和修復(fù)技巧
任何操作系統(tǒng)都有出現(xiàn)故障的時(shí)候，Linux系統(tǒng)也不例外，在啟動(dòng)過程中可能會(huì)出現(xiàn)一些故障，從而導(dǎo)致系統(tǒng)無法正常啟動(dòng)。本文從單用戶模式、GRUB命令操作、Linux救援模式這三個(gè)方面分析了故障排查和修復(fù)案例，來幫助大家解決此類問題。

2013-04-10 13:52:23

無線AP的常見故障排查技巧！看完之后你也可以自己排查故障了
再好的產(chǎn)品和設(shè)備都免不了出故障的時(shí)候，那如果無線AP在使用中有故障怎么辦上網(wǎng)查、咨詢廠家而這些都是需要時(shí)間的，其實(shí)還不如自己先逐漸排查。小編總結(jié)了以下9條比較常見的問題，學(xué)習(xí)完以后或許你就是無線排錯(cuò)小能手!

2018-10-08 09:44:51

無線 AP 故障

線上問題排查指南
OOM問題在生產(chǎn)環(huán)境中，一旦出現(xiàn)，一般會(huì)是非常嚴(yán)重的問題，服務(wù)可能會(huì)掛掉。但是OOM問題有多種情況，不同的情況，出現(xiàn)問題的原因不一樣。

2024-08-14 14:20:00

再棘手的線上故障，都逃不過這些高效排查套路
針對(duì)線上問題排查的特點(diǎn)和現(xiàn)狀，我們是否可以構(gòu)建一個(gè)系統(tǒng)，這個(gè)系統(tǒng)會(huì)針對(duì)各種線上問題的排查形成一個(gè)知識(shí)(套路)庫(kù)，針對(duì)每一種問題，都有對(duì)應(yīng)的套路和自動(dòng)化工具幫助我們?nèi)ザㄎ粏栴}。本文將結(jié)合一個(gè)比較有代表性的線上問題的排查過程，來探討這種方式的可行性。

2021-08-31 10:45:28

故障內(nèi)存問題排查

一站式故障排查工具：掌握Nginx日志分析技巧！
在本文中，我將為您介紹一些Nginx故障排除和常見問題解決的技巧，以及日志分析和故障排查工具，以及性能調(diào)優(yōu)和瓶頸分析的方法。

2023-10-30 09:01:08

Nginx 日志分析

優(yōu)化線上故障排查與性能問題的方法，你學(xué)會(huì)了嗎？
通過監(jiān)控系統(tǒng)實(shí)時(shí)監(jiān)控應(yīng)用的指標(biāo)，特別關(guān)注與網(wǎng)絡(luò)通信和連接有關(guān)的指標(biāo)。檢查日志以找到與timewait請(qǐng)求相關(guān)的信息，可能有網(wǎng)絡(luò)異?；蜻B接超時(shí)的記錄。

2023-12-05 07:12:39

優(yōu)化排查性能

技巧：無線網(wǎng)絡(luò)故障排查全解
無線網(wǎng)絡(luò)出現(xiàn)故障，總是另無線網(wǎng)絡(luò)管理員們煩惱。有一些常規(guī)的故障還是比較容易排查的，但是有些就沒有那么容易了。那么，本文介紹的是關(guān)于一些無線網(wǎng)絡(luò)故障做的排查工作，看看具體是怎么操作的呢

2010-09-07 09:35:22

統(tǒng)一緩存帝國(guó) - 實(shí)戰(zhàn) Spring Cache
SpringCache是Spring提供的一整套的緩存解決方案。雖然它本身并沒有提供緩存的實(shí)現(xiàn)，但是它提供了一整套的接口和代碼規(guī)范、配置、注解等，這樣它就可以整合各種緩存方案了，比如Redis、Ehcache，我們也就不用關(guān)心操作緩存的細(xì)節(jié)。

2021-06-29 19:26:29

緩存 Spring Cach Spring

如何排查DHCP故障？
文章中，我們針對(duì)DHCP故障的一些問題進(jìn)行了匯總和分析。那么文章中所總結(jié)的一些方法，還望對(duì)大家有所幫助。

2010-08-30 19:51:08

DHCP 故障

線上 K8s Ingress 訪問故障排查思路，看這一篇就夠了
希望給大家一個(gè)啟發(fā),對(duì)于一整條鏈路,如何來排查故障。

2022-02-25 11:16:51

故障運(yùn)維 Nginx

線上操作與線上問題排查實(shí)戰(zhàn)
技術(shù)同學(xué)需要經(jīng)常登錄線上的服務(wù)器進(jìn)行操作，于是我們進(jìn)行了一次線上操作與線上問題排查實(shí)戰(zhàn)演練，同學(xué)們反饋有收獲，特將實(shí)戰(zhàn)演練的問題和答案公布出來，希望對(duì)大家也有幫助。

2017-08-18 22:40:33

線上線程備份

華為助力中國(guó)氣象局打造高效遠(yuǎn)程視頻會(huì)議方案
華為在2012年與氣象局合作，為其提出了一整套高清視訊解決方案。

2013-12-23 17:49:39

華為氣象局遠(yuǎn)程視頻會(huì)議

掌握這五個(gè)要點(diǎn)，利用IntelliJ IDEA進(jìn)行前端開發(fā)
IntelliJIDEA提供了一整套工具，可以簡(jiǎn)化網(wǎng)絡(luò)開發(fā)的過程，無論你是使用HTML、CSS還是JavaScript。

2023-10-14 18:22:15

開發(fā)工具前端

記一次線上服務(wù)的內(nèi)存泄露排查
在風(fēng)和日麗的一天，本人正看著需求、敲著代碼，展望美好的未來。突然收到一條內(nèi)存使用率過高的告警。

2023-01-04 18:32:31

線上服務(wù)代碼

如何利用Python打造出適合自己的定制化Eclipse IDE？
Eclipse高級(jí)腳本環(huán)境（簡(jiǎn)稱EASE）項(xiàng)目包含一整套強(qiáng)大的新型插件，能夠幫助大家快速對(duì)自己的EclipseIDE進(jìn)行定制。

2016-03-02 10:27:16

Python 定制化 Eclipse IDE

招商銀行 KubeVela 離線部署實(shí)踐
通過KubeVela離線部署實(shí)踐，可以幫助你更便捷的在離線環(huán)境中搭建一整套的KubeVela，探索KubeVela的落地實(shí)踐。

2022-04-01 10:56:55

KubeVela MySQL 部署

相似話題

前端
 28326內(nèi)容

開發(fā)工具
 7413內(nèi)容

測(cè)試
 530內(nèi)容

游戲開發(fā)
654內(nèi)容
全部話題

同話題下的熱門內(nèi)容

騰訊女后端設(shè)計(jì)了一套短鏈系統(tǒng)，當(dāng)場(chǎng)就想給她 offer！別再死磕.NET Core！2025年C#突圍新方向揭秘

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動(dòng)

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長(zhǎng)學(xué)院 | 成長(zhǎng)有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營(yíng)

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動(dòng)態(tài)

站點(diǎn)地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號(hào)ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號(hào)：110108002980號(hào)
營(yíng)業(yè)執(zhí)照京ICP備09067568號(hào)

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

營(yíng)業(yè)執(zhí)照出版物經(jīng)營(yíng)許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動(dòng)科技科技行者 TechWeb 艾瑞網(wǎng)站長(zhǎng)之家速途網(wǎng)中國(guó)經(jīng)濟(jì)新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會(huì)議中國(guó)IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號(hào)

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷