自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高并發(fā)幾十萬(wàn)的寫(xiě)入,Kafka是如何實(shí)現(xiàn)的?

開(kāi)發(fā) 架構(gòu) Kafka
當(dāng)下流行的MQ有很多,因?yàn)槲覀児驹诩夹g(shù)選型上選擇了使用Kafka,所以我就整理了一篇關(guān)于Kafka的入門(mén)知識(shí)。通過(guò)技術(shù)選型 我們對(duì)業(yè)界主流的MQ進(jìn)行了對(duì)比,Kakfa最大的優(yōu)點(diǎn)就是吞吐量高 。

 [[285197]]

開(kāi)篇

當(dāng)下流行的MQ有很多,因?yàn)槲覀児驹诩夹g(shù)選型上選擇了使用Kafka,所以我就整理了一篇關(guān)于Kafka的入門(mén)知識(shí)。通過(guò)技術(shù)選型 我們對(duì)業(yè)界主流的MQ進(jìn)行了對(duì)比,Kakfa最大的優(yōu)點(diǎn)就是吞吐量高 。

Kafka是高吞吐低延遲的高并發(fā)、高性能的消息中間件,在大數(shù)據(jù)領(lǐng)域有極為廣泛的運(yùn)用。配置良好的Kafka集群甚至可以做到每秒幾十萬(wàn)、上百萬(wàn)的超高并發(fā)寫(xiě)入。

那么Kafka是如何做到這么高的吞吐量和性能的呢?在入門(mén)之后我們就來(lái)深入的扒一下Kafka的架構(gòu)設(shè)計(jì)原理,掌握這些原理在互聯(lián)網(wǎng)面試中會(huì)占據(jù)優(yōu)勢(shì)

持久化

Kafka對(duì)消息的存儲(chǔ)和緩存依賴于文件系統(tǒng),每次接收數(shù)據(jù)都會(huì)往磁盤(pán)上寫(xiě),人們對(duì)于“磁盤(pán)速度慢”的普遍印象,使得人們對(duì)于持久化的架構(gòu)能夠提供強(qiáng)有力的性能產(chǎn)生懷疑。

事實(shí)上,磁盤(pán)的速度比人們預(yù)期的要慢的多,也快得多,這取決于人們使用磁盤(pán)的方式。而且設(shè)計(jì)合理的磁盤(pán)結(jié)構(gòu)通??梢院途W(wǎng)絡(luò)一樣快。

 

高并發(fā)幾十萬(wàn)的寫(xiě)入,Kafka是如何實(shí)現(xiàn)的?

 

通過(guò)上圖對(duì)比,我們可以看出實(shí)際上順序磁盤(pán)訪問(wèn)在某些情況下比隨機(jī)內(nèi)存訪問(wèn)還要快,其實(shí)Kafka就是利用這一優(yōu)勢(shì)來(lái)實(shí)現(xiàn)高性能寫(xiě)磁盤(pán)

See:http://kafka.apachecn.org/documentation.html#persistence

頁(yè)緩存技術(shù) + 磁盤(pán)順序?qū)?/strong>

Kafka 為了保證磁盤(pán)寫(xiě)入性能,首先Kafka是基于操作系統(tǒng)的頁(yè)緩存來(lái)實(shí)現(xiàn)文件寫(xiě)入的。

操作系統(tǒng)本身有一層緩存,叫做page cache,是在內(nèi)存里的緩存,我們也可以稱之為os cache,意思就是操作系統(tǒng)自己管理的緩存。

你在寫(xiě)磁盤(pán)文件的時(shí)候,可以直接寫(xiě)入os cache 中,也就是僅僅寫(xiě)入內(nèi)存中,接下來(lái)由操作系統(tǒng)自己決定什么時(shí)候把os cache 里的數(shù)據(jù)真的刷入到磁盤(pán)中。

 

高并發(fā)幾十萬(wàn)的寫(xiě)入,Kafka是如何實(shí)現(xiàn)的?

 

通過(guò)上圖這種方式可以將磁盤(pán)文件的寫(xiě)性能提升很多,其實(shí)這種方式相當(dāng)于寫(xiě)內(nèi)存,不是在寫(xiě)磁盤(pán)

順序?qū)懘疟P(pán)

另外還有非常關(guān)鍵的一點(diǎn),Kafka在寫(xiě)數(shù)據(jù)的時(shí)候是以磁盤(pán)順序?qū)懙姆绞絹?lái)落盤(pán)的,也就是說(shuō),僅僅將數(shù)據(jù)追加到文件的末尾(append),而不是在文件的隨機(jī)位置來(lái)修改數(shù)據(jù)。

對(duì)于普通的機(jī)械硬盤(pán)如果你要是隨機(jī)寫(xiě)的話,確實(shí)性能極低,這里涉及到磁盤(pán)尋址的問(wèn)題。但是如果只是追加文件末尾按照順序的方式來(lái)寫(xiě)數(shù)據(jù)的話,那么這種磁盤(pán)順序?qū)懙男阅芑旧峡梢愿鷮?xiě)內(nèi)存的性能本身是差不多的。

來(lái)總結(jié)一下: Kafka就是基于頁(yè)緩存技術(shù) + 磁盤(pán)順序?qū)?技術(shù)實(shí)現(xiàn)了寫(xiě)入數(shù)據(jù)的超高性能。

所以要保證每秒寫(xiě)入幾萬(wàn)甚至幾十萬(wàn)條數(shù)據(jù)的核心點(diǎn),就是盡最大可能提升每條數(shù)據(jù)寫(xiě)入的性能,這樣就可以在單位時(shí)間內(nèi)寫(xiě)入更多的數(shù)據(jù)量,提升吞吐量。

零拷貝技術(shù)(zero-copy)

說(shuō)完了寫(xiě)入這塊,再來(lái)談?wù)勏M(fèi)這塊。

大家應(yīng)該都知道,從Kafka里我們經(jīng)常要消費(fèi)數(shù)據(jù),那么消費(fèi)的時(shí)候?qū)嶋H上就是要從kafka的磁盤(pán)文件里讀取某條數(shù)據(jù)然后發(fā)送給下游的消費(fèi)者,如下圖所示:

 

高并發(fā)幾十萬(wàn)的寫(xiě)入,Kafka是如何實(shí)現(xiàn)的?

 

如果Kafka以上面這種方式從磁盤(pán)中讀取數(shù)據(jù)發(fā)送給下游的消費(fèi)者,大概過(guò)程是:

  1. 先看看要讀的數(shù)據(jù)在不在os cache中,如果不在的話就從磁盤(pán)文件里讀取數(shù)據(jù)后放入os cache
  2. 接著從操作系統(tǒng)的os cache 里拷貝數(shù)據(jù)到應(yīng)用程序進(jìn)程的緩存里,再?gòu)膽?yīng)用程序進(jìn)程的緩存里拷貝數(shù)據(jù)到操作系統(tǒng)層面的Socket緩存里,最后從Soket緩存里提取數(shù)據(jù)后發(fā)送到網(wǎng)卡,最后發(fā)送出去給下游消費(fèi)者

整個(gè)過(guò)程如下圖:

 

高并發(fā)幾十萬(wàn)的寫(xiě)入,Kafka是如何實(shí)現(xiàn)的?

 

從上圖可以看出,這整個(gè)過(guò)程有兩次沒(méi)必要的拷貝

一次是從操作系統(tǒng)的cache里拷貝到應(yīng)用進(jìn)程的緩存里,接著又從應(yīng)用程序緩存里拷貝回操作系統(tǒng)的Socket緩存里。

而且為了進(jìn)行這兩次拷貝,中間還發(fā)生了好幾次上下文切換,一會(huì)兒是應(yīng)用程序在執(zhí)行,一會(huì)兒上下文切換到操作系統(tǒng)來(lái)執(zhí)行。

所以這種方式來(lái)讀取數(shù)據(jù)是比較消耗性能的。

Kafka 為了解決這個(gè)問(wèn)題,在讀數(shù)據(jù)的時(shí)候是引入零拷貝技術(shù)。

也就是說(shuō),直接讓操作系統(tǒng)的cache中的數(shù)據(jù)發(fā)送到網(wǎng)卡后傳出給下游的消費(fèi)者,中間跳過(guò)了兩次拷貝數(shù)據(jù)的步驟,Socket緩存中僅僅會(huì)拷貝一個(gè)描述符過(guò)去,不會(huì)拷貝數(shù)據(jù)到Socket緩存。

 

高并發(fā)幾十萬(wàn)的寫(xiě)入,Kafka是如何實(shí)現(xiàn)的?

 

體會(huì)一下這個(gè)精妙的過(guò)程吧

通過(guò)零拷貝技術(shù),就不需要把os cache里的數(shù)據(jù)拷貝到應(yīng)用緩存,再?gòu)膽?yīng)用緩存拷貝到Socket緩存了,兩次拷貝都省略了,所以叫做零拷貝。

對(duì)Socket緩存僅僅就是拷貝數(shù)據(jù)的描述符過(guò)去,然后數(shù)據(jù)就直接從os cache中發(fā)送到網(wǎng)卡上去了,這個(gè)過(guò)程大大的提升了數(shù)據(jù)消費(fèi)時(shí)讀取文件數(shù)據(jù)的性能。

而且大家會(huì)注意到,在從磁盤(pán)讀數(shù)據(jù)的時(shí)候,會(huì)先看看os cache內(nèi)存中是否有,如果有的話,其實(shí)讀數(shù)據(jù)都是直接讀內(nèi)存的。

如果kafka集群經(jīng)過(guò)良好的調(diào)優(yōu),大家會(huì)發(fā)現(xiàn)大量的數(shù)據(jù)都是直接寫(xiě)入os cache中,然后讀數(shù)據(jù)的時(shí)候也是從os cache中讀。

相當(dāng)于是Kafka完全基于內(nèi)存提供數(shù)據(jù)的寫(xiě)和讀了,所以這個(gè)整體性能會(huì)極其的高。

總結(jié)

通過(guò)學(xué)習(xí)Kafka的優(yōu)秀設(shè)計(jì),我們了解了Kafka底層的頁(yè)緩存技術(shù)的使用,磁盤(pán)順序?qū)懙乃悸罚约傲憧截惣夹g(shù)的運(yùn)用,才能使得Kafka有那么高的性能,做到每秒幾十萬(wàn)的吞吐量。

名詞解釋

吞吐量(TPS):吞吐量是指對(duì)網(wǎng)絡(luò)、設(shè)備、端口、虛電路或其他設(shè)施,單位時(shí)間內(nèi)成功地傳送數(shù)據(jù)的數(shù)量(以比特、字節(jié)、分組等測(cè)量)

責(zé)任編輯:武曉燕 來(lái)源: 今日頭條
相關(guān)推薦

2022-09-10 18:54:14

Kafka零拷貝磁盤(pán)

2019-03-06 09:36:12

Kafka緩存磁盤(pán)

2020-11-10 07:46:09

服務(wù)器高并發(fā)高性能

2024-11-08 13:36:09

2022-05-27 09:25:49

數(shù)據(jù)并發(fā)

2020-12-28 10:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2015-08-20 11:09:53

準(zhǔn)入控制盈高

2019-06-05 07:47:32

Nginx高并發(fā)多線程

2012-06-18 09:29:38

2018-02-27 14:30:17

2021-08-26 08:24:33

高并發(fā)秒殺系統(tǒng)

2019-04-25 09:36:18

Kafka高可靠高可用

2019-06-06 10:55:02

JDK高并發(fā)框架

2021-07-13 09:45:13

高并發(fā)項(xiàng)目經(jīng)驗(yàn)

2025-02-14 03:00:00

2025-01-03 09:36:22

Nginx高并發(fā)進(jìn)程

2021-07-06 06:39:58

Kafka消息隊(duì)列系統(tǒng)

2019-04-11 10:26:15

架構(gòu)運(yùn)維技術(shù)

2019-03-13 09:27:57

宕機(jī)Kafka數(shù)據(jù)

2021-07-27 16:01:29

高并發(fā)定時(shí)器高性能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)