自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<acronym id="iydyi"><cite id="iydyi"><label id="iydyi"></label></cite></acronym>

<blockquote id="iydyi"><p id="iydyi"></p></blockquote>

<sup id="iydyi"><rt id="iydyi"></rt></sup>

<p id="iydyi"></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

面試問：Kafka為什么速度那么快？該怎么回答

作者：GetJob 2019-10-18 14:54:04

大數(shù)據(jù) Kafka

Kafka的消息是保存或緩存在磁盤上的，一般認(rèn)為在磁盤上讀寫數(shù)據(jù)是會降低性能的，因為尋址會比較消耗時間，但是實際上，Kafka的特性之一就是高吞吐率。

Kafka的消息是保存或緩存在磁盤上的，一般認(rèn)為在磁盤上讀寫數(shù)據(jù)是會降低性能的，因為尋址會比較消耗時間，但是實際上，Kafka的特性之一就是高吞吐率。即使是普通的服務(wù)器，Kafka也可以輕松支持每秒百萬級的寫入請求，超過了大部分的消息中間件，這種特性也使得Kafka在日志處理等海量數(shù)據(jù)場景廣泛應(yīng)用。

針對Kafka的基準(zhǔn)測試可以參考，Apache Kafka基準(zhǔn)測試：每秒寫入2百萬(在三臺廉價機(jī)器上)

下面從數(shù)據(jù)寫入和讀取兩方面分析，為什么Kafka速度這么快

一、寫入數(shù)據(jù)

Kafka會把收到的消息都寫入到硬盤中，它絕對不會丟失數(shù)據(jù)。為了優(yōu)化寫入速度Kafka采用了兩個技術(shù)，順序?qū)懭牒蚆MFile 。

順序?qū)懭?/strong>

磁盤讀寫的快慢取決于你怎么使用它，也就是順序讀寫或者隨機(jī)讀寫。在順序讀寫的情況下，磁盤的順序讀寫速度和內(nèi)存持平。

因為硬盤是機(jī)械結(jié)構(gòu)，每次讀寫都會尋址->寫入，其中尋址是一個“機(jī)械動作”，它是最耗時的。所以硬盤最討厭隨機(jī)I/O，最喜歡順序I/O。為了提高讀寫硬盤的速度，Kafka就是使用順序I/O。

而且Linux對于磁盤的讀寫優(yōu)化也比較多，包括read-ahead和write-behind，磁盤緩存等。如果在內(nèi)存做這些操作的時候，一個是JAVA對象的內(nèi)存開銷很大，另一個是隨著堆內(nèi)存數(shù)據(jù)的增多，JAVA的GC時間會變得很長，使用磁盤操作有以下幾個好處：

順序?qū)懭氪疟P順序讀寫速度超過內(nèi)存隨機(jī)讀寫

順序?qū)懭隞VM的GC效率低，內(nèi)存占用大。使用磁盤可以避免這一問題

順序?qū)懭胂到y(tǒng)冷啟動后，磁盤緩存依然可用

下圖就展示了Kafka是如何寫入數(shù)據(jù)的，每一個Partition其實都是一個文件，收到消息后Kafka會把數(shù)據(jù)插入到文件末尾(虛框部分)：

這種方法有一個缺陷——沒有辦法刪除數(shù)據(jù) ，所以Kafka是不會刪除數(shù)據(jù)的，它會把所有的數(shù)據(jù)都保留下來，每個消費(fèi)者(Consumer)對每個Topic都有一個offset用來表示讀取到了第幾條數(shù)據(jù) 。兩個消費(fèi)者：

順序?qū)懭隒onsumer1有兩個offset分別對應(yīng)Partition0、Partition1(假設(shè)每一個Topic一個Partition);

順序?qū)懭隒onsumer2有一個offset對應(yīng)Partition2。這個offset是由客戶端SDK負(fù)責(zé)保存的，Kafka的Broker完全無視這個東西的存在; 一般情況下SDK會把它保存到Zookeeper里面，所以需要給Consumer提供zookeeper的地址。

如果不刪除硬盤肯定會被撐滿，所以Kakfa提供了兩種策略來刪除數(shù)據(jù)：

順序?qū)懭胍皇腔跁r間。

順序?qū)懭攵腔趐artition文件大小。

Memory Mapped Files

即便是順序?qū)懭胗脖P，硬盤的訪問速度還是不可能追上內(nèi)存。所以Kafka的數(shù)據(jù)并不是實時的寫入硬盤，它充分利用了現(xiàn)代操作系統(tǒng)分頁存儲來利用內(nèi)存提高I/O效率。

Memory Mapped Files(后面簡稱mmap)也被翻譯成內(nèi)存映射文件，在64位操作系統(tǒng)中一般可以表示20G的數(shù)據(jù)文件，它的工作原理是直接利用操作系統(tǒng)的Page來實現(xiàn)文件到物理內(nèi)存的直接映射。

完成映射之后你對物理內(nèi)存的操作會被同步到硬盤上(操作系統(tǒng)在適當(dāng)?shù)臅r候)。

通過mmap，進(jìn)程像讀寫硬盤一樣讀寫內(nèi)存(當(dāng)然是虛擬機(jī)內(nèi)存)，也不必關(guān)心內(nèi)存的大小有虛擬內(nèi)存為我們兜底。

使用這種方式可以獲取很大的I/O提升，省去了用戶空間到內(nèi)核空間復(fù)制的開銷(調(diào)用文件的read會把數(shù)據(jù)先放到內(nèi)核空間的內(nèi)存中，然后再復(fù)制到用戶空間的內(nèi)存中。) 但也有一個很明顯的缺陷——不可靠，寫到mmap中的數(shù)據(jù)并沒有被真正的寫到硬盤，操作系統(tǒng)會在程序主動調(diào)用flush的時候才把數(shù)據(jù)真正的寫到硬盤。

Kafka提供了一個參數(shù)——producer.type來控制是不是主動flush，如果Kafka寫入到mmap之后就立即flush然后再返回Producer叫同步 (sync);寫入mmap之后立即返回Producer不調(diào)用flush叫異步 (async)。

二、讀取數(shù)據(jù)

Kafka在讀取磁盤時做了哪些優(yōu)化?

基于sendfile實現(xiàn)Zero Copy

傳統(tǒng)模式下，當(dāng)需要對一個文件進(jìn)行傳輸?shù)臅r候，其具體流程細(xì)節(jié)如下：

基于sendfile實現(xiàn)Zero Copy調(diào)用read函數(shù)，文件數(shù)據(jù)被copy到內(nèi)核緩沖區(qū)

read函數(shù)返回，文件數(shù)據(jù)從內(nèi)核緩沖區(qū)copy到用戶緩沖區(qū)

write函數(shù)調(diào)用，將文件數(shù)據(jù)從用戶緩沖區(qū)copy到內(nèi)核與socket相關(guān)的緩沖區(qū)。

數(shù)據(jù)從socket緩沖區(qū)copy到相關(guān)協(xié)議引擎。

以上細(xì)節(jié)是傳統(tǒng)read/write方式進(jìn)行網(wǎng)絡(luò)文件傳輸?shù)姆绞?，我們可以看到，在這個過程當(dāng)中，文件數(shù)據(jù)實際上是經(jīng)過了四次copy操作：

硬盤—>內(nèi)核buf—>用戶buf—>socket相關(guān)緩沖區(qū)—>協(xié)議引擎

而sendfile系統(tǒng)調(diào)用則提供了一種減少以上多次copy，提升文件傳輸性能的方法。

在內(nèi)核版本2.1中，引入了sendfile系統(tǒng)調(diào)用，以簡化網(wǎng)絡(luò)上和兩個本地文件之間的數(shù)據(jù)傳輸。sendfile的引入不僅減少了數(shù)據(jù)復(fù)制，還減少了上下文切換。 sendfile(socket, file, len);

運(yùn)行流程如下：

sendfile系統(tǒng)調(diào)用，文件數(shù)據(jù)被copy至內(nèi)核緩沖區(qū)

再從內(nèi)核緩沖區(qū)copy至內(nèi)核中socket相關(guān)的緩沖區(qū)

最后再socket相關(guān)的緩沖區(qū)copy到協(xié)議引擎相較傳統(tǒng)read/write方式，2.1版本內(nèi)核引進(jìn)的sendfile已經(jīng)減少了內(nèi)核緩沖區(qū)到user緩沖區(qū)，再由user緩沖區(qū)到socket相關(guān)緩沖區(qū)的文件copy，而在內(nèi)核版本2.4之后，文件描述符結(jié)果被改變，sendfile實現(xiàn)了更簡單的方式，再次減少了一次copy操作。

在Apache、Nginx、lighttpd等web服務(wù)器當(dāng)中，都有一項sendfile相關(guān)的配置，使用sendfile可以大幅提升文件傳輸性能。

Kafka把所有的消息都存放在一個一個的文件中，當(dāng)消費(fèi)者需要數(shù)據(jù)的時候Kafka直接把文件發(fā)送給消費(fèi)者，配合mmap作為文件讀寫方式，直接把它傳給sendfile。

批量壓縮

在很多情況下，系統(tǒng)的瓶頸不是CPU或磁盤，而是網(wǎng)絡(luò)IO，對于需要在廣域網(wǎng)上的數(shù)據(jù)中心之間發(fā)送消息的數(shù)據(jù)流水線尤其如此。進(jìn)行數(shù)據(jù)壓縮會消耗少量的CPU資源,不過對于kafka而言,網(wǎng)絡(luò)IO更應(yīng)該需要考慮。

如果每個消息都壓縮，但是壓縮率相對很低，所以Kafka使用了批量壓縮，即將多個消息一起壓縮而不是單個消息壓縮

Kafka允許使用遞歸的消息集合，批量的消息可以通過壓縮的形式傳輸并且在日志中也可以保持壓縮格式，直到被消費(fèi)者解壓縮

Kafka支持多種壓縮協(xié)議，包括Gzip和Snappy壓縮協(xié)議

三、總結(jié)

Kafka速度的秘訣在于，它把所有的消息都變成一個批量的文件，并且進(jìn)行合理的批量壓縮，減少網(wǎng)絡(luò)IO損耗，通過mmap提高I/O速度，寫入數(shù)據(jù)的時候由于單個Partion是末尾添加所以速度最優(yōu);讀取數(shù)據(jù)的時候配合sendfile直接暴力輸出。

責(zé)任編輯：未麗燕來源：今日頭條

Kafka 寫入磁盤

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

程序員經(jīng)典面試題，Kafka讀寫硬盤為什么速度還那么快
在今天的很多程序員招聘里，都會要求能夠熟練運(yùn)用ApacheKafka等至少一種消息隊列，ApacheKafka也是程序員面試?yán)锏某？?。在大多?shù)人的映象中，寫磁盤都是比較慢的，可是，為什么ApacheKafka在各大MQ性能的評測中，還能夠擊敗眾多對手，取得不錯的成績呢？

2019-10-18 09:40:19

程序員固態(tài)硬盤 Linux

Doris為什么那么快？
在絕大多數(shù)場景之中，用戶只需要將session變量enablevectorizedengine設(shè)置為true，則FE在進(jìn)行查詢規(guī)劃時就會默認(rèn)將SQL算子與SQL表達(dá)式轉(zhuǎn)換為向量化的執(zhí)行計劃，從而提升SQL執(zhí)行性能。

2023-06-08 18:25:40

Doris 場景查詢

Kafka 為什么能那么快的 6 個原因
無論kafka作為MQ也好，作為存儲層也罷，無非就是兩個功能(好簡單的樣子)，一是Producer生產(chǎn)的數(shù)據(jù)存到broker，二是Consumer從broker讀取數(shù)據(jù)。

2020-07-29 08:06:30

Kafka MQ 消息

探討Esbuild 為什么那么快
大多數(shù)前端打包工具都是基于JavaScript實現(xiàn)的，而Esbuild則選擇使用Go語言編寫，兩種語言各自有其擅長的場景，但是在資源打包這種CPU密集場景下，Go更具性能優(yōu)勢，差距有多大呢

2021-06-09 09:32:58

Esbuild 工具前端

Kafka 為什么這么快？
客戶端producer有個參數(shù)batch.size，默認(rèn)是16KB。它會為每個分區(qū)緩存消息，一旦滿了就打包將消息批量發(fā)出?？瓷先ミ@是個能夠提升性能的設(shè)計。不過很顯然，因為這個參數(shù)是分區(qū)級別的，如果分區(qū)數(shù)越多，這部分緩存所需的內(nèi)存占用也會更多。

2024-02-26 21:15:20

Kafka 緩存參數(shù)

Kafka為什么那么快？
Kafka的消息是保存或緩存在磁盤上的，一般認(rèn)為在磁盤上讀寫數(shù)據(jù)是會降低性能的，因為尋址會比較消耗時間，但是實際上，Kafka的特性之一就是高吞吐率。

2019-05-10 09:47:33

Kafka為什么會這么快
在系統(tǒng)設(shè)計中，會用到消息中間件來做服務(wù)異步化，系統(tǒng)解耦，或者是做流量削峰，常用的消息中間件有rabbitMq，activeMq以及阿里的RocketMq等等，都各自有各自的優(yōu)勢，但是就吞吐量來說，kafka是其中的佼佼者。

2020-03-30 15:05:46

Kafka 消息數(shù)據(jù)

面試官問：Kafka為什么如此之快？
Kafka在性能上確實是一騎絕塵，但在消息選型過程中，我們不僅僅要參考其性能，還有從功能性上來考慮，例如RocketMQ提供了豐富的消息檢索功能、事務(wù)消息、消息消費(fèi)重試、定時消息等。

2023-06-05 07:57:53

Kafka 消息事務(wù)消息

Elasticsearch查詢速度為什么這么快？
這段時間在維護(hù)產(chǎn)品的搜索功能，每次在管理臺看到Elasticsearch這么高效的查詢效率我都很好奇他是如何做到的。

2020-10-15 09:19:36

Elasticsear 查詢速度

ClickHouse為什么查詢速度快？
本文分別對ClickHouse的存儲引擎和計算引擎進(jìn)行了簡單分析，分別得出了ClickHouse速度快的不同的前提。

2022-12-15 18:20:46

ClickHouse 存儲引擎

為什么Kafka如此之快？
Kafka是由LinkedIn公司推出的一個高吞吐的分布式消息系統(tǒng)，通俗地說就是一個基于發(fā)布和訂閱的消息隊列，溫故而知新，反復(fù)學(xué)習(xí)優(yōu)秀的框架，定有所獲。

2021-05-31 07:44:08

Kafka 分布式系統(tǒng)

為什么固態(tài)硬盤（SSD）速度快？
固態(tài)硬盤控制器并行操作多個閃存顆粒，大大提高了底層帶寬。當(dāng)我們需要寫入多個頁面時，固態(tài)硬盤控制器可以并行寫入[3]，而硬盤只有一個磁頭，每次只能從一個磁頭讀取。

2024-10-30 09:42:43

固態(tài)硬盤 SSD 閃存

面試提問：Redis 為什么這么快？
一般的，當(dāng)我們插入數(shù)據(jù)的時候，數(shù)組的長度不會很長，但是當(dāng)我們在不斷的往內(nèi)部插入數(shù)據(jù)的過程中，就會擴(kuò)容，比如我們擴(kuò)容是N倍，這個時候就會涉及到我們原有數(shù)據(jù)元素的移動，而這個過程，我們流稱之為ReHash了。

2023-08-29 07:46:08

Redis 數(shù)據(jù)ReHash

為什么單線程的 Redis 能那么快？
今天，我們來探討一個很多人都很關(guān)心的問題：“為什么單線程的Redis能那么快？”

2023-10-15 12:23:10

單線程 Redis

為什么 Kafka 的吞吐量那么高？
在眾多的消息中間件中，Kafka的性能和吞吐量絕對是頂尖級別的，那么問題來了，Kafka是如何做到高吞吐的。在性能優(yōu)化方面，它使用了哪些技巧呢？下面我們就來分析一下。

2023-11-07 15:11:46

Kafka 技巧

字節(jié)一面：Kafka為什么這么快？
生產(chǎn)者在發(fā)送消息到Kafka集群之前，可以對消息進(jìn)行壓縮。這種在生產(chǎn)者端進(jìn)行壓縮的方式能夠減少發(fā)送到Kafka集群的數(shù)據(jù)量，從而降低網(wǎng)絡(luò)傳輸?shù)膸捪?，并提高?shù)據(jù)傳輸?shù)男省?/a>

2024-11-26 08:52:34

SQL 優(yōu)化 Kafka

面試被問及 Hash 與 History 的區(qū)別，該怎么回答？
hash通過監(jiān)聽瀏覽器onhashchange事件變化，查找對應(yīng)路由應(yīng)用。通過改變location.hash改變頁面路由。historyInterface是瀏覽器歷史記錄棧提供的接口，可通過back、forward、go等。

2021-12-30 08:02:54

Hash History 面試

面試官問 Vue 性能優(yōu)化，我該怎么回答
本文是作者通過實際項目的優(yōu)化實踐進(jìn)行總結(jié)而來，希望讀者讀完本文，有一定的啟發(fā)思考，從而對自己的項目進(jìn)行優(yōu)化起到幫助。

2021-03-24 10:25:24

優(yōu)化 VUE 性能

為什么Vite會比Webpack快？如何提高Webpack速度？
Vite是一個基于ES模塊的前端構(gòu)建工具，它利用了現(xiàn)代瀏覽器對ES模塊的原生支持，通過原生ESM模塊來提供極速的開發(fā)服務(wù)器和熱更新（HMR）。

2024-09-27 11:46:51

經(jīng)典面試題：Redis為什么這么快？
Redis的多線程網(wǎng)絡(luò)模型通過將讀取和寫回數(shù)據(jù)的任務(wù)異步化，以及更好地利用多核CPU，從而提高了Redis在處理大量在線流量時的性能表現(xiàn)。

2024-07-24 08:38:07

相似話題

數(shù)據(jù)分析
 1669內(nèi)容

數(shù)據(jù)可視化
 308內(nèi)容

商業(yè)智能
 138內(nèi)容

Hadoop
839內(nèi)容
全部話題

同話題下的熱門內(nèi)容

終于明白了！數(shù)字化轉(zhuǎn)型的本質(zhì)、價值與路徑五個案例快速熟悉 Pandas 常用操作 AI、BI、大數(shù)據(jù)與數(shù)據(jù)科學(xué)的底層邏輯 AI三駕馬車：數(shù)據(jù)、算力和算法，誰更重要？從“人找服務(wù)”到“服務(wù)找人”：政務(wù)數(shù)字化轉(zhuǎn)型的智治新范式字節(jié)面試：StarRocks 中如何優(yōu)化大表 JOIN？你的數(shù)據(jù)有多好，你的模型就有多強(qiáng)AI數(shù)據(jù)自動化：是革命還是泡沫？揭開“全流程替代”的真相

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點(diǎn)地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟(jì)新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷