Kafka 如何保證消息消費(fèi)的全局順序性
哈嘍大家好,我是咸魚
今天我們繼續(xù)來(lái)講一講 Kafka
當(dāng)消息被生產(chǎn)出來(lái)的時(shí)候,如果沒有指定分區(qū)或者指定 key ,那么消費(fèi)會(huì)按照【輪詢】的方式均勻地分配到所有可用分區(qū)中,但不一定按照分區(qū)順序來(lái)分配
圖片
我們知道,在 Kafka 中消費(fèi)者可以訂閱一個(gè)或多個(gè)主題,并被分配一個(gè)或多個(gè)分區(qū)
圖片
如果一個(gè)消費(fèi)者消費(fèi)了多個(gè)分區(qū),某些場(chǎng)景下消費(fèi)者需要順序地消費(fèi)消息,但消息并不是按照順序分配給分區(qū)的,所以就不一定能夠保證消息消費(fèi)的全局順序性
比如下圖中 Msg0002 消息并不是在 Msg0001 消息之后的,就有可能導(dǎo)致消費(fèi)者先把 Msg0002 消息給消費(fèi), Msg0001 消息才被消費(fèi)
那么這種情況該怎么解決?如何盡可能地保證消息消費(fèi)的全局順序性?要想消費(fèi)消息 B 必須先消費(fèi)消息 A
要注意的是,Kafka 的設(shè)計(jì)目標(biāo)是提供高吞吐量和低延遲,而不是強(qiáng)制保證全局有序性
所以這篇文章探討的是需要強(qiáng)調(diào)全局順序性場(chǎng)景下的 Kafka 應(yīng)用
單分區(qū)
最簡(jiǎn)單粗暴的方法,雖然 Kafka 不能保證全局消費(fèi)順序性,但是能夠保證分區(qū)內(nèi)的消息順序性
圖片
所以我們可以只創(chuàng)建一個(gè)分區(qū),并讓消費(fèi)者消費(fèi)這個(gè)分區(qū),這樣就能夠保證消費(fèi)的消息是有序的
但是這樣做大大降低了吞吐量和處理效率,容易使得性能出現(xiàn)瓶頸
基于 key 的消息分配策略
在 Kafka 中,基于 key 的消息分配策略是通過消息中的鍵(key)來(lái)確定消息發(fā)送到哪個(gè)分區(qū)
當(dāng)生產(chǎn)者發(fā)送消息時(shí),可以指定一個(gè)鍵(key),Kafka 使用這個(gè)鍵通過哈希算法來(lái)確定消息被發(fā)送到哪個(gè)分區(qū)
圖片
由于相同的 key 就發(fā)送到同一分區(qū),這樣就能夠保證了消費(fèi)的消息是有序的
然而,如果只有一個(gè)消費(fèi)者消費(fèi)相同 key 的消息,那么與單分區(qū)相比,基于 key 的消息分配策略不會(huì)提高吞吐量
因?yàn)榧词瓜嗤?key 的消息在多個(gè)分區(qū)中,但同一消費(fèi)者依然只能從一個(gè)分區(qū)中消費(fèi),這并不會(huì)增加整體的處理能力。
但如果有多個(gè)消費(fèi)者消費(fèi)相同 key 的消息,基于 key 的分區(qū)策略可以提高消費(fèi)者并行消費(fèi)的能力
圖片
因?yàn)檫@些消費(fèi)者可以同時(shí)從不同分區(qū)中讀取消息,從而增加整體的處理速度。這種情況下,基于 key 的消息分配可以提高整體吞吐量
最后總結(jié)一下:
- Kafka 的設(shè)計(jì)目標(biāo)是提供高吞吐量和低延遲,而不是強(qiáng)制保證全局有序性,所以Kafka使用多分區(qū)的概念,并且只保證單分區(qū)有序
- 如果想要實(shí)現(xiàn)消息的全局有序
單分區(qū)策略:一個(gè)主題下只創(chuàng)建一個(gè)分區(qū),一個(gè)消費(fèi)者只消費(fèi)一個(gè)分區(qū),但這樣做毫無(wú)并發(fā)性可言,極大降低系統(tǒng)性能
基于 key 的消息分配策略:由于相同的 key 就發(fā)送到同一分區(qū),這樣就能夠保證了消費(fèi)的消息是有序的。然而,如果只有一個(gè)消費(fèi)者消費(fèi)相同 key 的消息,與前面單分區(qū)相比沒有什么區(qū)別