混合VS多云:Kafka架構(gòu)中的五個(gè)主要比較
?對(duì)于使用Apache Kafka的人來(lái)說(shuō),混合云和多云基礎(chǔ)架構(gòu)有很多好處。
云技術(shù)對(duì)現(xiàn)代企業(yè)來(lái)說(shuō)變得比以往任何時(shí)候都更加重要。94%的企業(yè)投資于云基礎(chǔ)設(shè)施,因?yàn)樗峁┑暮锰帯?/p>
據(jù)估計(jì),使用云的公司中有87%依賴于混合云環(huán)境。但是,一些公司使用其他云解決方案,這也需要討論。
如今,大多數(shù)公司的云生態(tài)系統(tǒng)包括基礎(chǔ)設(shè)施、合規(guī)性、安全性和其他方面。這些基礎(chǔ)架構(gòu)可以位于混合云或多云中。此外,多云系統(tǒng)根據(jù)組織需求從不同供應(yīng)商處采購(gòu)云基礎(chǔ)設(shè)施。
混合云戰(zhàn)略有很多好處,但也應(yīng)該討論多云基礎(chǔ)架構(gòu)的好處。多云基礎(chǔ)架構(gòu)意味著當(dāng)您從不同供應(yīng)商處獲得技術(shù)時(shí),這些供應(yīng)商可以是私有的,也可以是公共的?;旌显葡到y(tǒng)是結(jié)合不同云類型的云部署模型,同時(shí)使用本地硬件解決方案和公共云。
您可以安全地使用Apache Kafka集群,使用各種云服務(wù)(如Amazon的S3等)將數(shù)據(jù)從本地硬件解決方案無(wú)縫移動(dòng)到數(shù)據(jù)湖。但請(qǐng)記住一件事,您必須在云集群中復(fù)制主題,或者您必須開(kāi)發(fā)一個(gè)自定義連接器來(lái)從云讀取和復(fù)制到應(yīng)用程
不同Apache Kafka架構(gòu)的五個(gè)主要比較
1. Kafka和ETL處理
可能將Apache Kafka用于高性能數(shù)據(jù)管道、流式傳輸各種分析數(shù)據(jù)或使用Kafka運(yùn)行公司關(guān)鍵資產(chǎn),但您是否知道您也可以使用Kafka集群在多個(gè)系統(tǒng)之間移動(dòng)數(shù)據(jù).
這是因?yàn)槟ǔ?huì)看到Kafka生產(chǎn)者發(fā)布數(shù)據(jù)或?qū)⑵渫扑偷終afka主題,以便應(yīng)用程序可以使用數(shù)據(jù)。但是Kafka消費(fèi)者通常是定制的應(yīng)用程序,它們將數(shù)據(jù)饋送到目標(biāo)應(yīng)用程序中。因此,您可以使用您的云提供商的工具,這些工具可以讓您創(chuàng)建將提取和轉(zhuǎn)換數(shù)據(jù)的作業(yè),同時(shí)還為您提供加載ETL數(shù)據(jù)的優(yōu)勢(shì)。
Amazon的AWS Glue就是這樣一種工具,它允許使用來(lái)自Apache Kafka的數(shù)據(jù)和Amazon管理的Apache Kafka(MSK)流。它將使您能夠快速轉(zhuǎn)換數(shù)據(jù)結(jié)果并將其加載到AmazonS3數(shù)據(jù)湖或JDBC數(shù)據(jù)存儲(chǔ)中。
2. 架構(gòu)設(shè)計(jì)
在大多數(shù)系統(tǒng)案例中,第一步通常是構(gòu)建一個(gè)響應(yīng)迅速且可管理的ApacheKafka架構(gòu),以便用戶可以快速查看這些數(shù)據(jù)。例如-如果您應(yīng)該處理和記錄具有許多關(guān)鍵數(shù)據(jù)集的文件,例如員工保險(xiǎn)單表格。然后,您可以使用各種云工具來(lái)提取數(shù)據(jù)以進(jìn)行進(jìn)一步處理。
您還可以配置AWSGlue等基于云的工具,以連接您的本地云硬件并建立安全連接。三步ETL框架作業(yè)應(yīng)該可以解決問(wèn)題。如果您不確定這些步驟,那么它們是:步驟1:創(chuàng)建工具與本地ApacheKafka數(shù)據(jù)存儲(chǔ)源的連接。步驟2:創(chuàng)建數(shù)據(jù)目錄表。第3步:創(chuàng)建ETL作業(yè)并將該數(shù)據(jù)保存到數(shù)據(jù)湖。
3. 連接
使用預(yù)定義的Kafka連接,您可以使用AWS膠水等各種云工具在數(shù)據(jù)目錄中創(chuàng)建安全的安全套接字層(SSL)連接。此外,您應(yīng)該知道這些連接始終需要自簽名SSL證書。
此外,您可以采取多個(gè)步驟從信息中獲得更多價(jià)值。例如,您可以使用Quick Sight等各種商業(yè)智能工具將數(shù)據(jù)嵌入到內(nèi)部Kafka儀表板中。然后另一個(gè)團(tuán)隊(duì)成員可以使用事件驅(qū)動(dòng)架構(gòu)來(lái)通知管理員并執(zhí)行各種下游操作。盡管在處理特定數(shù)據(jù)類型時(shí)都應(yīng)該這樣做,但這里的可能性是無(wú)窮無(wú)盡的。
4. 安全組
當(dāng)您需要像AWS Glue這樣的云工具在其組件之間來(lái)回通信時(shí),您需要為所有傳輸控制協(xié)議(TCP)端口指定一個(gè)具有自引用入站規(guī)則的安全組。它將使您能夠?qū)?shù)據(jù)源限制在同一個(gè)安全組;從本質(zhì)上講,它們都可以為所有流量預(yù)先配置一個(gè)自引用入站規(guī)則。然后,您需要設(shè)置ApacheKafka主題,引用這個(gè)新創(chuàng)建的連接,并使用模式檢測(cè)功能。
5. 數(shù)據(jù)處理
完成Apache Kafka連接并創(chuàng)建作業(yè)后,您可以格式化源數(shù)據(jù),稍后您將需要這些數(shù)據(jù)。您還可以使用各種轉(zhuǎn)換工具來(lái)處理您的數(shù)據(jù)庫(kù)。對(duì)于此數(shù)據(jù)處理,請(qǐng)借助您之前創(chuàng)建的ETL腳本,遵循上述三個(gè)步驟。
結(jié)論
Apache Kafka是一種開(kāi)源數(shù)據(jù)處理軟件,在不同的應(yīng)用程序中有多種用途。使用上述指南確定適合您的存儲(chǔ)類型。?