Spark Submit的ClassPath問題
需求場(chǎng)景:
我們的產(chǎn)品需要與客戶的權(quán)限系統(tǒng)對(duì)接,即在登錄時(shí)使用客戶的認(rèn)證系統(tǒng)進(jìn)行認(rèn)證。集成認(rèn)證的方式是調(diào)用客戶提供的jar包,調(diào)用userService的authenticate方法。同時(shí),還需要在classpath中提供密鑰的key文件。
從需求看,這個(gè)集成并不復(fù)雜,且客戶也提供了較翔實(shí)的接口文檔與示例案例,開發(fā)工作量非常小。***的阻礙是客戶有安全要求,內(nèi)部的Jar包及其他文件都不能拷貝出來,而我們的開發(fā)環(huán)境是不能連接客戶內(nèi)網(wǎng)的??蛻籼峁┑腏ar包并沒有通過Maven來管理,我們只能采用直接導(dǎo)入的方式。在我們的Scala項(xiàng)目中,可以直接將要依賴的jar包放在module的lib文件夾下,在使用sbt執(zhí)行編譯和打包任務(wù)時(shí),會(huì)自動(dòng)將lib下的jar包放入classpath中。
那么,需要解決的***個(gè)問題是:由于客戶的jar包不能拷貝到我的開發(fā)環(huán)境中,該如何處理該依賴?
既然在開發(fā)環(huán)境下拿不到這個(gè)jar包,那就做一個(gè)mock包吧。幸而需要編寫的代碼僅僅牽涉到ServiceConfig、ServiceManager與UserService三個(gè)類以及這些類的少數(shù)方法。其中ServiceConfig提供了認(rèn)證需要的屬性值,并通過set方法進(jìn)行設(shè)置。因?yàn)樽罱K需要調(diào)用的其實(shí)是UserService的authenticate方法,只需要為其提供一個(gè)簡(jiǎn)單的實(shí)現(xiàn),并定義好其他相關(guān)的類型與方法,保證編譯能夠通過即可。
***個(gè)問題輕松解決。
由于我們使用了sbt assembly,并編寫了對(duì)應(yīng)的腳本來支持整個(gè)產(chǎn)品的打包工作,最終打包的結(jié)果是一個(gè)完整的mort.jar包。換言之,我們要依賴的外部Jar包也將被打包到最終的jar文件中。故而,第二個(gè)問題接踵而來:既然程序代碼與外部jar包都被打包到最終的部署包中,當(dāng)我們將該包拷貝到客戶的部署環(huán)境中后,該如何將之前的mock包替換為真正的實(shí)現(xiàn)呢?
實(shí)際上,sbt assembly并不會(huì)將所有依賴的外部包都裝配到最終的部署包中,只要在sbt的依賴中添加provided,就能保證第三方依賴包不被包含進(jìn)部署包中。因此,我們可以改寫sbt腳本,當(dāng)執(zhí)行assembly時(shí),排除這個(gè)mock包,這是首要解決的方案。方法是在build.sbt中添加如下腳本:
- excludedJars in assembly := {
- val cp = (fullClasspath in assembly).value
- cp filter {_.data.getName == "customer_provided_mock.jar" }
- }
部署包確實(shí)不再包含這個(gè)外部依賴包了,但是在部署時(shí),我們還得將真實(shí)的jar包放入到部署環(huán)境的classpath中。然而事與愿違,當(dāng)我們將真正的jar包放在本地的classpath中時(shí),運(yùn)行時(shí)卻找不到這個(gè)jar包。問題出現(xiàn)在哪里?
原因在于我們的程序并非一個(gè)普通的java程序,而是一個(gè)spark application,部署環(huán)境則為集群環(huán)境,運(yùn)行該程序是通過spark submit的方式,將部署包提交到spark的cluster manager。這就需要分析spark submit的工作原理,如下圖所示:
在集群部署模式下,Driver端通過spark-submit將spark application提交到集群,然后分發(fā)到Job到Worker節(jié)點(diǎn)。我們系統(tǒng)的主程序入口為com.bigeyedata.mort.Main,程序的運(yùn)行是通過spark-submit去調(diào)用部署包的Main,即在spark driver下運(yùn)行,而非在本地通過java啟動(dòng)虛擬機(jī)執(zhí)行mort.jar。
這就是在本地設(shè)置classpath不生效的根本原因。
我注意到spark-submit提供了--jar參數(shù),除了spark application這個(gè)jar包之外的其他jar包,都可以通過這個(gè)參數(shù)指定包,從而將其自動(dòng)傳送給集群。注意,若--jar指定了多個(gè)jar包,則通過分隔符,分隔,這與--driver-class-path的分隔符不同,后者使用:。因此,我修改了啟動(dòng)程序的腳本,將其設(shè)置為:
- exec $SPARK_HOME/bin/spark-submit \
- --class com.bigeyedata.mort.Main \
- --driver-class-path $MORT_HOME/libs/*.jar \
- --master yarn-client \
- --deploy-mode cluster \
- --jars /appcom/mort/thirdparty_jars/customer_provided.jar \
- --queue queue_0100_01 \
- $MORT_HOME/mort.jar > $MORT_HOME/mort.log 2>&1
還有一個(gè)問題需要解決:如何放置用戶認(rèn)證需要的密鑰key文件?
該文件仍然不能作為內(nèi)嵌的資源文件打包到部署包中。因?yàn)檫@個(gè)文件的內(nèi)容需要區(qū)分測(cè)試環(huán)境和生產(chǎn)環(huán)境。在部署到生產(chǎn)環(huán)境中時(shí),需要替換為另一個(gè)key文件??蛻舻奈臋n說明,需要將該文件(不是jar文件)放到運(yùn)行的classpath中。
解決辦法如前,仍然不能直接將key文件放入到本地的classpath中,而是利用spark-submit的--files參數(shù)。故而需要在前面的腳本中,為spark-submit添加如下內(nèi)容:
- --files /appcom/mort/thirdparty_jars/clientKey.pk \
三個(gè)問題給我制造了一定的麻煩,尤其是第二個(gè)問題的解決,又讓我溫習(xí)了spark submit的工作原理,了解相關(guān)參數(shù)的作用。雖然花費(fèi)了一些時(shí)間,但問題的解決還是頗有價(jià)值的。
【本文為51CTO專欄作者“張逸”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】