架構(gòu)設(shè)計:一種遠程調(diào)用服務(wù)的設(shè)計構(gòu)思
在深入學(xué)習(xí)zookeeper我想先給大家介紹一個和zookeeper相關(guān)的應(yīng)用實例,我把這個實例命名為遠程調(diào)用服務(wù)。通過對這種應(yīng)用實例的描述,我們會對zookeeper應(yīng)用場景會有深入的了解。
遠程調(diào)用是系統(tǒng)與系統(tǒng)之間的通信機制,它的另一種理解就是進程間的通信。做分布式系統(tǒng)的開發(fā),遠程調(diào)用技術(shù)是其核心技術(shù)。遠程調(diào)用技術(shù)可以將一組計算機系統(tǒng)形成一個網(wǎng)絡(luò)系統(tǒng),對外提供整體服務(wù),那么這一群的計算機系統(tǒng)就構(gòu)成了一個更大型,性能更高的計算機系統(tǒng)。
我在前面的博客里介紹了一種分布式網(wǎng)站的架構(gòu)設(shè)計,其中就有一個使用netty技術(shù)編寫的組件作為前端系統(tǒng)和服務(wù)端系統(tǒng)通信的媒介。在一個大型的互聯(lián)網(wǎng)公司里會有很多這樣的網(wǎng)站系統(tǒng),如果每一個網(wǎng)站都像我博客里所論述的進行開發(fā),那么對于系統(tǒng)通信維護和管理,以及每個系統(tǒng)網(wǎng)絡(luò)資源的分配管理就會造成一定的問題,對于這樣的問題,我舉個例子可能大家會更明白些,比如一個互聯(lián)網(wǎng)公司有數(shù)個對外提供服務(wù)的網(wǎng)站,有的網(wǎng)站訪問量很大,有的相對較小,但是公司的寬帶資源是有限的,那么我們就希望動態(tài)的管理和分配這些資源,如果我們網(wǎng)站的通信功能和網(wǎng)站都是緊耦合的,那么調(diào)配這些資源的工作就會比較復(fù)雜和繁瑣,也很容易出問題。這樣的問題還會還有很多,我這里不做細致分析了。做軟件開發(fā)時候,有個原則,如果某個功能是可以通用的,該功能很需要統(tǒng)一管理時候,我們就應(yīng)該把這個功能抽取成一個獨立的系統(tǒng)或組件,并且這個系統(tǒng)或組件賦予一些增強級的功能特性,這樣必定對整個系統(tǒng)的健壯性、可用性以及效率上有所提升。
而我在分布式網(wǎng)站里所描述的通信技術(shù),就是遠程調(diào)用技術(shù)的一種,遠程調(diào)用技術(shù)就是客戶端和服務(wù)端的通信技術(shù),它可以當(dāng)做cs架構(gòu)技術(shù)的一種,在 java里有很多優(yōu)秀的框架實現(xiàn)遠程調(diào)用,例如java自帶的RMI,spring自帶的Httpinvoker,webservice技術(shù)等等。但是現(xiàn)有的這些技術(shù)滿足不了互聯(lián)網(wǎng)公司的遠程調(diào)用需求,今天我將講述一套我自己構(gòu)思的一套遠程調(diào)用技術(shù),這個是借鑒了一些我們公司的類似軟件的做法。
該框架主要是針對java的,其他語言目前不能支持。首先我要總結(jié)遠程調(diào)用技術(shù)要包括那些技術(shù),它們分別是:
- 通信技術(shù):遠程調(diào)用就是通過網(wǎng)絡(luò)技術(shù)將不同系統(tǒng)構(gòu)成一個整體,因此通信技術(shù)是其重點,通信技術(shù)我這里選擇的是netty技術(shù),Netty提供異步的、事件驅(qū)動的網(wǎng)絡(luò)應(yīng)用程序框架和工具,用以快速開發(fā)高性能、高可靠性的網(wǎng)絡(luò)服務(wù)器和客戶端程序。Netty會讓我們開發(fā)通信程序變得簡單,高效,其效率也是非常好的,同時它還支持多種不同的網(wǎng)絡(luò)協(xié)議。
- 序列化和反序列化技術(shù):java的序列化技術(shù)是指將對象轉(zhuǎn)換為byte數(shù)據(jù),這些數(shù)據(jù)可以被還原為java對象,這種還原的過程就是反序列化了,該機制可以自動處理不同操作系統(tǒng)之間的差異,例如window下序列化的對象,可以在linux上進行重新構(gòu)建。Java的jdk里自帶了一個序列化和反序列化機制,熟悉hadoop的人知道hadoop設(shè)計了一套序列化和反序列化機制,為什么hadoop作者不選擇使用java自帶的序列化機制,這是因為java序列化機制非常復(fù)雜,復(fù)雜帶來效率低下,java的序列化機制還有一個重要的缺點就是它序列化的二進制數(shù)據(jù)會非常大,因為java序列化時候會附帶太多該對象的相關(guān)信息,過大的數(shù)據(jù)量就會影響網(wǎng)絡(luò)傳輸?shù)男?,因此hadoop自己設(shè)計了一套序列化和反序列化機制,hadoop不同節(jié)點之間的通信也是一種遠程調(diào)用機制,因此我們發(fā)現(xiàn)好的序列化和反序列化技術(shù)對于遠程調(diào)用是相當(dāng)重要的。我們公司的遠程調(diào)用框架序列化技術(shù)有兩種一種就是java自帶的序列化和反序列化機制,一種是hessian技術(shù),它是一種更加高效的序列化和反序列化技術(shù)。
- 壓縮技術(shù):做網(wǎng)絡(luò)編程,最稀缺的資源就是寬帶資源,如果傳輸數(shù)據(jù)過大,那么對數(shù)據(jù)的壓縮就會顯得十分重要,這里我推薦一個壓縮技術(shù)snappy,它是一種高效的壓縮和解壓縮包,google公司內(nèi)部廣泛使用的一種壓縮技術(shù)。
- 高并發(fā)的技術(shù):遠程調(diào)用技術(shù)一定會是多線程,只有這樣才能滿足多個并發(fā)的處理請求,java在1.5的版本里提供了一個Executor框架,它在線程開發(fā)里引入了任務(wù)的概念,使得多線程的程序開發(fā)會更加合理和可控,關(guān)于executor的技術(shù)大家可以看看一本經(jīng)典的書籍《java并發(fā)編程實踐》。想讓線程更加有效率,池技術(shù)也是并不可少的,apache的common-pool是一個非常好的池技術(shù),我們可以將線程都預(yù)先創(chuàng)建好,然后放入到 common-pool池里進行管理。
- 非侵入式:這個也可以叫做松耦合,對于java的web開發(fā),***的解耦方式就是使用spring技術(shù),當(dāng)我們系統(tǒng)里把遠程調(diào)用框架引入后,配置好相關(guān)的參數(shù),我們可以把用于遠程調(diào)用的方法定義在spring的配置文件里,那么在程序里調(diào)用的時候,利用spring直接獲取這個bean,那么對于遠程調(diào)用的開發(fā)就和我們在action里調(diào)用server的方法沒啥區(qū)別了。下面是一段實例代碼:
- <!-- 服務(wù)提供者配置 -->
- <bean id="serverProvider" class="cn.com.sharpxiajun.RmifSpringProviderBean">
- <property name="interface" value="cn.com.ITest"></property><!-- 遠程調(diào)用的接口 -->
- <property name="target" ref="clsTest"></property><!-- clsTest實現(xiàn)ITest的實現(xiàn)類,clsTest這里是一個bean的id值 -->
- </bean>
- <!-- 服務(wù)調(diào)用者配置 -->
- <bean id="clientConsumer" class="cn.com.sharpxiajun.RmifSpringConsumerBean">
- <property name="interface" value="cn.com.clsTest"></property><!-- value就是Provider定義的target的接口實現(xiàn)類 -->
- <property name="seriaType" value="hessian"></property><!--序列化方式 -->
- <property name="compress" value="true"></property><!-- 壓縮標(biāo)記 -->
- </bean>
- 負載均衡:分布式系統(tǒng)都離不開負載均衡,好的負載均衡可以充分利用好不同服務(wù)器的計算資源,提供系統(tǒng)的并發(fā)量和運算能力,對于網(wǎng)站而言(我們公司現(xiàn)在網(wǎng)站服務(wù)器不是太多)少于10臺服務(wù)器可以使用兩種策略:一種是簡單輪詢,比如有6臺服務(wù)端,我們會把***個請求給***臺服務(wù)器,第二個請求給第二臺,依次類推,等6臺循環(huán)完畢,又從***臺開始;第二種是隨機方式,即使用random函數(shù),當(dāng)然更多的服務(wù)器我就不知道有什么輪詢機制比較好,希望有知道的童鞋可以給我推薦下。
我這里設(shè)計的遠程調(diào)用框架,除了以上的功能外,我希望它還能有心跳管理機制,超時管理機制,服務(wù)分級管理,就是根據(jù)服務(wù)的重要性或者系統(tǒng)的繁忙度可以調(diào)節(jié)網(wǎng)絡(luò)資源。
哈哈,講了這么久估計有童鞋可能有點煩了,不是說應(yīng)用zookeeper的實例嗎?怎么還沒見到zookeeper的影子。別著急,zookeeper馬上就要上場了。
還是以我前面博客里寫分布式網(wǎng)站講起,服務(wù)端系統(tǒng)我們可以當(dāng)做服務(wù)提供者,前端系統(tǒng)當(dāng)做服務(wù)調(diào)用者,提供者可以類比商戶,調(diào)用者可以類比客戶,商戶和客戶可以直接進行交易,這種直接交易方式非常原始甚至還會有風(fēng)險,現(xiàn)代社會商戶和客戶直接的交易十分高效,高效的原因是因為有一個規(guī)范的大市場,商戶和客戶的交易在市場里進行的,這樣交易會變得更加安全和高效,我設(shè)計的分布式框架***的特點就是提供了一個類似市場的角色,它來管理服務(wù)提供者和服務(wù)調(diào)用者,我把這個功能模塊稱為遠程調(diào)用管理組件。
遠程調(diào)用管理組件是本框架的核心,它的主要作用是接收服務(wù)端提供者的注冊的通知,該通知一般是接口以及該接口的實現(xiàn)類還有服務(wù)器的ip地址,管理組件會將這些通知記錄下來,并且根據(jù)配置對這些服務(wù)程序進行分組和標(biāo)記,注冊好的信息管理組件會將這些信息推送到服務(wù)調(diào)用者。遠程調(diào)用管理組件還包含心跳機制,這個心跳機制是針對服務(wù)提供者,通過心跳機制檢測服務(wù)提供者的健康狀況,管理組件不會檢測服務(wù)調(diào)用者的健康狀態(tài),因為這個沒必要,因為本框架的使用還是調(diào)用者直接去請求提供者,邏輯上是沒必要關(guān)心調(diào)用者的狀態(tài),這和bs架構(gòu)里瀏覽器一樣,我們不會去關(guān)心瀏覽器用戶是不是存在。服務(wù)提供者、服務(wù)調(diào)用者和遠程調(diào)用管理組件的關(guān)系如下圖所示:
遠程調(diào)用框架運行的過程是:當(dāng)服務(wù)提供者啟動時候,它會將自己的ip地址和注冊的方法傳輸?shù)竭h程調(diào)用管理組件,管理組件接收到注冊信息會將這些信息存儲下來,存儲技術(shù)就是使用zookeeper,存儲成功后,管理組件會將成功通知傳回給服務(wù)提供者,同時管理組件還會通過心跳檢測服務(wù)提供者是否健康;當(dāng)服務(wù)調(diào)用者啟動時候,它會向管理組件請求服務(wù)提供者信息,管理組件接收到請求后會將相關(guān)信息推送給服務(wù)調(diào)用者。在實際系統(tǒng)運行時候,服務(wù)調(diào)用者直接和服務(wù)提供者進行通信交互了,通信方式是netty,如果調(diào)用者和提供者有相關(guān)變化,都會先通知服務(wù)管理組件,服務(wù)管理組件會將相關(guān)變更信息推送給相應(yīng)的系統(tǒng)。
遠程調(diào)用管理組件主要是通過zookeeper實現(xiàn),zookeeper擁有一個層次的命名空間,它的模型是一個樹狀結(jié)構(gòu),樹狀結(jié)構(gòu)是一個強大的數(shù)據(jù)類型,它幾乎能存儲所有不同的數(shù)據(jù)類型,我們通過zookeeper將這些信息保存起來,便于我們管理整個遠程調(diào)用框架,同時zookeeper還是高可靠的,這個我在前面zookeeper文章里講到了,這樣就保證了整個遠程調(diào)用框架的穩(wěn)定性,實際應(yīng)用中我們會將組件編譯成一個jar包,不同的項目直接引用這個jar包,這樣管理組件服務(wù)端和服務(wù)的提供者和調(diào)用者就聯(lián)系起來。至于提供者和調(diào)用者的通信機制是直接進行,因為我們將通信程序集成在 jar包里,只不過相應(yīng)的管理機制抽取到外部服務(wù)端進行統(tǒng)一管理。
這就是我設(shè)計的遠程調(diào)用框架,可惜的是,這個構(gòu)思我還沒有真正實現(xiàn)過,今天拿出來是想體現(xiàn)zookeeper的實際應(yīng)用,為我后面講解zookeeper做鋪墊,至于是否可行,看以后有沒有機會開發(fā)個類似的系統(tǒng),到時估計還有很多意想不到的問題要解決。