使用Apache HttpClient突破J2EE站點(diǎn)認(rèn)證
出于安全性的需要和用戶授權(quán)管理的考慮,常見的 J2EE 站點(diǎn)對(duì)特定資源都會(huì)加入認(rèn)證/授權(quán)機(jī)制。例如一個(gè)公網(wǎng)上的論壇,一個(gè)只對(duì)特定用戶開放的 RSS 或 Atom Feed,這些資源都必須在確信訪問者為被授權(quán)用戶時(shí)才能向訪問者開放。為了實(shí)現(xiàn)這樣的功能,J2EE 站點(diǎn)通常會(huì)采用某種站點(diǎn)認(rèn)證機(jī)制,其中常見的有 HTTP Basic 認(rèn)證和 J2EE Form-Based 認(rèn)證。
HTTP Basic 認(rèn)證是 HTTP 認(rèn)證協(xié)議(rfc2617)所定義的標(biāo)準(zhǔn)認(rèn)證方式。要求 HTTP Basic 認(rèn)證的服務(wù)器會(huì)在客戶端訪問受保護(hù)資源時(shí)向客戶端發(fā)出請(qǐng)求,要求客戶端上傳用戶名和密碼對(duì)。服務(wù)器在收到用戶名/密碼并驗(yàn)證通過后,才將保護(hù)資源的內(nèi)容返回給客戶端。它的工作機(jī)制如下圖:
由于是 HTTP 規(guī)范,因而常見的瀏覽器,如 Internet Explorer,Mozilla Firefox,在 步驟 2 中收到服務(wù)器對(duì)用戶名和密碼的請(qǐng)求時(shí)會(huì)彈出認(rèn)證對(duì)話框,供用戶輸入用戶名/密碼。
圖 2. Firefox 在收到步驟 2 中請(qǐng)求時(shí)彈出的用戶名/密碼輸入框
HTTP Basic 認(rèn)證方式使用 base64 編碼方式傳送用戶名和密碼,而 base64 僅僅是一種公開的編碼格式而非加密措施,因而如果信道本身不使用 SSL 等安全協(xié)議,用戶密碼較容易被截獲。
Form-Based 認(rèn)證不同于 HTTP Basic 認(rèn)證,它是 J2EE 對(duì)于認(rèn)證方式的一種擴(kuò)展。它使用自定義的 HTML 表單(通常為 login.jsp)作為輸入用戶名和密碼的用戶界面,最終將用戶在表單上填入的用戶名/密碼提交至服務(wù)器。它的工作機(jī)制如下:
Form-Based 認(rèn)證方式在 J2EE 站點(diǎn)中更為常見。這一方面是由于它提供了自定義的用戶名密碼輸入界面;另一方面它的傳輸也更為安全,通常情況下 login.jsp 會(huì)被配置為需要使用 SSL 信道訪問,這樣在步驟 2、3 中對(duì)用戶名和密碼的傳送就被安全信道所保護(hù),而較難被非法截取。
Apache HttpClient 認(rèn)證功能簡(jiǎn)介
Apache HttpClient 是 Apache 開源組織提供的純 Java 實(shí)現(xiàn)的 HTTP 開源包。它能模擬各類 HTTP 客戶端所需功能,例如 HTTP/HTTPS 連接,GET/PUT 請(qǐng)求,甚至提供了超時(shí)重試的功能。
HttpClient 也提供了對(duì)標(biāo)準(zhǔn) HTTP 認(rèn)證的接口,在最新的 HttpClient 3.1 中,支持的認(rèn)證方式有:
- Basic 認(rèn)證:即前面提到的 rfc2716 規(guī)范中定義的 HTTP Basic 認(rèn)證方式。
- Digest 認(rèn)證:一種基于摘要的更為安全的認(rèn)證協(xié)議,雖然它的應(yīng)用沒有 Basic 認(rèn)證方式廣泛。
- NTLM 認(rèn)證:微軟制定的認(rèn)證協(xié)議規(guī)范,然而此項(xiàng)標(biāo)準(zhǔn)的細(xì)節(jié)卻并不公開。
我們可以注意到 Form-Based 認(rèn)證并不在其中,這是因?yàn)?Form-Based 認(rèn)證方式并非 HTTP 協(xié)議標(biāo)準(zhǔn),而是 J2EE 提供的一種特殊的認(rèn)證方式,因而開發(fā)者需要在 HttpClient 基礎(chǔ)上另行開發(fā)適合 Form-Based 認(rèn)證的方案。
使用 Apache HttpClient 通過 HTTP Basic 認(rèn)證
由于 HttpClient 內(nèi)置支持 HTTP Basic 認(rèn)證方式,因而使用 HttpClient 通過 HTTP Basic 認(rèn)證的步驟顯得較為簡(jiǎn)單。
- 為 HttpClient 的狀態(tài)對(duì)象添加用戶名/密碼對(duì)。可以注意到在 setCredentials 方法中的另一個(gè)參數(shù)為 AuthScope 對(duì)象。事實(shí)上我們添加的每個(gè)用戶名/密碼對(duì)都與一個(gè) AuthScope 對(duì)象相關(guān)聯(lián)。AuthScope 對(duì)象確定了此用戶名/密碼對(duì)的適用站點(diǎn),在示例中所給出的用戶名/密碼對(duì)將只適用于 www.sample.com 位于 80 端口上的資源。HttpClient 在與其他站點(diǎn)交互時(shí)將不會(huì)使用此用戶名/密碼對(duì),這樣有效地防止了機(jī)密數(shù)據(jù)被傳送至不必要的站點(diǎn)。
- 開啟 HttpClient 提供的占先式(Preemptive)認(rèn)證功能。開啟了這個(gè)功能后,HttpClient 對(duì)于那些處在之前請(qǐng)求過的URI空間范圍內(nèi)的資源,會(huì)主動(dòng)地隨請(qǐng)求一起向服務(wù)器發(fā)送 Basic 認(rèn)證數(shù)據(jù),而不是等待服務(wù)器返回是否需要認(rèn)證的響應(yīng)后再提交認(rèn)證。在多數(shù)情況下,能夠減少請(qǐng)求-響應(yīng)傳遞的次數(shù),從而間接提高了服務(wù)器的響應(yīng)能力。值得注意的是在這種情況下必須在 AuthScope 對(duì)象中明確指定適用站點(diǎn),以避免向不相關(guān)的站點(diǎn)泄漏敏感數(shù)據(jù)。
- 創(chuàng)建 GetMethod 對(duì)象,此對(duì)象將使用 GET 方式對(duì)保護(hù)資源發(fā)出 HTTP 請(qǐng)求。
- setDoAuthentication(true) 語(yǔ)句將告知 HttpClient 在服務(wù)器端發(fā)回需要認(rèn)證的請(qǐng)求后,自動(dòng)將我們?cè)诓襟E 1 中設(shè)置的用戶名/密碼對(duì)發(fā)送至服務(wù)器,以完成認(rèn)證過程。
執(zhí)行 GET 請(qǐng)求,獲取和處理受保護(hù)資源的內(nèi)容。
- HttpClient client = new HttpClient();
- // 1
- client.getState().setCredentials(
- new AuthScope("www.sample.com", 80, AuthScope.ANY_REALM),
- new UsernamePasswordCredentials("username", "password")
- );
- // 2
- client.getParams().setAuthenticationPreemptive(true);
- // 3
- GetMethod get = new GetMethod("http://www.sample.com/protected.html");
- // 4
- get.setDoAuthentication( true );
- try {
- // 5
- int status = client.executeMethod( get );
- // process the content from the response
- …
- } finally {
- get.releaseConnection();
- }
由于 Basic 認(rèn)證方式直接向服務(wù)器發(fā)送未經(jīng)加密的用戶名/密碼對(duì),導(dǎo)致這些敏感數(shù)據(jù)很容易在網(wǎng)絡(luò)傳輸過程中被截取,因此安全性很低。所幸 HttpClient 對(duì)基于安全套接字層(SSL)的 HTTP 協(xié)議(HTTPS)提供了足夠的支持,而且使用起來也很簡(jiǎn)單。不過之前需確保本地機(jī)器已經(jīng)安裝好 JSSE(Sun 提供的 JDK 1.4 及之后的版本已集成 JSSE)。
使用 HttpClient 進(jìn)行標(biāo)準(zhǔn)的 SSL 連接對(duì)用戶來說是透明的。參照清單 1,用戶只需用符合 HTTPS 協(xié)議的 URL 作為參數(shù)生成 GetMethod 對(duì)象即可。除此之外,HttpClient 還允許用戶定制 SSL 使得客戶端程序能夠自動(dòng)接受不同類型的證書。
利用 HttpClient 實(shí)現(xiàn)一個(gè)自定義的 SSL 協(xié)議包括以下 3 個(gè)關(guān)鍵步驟:
- 定制一個(gè)實(shí)現(xiàn)了 org.apache.commons.httpclient.protocol.SecureProtocolSocketFactory 接口的工廠類。這個(gè)工廠類的作用是開啟一個(gè)與服務(wù)器通訊的 Socket 并進(jìn)行必需的初始化動(dòng)作。關(guān)于實(shí)現(xiàn)該接口的具體細(xì)節(jié),HttpClient 項(xiàng)目的主頁(yè)上有詳細(xì)的代碼實(shí)例和注釋說明。
- 利用之前創(chuàng)建的工廠類對(duì)象、HTTPS 協(xié)議名稱和默認(rèn)端口號(hào)實(shí)例化一個(gè)新的 org.apache.commons.httpclient.protocol.Protocol 對(duì)象。
- 注冊(cè)這個(gè)自定義的 Protocol 對(duì)象使其與某個(gè)協(xié)議名綁定,當(dāng) HttpClient 處理此類協(xié)議時(shí),將默認(rèn)調(diào)用這個(gè)自定義 Protocol 對(duì)象。
清單 2. 在 HttpClient 中自定義 SSL 示例
- // 1
- SecureProtocolSocketFactory sampleSSLSocketFactory = new SampleSSLSocketFactory();
- // 2
- Protocol httpsProtocol = new Protocol("https", sampleSSLSocketFactory, 443);
- // 3
- Protocol.registerProtocol("https", httpsProtocol);
- HttpClient client = new HttpClient();
- client.getState().setCredentials(
- new AuthScope("www.sample.com", 80, AuthScope.ANY_REALM),
- new UsernamePasswordCredentials("username", "password")
- );
- // Request the protected resource via SSL
- GetMethod get = new GetMethod("https://www.sample.com/protected.html");
- get.setDoAuthentication( true );
- try {
- int status = client.executeMethod( get );
- // process the content from the response
- …
- } finally {
- get.releaseConnection();
- }
使用 Apache HttpClient 通過 Form-Based 認(rèn)證
Form-Based 認(rèn)證相對(duì) HTTP Basic 認(rèn)證而言過程較為復(fù)雜,需要開發(fā)者記錄下相關(guān)的 cookie 信息和部分 header 字段并多次向站點(diǎn)發(fā)出請(qǐng)求。它的大致原理如下:
假定我們需要訪問的受保護(hù)資源為 http://www.sample.com/sampleApp/sample.rss。首先我們需要向此保護(hù)資源發(fā)出請(qǐng)求。而由 Form-Based 認(rèn)證原理一節(jié)中可知,J2EE 服務(wù)器會(huì)將此請(qǐng)求重定向至 login.jsp。如果仔細(xì)分析 login.jsp 我們能發(fā)現(xiàn)它僅僅是一個(gè) HTML 表單,其中有兩個(gè)字段 j_username 和 j_password 分別記錄用戶名和密碼,而提交的目標(biāo)則是 j_security_check。通常情況下,J2EE 構(gòu)架會(huì)在每個(gè)站點(diǎn)應(yīng)用的根節(jié)點(diǎn)定義一個(gè) j_security_check 的資源。而我們的站點(diǎn)的應(yīng)用程序根(Application Root)為 sampleApp。因而,通過將用戶名,密碼以及相關(guān) cookie 和 header 字段以 POST 方式發(fā)送至 http://www.sample.com/sampleApp/j_security_check 即可通過站點(diǎn)認(rèn)證。在通過站點(diǎn)認(rèn)證后,服務(wù)器端將給出一個(gè)新的重定向,通常它將指向了用戶最初試圖訪問的受保護(hù)資源(本例中也就是 http://www.sample.com/sampleApp/sample.rss)。我們只需要再次創(chuàng)建訪問對(duì)象向此資源發(fā)出請(qǐng)求即可獲得其內(nèi)容。
以下給出一個(gè)示例:
- HttpClient client = new HttpClient();
- client.getState().setCookiePolicy(CookiePolicy.COMPATIBILITY);
- // 1
- GetMethod authget = new GetMethod("httpwww.sample.comsampleAppsample.rss");
- try {
- client.executeMethod(authget);
- }
- catch (HttpException httpe) {
- httpe.printStackTrace();
- }
- catch (IOException ioe) {
- ioe.printStackTrace();
- }
- // 2
- NameValuePair[] data = new NameValuePair[2];
- data[0] = new NameValuePair("j_username", username);
- data[1] = new NameValuePair("j_password", password);
- PostMethod authpost = new PostMethod("http://www.sample.com/sampleApp/j_security_check");
- authpost.setRequestBody(data);
- // 3
- Header hCookie = authget.getRequestHeader("Cookie");
- Header hHost = authget.getRequestHeader("Host");
- Header hUserAgent = authget.getRequestHeader("User-Agent");
- if (hCookie == null || hHost == null || hUserAgent == null) {
- return null;
- }
- authpost.setRequestHeader(hCookie);
- authpost.setRequestHeader(hHost);
- authpost.setRequestHeader(hUserAgent);
- authget.releaseConnection();
- try {
- client.executeMethod(authpost);
- // 4
- Header header = authpost.getResponseHeader("location");
- if (header != null) {
- String newuri = header.getValue();
- GetMethod redirect = new GetMethod(newuri);
- client.executeMethod(redirect);
- // process the content from the response
- redirect.releaseConnection();
- }
- } catch (HttpException httpe) {
- httpe.printStackTrace();
- return null;
- } catch (IOException ioe) {
- ioe.printStackTrace();
- return null;
- }
- authpost.releaseConnection();
其中各個(gè)步驟解釋如下:
- 使用 GET 方式請(qǐng)求 sample.rss。服務(wù)器收到連接后將在響應(yīng)中給出連接信息,HttpClient 在接收到響應(yīng)后會(huì)將其保存至 cookie 中。
- 準(zhǔn)備第二次對(duì) j_security_check 的連接,將用戶名和密碼填入新的 POST 請(qǐng)求的正文。
- 將 cookie 和部分 header 字段拷貝至新請(qǐng)求的報(bào)頭中,并發(fā)送請(qǐng)求。
- 從認(rèn)證成功的響應(yīng)中獲取重定向,并對(duì)重定向指向的資源發(fā)出請(qǐng)求,獲取并處理內(nèi)容。
隨著 Web 2.0 時(shí)代的到來,Web 站點(diǎn)的數(shù)據(jù)和內(nèi)容顯得愈加重要。而為了收集這些數(shù)據(jù),人們需要利用計(jì)算機(jī)本身的搜集能力,通過后臺(tái)請(qǐng)求,而不是瀏覽器交互的方式去獲取站點(diǎn)的數(shù)據(jù)。而商業(yè)站點(diǎn)中普遍存在的認(rèn)證/授權(quán)機(jī)制顯然成為了開發(fā)此類數(shù)據(jù)收集程序的一道屏障。Apache HttpClient 根據(jù)這些需求,提供了多種 HTTP 認(rèn)證機(jī)制的實(shí)現(xiàn)方案。開發(fā)人員也可以利用 HttpClient 強(qiáng)大的底層功能,設(shè)計(jì)特定方案以通過 J2EE 站點(diǎn)的認(rèn)證體系。
原文鏈接:http://www.ibm.com/developerworks/cn/java/j-lo-httpclient-j2ee/
【編輯推薦】