使用Scala簡化XML對象處理
本文使用了 Scala 編程語言,其版本為 2.6.1。作為一種新生語言,它仍在快速發(fā)展,因此需要了解它的最新進展。本文并不要求讀者具備 Scala 知識,而是嘗試介紹 Scala 的語法和術語。Scala 需要一個 Java 虛擬機。本文使用 JDK 1.6.0_04,但 Scala 只需要 1.5 或更高版本。盡管本文沒有包含 Java 代碼,但是也要求讀者熟悉 Java 編程。
解析 XML
首先探討如何使用 Scala 解析 XML。像大多數編程語言一樣,Scala 提供了多種 XML 解析方法。以下是一些基本的方法:基于表示的 InfoSet/DOM、push (SAX) 或 pull (StAX) 事件、與 JAXB(Java Architecture for XML Binding) 類似的數據綁定。您將探討基于 DOM 的處理,因為它演示了 Scala 語法的眾多好處。在深入研究之前,您需要了解要解析的 XML 內容以及對它執(zhí)行哪些操作。因此需要借助一個樣例應用程序。
樣例應用程序:FriendFeed
FriendFeed 是一個在 2008 年非常流行的 Web 服務,它允許用戶在其他服務中聚合他們的行為,例如各種博客(blog)服務、即時信息傳遞服務、YouTube、Flickr 和 Twitter 等。然后從這種聚合中創(chuàng)建單獨的數據提要。您可以針對個人執(zhí)行上述操作,即對指定的人員實現聚合行為。盡管可能不是很有用,但是 FriendFeed 的公共提要非常有趣。它在所有 FriendFeed 用戶之間聚合所有的公共行為。FriendFeed 提供一個 API 來訪問個人提要和公共提要。您將編寫一個應用程序來訪問和解析公共提要。
利用 Java 庫
您要做的首要事情是訪問 FriendFeed 的公共提要。其 URL 為 http://friendfeed.com/api/feed/public。默認的情況下它以 JSON 格式顯示數據并且顯示最新的 30 個條目。要將其改為 XML 格式,添加查詢字符串參數 format=xml。例如,要將條目數目改為 100,添加查詢字符串參數 num=100 。現在您只需要訪問這個 URL。這在 Java 代碼中很容易實現,因此在 Scala 代碼也很容易??匆幌?清單 1 中訪問 FriendFeed 公共提要的代碼。
清單 1. 訪問 FriendFeed
- object FriendFeed {
- import java.net.{URLConnection, URL}
- import scala.xml._
- def friendFeed():Elem = {
- val url = new URL("http://friendfeed.com/api/feed/public?format=xml&num=100")
- val conn = url.openConnection
- XML.load(conn.getInputStream)
- }
- }
注意,這里要做的第一件事就是導入兩個核心的 Java 類。 Scala 不必使用自己的 API 執(zhí)行諸如打開 HTTP 連接之類的操作,因為它可以利用 Java 的 API 來解決這個問題。注意 Scala 為從同一包導入多個類提供了捷徑。下一行導入 Scala 的核心 XML 類。下劃線就像 Java 中的星號一樣,它導入 scala.xml 包中的所有類。
因此使用 Java 的 API 打開一個到 FriendFeed 的 HTTP 連接。接下來使用 Scala 的 XML對象進行解析。這里有很多有趣的現象。首先,XML 是一個 Scala 對象,即它是一個單例(singleton)對象。Scala 沒有靜態(tài)的方法、字段和初始化程序。相反您可以定義一個對象(而不是類)并且它將成為類的一個單例實例。您可以像調用靜態(tài)方法一樣訪問單例對象的方法。這就是 XML.load 語句的作用。注意,盡管這是一個 Scala 對象的方法,它接受一個 Java 對象(java.io.InputStream)作為參數。這正體現了 Scala 和 Java 之間的緊密聯系。最后要注意沒有返回語句。返回語句在 Scala 中是可選的。如果沒有返回語句,將返回對方法的最后一個語句的求值(如果可行并且 Scala 沒有返回編譯錯誤的話)?,F在可以很簡單地訪問 清單 1 中的方法,如 清單 2 所示。
清單 2. 訪問 friendFeed 方法
- val feedXml = friendFeed
注意在調用 friendFeed 的方法時沒有必要使用圓括號。您也可以使用 Scala 的類型接口。您沒有必要聲明 feedXml 的類型,因為它是由 friendFeed 方法的返回類型推斷出來的。再次查看 清單 1 并了解它如何利用語法捷徑。最后要注意的是您所解析的 XML 對象被聲明為 val。這使其成為不可變的對象(像 Java 代碼中的字符串),這在 Scala 中是很常見的。把 XML 作為一個不可變的對象有很多優(yōu)點,但是如果您習慣在 DOM 中使用 appendChild API,那么則很難適應這一點。現在已經從 FriendFeed 中解析了 XML,可以開始使用 Scala 對其劃分。
#p#
導航和模式匹配
許多編程語言將 XML 表示為 DOM 樹。這個方法有許多優(yōu)點,但是不利于以編程的方式遍歷樹來從 XML 文檔中提取數據。Java 技術提供了可以利用 XPath 語法的庫。Scala 采取相似的方法,但它有許多優(yōu)點。Scala 在這個方法中體現了很多函數語言特征。在 Scala 中沒有使用操作符(像 + 或 *)。相反,使用 + 或 * 等符號定義可以執(zhí)行普通數字加減法的函數。這也意味著您可以定義任何類型的操作符(因為它們實際上就是函數)。這些操作符號比 C++ 這類語言中的重載操作符具有更強大的功能。在 XPath 中,由于可以被轉換成一個函數調用,您可以在 Scala 中直接應用 XPath 語法的某一部分。
了解了這些內容,我們來看一下 FriendFeed 中的 XML 是什么樣子。清單 3 提供了一個例子。
清單 3. FriendFeed XML 示例
- < feed>
- < entry>
- < updated>2008-03-26T05:06:36Z< /updated>
- < service>
- < profileUrl>http://twitter.com/karlerikson< /profileUrl>
- < id>twitter< /id>
- < name>Twitter< /name>
- < /service>
- < title>Listening to Panic at the Disco on Kimmel< /title>
- < link>http://twitter.com/karlerikson/statuses/777188586< /link>
- < published>2008-03-26T05:06:36Z< /published>
- < id>f18ebf10-06be-98e2-6059-fa78fa44584b< /id>
- < user>
- < profileUrl>http://friendfeed.com/karlerikson< /profileUrl>
- < nickname>karlerikson< /nickname>
- < id>f294a86c-e6f3-11dc-8203-003048343a40< /id>
- < name>Karl Erikson< /name>
- < /user>
- < /entry>
- < entry>
- < updated>2008-03-26T05:06:35Z< /updated>
- < service>
- < profileUrl>http://twitter.com/asfaq< /profileUrl>
- < id>twitter< /id>
- < name>Twitter< /name>
- < /service>
- < title>@ceetee lol< /title>
- < link>http://twitter.com/asfaq/statuses/777188582< /link>
- < published>2008-03-26T05:06:35Z< /published>
- < id>d4099bb0-8186-5aa1-ce1f-672246c0fe9c< /id>
- < user>
- < profileUrl>http://friendfeed.com/asfaq< /profileUrl>
- < nickname>asfaq< /nickname>
- < id>41e24568-ee6b-11dc-a88d-003048343a40< /id>
- < name>Asfaq< /name>
- < /user>
- < /entry>
- < entry>
- < updated>2008-03-26T05:06:31Z< /updated>
- < service>
- < profileUrl>http://twitter.com/chrisjlee< /profileUrl>
- < id>twitter< /id>
- < name>Twitter< /name>
- < /service>
- < title>sleep..< /title>
- < link>http://twitter.com/chrisjlee/statuses/777188561< /link>
- < published>2008-03-26T05:06:31Z< /published>
- < id>8c4ec232-3ad5-28e1-16c0-00a428294c9c< /id>
- < user>
- < profileUrl>http://friendfeed.com/chrisjlee< /profileUrl>
- < nickname>chrisjlee< /nickname>
- < id>5af39ad4-53b6-45d8-ae25-ef7c50fe9568< /id>
- < name>Chris< /name>
- < /user>
- < /entry>
- < entry>
- < updated>2008-03-26T05:06:49Z< /updated>
- < service>
- < profileUrl>
- http://www.google.com/reader/shared/09566745492004297397
- < /profileUrl>
- < id>googlereader< /id>
- < name>Google Reader< /name>
- < /service>
- < title>Poketo First Editions Show!!< /title>
- < link>
- http://www.poketo.com/blog/2008/03/24/poketo-first-editions-show/
- < /link>
- < published>2008-03-26T05:06:49Z< /published>
- < id>4caefceb-d71c-59c9-8199-45c5adbc60f2< /id>
- < user>
- < profileUrl>http://friendfeed.com/misterjt< /profileUrl>
- < nickname>misterjt< /nickname>
- < id>e745cc8a-f9e4-11dc-a477-003048343a40< /id>
- < name>Jason Toney< /name>
- < /user>
- < /entry>
- < /feed>
對于您的應用程序,您將首先得到一個基于某種服務的用戶列表。因此,將首先過濾提要,從而只獲得感興趣的服務。查看 清單 4 了解 Scala 如何實現上述功能。
清單 4. 過濾基于服務的提要
- def filterFeed(feed:Elem, feedId:String):Seq[Node] = {
- var results = new Queue[Node]()
- feed\"entry" foreach{(entry) =>
- if (search(entry\"service"\"id" last, feedId)){
- results += (entry\"user"\"nickname").last
- }
- }
- return results
- }
- def search(p:Node, Name:String):Boolean = p match {
- case < id>{Text(Name)}< /id> => true
- case _ => false
- }
您的函數 filterFeed 接受一個 XML 元素(提要)和一個服務 ID 作為參數。首先創(chuàng)建一個稱為 results 的 XML 節(jié)點隊列。隊列被參數化,類似 Java 中的 List 和 Map。 Scala 使用方括號來表示泛型類型,而不是像 Java 編程使用的尖括號。feed\"entry" 行是一個類 XPath 表達式。反斜杠符號實際上是 scala.xml.Elem 類的一個方法。它返回具有給定名稱的所有子節(jié)點,即提要中所有 < entry> 元素。這將作為一個 scala.xml.NodeSeq 類的實例返回。這個類擴展了 Seq[Node]。因為它是一個 Seq,它具有一個 foreach方法,并將一個閉包作為參數。
(entry) => ... 標記表示一個將單個參數標記為條目的閉包。在這個閉包中,您將再次使用類 XPath 表達式 entry\"service"\"id" 來從 entry 節(jié)點提取服務的 ID。把服務 ID 傳遞給搜索函數來將其與傳遞給方法的提要 ID 相比較。我們稍后將查看這個函數體。如果匹配的話,您可將創(chuàng)建條目的用戶別名添加到結果隊列中。注意這個隊列目標中類似操作符的符號,+=。再次聲明這僅僅是一個隊列對象的函數。您可以使用 Scala 的類 XPath 語法來提取用戶別名節(jié)點。
現在參看搜索函數,這個函數使用一個功能最強大的 Scala 特性:模式匹配。在這種情況下,將輸入節(jié)點與一個名為 id 的節(jié)點相比較,id 節(jié)點的子文本節(jié)點由傳遞給函數的 Name 字符串構成。如果匹配則函數返回 true。語法 case _ 和所有內容匹配。其中__再次用作 Scala 的通配符。諸如 case _ 這樣的聲明和 Java 或 C++ 代碼中 case 語句的默認子句類似。這個簡單的例子證明了 Scala 中模式匹配的強大功能。下面您將會明白如何構建 XML 結構。
#p#
利用模式匹配構建 XML
在應用程序中,您需要為從 FriendFeed 公共提要提取出的所有用戶別名構建一個新的 XML 結構。實現上述操作有許多方法,但我們將演示如何再一次使用模式匹配方法。看一下 清單 5 中所示的函數。
清單 5. 利用模式匹配構造函數
- def add(p:Node, newEntry:Node ):Node = p match {
- case < UserList>{ ch @ _* }< /UserList> =>
- < UserList>{ ch }{ newEntry }< /UserList>
- }
這個模式將會和一個具有任意類型的子節(jié)點的 UserList 元素匹配。繼而返回一個具有相同子節(jié)點的新 UserList 元素,另外在現有子節(jié)點之后又增加了一個子節(jié)點。這在功能上等效于 DOM 規(guī)范中的 appendChild 用法。但它有本質的不同,因為原始節(jié)點沒有改變(它也不能改變,因為它是不可變的)。相反創(chuàng)建并返回了一個新節(jié)點。這樣比等效的 DOM 操作使用更多的內存。我們來看一下使用 Scala 構建 XML 結構的其他方法。
創(chuàng)建 XML
當創(chuàng)建新的 XML 文檔時,Scala 的原生 XML 語法再合適不過。第一個例子是獲取創(chuàng)建的 UserList 結構并把它封裝在相關服務的節(jié)點中。清單 6 顯示了這些代碼。
清單 6. 創(chuàng)建服務結果
- def results(name:String, cnt:Int, elements:NodeSeq):Any = {
- if (cnt > 0){
- return < Service id={name}>{elements}< /Service>
- }
- }
由于 Scala 提供了對 XML 的原生支持,您可以利用一個模板樣式的語法將動態(tài)數據插入到 XML 結構中。在本例中,使用傳入的名稱字符串設置 id 屬性。您將獲得一串傳入的元素,將它們作為正在創(chuàng)建的 Service 元素的子節(jié)點。但是要注意,只有在 cnt 參數大于 0 的情況下才執(zhí)行上述操作。如果 cnt 值等于 0,這個函數將不返回任何值。在 Scala 中您可以通過聲明函數返回 Any 來解決這個問題。Any 類在 Scala 中是一個原始的類,類似于 java.lang.Object。Scala 沒有 void 類型,但是有一個等價的 Unit 類型。它的優(yōu)點是可以擴展 Any 類,并且允許函數在某些情況下返回對象,而在其他時候不返回任何內容。
如您所見,在 Scala 的 XML 語法中結合動態(tài)數據可以產生強大的功能。再舉一個例子,您可以創(chuàng)建一個統計 XML 文檔,其中顯示的 XML 描述每個服務在提要中出現的次數。代碼如 清單 7 所示。
清單 7. 創(chuàng)建統計 XML
- def stats(map:HashMap[String,Int]):Node = {
- var nodes = new Queue[Node]()
- map.foreach{(nvPair) =>
- nodes += < Service id={nvPair._1} cnt={nvPair._2.toString}/>
- }
- return < Stats>{nodes}< /Stats>
- }
您的函數要求 HashMap 的鍵是服務的名稱,其值為服務在 FriendFeed 中出現的次數。這個函數使用熟悉的 foreach-closure 風格遍歷 HashMap,然后使用 HashMap 的名稱/值對創(chuàng)建一個新節(jié)點,將這個節(jié)點添加到節(jié)點隊列中。隨后創(chuàng)建 Stats 結構并作為動態(tài)數據訪問節(jié)點隊列,節(jié)點隊列隨后被賦值給一個 XML 結構?,F在準備好了所有函數,您只需驅動程序以便進行測試。
運行和測試
在運行程序之前,需要加入一些代碼來驅動它。將創(chuàng)建一個 main 方法,就像使用 Java 編程一樣,如 清單 8 所示。
清單 8. FriendFeed main 方法
- def main(args:Array[String]) = {
- val feedXml = friendFeed
- var map = new HashMap[String,Int]
- args.foreach{(serviceName) =>
- val filteredEntries = filterFeed(feedXml, serviceName)
- var users:Node = < UserList/>
- filteredEntries.foreach{(user) =>
- users = add(users, user)
- }
- map += serviceName -> filteredEntries.length
- println(results(serviceName,filteredEntries.length,users))
- }
- println(stats(map))
- }
這個方法創(chuàng)建了 FriendFeed。它接受命令行參數確定哪些服務查找用戶并計算統計數據。注意這些語法與 Java 語法非常相似。main 函數接受一個 String 數組(稱為 args)作為參數。這個程序為統計文檔創(chuàng)建 HashMap,并且為每個服務創(chuàng)建 UserList 文檔。然后輸出每個 UserList 和統計文檔。要運行這個程序,需要使用 scalac FriendFeed.scala 和 scala FriendFeed 進行編譯,如 清單 9 所示。
清單 9. 運行程序
- $ scalac FriendFeed.scala
- $ scala FriendFeed googlereader flickr delicious twitter blog
- < Service id="twitter">< UserList>< nickname>ntamaoki< /nickname>
- < nickname>terrazi< /nickname>< nickname>ntamaoki< /nickname>
- < nickname>terrazi< /nickname>< nickname>ntamaoki< /nickname>
- < nickname>parodi< /nickname>< nickname>trevor< /nickname>
- < nickname>cindy< /nickname>< nickname>christinelu< /nickname>
- < nickname>clint< /nickname>< nickname>savvyauntie< /nickname>
- < nickname>44gi< /nickname>< /UserList>< /Service>
- < ServiceidServiceid="blog">< UserList>< nickname>nechipor< /nickname>
- < nickname>mdolla< /nickname>< nickname>kyhpudding< /nickname>
- < nickname>hanayuu< /nickname>< nickname>hanayuu< /nickname>
- < /UserList>< /Service>< Stats>< Service cnt="12" id="twitter">
- < /Service>< Service cnt="0" id="delicious">< /Service>< Service
- cnt="0" id="flickr">< /Service>< Service cnt="0" id="googlereader">
- < /Service>< Service cnt="5" id="blog">< /Service>< /Stats>
您當然可以選擇不同的服務名稱作為命令行參數或其他參數。Scala 具備完美的 printer 類,可以使用正確的空格、制表符和格式打印 XML。還提供了 XML 寫入程序(writer)將 XML 寫回數據流,比如文件。您可以使用 Scala 完成所有普通的任務,同時還可以使用 Scala 提供的一些獨有的功能。
結束語
許多人把 Scala 視為 Java 編程語言發(fā)展歷程中的重要一步。XML 已經成為一種重要的技術,編程語言只有在其語法中內置了 XML 支持,才能自然地應用 XML 技術。而 Scala 做到了這一點。它使得復雜問題變得簡單。查看本文使用 Scala 執(zhí)行的所有功能,想像一下做同樣的事情需要使用多少行 Java 代碼。
【相關閱讀】