如何利用Scala簡化XML處理
本文使用了 Scala 編程語言,其版本為 2.6.1。作為一種新生語言,它仍在快速發(fā)展,因此需要了解它的最新進展。本文并不要求讀者具備 Scala 知識,而是嘗試介紹 Scala 的語法和術(shù)語。Scala 需要一個 Java 虛擬機。本文使用 JDK 1.6.0_04,但 Scala 只需要 1.5 或更高版本。盡管本文沒有包含 Java 代碼,但是也要求讀者熟悉 Java 編程。
解析XML
首先探討如何使用 Scala 解析 XML。像大多數(shù)編程語言一樣,Scala 提供了多種 XML 解析方法。以下是一些基本的方法:基于表示的 InfoSet/DOM、push (SAX) 或 pull (StAX) 事件、與 JAXB(Java Architecture for XML Binding) 類似的數(shù)據(jù)綁定。您將探討基于 DOM 的處理,因為它演示了 Scala 語法的眾多好處。在深入研究之前,您需要了解要解析的 XML 內(nèi)容以及對它執(zhí)行哪些操作。因此需要借助一個樣例應(yīng)用程序。
樣例應(yīng)用程序:FriendFeed
FriendFeed 是一個在 2008 年非常流行的 Web 服務(wù),它允許用戶在其他服務(wù)中聚合他們的行為,例如各種博客(blog)服務(wù)、即時信息傳遞服務(wù)、YouTube、Flickr 和 Twitter 等。然后從這種聚合中創(chuàng)建單獨的數(shù)據(jù)提要。您可以針對個人執(zhí)行上述操作,即對指定的人員實現(xiàn)聚合行為。盡管可能不是很有用,但是 FriendFeed 的公共提要非常有趣。它在所有 FriendFeed 用戶之間聚合所有的公共行為。FriendFeed 提供一個 API 來訪問個人提要和公共提要。您將編寫一個應(yīng)用程序來訪問和解析公共提要。
利用 Java 庫
您要做的首要事情是訪問 FriendFeed 的公共提要。其 URL 為 http://friendfeed.com/api/feed/public。默認的情況下它以 JSON 格式顯示數(shù)據(jù)并且顯示最新的 30 個條目。要將其改為 XML 格式,添加查詢字符串參數(shù) format=xml。例如,要將條目數(shù)目改為 100,添加查詢字符串參數(shù) num=100 。現(xiàn)在您只需要訪問這個 URL。這在 Java 代碼中很容易實現(xiàn),因此在 Scala 代碼也很容易??匆幌虑鍐?中訪問 FriendFeed 公共提要的代碼。
清單 1. 訪問 FriendFeed
object FriendFeed { import java.net.{URLConnection, URL} import scala.xml._ def friendFeed():Elem = { val url = new URL("http://friendfeed.com/api/feed/public?format=xml&num=100") val conn = url.openConnection XML.load(conn.getInputStream) } } |
注意,這里要做的第一件事就是導(dǎo)入兩個核心的 Java 類。 Scala 不必使用自己的 API 執(zhí)行諸如打開 HTTP 連接之類的操作,因為它可以利用 Java 的 API 來解決這個問題。注意 Scala 為從同一包導(dǎo)入多個類提供了捷徑。下一行導(dǎo)入 Scala 的核心XML 類。下劃線就像Java 中的星號一樣,它導(dǎo)入scala.xml 包中的所有類。
因此使用 Java 的 API 打開一個到 FriendFeed 的 HTTP 連接。接下來使用 Scala 的 XML 對象進行解析。這里有很多有趣的現(xiàn)象。首先,XML 是一個 Scala 對象,即它是一個單例(singleton)對象。Scala 沒有靜態(tài)的方法、字段和初始化程序。相反您可以定義一個對象(而不是類)并且它將成為類的一個單例實例。您可以像調(diào)用靜態(tài)方法一樣訪問單例對象的方法。這就是 XML.load 語句的作用。注意,盡管這是一個 Scala 對象的方法,它接受一個 Java 對象(java.io.InputStream)作為參數(shù)。這正體現(xiàn)了 Scala 和 Java 之間的緊密聯(lián)系。最后要注意沒有返回語句。返回語句在 Scala 中是可選的。如果沒有返回語句,將返回對方法的最后一個語句的求值(如果可行并且 Scala 沒有返回編譯錯誤的話)。現(xiàn)在可以很簡單地訪問 清單 1 中的方法,如清單2所示。
清單 2. 訪問 friendFeed 方法
val feedXml = friendFeed |
注意在調(diào)用 friendFeed 的方法時沒有必要使用圓括號。您也可以使用 Scala 的類型接口。您沒有必要聲明 feedXml 的類型,因為它是由 friendFeed 方法的返回類型推斷出來的。再次查看 清單 1 并了解它如何利用語法捷徑。最后要注意的是您所解析的 XML 對象被聲明為 val。這使其成為不可變的對象(像 Java 代碼中的字符串),這在 Scala 中是很常見的。把 XML 作為一個不可變的對象有很多優(yōu)點,但是如果您習(xí)慣在 DOM 中使用 appendChild API,那么則很難適應(yīng)這一點?,F(xiàn)在已經(jīng)從 FriendFeed 中解析了XML,可以開始使用Scala 對其劃分。
#p#
導(dǎo)航和模式匹配
許多編程語言將 XML 表示為 DOM 樹。這個方法有許多優(yōu)點,但是不利于以編程的方式遍歷樹來從 XML 文檔中提取數(shù)據(jù)。Java 技術(shù)提供了可以利用 XPath 語法的庫。Scala 采取相似的方法,但它有許多優(yōu)點。Scala 在這個方法中體現(xiàn)了很多函數(shù)語言特征。在 Scala 中沒有使用操作符(像 + 或 *)。相反,使用 + 或 * 等符號定義可以執(zhí)行普通數(shù)字加減法的函數(shù)。這也意味著您可以定義任何類型的操作符(因為它們實際上就是函數(shù))。這些操作符號比 C++ 這類語言中的重載操作符具有更強大的功能。在 XPath 中,由于可以被轉(zhuǎn)換成一個函數(shù)調(diào)用,您可以在 Scala 中直接應(yīng)用 XPath 語法的某一部分。
了解了這些內(nèi)容,我們來看一下 FriendFeed 中的 XML 是什么樣子。清單3提供了一個例子。
清單 3. FriendFeed XML 示例
<feed> ?。糴ntry> ?。紆pdated>2008-03-26T05:06:36Z</updated> <service> ?。紁rofileUrl>http://twitter.com/karlerikson</profileUrl> ?。糹d>twitter</id> ?。糿ame>Twitter</name> </service> ?。紅itle>Listening to Panic at the Disco on Kimmel</title> <link>http://twitter.com/karlerikson/statuses/777188586</link> ?。紁ublished>2008-03-26T05:06:36Z</published> <id>f18ebf10-06be-98e2-6059-fa78fa44584b</id> ?。紆ser> <profileUrl>http://friendfeed.com/karlerikson</profileUrl> ?。糿ickname>karlerikson</nickname> ?。糹d>f294a86c-e6f3-11dc-8203-003048343a40</id> ?。糿ame>Karl Erikson</name> ?。?user> ?。?entry> ?。糴ntry> <updated>2008-03-26T05:06:35Z</updated> ?。約ervice> ?。紁rofileUrl>http://twitter.com/asfaq</profileUrl> ?。糹d>twitter</id> ?。糿ame>Twitter</name> ?。?service> ?。紅itle>@ceetee lol</title> ?。糽ink>http://twitter.com/asfaq/statuses/777188582</link> ?。紁ublished>2008-03-26T05:06:35Z</published> ?。糹d>d4099bb0-8186-5aa1-ce1f-672246c0fe9c</id> ?。紆ser> ?。紁rofileUrl>http://friendfeed.com/asfaq</profileUrl> ?。糿ickname>asfaq</nickname> ?。糹d>41e24568-ee6b-11dc-a88d-003048343a40</id> ?。糿ame>Asfaq</name> ?。?user> </entry> ?。糴ntry> ?。紆pdated>2008-03-26T05:06:31Z</updated> ?。約ervice> ?。紁rofileUrl>http://twitter.com/chrisjlee</profileUrl> <id>twitter</id> ?。糿ame>Twitter</name> </service> ?。紅itle>sleep..</title> <link>http://twitter.com/chrisjlee/statuses/777188561</link> ?。紁ublished>2008-03-26T05:06:31Z</published> ?。糹d>8c4ec232-3ad5-28e1-16c0-00a428294c9c</id> ?。紆ser> <profileUrl>http://friendfeed.com/chrisjlee</profileUrl> ?。糿ickname>chrisjlee</nickname> ?。糹d>5af39ad4-53b6-45d8-ae25-ef7c50fe9568</id> ?。糿ame>Chris</name> ?。?user> ?。?entry> ?。糴ntry> <updated>2008-03-26T05:06:49Z</updated> ?。約ervice> <profileUrl> http://www.google.com/reader/shared/09566745492004297397 ?。?profileUrl> ?。糹d>googlereader</id> <name>Google Reader</name> ?。?service> <title>Poketo First Editions Show!!</title> ?。糽ink> http://www.poketo.com/blog/2008/03/24/poketo-first-editions-show/ </link> ?。紁ublished>2008-03-26T05:06:49Z</published> ?。糹d>4caefceb-d71c-59c9-8199-45c5adbc60f2</id> ?。紆ser> ?。紁rofileUrl>http://friendfeed.com/misterjt</profileUrl> ?。糿ickname>misterjt</nickname> ?。糹d>e745cc8a-f9e4-11dc-a477-003048343a40</id> <name>Jason Toney</name> ?。?user> ?。?entry> </feed>
對于您的應(yīng)用程序,您將首先得到一個基于某種服務(wù)的用戶列表。因此,將首先過濾提要,從而只獲得感興趣的服務(wù)。查看清單4了解Scala 如何實現(xiàn)上述功能。
清單 4. 過濾基于服務(wù)的提要
def filterFeed(feed:Elem, feedId:String):Seq[Node] = { |
您的函數(shù) filterFeed 接受一個 XML 元素(提要)和一個服務(wù) ID 作為參數(shù)。首先創(chuàng)建一個稱為 results 的 XML 節(jié)點隊列。隊列被參數(shù)化,類似 Java 中的 List 和 Map。 Scala 使用方括號來表示泛型類型,而不是像 Java 編程使用的尖括號。feed"entry" 行是一個類 XPath 表達式。反斜杠符號實際上是 scala.xml.Elem 類的一個方法。它返回具有給定名稱的所有子節(jié)點,即提要中所有 <entry> 元素。這將作為一個 scala.xml.NodeSeq 類的實例返回。這個類擴展了 Seq[Node]。因為它是一個 Seq,它具有一個 foreach方法,并將一個閉包作為參數(shù)。
(entry) => ... 標記表示一個將單個參數(shù)標記為條目的閉包。在這個閉包中,您將再次使用類 XPath 表達式 entry"service""id" 來從 entry 節(jié)點提取服務(wù)的 ID。把服務(wù) ID 傳遞給搜索函數(shù)來將其與傳遞給方法的提要 ID 相比較。我們稍后將查看這個函數(shù)體。如果匹配的話,您可將創(chuàng)建條目的用戶別名添加到結(jié)果隊列中。注意這個隊列目標中類似操作符的符號,+=。再次聲明這僅僅是一個隊列對象的函數(shù)。您可以使用 Scala 的類 XPath 語法來提取用戶別名節(jié)點。
現(xiàn)在參看搜索函數(shù),這個函數(shù)使用一個功能最強大的 Scala 特性:模式匹配。在這種情況下,將輸入節(jié)點與一個名為 id 的節(jié)點相比較,id 節(jié)點的子文本節(jié)點由傳遞給函數(shù)的 Name 字符串構(gòu)成。如果匹配則函數(shù)返回 true。語法 case _ 和所有內(nèi)容匹配。其中__再次用作 Scala 的通配符。諸如 case _ 這樣的聲明和 Java 或 C++ 代碼中 case 語句的默認子句類似。這個簡單的例子證明了 Scala 中模式匹配的強大功能。下面您將會明白如何構(gòu)建 XML 結(jié)構(gòu)。
利用模式匹配構(gòu)建XML
在應(yīng)用程序中,您需要為從 FriendFeed 公共提要提取出的所有用戶別名構(gòu)建一個新的 XML 結(jié)構(gòu)。實現(xiàn)上述操作有許多方法,但我們將演示如何再一次使用模式匹配方法??匆幌虑鍐?中所示的函數(shù)。
清單 5. 利用模式匹配構(gòu)造函數(shù)
def add(p:Node, newEntry:Node ):Node = p match { |
這個模式將會和一個具有任意類型的子節(jié)點的 UserList 元素匹配。繼而返回一個具有相同子節(jié)點的新 UserList 元素,另外在現(xiàn)有子節(jié)點之后又增加了一個子節(jié)點。這在功能上等效于 DOM 規(guī)范中的 appendChild 用法。但它有本質(zhì)的不同,因為原始節(jié)點沒有改變(它也不能改變,因為它是不可變的)。相反創(chuàng)建并返回了一個新節(jié)點。這樣比等效的 DOM 操作使用更多的內(nèi)存。我們來看一下使用 Scala 構(gòu)建 XML 結(jié)構(gòu)的其他方法。
#p#
創(chuàng)建XML
當(dāng)創(chuàng)建新的 XML 文檔時,Scala 的原生 XML 語法再合適不過。第一個例子是獲取創(chuàng)建的 UserList 結(jié)構(gòu)并把它封裝在相關(guān)服務(wù)的節(jié)點中。清單6顯示了這些代碼。
清單 6. 創(chuàng)建服務(wù)結(jié)果
def results(name:String, cnt:Int, elements:NodeSeq):Any = { |
由于 Scale 提供了對 XML 的原生支持,您可以利用一個模板樣式的語法將動態(tài)數(shù)據(jù)插入到 XML 結(jié)構(gòu)中。在本例中,使用傳入的名稱字符串設(shè)置 id 屬性。您將獲得一串傳入的元素,將它們作為正在創(chuàng)建的 Service 元素的子節(jié)點。但是要注意,只有在 cnt 參數(shù)大于 0 的情況下才執(zhí)行上述操作。如果 cnt 值等于 0,這個函數(shù)將不返回任何值。在 Scale 中您可以通過聲明函數(shù)返回 Any 來解決這個問題。Any 類在 Scala 中是一個原始的類,類似于 java.lang.Object。Scale 沒有 void 類型,但是有一個等價的 Unit 類型。它的優(yōu)點是可以擴展 Any 類,并且允許函數(shù)在某些情況下返回對象,而在其他時候不返回任何內(nèi)容。
如您所見,在 Scala 的 XML 語法中結(jié)合動態(tài)數(shù)據(jù)可以產(chǎn)生強大的功能。再舉一個例子,您可以創(chuàng)建一個統(tǒng)計 XML 文檔,其中顯示的 XML 描述每個服務(wù)在提要中出現(xiàn)的次數(shù)。代碼如清單7所示。
清單 7. 創(chuàng)建統(tǒng)計 XML
def stats(map:HashMap[String,Int]):Node = { |
您的函數(shù)要求 HashMap 的鍵是服務(wù)的名稱,其值為服務(wù)在 FriendFeed 中出現(xiàn)的次數(shù)。這個函數(shù)使用熟悉的 foreach-closure 風(fēng)格遍歷 HashMap,然后使用 HashMap 的名稱/值對創(chuàng)建一個新節(jié)點,將這個節(jié)點添加到節(jié)點隊列中。隨后創(chuàng)建 Stats 結(jié)構(gòu)并作為動態(tài)數(shù)據(jù)訪問節(jié)點隊列,節(jié)點隊列隨后被賦值給一個 XML 結(jié)構(gòu)?,F(xiàn)在準備好了所有函數(shù),您只需驅(qū)動程序以便進行測試。
運行和測試
在運行程序之前,需要加入一些代碼來驅(qū)動它。將創(chuàng)建一個 main 方法,就像使用 Java 編程一樣,如清單8所示。
清單 8. FriendFeed main 方法
def main(args:Array[String]) = { |
這個方法創(chuàng)建了 FriendFeed。它接受命令行參數(shù)確定哪些服務(wù)查找用戶并計算統(tǒng)計數(shù)據(jù)。注意這些語法與 Java 語法非常相似。main 函數(shù)接受一個 String 數(shù)組(稱為 args)作為參數(shù)。這個程序為統(tǒng)計文檔創(chuàng)建 HashMap,并且為每個服務(wù)創(chuàng)建 UserList 文檔。然后輸出每個 UserList 和統(tǒng)計文檔。要運行這個程序,需要使用 scalac FriendFeed.scala 和 scala FriendFeed 進行編譯,如清單9所示。
清單 9. 運行程序
$ scalac FriendFeed.scala |
您當(dāng)然可以選擇不同的服務(wù)名稱作為命令行參數(shù)或其他參數(shù)。Scala 具備完美的 printer 類,可以使用正確的空格、制表符和格式打印 XML。還提供了 XML 寫入程序(writer)將 XML 寫回數(shù)據(jù)流,比如文件。您可以使用 Scala 完成所有普通的任務(wù),同時還可以使用 Scala 提供的一些獨有的功能。
結(jié)束語
許多人把 Scala 視為 Java 編程語言發(fā)展歷程中的重要一步。XML 已經(jīng)成為一種重要的技術(shù),編程語言只有在其語法中內(nèi)置了 XML 支持,才能自然地應(yīng)用 XML 技術(shù)。而 Scale 做到了這一點。它使得復(fù)雜問題變得簡單。查看本文使用 Scale 執(zhí)行的所有功能,想像一下做同樣的事情需要使用多少行 Java 代碼。
【編輯推薦】