推薦幾款Xml解析工具,超好用!
01、簡介
XML,一種可擴展標記語言,通常被開發(fā)人員用來傳輸和存儲數(shù)據(jù),定義也比較簡單,通常如下方式開頭,用來表述文檔的一些信息。
<?xml version="1.0" encoding="UTF-8"?>
例如下面這個簡單的文檔。
<?xml version="1.0" encoding="UTF-8"?>
<site>
<name>博客網(wǎng)站</name>
<url>https://www.pzblog.cn</url>
<desc>技術(shù)學習網(wǎng)站</desc>
</site>
其中site、name、url、desc表示標簽名稱,內(nèi)容表示標簽對應(yīng)的值。
因 XML 的平臺無關(guān)性、語言無關(guān)性、系統(tǒng)無關(guān)性等特點,給系統(tǒng)之間的數(shù)據(jù)傳輸帶來了極大的便利,廣受開發(fā)者歡迎。
事實上,在 1996 年誕生之后,XML 逐漸成為了一種通用的數(shù)據(jù)交換格式。
不同的編程語言,解析 XML 的邏輯基本都是一樣的,只不過實現(xiàn)的語法稍有不同。
今天我們就一起來學習一下,采用 Java 編程語言來解析 XML,有哪些方法以及對應(yīng)的優(yōu)缺點。
經(jīng)過整理,通過 Java 程序解析 XML 文件,目前比較主流的有以下四種方式:
- DOM 解析
- SAX 解析
- JDOM 解析
- DOM4J 解析
下面我們以如下的 XML 文件為例,分別介紹每種方式的解析實現(xiàn)。
<?xml version="1.0" encoding="utf-8" ?>
<class>
<student id="1">
<name>張三</name>
<gender>男</gender>
<age>26</age>
</student>
<student id="2">
<name>里斯</name>
<gender>男</gender>
<age>36</age>
</student>
<student id="3">
<name>王五</name>
<gender>女</gender>
<age>24</age>
</student>
</class>
02、、DOM 解析
DOM 的全稱是:Document Object Model,是 Java 中最早支持的一種 XML 解析方式,可以不用依賴任何第三方包,通過 JDK 提供的 w3c 包里面的 api,即可實現(xiàn)快速解析,代碼編程簡單。
DOM 解析 XML 文檔的時候,會在內(nèi)存中加載整個文檔來構(gòu)造層次結(jié)構(gòu),因此優(yōu)勢比較突出:
- 1.能快速遍歷 XML 中任意節(jié)點數(shù)據(jù),同時允許應(yīng)用程序?qū)?shù)據(jù)和結(jié)構(gòu)做出更改
- 2.可以在任何時候在樹中上下導航,獲取和操作任意部分的數(shù)據(jù)
當然也有缺點:
- 加載小的 XML 文檔問題不大,加載大的 XML 文檔,內(nèi)存消耗會很大,有內(nèi)存溢出的風險
總的來說,DOM 解析方式,對于數(shù)據(jù)量比較小的 XML 文檔,基本夠用。
實現(xiàn)過程如下:
import org.w3c.dom.*;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import java.io.InputStream;
public class DomDemo {
public static void main(String[] args) {
// 1.獲取xml文件流
InputStream inputStream = DomDemo.class.getClassLoader().getResourceAsStream("demo.xml");
// 2.創(chuàng)建DocumentBuilderFactory對象
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
// 3.創(chuàng)建DocumentBuilder對象
try {
DocumentBuilder builder = factory.newDocumentBuilder();
Document d = builder.parse(inputStream);
NodeList stdList = d.getElementsByTagName("student");
for (int i = 0; i <stdList.getLength() ; i++) {
Node std = stdList.item(i);
// 遍歷標簽屬性
NamedNodeMap attrs = std.getAttributes();
for(int j=0; j< attrs.getLength(); j++){
Node attr = attrs.item(j);
System.out.println(attr.getNodeName()+":"+attr.getNodeValue());
}
// 遍歷標簽子節(jié)點
NodeList childNodes = std.getChildNodes();
for (int k = 0; k <childNodes.getLength() ; k++) {
if (childNodes.item(k).getNodeType()== Node.ELEMENT_NODE) {
System.out.println(childNodes.item(k).getNodeName() + ":" + childNodes.item(k).getTextContent());
}
}
System.out.println("==============");
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
運行結(jié)果如下:
id:1
name:張三
gender:男
age:26
==============
id:2
name:里斯
gender:男
age:36
==============
id:3
name:王五
gender:女
age:24
==============
03、SAX 解析
SAX 的全稱是:Simple API for XML,也是 JDK 提供的另一種 XML 解析方式。
相比于 DOM,SAX 每次解析只在內(nèi)存中加載 XML 文件的一小部分,即使針對較大的 XML 文件,它也不需要占用太多的內(nèi)存,也不會存在內(nèi)存溢出的問題。
優(yōu)點如下:
- 采用事件驅(qū)動模式一段一段的來解析數(shù)據(jù),占用內(nèi)存小
- 只在讀取數(shù)據(jù)時檢查數(shù)據(jù),不需要保存在內(nèi)存中
- 效率和性能較高,能解析大于系統(tǒng)內(nèi)存的文檔
當然也有缺點:
- 與 DOM 解析器相比,使用 SAX 解析器讀取 XML 文件時,解析邏輯比較復(fù)雜
- 同時無法定位文檔層次,很難同時訪問同一文檔的不同部分數(shù)據(jù),不支持 XPath
實現(xiàn)過程如下:
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.InputStream;
import java.util.List;
import java.util.Map;
public class SAXDemo {
public static void main(String[] args) throws Exception {
// 1.獲取xml文件流
InputStream inputStream = SAXDemo.class.getClassLoader().getResourceAsStream("demo.xml");
// 2.獲取SAXParserFactory實例
SAXParserFactory factory = SAXParserFactory.newInstance();
// 3.獲取SAXparser實例
SAXParser saxParser = factory.newSAXParser();
// 4.創(chuàng)建Handel對象
SAXDemoHandel handel = new SAXDemoHandel();
// 5.解析XML文件
saxParser.parse(inputStream, handel);
// 6.獲取讀取結(jié)果
List<Map<String, String>> students = handel.getStudents();
for (Map<String, String> student : students) {
System.out.println(student.toString());
}
}
}
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
public class SAXDemoHandel extends DefaultHandler {
private String value;
private Map<String, String> student;
private List<Map<String, String>> students = new ArrayList<>();
public List<Map<String, String>> getStudents() {
return students;
}
/**
* xml 解析開始
* @throws SAXException
*/
@Override
public void startDocument() throws SAXException {
super.startDocument();
System.out.println("xml 解析開始");
}
/**
* xml 解析結(jié)束
* @throws SAXException
*/
@Override
public void endDocument() throws SAXException {
super.endDocument();
System.out.println("xml 解析結(jié)束");
}
/**
* 解析 XML 元素開始
* @param uri
* @param localName
* @param qName
* @param attributes
* @throws SAXException
*/
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
super.startElement(uri, localName, qName, attributes);
System.out.println("開始遍歷節(jié)點:" + qName);
if (qName.equals("student")){
student = new HashMap<>();
for(int i=0; i<attributes.getLength();i++){
student.put(attributes.getQName(i), attributes.getValue(i));
}
}
}
/**
* 解析 XML 元素結(jié)束
* @param uri
* @param localName
* @param qName
* @throws SAXException
*/
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
super.endElement(uri, localName, qName);
System.out.println("節(jié)點遍歷結(jié)束:" + qName);
if(qName.equals("student")){
students.add(student);
student = null;
} else if(qName.equals("name") || qName.equals("gender") || qName.equals("age")){
student.put(qName, value);
}
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
super.characters(ch, start, length);
// 獲取節(jié)點值數(shù)組
value = new String(ch,start,length).trim();
if (!value.equals("")) {
System.out.println(value);
}
}
}
運行結(jié)果如下:
{gender=男, name=張三, id=1}
{gender=男, name=里斯, id=2}
{gender=女, name=王五, id=3}
04、JDOM 解析
JDOM 是 Java 生態(tài)中一個非常優(yōu)秀的 XML 開源文檔解析庫,你可以把它看成是 DOM 及 SAX 的結(jié)合版,同時在設(shè)計上彌補了 DOM 及 SAX 在實際應(yīng)用當中的不足之處。
優(yōu)點如下:
- 基于樹的模型處理 XML 文件,數(shù)據(jù)會加載在內(nèi)存中
- 沒有向下兼容的限制,因此比 DOM 簡單
- 速度快,缺陷少
- 具有 SAX 的解析特征
- API 比 DOM 更容易理解
當然也有缺點:
- 能處理大于內(nèi)存的 XML 文檔
- 不支持與 DOM 中相應(yīng)遍歷包
總體來講,JDOM 對于大多數(shù)需要使用 XML 應(yīng)用程序來說還是非常實用的。
實現(xiàn)過程如下:
<!--jdom -->
<dependency>
<groupId>org.jdom</groupId>
<artifactId>jdom</artifactId>
<version>1.1.3</version>
</dependency>
import org.jdom.Attribute;
import org.jdom.Document;
import org.jdom.Element;
import org.jdom.input.SAXBuilder;
import java.io.InputStream;
import java.util.List;
public class JdomDemo {
public static void main(String[] args) throws Exception {
// 1.獲取xml文件流
InputStream inputStream = JdomDemo.class.getClassLoader().getResourceAsStream("demo.xml");
// 2.創(chuàng)建SAXBuilder對象
SAXBuilder saxBuilder = new SAXBuilder();
// 3.將輸入流加載到build中
Document document = saxBuilder.build(inputStream);
// 4.獲取根節(jié)點
Element rootElement = document.getRootElement();
// 5.獲取子節(jié)點
List<Element> children = rootElement.getChildren();
for (Element child : children) {
List<Attribute> attributes = child.getAttributes();
// 遍歷標簽屬性
for (Attribute attr : attributes) {
System.out.println(attr.getName()+":"+attr.getValue());
}
// 遍歷標簽子節(jié)點
List<Element> childrenList = child.getChildren();
for (Element o: childrenList) {
System.out.println(o.getName() + ":" + o.getValue());
}
System.out.println("==============");
}
}
}
運行結(jié)果如下:
id:1
name:張三
gender:男
age:26
==============
id:2
name:里斯
gender:男
age:36
==============
id:3
name:王五
gender:女
age:24
==============
05、DOM4J 解析
DOM4J 也是 Java 生態(tài)中一款非常非常優(yōu)秀的 XML 開源文檔解析庫,是 JDOM 的升級品。
最初,它是 JDOM 的一種分支,后來合并了許多超出基本 XML 文檔表示的功能,最后單獨作為一工具對外發(fā)布。
優(yōu)點如下:
- 性能優(yōu)異,功能強大,極端易使用
- 開發(fā)簡便,同時也提供了一些提高性能的代替方法
- 支持 XPath
唯一的缺點:
- API 過于復(fù)雜
實現(xiàn)過程如下:
<!-- dom4j -->
<dependency>
<groupId>dom4j</groupId>
<artifactId>dom4j</artifactId>
<version>1.6.1</version>
</dependency>
public class Dom4jDemo {
public static void main(String[] args) throws Exception {
// 1.獲取xml文件流
InputStream inputStream = Dom4jDemo.class.getClassLoader().getResourceAsStream("demo.xml");
// 2.創(chuàng)建Reader對象
SAXReader reader = new SAXReader();
// 3.加載xml
Document document = reader.read(inputStream);
// 4.獲取根節(jié)點
Element rootElement = document.getRootElement();
// 5.遍歷元素
Iterator iterator = rootElement.elementIterator();
while (iterator.hasNext()){
Element stu = (Element) iterator.next();
// 遍歷標簽屬性
List<Attribute> attributes = stu.attributes();
for (Attribute attribute : attributes) {
System.out.println(attribute.getName() + ":" + attribute.getValue());
}
// 遍歷標簽子節(jié)點
Iterator iterator1 = stu.elementIterator();
while (iterator1.hasNext()){
Element stuChild = (Element) iterator1.next();
System.out.println(stuChild.getName()+":"+stuChild.getStringValue());
}
System.out.println("==============");
}
}
}
運行結(jié)果如下:
id:1
name:張三
gender:男
age:26
==============
id:2
name:里斯
gender:男
age:36
==============
id:3
name:王五
gender:女
age:24
==============
06、小結(jié)
最后總結(jié)一下,目前許多開源項目中大量采用 DOM4J,例如 Hibernate 框架中就用到 DOM4J 來讀取 XML 配置文件,連 Sun 的 JAXM 也在用 DOM4J。
因此對于需要使用 XML 解析工具,如果項目中沒有什么包袱,首選 DOM4J。
對于一些已經(jīng)在項目中用到的 XML 解析工具,如果不考慮移植性問題,也可以改成 DOM4J 來實現(xiàn),當然具體問題具體分析,如果遷移成本很高,以前的工具依然能正常運行,也沒必要進行遷移。總之就是,適合的才是最好的,是否值得遷移,需要評估資源成本和時間以及必要性。