您的当前位置:首页正文

DOM4J解析XML

2022-08-08 来源:榕意旅游网
 scrum框架介绍

1.1 编辑本段使用简介 下面给出一些例子(部分摘自DOM4J自带的文档),简单说一下如何使用。 1.1.1 1 读取并解析XML文档

读写XML文档主要依赖于org.dom4j.io包,其中提供DOMReader和SAXReader两类不同方式,而调用方式是一样的。这就是依靠接口的好处。 // 从文件读取XML,输入文件名,返回XML文档

public

Document

read(String

fileName)

throws

MalformedURLException,

DocumentException {

SAXReader reader = new SAXReader();

Document document = reader.read(new File(fileName)); return document; }

其中,reader的read方法是重载的,可以从InputStream, File, Url等多种不同的源来读取。得到的Document对象就代表了整个XML。

根据本人自己的经验,读取的字符编码是按照XML文件头定义的编码来转换。如果遇到乱码问题,注意要把各处的编码名称保持一致即可。

1.1.2 2 取得Root节点

读取后的第二步,就是得到Root节点。熟悉XML的人都知道,一切XML分析都是从Root元素开始的。

public Element getRootElement(Document doc){ return doc.getRootElement(); }

1.1.3 3 遍历XML树

DOM4J提供至少3种遍历节点的方法: 1) 枚举(Iterator) // 枚举所有子节点

for ( Iterator i = root.elementIterator(); i.hasNext(); ) { Element element = (Element) i.next(); // do something }

// 枚举名称为foo的节点

for ( Iterator i = root.elementIterator(foo); i.hasNext();) { Element foo = (Element) i.next(); // do something

- 1 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

}

// 枚举属性

for ( Iterator i = root.attributeIterator(); i.hasNext(); ) { Attribute attribute = (Attribute) i.next(); // do something } 2)递归

递归也可以采用Iterator作为枚举手段,但文档中提供了另外的做法 public void treeWalk() { treeWalk(getRootElement()); }

public void treeWalk(Element element) {

for (int i = 0, size = element.nodeCount(); i < size; i++) { Node node = element.node(i); if (node instanceof Element) { treeWalk((Element) node); } else { // do something.... } } }

3) Visitor模式

最令人兴奋的是DOM4J对Visitor的支持,这样可以大大缩减代码量,并且清楚易懂。了解设计模式的人都知道,Visitor是GOF设计模式之一。其主要原理就是两种类互相保有对方的引用,并且一种作为Visitor去访问许多Visitable。我们来看DOM4J中的Visitor模式(快速文档中没有提供)

只需要自定一个类实现Visitor接口即可。 public class MyVisitor extends VisitorSupport { public void visit(Element element){ System.out.println(element.getName()); }

public void visit(Attribute attr){ System.out.println(attr.getName()); } }

调用: root.accept(new MyVisitor())

Visitor接口提供多种Visit()的重载,根据XML不同的对象,将采用不同的方式来访问。上面是给出的Element和Attribute的简单实现,一般比较常用的就是这两个。VisitorSupport是DOM4J提供的默认适配器,Visitor接口的Default Adapter模式,这个模式给出了各种visit(*)

- 2 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

的空实现,以便简化代码。

注意,这个Visitor是自动遍历所有子节点的。如果是root.accept(MyVisitor),将遍历子节点。我第一次用的时候,认为是需要自己遍历,便在递归中调用Visitor,结果可想而知。

1.1.4 4 XPath支持

DOM4J对XPath有良好的支持,如访问一个节点,可直接用XPath选择。 public void bar(Document document) { List list = document.selectNodes( //foo/bar );

Node node = document.selectSingleNode(//foo/bar/author); String name = node.valueOf( @name ); }

例如,如果你想查找XHTML文档中所有的超链接,下面的代码可以实现: public void findLinks(Document document) throws DocumentException { List list = document.selectNodes( //a/@href ); for (Iterator iter = list.iterator(); iter.hasNext(); ) { Attribute attribute = (Attribute) iter.next(); String url = attribute.getValue(); } }

1.1.5 5 字符串与XML的转换

有时候经常要用到字符串转换为XML或反之, // XML转字符串

Document document = ...; String text = document.asXML(); // 字符串转XML

String text = James ;

Document document = DocumentHelper.parseText(text);

1.1.6 6 用XSLT转换XML public Document styleDocument( Document document, String stylesheet ) throws Exception {

// load the transformer using JAXP

TransformerFactory factory = TransformerFactory.newInstance(); Transformer transformer = factory.newTransformer( new StreamSource( stylesheet )

- 3 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

);

// now lets style the given document

DocumentSource source = new DocumentSource( document ); DocumentResult result = new DocumentResult(); transformer.transform( source, result ); // return the transformed document

Document transformedDoc = result.getDocument(); return transformedDoc; }

1.1.7 7 创建XML

一般创建XML是写文件前的工作,这就像StringBuffer一样容易。 public Document createDocument() {

Document document = DocumentHelper.createDocument(); Element root = document.addElement(root); Element author1 = root

.addElement(author) .addAttribute(name, James) .addAttribute(location, UK) .addText(James Strachan); Element author2 = root

.addElement(author) .addAttribute(name, Bob) .addAttribute(location, US) .addText(Bob McWhirter); return document; }

1.1.8 8 文件输出

一个简单的输出方法是将一个Document或任何的Node通过write方法输出 FileWriter out = new FileWriter( foo.xml ); document.write(out);

如果你想改变输出的格式,比如美化输出或缩减格式,可以用XMLWriter类 public void write(Document document) throws IOException { // 指定文件

XMLWriter writer = new XMLWriter(

- 4 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

new FileWriter( output.xml ) );

writer.write( document ); writer.close(); // 美化格式

OutputFormat format = OutputFormat.createPrettyPrint(); writer = new XMLWriter( System.out, format ); writer.write( document ); // 缩减格式

format = OutputFormat.createCompactFormat(); writer = new XMLWriter( System.out, format ); writer.write( document ); }

如何,DOM4J够简单吧,当然,还有一些复杂的应用没有提到,如ElementHandler等。如果你动心了,那就一起来用DOM4J.

1.2 编辑本段使用介绍2

本文主要讨论了用dom4j解析XML的基础问题,包括建立XML文档,添加、修改、删除节点,以及格式化(美化)输出和中文问题。可作为dom4j的入门资料。

1.2.1 1. 下载与安装

dom4j是sourceforge.net上的一个开源项目,主要用于对XML的解析。从2001年7月发布第一版以来,已陆续推出多个版本,目前最高版本为1.5。

dom4j专门针对Java开发,使用起来非常简单、直观,在Java界,dom4j正迅速普及。 可以到http://sourceforge.net/projects/dom4j下载其最新版。

dom4j1.5的完整版大约13M,是一个名为dom4j-1.5.zip的压缩包,解压后有一个dom4j-1.5.jar文件,这就是应用时需要引入的类包,另外还有一个jaxen-1.1-beta-4.jar文件,一般也需要引入,否则执行时可能抛java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常,其他的包可以选择用之。

1.2.2 2. 示例XML文档(holen.xml)

为了述说方便,先看一个XML文档,之后的操作均以此文档为基础。 holen.xml

Dom4j Tutorials

- 5 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

Lucene Studing

Lucene in Action

O'Reilly

这是一个很简单的XML文档,场景是一个网上书店,有很多书,每本书有两个属性,一个是书名,一个为是否展示[show],最后还有一项是这些书的拥有者[owner]信息。

1.2.3 3. 建立一个XML文档 /**

* 建立一个XML文档,文档名由输入属性决定 * @param filename 需建立的文件名 * @return 返回操作结果, 0表失败, 1表成功 */

public int createXMLFile(String filename){ /** 返回操作结果, 0表失败, 1表成功 */ int returnValue = 0; /** 建立document对象 */

Document document = DocumentHelper.createDocument(); /** 建立XML文档的根books */

Element booksElement = document.addElement(\"books\"); /** 加入一行注释 */

booksElement.addComment(\"This is a test for dom4j, holen, 2004.9.11\"); /** 加入第一个book节点 */

Element bookElement = booksElement.addElement(\"book\"); /** 加入show属性内容 */

bookElement.addAttribute(\"show\ /** 加入title节点 */

Element titleElement = bookElement.addElement(\"title\"); /** 为title设置内容 */

titleElement.setText(\"Dom4j Tutorials\"); /** 类似的完成后两个book */

bookElement = booksElement.addElement(\"book\"); bookElement.addAttribute(\"show\

- 6 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

titleElement = bookElement.addElement(\"title\"); titleElement.setText(\"Lucene Studing\");

bookElement = booksElement.addElement(\"book\"); bookElement.addAttribute(\"show\ titleElement = bookElement.addElement(\"title\"); titleElement.setText(\"Lucene in Action\"); /** 加入owner节点 */

Element ownerElement = booksElement.addElement(\"owner\"); ownerElement.setText(\"O'Reilly\"); try{

/** 将document中的内容写入文件中 */

XMLWriter writer = new XMLWriter(new FileWriter(new File(filename))); writer.write(document); writer.close();

/** 执行成功,需返回1 */ returnValue = 1; }catch(Exception ex){ ex.printStackTrace(); }

return returnValue; } 说明:

Document document = DocumentHelper.createDocument(); 通过这句定义一个XML文档对象。

Element booksElement = document.addElement(\"books\"); 通过这句定义一个XML元素,这里添加的是根节点。 Element有几个重要的方法: l addComment:添加注释 l addAttribute:添加属性 l addElement:添加子元素

最后通过XMLWriter生成物理文件,默认生成的XML文件排版格式比较乱,可以通过OutputFormat类的createCompactFormat()方法或createPrettyPrint()方法格式化输出,默认采用createCompactFormat()方法,显示比较紧凑,这点将在后面详细谈到。 生成后的holen.xml文件内容如下:

Dom4j Tutorialsshow=\"yes\">Lucene<p>Studingshow=\"no\">Lucene in ActionO'Reilly

- 7 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

1.2.4 4. 修改XML文档 有三项修改任务,依次为:

l 如果book节点中show属性的内容为yes,则修改成no l 把owner项内容改为Tshinghua,并添加date节点 l 若title内容为Dom4j Tutorials,则删除该节点 /**

* 修改XML文件中内容,并另存为一个新文件

* 重点掌握dom4j中如何添加节点,修改节点,删除节点 * @param filename 修改对象文件

* @param newfilename 修改后另存为该文件 * @return 返回操作结果, 0表失败, 1表成功 */

public int ModiXMLFile(String filename,String newfilename){ int returnValue = 0; try{

SAXReader saxReader = new SAXReader();

Document document = saxReader.read(new File(filename));

/** 修改内容之一: 如果book节点中show属性的内容为yes,则修改成no */ /** 先用xpath查找对象 */

List list = document.selectNodes(\"/books/book/@show\" ); Iterator iter = list.iterator(); while(iter.hasNext()){

Attribute attribute = (Attribute)iter.next(); if(attribute.getValue().equals(\"yes\")){ attribute.setValue(\"no\"); } } /**

* 修改内容之二: 把owner项内容改为Tshinghua

* 并在owner节点中加入date节点,date节点的内容为2004-09-11,还为date节点添加一个属性type */

list = document.selectNodes(\"/books/owner\" ); iter = list.iterator(); if(iter.hasNext()){

Element ownerElement = (Element)iter.next(); ownerElement.setText(\"Tshinghua\");

Element dateElement = ownerElement.addElement(\"date\");

- 8 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

dateElement.setText(\"2004-09-11\");

dateElement.addAttribute(\"type\ }

/** 修改内容之三: 若title内容为Dom4j Tutorials,则删除该节点 */ list = document.selectNodes(\"/books/book\"); iter = list.iterator(); while(iter.hasNext()){

Element bookElement = (Element)iter.next();

Iterator iterator = bookElement.elementIterator(\"title\"); while(iterator.hasNext()){

Element titleElement=(Element)iterator.next(); if(titleElement.getText().equals(\"Dom4j Tutorials\")){ bookElement.remove(titleElement); } } } try{

/** 将document中的内容写入文件中 */

XMLWriter writer = new XMLWriter(new FileWriter(new File(newfilename))); writer.write(document); writer.close();

/** 执行成功,需返回1 */ returnValue = 1; }catch(Exception ex){ ex.printStackTrace(); }

}catch(Exception ex){ ex.printStackTrace(); }

return returnValue; } 说明:

List list = document.selectNodes(\"/books/book/@show\" ); list = document.selectNodes(\"/books/book\"); 上述代码通过xpath查找到相应内容。 通过setValue()、setText()修改节点内容。 通过remove()删除节点或属性。

- 9 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

1.2.5 5. 格式化输出和指定编码 默认的输出方式为紧凑方式,默认编码为UTF-8,但对于我们的应用而言,一般都要用到中文,并且希望显示时按自动缩进的方式的显示,这就需用到OutputFormat类。 /**

* 格式化XML文档,并解决中文问题 * @param filename * @return */

public int formatXMLFile(String filename){ int returnValue = 0; try{

SAXReader saxReader = new SAXReader();

Document document = saxReader.read(new File(filename)); XMLWriter writer = null;

/** 格式化输出,类型IE浏览一样 */

OutputFormat format = OutputFormat.createPrettyPrint(); /** 指定XML编码 */ format.setEncoding(\"GBK\");

writer=

new

XMLWriter(new

OutputStreamWriter(new

FileOutputStream(\"filename\"),format.getEncoding()),format); writer.write(document); writer.close();

/** 执行成功,需返回1 */ returnValue = 1; }catch(Exception ex){ ex.printStackTrace(); }

return returnValue; } 说明:

OutputFormat format = OutputFormat.createPrettyPrint(); 这句指定了格式化的方式为缩进式,则非紧凑式。 format.setEncoding(\"GBK\"); 指定编码为GBK。

XMLWriter writer = new XMLWriter(new FileWriter(new File(filename)),format); 这与前面两个方法相比,多加了一个OutputFormat对象,用于指定显示和编码方式。

- 10 / 11- 四川美康医药软件研究开发有限公司

scrum框架介绍

1.2.6 6. 完整的类代码 前面提出的方法都是零散的,下面给出完整类代码。 Dom4jDemo.java

package com.holen.dom4j; import java.io.File; import java.io.FileWriter; import java.util.Iterator; import java.util.List; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.DocumentHelper; import org.dom4j.Element; import org.dom4j.io.OutputFormat; import org.dom4j.io.SAXReader; import org.dom4j.io.XMLWriter;

- 11 / 11- 四川美康医药软件研究开发有限公司

因篇幅问题不能全部显示,请点此查看更多更全内容