关于XML的一些问题

最近学到了XML的解析，想请问一下。

XML文档定义有几种形式？它们之间有何本质区别？解析XML文档有哪几种方式？

元亨利贞 · 元亨利贞

本帖最后由元亨利贞于 2014-4-22 23:01 编辑

a: 两种形式 dtd schema
b: 本质区别:schema本身是xml的，可以被XML解析器解析(这也是从DTD上发展schema的根本目的)
c:有DOM,SAX,STAX等 DOM:处理大型文件时其性能下降的非常厉害。这个问题是由DOM的树结构所造成的，这种结构占用的内存较多，而且DOM必须在解析文件之前把整个文档装入内存,适合对XML的随机访问 SAX:不现于DOM,SAX是事件驱动型的XML解析方式。它顺序读取XML文件，不需要一次全部装载整个文件。
当遇到像文件开头，文档结束，或者标签开头与标签结束时，它会触发一个事件，用户通过在其回调事件中写入处理代码来处理XML文件，适合对XML的顺序访问 STAX:Streaming API for XML (StAX) xml文档有两种定义方法： dtd：数据类型定义（data type definition），用以描述XML文档的文档结构，是早期的XML文档定义形式。 schema：其本身是基于XML语言编写的，在类型和语法上的限定能力比dtd强，处理也比较方便，因为此正逐渐代替dtd成为新的模式定义语言。

jzxyhjl · jzxyhjl

<?xml version="1.0" encoding="UTF-8"?>
<书架>
<书>
<书名 name="test1">111</书名>
<价格>222元</价格>
<作者>aaa</作者>
</书>
<书>
<书名 name="shu4">444</书名>
<作者>bbb</作者>
<价格>555元</价格>
</书>
</书架>

复制代码

以这个XML为例，下面是XML解析方式：

一种是dom（Document Object Model，即文档对象模型，W3C组织推荐），在使用dom解析XML文档时，需要读取整个XML文档，在内存中架构代表整个dom树的document对象，从而再对XML文档进行操作。如果XML文档特别大，就会大量消耗计算机的内存，甚至可能导致内存溢出。

一种是sax（Simple API for XML，不是官方标准，但所有XML解析器都支持它）。sax解析允许读取文档的时候，就对文档进行处理，而不必等到整个文档都读进内存再进行操作。
XML解析开发包：Jaxp（sun）、Jdom、dom4j。
首先是Jaxp解析XML，Jaxp开发包是J2SE的一部分，由javax.xml、org.w3c.dom、org.xml.sax包以及其子包组成。
示例读取xml标签内容：

public void read() throws Exception {
//用工厂方法获将xml解析成document
//创建工厂
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
//得到DOM解析器
DocumentBuilder builder = factory.newDocumentBuilder();
//解析xml文档，得到document
Document doc = builder.parse("src/xml/book.xml");
//得到所有<书>标签
NodeList list = doc.getElementsByTagName("书");
//获得第二个<书>标签
Node node = list.item(1);
//获取标签内容
String s = node.getTextContent();
System.out.println(s);
}

复制代码

然后是sax解析XML，sax采用事件处理的方式解析XML文件，利用sax解析XML文件，需要解析器和事件处理器。解析器可以使用Jaxp的API创建，创建好sax解析器后就可以制定解析器去解析某个XML文档。在这个过程中，sax同时会去调用一个事件处理器的方法，并把解析的XML文件内容当做方法参数传递给事件处理器。

package xml.sax;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
public class SaxDemo1 {
public static void main(String[] args) throws Exception {
// 1.创建解析工厂
SAXParserFactory factory = SAXParserFactory.newInstance();
// 2.得到解析器
SAXParser sp = factory.newSAXParser();
// 3.得到读取内容
XMLReader reader = sp.getXMLReader();
// 4.设置内容处理器
reader.setContentHandler(new ListHandler());
// 5.读取xml文档内容
reader.parse("src/xml/book.xml");
}
}
//创建自己的事件处理器
class ListHandler implements ContentHandler {
//开始标签
public void startElement(String uri, String localName, String qName,
Attributes atts) throws SAXException {
// TODO Auto-generated method stub
String name = "<" + qName;
for (int i = 0; atts != null && i < atts.getLength(); i++) {
name += " " + atts.getQName(i) + "=" + atts.getValue(i);
}
System.out.println(name + ">");
}
//标签内容
public void characters(char[] ch, int start, int length)
throws SAXException {
// TODO Auto-generated method stub
System.out.println(new String(ch, start, length));
}
//结束标签
public void endElement(String uri, String localName, String qName)
throws SAXException {
// TODO Auto-generated method stub
System.out.println("</" + qName + ">");
}
public void endDocument() throws SAXException {
// TODO Auto-generated method stub
}
public void endPrefixMapping(String prefix) throws SAXException {
// TODO Auto-generated method stub
}
public void ignorableWhitespace(char[] ch, int start, int length)
throws SAXException {
// TODO Auto-generated method stub
}
public void processingInstruction(String target, String data)
throws SAXException {
// TODO Auto-generated method stub
}
public void setDocumentLocator(Locator locator) {
// TODO Auto-generated method stub
}
public void skippedEntity(String name) throws SAXException {
// TODO Auto-generated method stub
}
public void startDocument() throws SAXException {
// TODO Auto-generated method stub
}
public void startPrefixMapping(String prefix, String uri)
throws SAXException {
// TODO Auto-generated method stub
}
}

复制代码

最后是dom4j解析XML，一个优秀的Java XML API，虽然API相对上边的两种要复杂一些，但胜在灵活易用且更能强大。
使用dom4j开发，需要下载相应的jar文件。

public void read() throws Exception{
//创建解析器
SAXReader reader = new SAXReader();
//解析XML文档，获得document
Document doc = reader.read(new File("src/xml/book.xml"));
//获得根节点
Element root = doc.getRootElement();
//获取根节点下面的指定节点<书>
Element book = (Element)root.elements("书").get(1);
//获取<书>节点下，指定节点<作者>的内容
String author = book.element("作者").getText();
//打印输出
System.out.println(author);
}

复制代码

帐号		自动登录	找回密码
密码			加入黑马

关于XML的一些问题

2 个回复

评分

评分

浏览过的版块

黑马骑士勋章