形式良好的 XML 文档与合法的XML文档

拥有正确语法的 XML 被称为“形式良好”的 XML。
通过某个 DTD 进行了验证的 XML 是“合法”的 XML。

如果某个XML文档不是形式良好的,就不能被应用程序和浏览器正确地识别和解析。
一个”形式良好”的 XML 文档拥有正确的语法,遵守XML 语法规则:

XML 文档必须有根元素
XML 文档必须有关闭标签
XML 标签对大小写敏感
XML 元素必须被正确的嵌套
XML 属性必须加引号

示例:一个形势良好的XML文档



George
John
Reminder
Don't forget the meeting!

形式良好的MXL文档所要遵循的基本规范详释

一个XML文档由两个部分组成:一部分是序言,包括文档声明、注释、空白;另一部分是文档元素,这两者是必需的。这两者之外,用户还可以选择性地包含注释、处理指令,以及空白。

XML文档声明由“”结束,这个声明的作用在于告诉XML处理程序:该文档是按照XML文档规范对数据进行组织的。XML声明至少应该提供文档所用的版本号,即。除了版本号外,还有两个属性可选:编码(encoding)声明和独立文档(standalone)声明。

版本声明指明文档所采用的XML版本号,必须排在第一位。目前1.0是惟一可用的版本。这个属性是XML文档声明必需的。

编码声明则指明该文档所使用的编码方式,是可选属性。XML默认的字符集是Unicode。Unicode是一种双字节字符,可以标识当今使用的大多数字符包括汉字。UTF-8是Unicode的压缩版本,而UTF-16则是Unicode的双字节编码实现。如果文档不使用默认的Unicode编码方式,则必须为encoding属性指定一个编码方式。中文简体采用GB2312编码,繁体中文则采用BIG5编码。例程4-2就是采用GB2312编码方式。对于某些XML处理程序而言,GB2312有时候会出现中文乱码的情况。所以建议读者根据实际情况选择合适的编码方式,UTF-8、GB2312、BIG5或者ISO8859-1。

独立文档声明指明该文档是否有外部的标记声明文件相配套使用,属性取值为“yes”或者“no”。这也是可选属性。

XML声明是大小写敏感的,不可以用“”结束。在解析的时候,这些注释内容会全部被XML处理程序忽略不显示。这些注释内容不能出现在XML声明之前,也不能放在任何标记当中;不过,可以包围和隐藏标记。另外,“–”只能作为注释起始和结束标志,不能出现在注释内容当中。

处理指令被用来为XML处理程序提供信息,以“”的格式呈现。比如:

这个指令指明了与其所属文档配套使用的样式表的类型为XSL(eXtensible Style sheet Language),文件名称为ex1.xsl,并且与该XML文档在同一个目录下。在显示XML文档内容的时候,为XML文档指定相应的XSL是一种比较快捷的方式。如果没有指定样式表,则浏览器按照自己默认的样式呈现文档内容,IE浏览器将文档源码呈现出来,如图4-4所示。

XML空白是指由一个或者更多的空格符、制表符、回车符、换行符等组成的字符或者字符串。通常,为了使XML文档显示起来更直观,在开始标记、结束标记、注释、处理指定等地方添加空白是必要的。

元素是XML文档信息内容的载体,是基本的逻辑单元。数据之间的逻辑关系和层次结构也通过元素来体现。一个元素通常这样组成:一个开始标记,然后是元素内容,最后是结束标记。

为自定义标记取名称的时候,可以采用中文或者英文,但是名称必须以一个字母或者下划线开始。开始标记的名称必须与结束标记的名称一致,包括所有字母的大小写。

元素内容可以是嵌套的元素,单层或者多层的嵌套都可以。

元素内容也可以是字符数据。这种情况下,内容就是表示一个元素的信息内容的文本,比如例程4-3中标记中的内容。但是内容中不能包含小于号(<)、连字符(&)、或者字符串]]>。因为XML文档解析器会将<字符误认为一个嵌套元素的开始,把&误认为一个字符引用的开始,把]]>误认为一个CDATA片段的结束。

元素内容有时候是一个字符引用,包括实体引用和字符引用。实体实际上就是数据或者资源。XML文档可以引用已经定义的实体。

另一个比较常用的元素内容类型是CDATA片段。这是一个以“”的形式呈现。

XML元素可以拥有自己的属性,这是让文档包含有关信息的一种简单的方式。属性说明及其取值成对出现,中间以等号(=)分隔开,两者均为字符串。每个元素可以包含零个或者多个属性。属性通常被用来表现那些与元素内容无关的简单数据,或者不希望呈现给用户的非结构化数据。属性的命名必须符合如下的规则:

— 属性名以一个字母或者下划线开始,名称中不能含有空格。
— 同一个元素不能有两个同名的属性,即属性在元素中只能出现一次。
— 属性名是区分大小写的。
— 带有前缀“xml”开始的属性名为标准保留字,不允许使用。

属性取值则是由引号界定的一系列字符,也应该遵守如下相应的规则:

— 属性取值由引号界定,可以使用单引号或者双引号,但必须配对出现。
— 属性取值字符串不能包含用于界定它的同种引号,不能包含<字符。 — 属性取值不能包含&字符,除非以一个字符或者实体引用开始,比如“Cold& Windy”。

如果一个元素a位于另外一个元素b的内部,即a的开始标记和结束标记被嵌套在b的开始标记和结束标记之中,则元素b包含了元素a。

按照XML规范的要求,一个形式良好的XML文档只能有一个顶层元素即根元素,所有另外的元素都嵌套在它里面。

点赞 (0)
  1. 小说排行榜说道:

    个形式良好的XML文档只能有一个顶层元素即根元素,所有另外的元素都嵌套在它里面

  2. 遥控飞机说道:

    来看看 支持了

  3. 宁波藏獒园说道:

    很专业,学习下

  4. 580yo美图说道:

    呵呵···来看了下

  5. 美女图片说道:

    电脑上的东西,不是一年两年就能学完,不知从何入手哟······

  6. 黄粉虫之家说道:

    能否做个友情链接呀,我的链接就用给你留言的名字吧,如果愿意交换的话,给我的博客上面留个话,我把你的链接给加上。

  7. 博主写的很好,过来学习一下

  8. mbtshoes说道:

    看了后才知道XML文档我还有那么多要学的

  9. 园子说道:

    XML 我正在学习
    呵呵。

  10. 甲亢治疗说道:

    好东西 需要学习一下!!!!!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Captcha Code