XML入门教程Word下载.docx
- 文档编号:7663086
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:13
- 大小:108.15KB
XML入门教程Word下载.docx
《XML入门教程Word下载.docx》由会员分享,可在线阅读,更多相关《XML入门教程Word下载.docx(13页珍藏版)》请在冰点文库上搜索。
例二<
?
xmlversion=”1.0encoding=”gb2312”?
>
example>
Greeting>
/Greeting>
/example>
由上述两例可以看出,XML文档和HTML文档非常相似。
但他们在浏览器中显示的结果却差别较大,主要原因是HTML侧重于文档的显示,而XML文档侧重于文档语义的表达。
下面是它们之间的比较:
XML与HTML的比较
比较内容
HTML
XML
可扩展性
不允许用户定义自己的扩展标签
允许用户定义自己的扩展标签
结构描述
不支持深层次的嵌套表达
支持深层次的嵌套表达,适合表示结构复杂的文档数据
可读性及可维护性
难以阅读、维护
结构清晰,便于阅读、维护
数据和显示的关系
内容描述和表现形式合为一体
内容描述和表现形式相分离
在internet环境中跨平台的依赖于内容的技术,使这个时代中处理分布式结构信息的选择工具。
在xml中和html一样,使用标签来标记文本正文。
Xml把信息的结构与他的现实方式分离开,这样相同的xml文档可以在不同的环境中使用和重用。
现在已初步了解了一些关于XML方面的指示,谈不上了解但可以算是知道XML是怎么一回事了。
他到底是什么样的呢?
下面会更深一步接触XML。
第二章XML的基本语法
一何谓标记语言
标记语言(MarkupLanguage)是有一些码或控制标记所组成的,这些码或控制标记本身若单独存在是无意义的,他们必须结合文件信息后才能形成一份有用的电子文件。
目前所使用的标记语言可分为特殊用途的标记语言与一般通用的标记语言两类。
二XML文件的语法
对XML文件有了初步的印象之后,我们就来详细地谈一谈XML文件的语法。
在讲语法之前,我们必须要了解一个重要的概念,就是XML解析器(XML
Parse)。
1.XML解析器
解析器的主要功能就是检查XML文件是否有结构上的错误,剥离XML文件中的标记,读出正确的内容,以交给下一步的应用程序处理。
XML是一种用来结构化文件信息的标记语言,XML规范中对于如何标记文件的结构性有一个详细的法则,解析器就是根据这些法则写出来的软件(多用Java写成)。
同HTML一样,在浏览器中,必须有HTML的解析器,这样浏览器才能够“读懂”各种用HTML标记所组成的网页,将它们显示在我们面前。
如果有浏览器的HTML解析器读不懂的标记,将会返回给我们错误信息。
2.Well-Formed的XML文件
(1).XML是区分大小写的;
(2).所有元素的起始和结束标注必须成对出现,且要正确嵌套;
(3).如果使XML说明,则它必须是XML文档的第一行:
xmlversion=”1.0”?
(4).元素属性必须用引号引起来,单、双引号都可以,但必须成对出现。
如:
basicattr=”1.0”>
basicattr=’1.0’>
(5).XML命名规则:
①.XML名以下划线或字母开始;
②.XML名可包含字母、数字、句点、下划线和冒号;
③.XML名不能包含空格;
④.XML名不能以数字开始,但可包含数字;
⑤.XML名区分大小写。
(6).保留标记字符,如果要在XML中显示<
或&
之类的标记,就要使用字符的实体形式,XML中有五种预先定义了的实体:
&
lt:
表示<
字符
gt:
表示>
amp:
表示&
apos:
表示’字符
quot:
表示”字符
我们也可用ENTITY自定义实体:
!
ENTITYlinux“linuxisaverygoodsystem”>
这样我们可用&
linux;
来调用。
(7).XML文档内容中的空格是有意义的,在转换后会保留。
(8).元素以<
开始并以/>
结束,如<
br/>
。
三元素、属性、实体
元素(ELEMENT)
元素其实就是标记,或者也可以将元素视为标记名称,并没有很明确的定义,而只是一个形容词而已。
元素可以说XML文件里最重要的构成单元。
有三种元素使用方法:
⑴简单内容,文本或其它数据出现在开始和结束标记之间。
开始标记与结束标记有相同名字,但结束标记明要以一个斜杠开始。
下面的元素包括一个开始标记、内容和一个结束标记
author>
StephenHawking<
/author>
.
⑵把元素用作其它元素的容器,元素包含其他元素,呈现出一种分层或树形数据结构。
以下的book元素包含了author和title元素
book>
Abriefhistoryoftime<
/book>
⑶空元素用作属性容器,当元素只包含属性而无内容时,有一种不需使用开始和结束标记的元素简写方式。
空元素的书写可用标记名后跟着一个斜杠来表示
book/>
他表示了:
空元素常用来包含属性数据。
booktitle=”Abriefhistoryoftime”author=”StephenHawking”/>
元素命名规则⑴名字可以包含字母、数字和其他字符。
⑵名字不能以数字或标点开始。
⑶名字不能用字符串“XML”开始,不管是小写形式还是大写形式。
⑷名字不能包含空格,不能使用冒号。
属性
属性提供了有关元素的附加信息。
再HTML中,当加载HTML文档时,属性用来规定图像文件的名字:
imgsrc=”inde01.gif”>
属性常用来表明信息,它不是元素中被描述数据的一部分。
属性也常用来描述有关数据本身的信息。
以下的XML中属性use告诉程序处理此文件不需要的数据
fileuse=”optional”>
index01.gif<
/file>
在XML中,属性值必须用单引号或双引号包围。
一般共识:
如果信息看起来像数据就使用元素;
而在描述有关数据的信息时就使用属性。
不使用属性来存储数据的原因包括:
⑴属性不能包含多个值,而元素能包含多个子元素。
⑵属性不容易扩展以适应将来的变化。
⑶与元素相比,用程序更难以操作属性。
⑷不容易检查属性值是否违反文档类型定义(DTD)。
实体
实体用来替代XML文档中的字符串.例如:
短语”XMLandtheDataRevolution”当文档中重复出现,就可在DTD中定义一个快捷实体声明。
ENTITYxdr”XMLandtheDataRevolution”>
这样,当要是用整个短语时,就可使用&
xdr;
而他在XML文档中会被替换。
使用实体就可以避免拼写错误以及反复输入同一件事的繁琐。
同时还有预定义实体和参数实体之分,这里我们就不深入讨论了。
现在我们已经对XML有了进一步的了解,下面是根深一层次的知识更多的是对这一章的解释。
第三章XML文件的结构
结构是世界上所有事物的存在的基本,没有结构就构不成存在。
XML文件也是同样拥有自己的结构,现在我们来了解一下。
一XML文档的组成
任何事物都会由开始也会有结束。
一个完整地XML应该具备以下规则:
1.文档的开始必须是XML声明。
2.含有数据的元素必须有起始标记和结束标记。
3.不含数据并且仅使用一个标记的元素必须以/>
结束。
4.文档只能包含一个能够包含全部其他元素的元素。
5.元素只能嵌套不能重叠。
6.属性值必须加引号。
7.字符<
和&
只能用于起始标记和实体引用。
8.出现的实体引用只有&
、<
、>
、&
apos;
和"
下面我们来具体解释
XML声明:
1.version,定义XML规范的版本号,到现在为止,只有一个版本号1.0。
xml
version="
1.0"
standalone="
yes"
他的出现是文档最开头的部分,因为XML处理器会读取文件最先的几个字节并将它与字符串<
XML的不同编码作比较来确定正在使用的字符串集。
除去看不见的字节顺序记号,在它之前不能有任何东西,包括空格。
①在非空标记中使用起始和结束标记:
如果忘了结束HTML的标记,Web浏览器并不严格追究。
例如,如果文档包含一个<
B>
标记却没有相应的<
/B>
标记,在<
标记之后的全部文档将变为粗体。
但文档仍然能显示。
XML不会如此宽松,每个起始标记必须以相应的结束标记结束。
如果一个文档未能结束一个标记,浏览器或移交器将报告一个错误信息,并且不会以任何形式显示任何文档的内容。
②用"
/>
"
结束空标记:
不包含数据的标记,例如HTML的<
BR>
HR>
和<
IMG>
,不需要结束标记。
但是XML空标记必须由/>
结束,而不是>
例如<
的XML等价物是<
BR/>
HR/>
IMG/>
当前的Web浏览器处理这种标记的方法不一致。
但是如果想保持向后的兼容性,可以使用结束标记来代替,而且不能在其间包含任何文本。
例如:
/BR>
、<
/HR>
、<
/IMG>
即使这样,Netscape处理<
也有困难(它把这两个标记解释为行间距,而不是前面所讲的)。
因此,在HTML中包含结构完整的空标记也并非总是可行的。
2.encoding,指定文档的编码系统。
3.standalone,定义文档是独立的还是需要装入其他元素才能正确分析。
如果XML文档没有外部实体或DTD,则可以设置为no,否则设置为yes。
可用该值提高性能:
如果为no,则可提高处理速度;
如果设置为yes,则首先要分析文档,确定需要其他哪些文件,然后才能完全分析文档。
4.根元素,每篇XML文档都需要有且只能有一个根元素。
由元素是文档的第一个元素,包含其它所有元素。
下例的portal就是根元素,如:
portal>
name>
jims<
/name>
email>
/email>
…
/portal>
属性,每个元素都可以设置一个或多个属性,如:
nameid=’1’,sex=”male”>
Jims<
元素和属性都可以表示信息,什么时候使用元素,什么时候使用属性呢?
属性信息表现能力有限,它只能表示字符串。
所以当需灵活表示信息时应该使用元素。
一般把信息主体放到元素中,属性只放一些注释或额外的信息。
CDATA部份,它用<
[CDATA[和]]>
表示,它们之间的数据作为原始字符显示,唯一不能出现的标志是]]>
注释,注释是很重要,不论是在编写程序和文档时,所以XML也提供了注释功能,以<
--开头-->
结尾的一对区间为注释。
在以-->
结束之前,不能出现“--”号,“---”更不允许。
处理指令,处理指令以<
开头以?
结尾。
如PHP处理指令可写成,<
php...?
处理指令是标记,而不是元素。
因此,与注释一样,处理指令可出现在XML文档的标签外的任何位置,包括根元素之前或之后。
最常见的处理指令是,xml-stylesheet样式表指令,它会告诉浏览器在显示文档时应用什么样式表。
xml-stylesheethref=”sample.css”type=”text/css”?
…<
第四章介绍DTD的基本要素
DTD的全称是“DocumentTypeDefinition“(文件类型定义)。
他是用来规范XML文件的格式,它必须出现在文件头(Prolog)中,以便XML校验器在一开始便可以得到该份XML文件的格式定义。
XML分为两类:
有效XML文档和简化格式XML文档。
有效是指有一个DTD参考文件的XML文档,一个有效的XML文档必须是简化格式的XML文档,跟随着这个文档的DTD文件的有效性,促进了XML执行程序的运行以及文档在兼容XML浏览器的显示。
要使用DTD进行有效性检验,就要使用文档类型定义声明指定DTD。
xmlversion="
standalone="
no"
DOCTYPEportalSYSTEM"
Jims@<
文档类型声明位于XML声明之后,根元素之前。
如果DTD文档位于本机,可用路径名直接指出DTD文档的位置。
如果DTD位于XML文档外,则叫外部DTD子集。
我们可以结合内外DTD,共同组成一个DTD来为XML文档作验证。
具体地说,DTD是一个或是一些用XML书写的文件。
它包含了对一种文件的正式定义。
它定义了文件中的元素能用什么名字,能放在什么位置,应该怎样组合。
在这里举一个简单的例子。
比如说想要文件可以描述一组<
List>
,其中每个<
由可以包含若干个<
Item>
那么DTD中应该有以下语句:
ELEMENTList(Item)+>
ELEMENTItem(#PCDATA)>
这样一个框架定义了一个表(list),它可以包含若干个项(items)。
每一个项只能包括文本的内容。
当处理器处理XML文件时将自动检查DTD,以此确定文件中元素从哪而来,以及它们之间是什么关系。
上面的框架允许生成下面的一个表:
Chocolate<
/Item>
Music<
Surfing<
/List>
而这样一个表在屏幕上是怎样一个表象,取决于样式表(Stylesheet)。
在HTML中要在文件中指定应是怎样的形式。
使用DTD表明你能够确定一类文章的结构和格式。
文档类型声明中的每一项都是元素声明,定义了每个元素的约束。
元素声明的格式为:
ELEMENTelement_name(content_model)>
内容包括:
1.#PCDATA,规定元素只包含已析的字符数据。
2.子元素,可指明元素的子元素。
也可用逗号为分隔符,指明多个子元素。
并且子元素出现的次序必须按定义时的顺序。
3.子元素的个数,我们可通过正则表达式来规定子元素的个数。
①?
,允许零个或一个该元素②*,允许零个或多个该元素③+,允许一个或多个该元素
4.可选项(|),选项是一个参数列表,每个参数间用“|”分隔,代表能且只能选一个子元素。
5.小括号,可用小括号把选项括起来,以表达更丰富的意思,如我们想表示choice元素必须包含一个good子元素,并且必须包含ok子元素或bad子元素的一个。
6.混合内容,在一些文档中,一个元素可能既包含子元素,也包含字符串,这些内容叫混合内容。
7.空元素,某些元素不用包含任何内容,称之为空元素。
写成以/>
结束的独立标签。
8.ANY,允许元素内包含任意内容。
该选项在dtd测试时很有用,在生产系统中尽量不要使用。
一个有效的XML文档,必须对元素的属性进行声明。
使用ATTLIST声明来完成,一个ATTLIST可以为一个元素类型声明多个属性。
有效文档中使用的每个元素都必须在文档的DTD中用元素声明进行声明。
element_name可是任何合法的XML名称,content_model(内容模型)指定元素可以或必须包含的子元素以及子元素的顺序。
第五章XML的应用与未来
现在已经知道XML。
确实,结构有点复杂,而且DTD有各种可以定义文档可以包含的内容的选项。
但还不只这些。
同时还有XMLSchema、SOAP、CSS、XSP等更为深入的内容,而这些跟我们所介绍的却有着千丝万缕的关系,不可分割。
下面我们把这些都很简略的介绍一下:
XMLSchema:
它也是一个用来验证XML文件的验证语法,那我们就要问已经有DTD了为什么还要有他呢?
可以回顾一下,既然XML是取SGML的某一常用子集制定而成,自然也采用了DTD作为验证语法的规则言语。
可是DTD是用的并非XML的标记是语法,所以,我们必须另外学习DTD的语法才能够使用DTD为XML文件制作格式定义。
正因为如此XMLSchema诞生了。
他完全遵循了XML的基本语法,目的即在于取代DTD作为下一代XML标准的验证语法。
SOAP:
它是基于XML的协议,用于在分散的分布式环境中交换信息。
它视为Web制定的一个XML和HTML的结合物,他为松耦合的Web环境中的分布式数据交换和交互作用提供了新的选择。
CSS样式表:
他可不是网络游戏CS的升级版,它是串接式样式表,使网际网络上被广泛应用的一种样式表,它不仅可以用来指定XML文件的排版样式,也可以指定HTML文件的排版样式。
……
XML应用于多个行业如财务、银行业、科学和技术以及人力资源,他并不只限于特定行业的数据描述,已经成功的应用于解决跨行业的问题。
许多企业支持XML集成;
使用样式表技术,就可通过浏览器立即访问数据;
XML提供了建立数据标准的机会。
XML应用这么广它的未来又会怎样呢?
盖茨先生表示:
当我们在几年前关注电子商务行业所发生的事情时,我们清楚地意识到,该行业需要的是一套全新的技术,可以帮助企业以全新的方式做生意,并改善它们现有商业处理手段的效率。
XML就是这一切的基础。
它可以极大地减少集成商业系统的损耗,帮助企业更好地和商业伙伴及客户结合到一起。
它还可以帮助人们充分利用智能设备和对等网络技术所具有的巨大威力。
XML有
潜力成为一种粘合剂,使软件开发者编写出适用于互联网的分布式应用程序。
我们把企业的前途压在XML,以及它能为企业和消费者所做的事情上。
以上就是我所介绍的XML,希望浏览者能够有所收获。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XML 入门教程
![提示](https://static.bingdoc.com/images/bang_tan.gif)