物联网环境下的异构数据整合方法研究毕业设计论文.docx
- 文档编号:17388588
- 上传时间:2023-07-24
- 格式:DOCX
- 页数:30
- 大小:360.32KB
物联网环境下的异构数据整合方法研究毕业设计论文.docx
《物联网环境下的异构数据整合方法研究毕业设计论文.docx》由会员分享,可在线阅读,更多相关《物联网环境下的异构数据整合方法研究毕业设计论文.docx(30页珍藏版)》请在冰点文库上搜索。
物联网环境下的异构数据整合方法研究毕业设计论文
物联网环境下的异构数据整合方法研究毕业设计(论文)
Abstractii
参考文献29
谢辞30
附录31
物联网环境下的异构数据整合方法研究
摘要:
随着物联网的迅速发展,在物联网中共享的资源是越来越多,但是物联网中的节点使用的数据管理平台、数据库有很大的区别,所以物联网中数据具有不确定性、异构性、多源性等特点,对信息的共享和数据的传递有很大的阻碍。
数据集成技术是消除数据件的异构性,将分布式数据源集成到一起,给异构数据提供统一表示,使用户能够无差别地访问这些数据。
本论文先研究了物联网中异构数据的特征和现有的集成技术,经过对集成技术的学习和研究及比较,在这里提出一种基于XML的异构数据集成方案,这种方案的主要思路是:
利用JDOM技术将异构数据全部转换为XML文档,再通过JDOM的解析功能把多个XML文档合并成一个XML对象文档,接着,通过XMLD的查询语句Xquery从XML对象文档中查询所需的数据,最后,利用XSL技术将查询结果显示在浏览器中。
论文的最后部分,实现一个面向小区用户异构数据查询系统,验证了系统的可行性,实现了用户的透明性访问。
关键词:
异构数据;数据集成;物联网;Xquery
TheInternetofthingsundertheenvironmentofheterogeneousdataintegrationmethod
Abstract:
WiththerapiddevelopmentoftheInternetofThing,resourcessharedontheInternetareincreasing,butthingsusedbynodesindatamanagementplatforms,databases,thereisabigdifferencebetween,souncertainty,heterogeneousnatureofthedataintheInternet,thecharacteristicsofmulti-source,information-sharinganddatatransmissionhasalotofobstacles.Theheterogeneityofdataintegrationtechnologyofeliminatingthedata,integratedistributeddatasourcestogether,toprovidetheisomerousdataharmonization,enablesuserstoaccessthedatawithoutdiscrimination.
Thispapersfirstresearchhaspropertynetworkingintheheterogeneousdataoffeaturesandexistingofintegratedtechnology,afteronintegratedtechnologyoflearningandresearchandthecomparison,inheremadeabasedonXMLofheterogeneousdataintegratedprogramme,thisprogrammeofmainideasis:
usesJDOMtechnologywillheterogeneousdataallconversionforXMLdocument,againthroughJDOMofresolvedfeaturesputmultipleXMLdocumentmergedintoaXMLobjectdocument,then,ByXMLDqueriesXqueryquerytakesdatafromtheXMLdocument,andfinally,usingXSLtechnologytodisplaythequeryresultsinthebrowser.Thelastpartofthethesisthattherealizationofaheterogeneousdataquerysystemforcommunityusers,verifythefeasibilityofthesystem,enablesuserstransparentaccess.
Keywords:
DataIntegration;heterogeneousdata;Internetofthing;Xquery
第一章绪论
1.1课题的背景
物联网的英文名InterneofThings,是互联网的扩展网络,是将传感器与计算机网络连接起来的集合,实现物与物之间的信息交流和通讯。
物联网通过网络共享对象,可以实现数据共享和信息传递的功能。
但是,由于传感器类型的千差万别、得到数据的存储结构的不同、各个网络节点的平台不同等原因。
一个网络节点的数据往往难以难以传递给另外的数据节点,即使能够传递,也可能因为数据格式、数据关系模式的不同等原因,而使得另外的网络节点无法读取和应用这些数据。
因此,为了使网络中的数据能够在各个节点之间实现自由传递、信息共享,建立一个数据集成系统,来屏蔽各个网络节点异质性地数据,方便数据间的共享和传递,是不容等待的。
在这种情况下,异构数据集成系统应用而生,通过分析联网的特性,在几种集成方法中,我选择了适应物联网求的:
基于XML的异构数据集成方法。
数据集成是将来源、格式、结构、关系模式、表示方式等不同的数据,通过集成技术,在逻辑或物理上对这些数据进行有机地整合,为用户和企业对物联网中的异构数据的查询和应用提供便利。
在目前,数据集成技术的方法有很多,大致分来有三类:
联邦数据库技术、数据仓库技术与中间件技术。
不同的技术有不同的着重点,应用范围也不同,适应的情况也不同,所以,根据实际情况选择相对应的数据集成技术,来满足我们的需求。
在这里我们实现是在物联网环境下,主要需要的功能是查询和数据的共享,我们利用XML的相关技术(XQuery、XMLschema、JDOM等),来消除异构数据的异构性,使得物联网中的数据和信息能够传递和共享,以XML文档作为中间介质,将关系数据库中的数据转换为XML文档存储,用户在集成系提供的查询平台查询异构数据源的信息,这样用户就能够无差别地访问异构数据。
1.2本文的主要工作
本文的主要工作是:
首先,了解物联网下异构数据的来源以及这些数据的特点,分析物联网中数据的多源性、异构性等特点给给数据间信息共享带来的困难,从而说明在物联网应用中,用户对数据集成有很大的需要和应用,了解并研究现有的数据集成技术,分析这些技术的优点和缺点,确定这些技术的适用范围,适用哪些用户以及这些技术能的满足哪些需求。
再有,了解和学习XML技术,学习基于XML技术的数据集成系统是,应用上了那些相关的技术,对本文实现中涉及的技术进行深入的研究和学习,主要研究和学习XML技术、集成系统的映射机制、jdk1.4、Tomcat5.0、myeclipse软件的使用等。
接着,完成基于XML技术的数据集成系统的建设,画出系统结构图,对系统的功能进行分析,对其中的关键步骤做出讲解和说明。
最后,根据异构数据集成系统的结构和构架,用实例来验证据集成系统的对异构数据的集成。
1.3课题研究的意义
物联网中的数据由于所属的操作系统不同,数据格式不同等原因,造成数据之间信息的传输、数据的共享、用户对数据的查询有很大的不便。
数据集成是将来源、格式、结构、关系模式、表示方式等不同的数据,通过集成技术,在逻辑或物理上对这些数据进行有机地整合,为用户和企业对物联网中的异构数据的查询和应用提供便利,使得各个异构数据源的数据对用户和企业是透明的,用户和企业能在异构数据集成系统的查询窗口获得用户或者企业获得所需的数据和信息,而不用管中间件的实现和底层数据的转换,十分的方便使用。
本论文提出了一个基于XML的异构数据集成系统,利用XML文档的描述能力强的特点,将它作为异构数据的中间介质,利用和XML相关技术XQuery、XMLSchema技术、Jdom技术来实现异构数据格式、表达方式和结构之间的转换,最终使得异构数据以统一的形式存储,方便用户的查询。
第二章数据集成技术研究
本章节主要介绍现有的数据集成方法,以及XML的相关技术,通过对这些方法技术的分析和研究,分析这些集成方法的优缺点和确定合适的使用范围,为后面数据集成系统的构建提供理论上的支持。
2.1异构数据集成简介
异构数据是指那些数据资源在计算机体系结构、操作系统、数据管理平台、数据格式等方面不同的数据,数据异构导致数据在读写方面存在很大的差异性[。
目前,根据数据格式、类型、关系模式等方面的区别,我们可以将异构数据分为三类:
结构化数据、半结构化数据和非结构化数据。
结构化数据指的是具有固定结构、表现形式十分规范的一类数据。
这些数据通常是存储在数据库中的,数据库对数据结构和格式有严格的约束,处于同一数据库的数据读写操作具有一致性,使用起来非常方便。
但是,不同的数据库之间的数据结构和关系模式是存在差异的,比如SQLServer和Oracle中的数据格式和关系模式就不是一样的,这两种数据库中的数据的异构就是结构化数据的异构。
我们说得非结构化数据是相对结构化数据而言,这些数据不能在数据库中表示,也没有对自身进行描述的附带信息。
这类数据在格式上是没有明确的规范的,内容上比较多样化。
这类数据常见的有:
文本文档、电子表格、图片等。
半结构化数据指的是介于结构化数据和非结构化数据两者之间的数据,它不像结构化数据有严整的结构,也不像非结构数据那样,它是附带有自我描述信息的。
它在结构方面具有很大的灵活性,可以扩展,而且还可以进行自我描述。
这类数据常见的是互联网中的Web页面、HTML或者XML形式存在的数据。
数据集成是将来源、格式、结构、关系模式、表示方式等不同的数据,通过集成技术,在逻辑或物理上对这些数据进行有机地整合,为用户和企业对物联网中的异构数据的查询和应用提供便利,然后,通过集成技术将异构数据源之间的差异消除掉,我们利用集成技术,提供一种全局的查询模式,隐藏底层数据的操作,使用户和企业使用起来就像在使用同一个数据库中的数据,感觉不到其中的差异性。
经过学习和分析,我总结了一下几点,是造成物联网中数据的异构的原因:
(1)不同网络节点之间的软/硬件设施不同。
不同的节点使用的计算机型号、操作系统的差异造成数据存储的格式不同。
(2)不同的数据管理平台。
不同网络节点的数据存储方式不同,造成数据的格式、关系模式不同。
(3)传感器物联网中数据的入口,不同厂商开发的传感器的是存在差别,传输进物联网的数据也存在区别。
物联网和一般的数据集成不同,根据物联网的特点,分析数据集成的几个难点和重点:
(1)在物联网中,对于传感器传入的各式各样的信息,为了实现通信的需求和便于对这些数据的存储,需将这些现实世界的事物数字化。
数字化后的信息即使是同一事物也可能有格式、类型等方面的区别。
(2)物联网中的数据多以HTML或者XML形式存在,它的结构结构较为灵活,没有结构化数据的严整规格。
(3)人们对物联网中的数据最主要是查询,用户关心的只是结果,用户并不关心异构数据源之件是怎么转换的。
所以,我们要保证数据集成系统有足够的透明性。
(4)用户虽然只关心收到的结果,但是对查询结果的准确性要求却是很高的,我们必须保证系统集成后的数据的完整性。
(5)集成系统为用户对数据的查询和共享提供的便利,但是,它不能够影响源异构数据系统中对数据的使用。
(6)数据集成系统还要解决的问题是:
不能改变异构数据源的权限性。
对于某些数据来说,一般用户是没有查看的权限的。
集成系统对这些数据集成后,不能改变它的权限性。
2.2现有数据集的方法
2.2.1联邦数据库技术
联邦数据库系统(FederatedDatabasesSystem)由一个半自治的数据库系统构成,相互联盟的数据库提供彼此之间互相访问的接口,联盟数据库通过接口访问和共享所有联盟数据库中的共享的数据。
目前,联邦数据库技术是最简单也是最便捷的集成方式。
它集成的数据库之间互相提供访问接口,数据库则通过对方对自己提供的接口访问对方的数据。
这种接口技术是通过数据库之间的映射实现的,数据源和数据源之间的数据格式、关系模式进行一一映射。
映射后,使得数据库A以数据库B理解的术语来访问数据库B中的数据,通过这样的一一映射,所有联盟的数据库能访问这个集合中的任意数据。
这种技术最大的优点是简单,有多少个数据库,逐一进行映射就可以,有数据的添加时,增加它与各个数据库的映射就可以了。
这种数据集成的方法的优点是比较容易实现,尤其是当异构数据源的种类及个数限定的情况下,使用这种集成方式更加方便和实用。
联邦数据库这种集成技术的缺点是不适用异构数据源过大的集成,而且,这种集成技术的可扩展性很差。
根据它的集成规则当有N个数据库要互联时,需要的映射程序是N(N-1),增加一个就需要增加N+1个映射程序,当N的值比较大时,想要再添加异构数据源进来就比较难,所以,不适用大数据源的集成。
如图2.1,是联邦数据库集成技术的原理图,根据图我们可以看出,当异构数据源的数目过大时,再添加一个异构数据源需要增加映射程序,使用这种集成技术的工作量太大,对系统的要求也高,而且,消耗的系统资源多。
图2.1联邦数据库集成原理图
2.2.2数据仓库技术
数据仓库技术是在一个层次上建立一个数据存储仓库,将数据源中的数据周期性地更新移植进数据仓库中,这种周期性的数据更新移植可以分为三类,第一类:
数据仓库周期性的从原数据源里重新构建数据;第二类:
数据仓库周期性的从原数据源里更新数据;第三类:
数据仓库即时更新异构数据源时的数据变化;数据仓库技术通过对仓库中存储数据的查询来代替对异构数据源的数据的查询,在数据仓库的基础上给用户提供一个专供查询的平台,用来消除了异构数据之间的异构性,实现对异构数据集成的功能以及用户对异构数据源无区别的查询功能。
经过对数据仓库集成技术的了解,一般的利用数据仓库技术构建的集成系统,它的体系结构由:
信息服务平台、集成数据仓库、数据集成机制三部分构成,如图2.2:
图2.2数据仓库结构系统结构
数据仓库集成技术最主要、最重要的一点就是对仓库中数据的不断的更新,需要定时的刷新数据仓库中存储的数据,保证数据仓库中的数据和数据源是同步的。
数据仓库技术更实用的范围是:
那些的数据不是经常变化的数据源集成。
根据数据仓库集成的原理我们了解到它的缺点主要是对仓库中数据要很快地进行更新,尤其是当异构数据源中的数据变化程度大时,这种情况下就不太适用用数据仓库法对异构数据集成,因为,在这种情况情况下,用户得到的数据和异构数据源的数据难保持同步性,还有一个缺点是,数据仓库需要很大的内存来存储数据尤其当异构数据源很大时,数据仓库集成技术不适用物联网下的数据集成。
2.2.3中间件技术
中间件技术是利用中间件给用户提供一个全局查询平台,去查询异构数据源中的数据。
中间件它位于用户应用层和异构数据源的数据层之间,给用户一个查询界面,中间件则对异构数据源的数据进行调用。
各个数据源在自己所处的系统能够满足应用需求,不受集成系统的影响。
中间件技术是目前用的较多的集成方法,它为用户提供一个全局的查询平台,用来屏蔽了底层的数据模式的转换、查询语句的分解、数据的包装等操作,在用户的眼中,这些数据是没有区别的、是一个整体。
这种集成系统的优点在于:
屏蔽了底层中数据之间的转换、模式之间的映射等操作,底层之间数据的变化等操作用户是看不到的。
还要保证各个异构数据中的数据不受集成系统的影响,保证了自身的自治性,异构数据源的系统对数据的使用不受集成系统的影响。
中间件模型如图2.3:
图2.3中间件模型结构
2.3基于XML数据集成的相关技术
2.3.1XML的简介
eXtensibleMarkuPLanguage(可扩展标记语言)简称XML,在1992年2月10日成为W3C(WoridWidewebConsortiuln,万维网协会)的推荐标准,XML是标记语言,比较类似HTML。
但是,XML和HTML又有一定的区别,HTML被设计的主要目的是用来显示数据,关注的焦点是数据的外观,XML被设计的主要目的则是用来传递和存储数据,关注的焦点是数据的内容;XML文件的标记可以是用户自己定义的,而HTML则不行。
W3C推出XML的最主要的目的简化数据的存储和共享,使得网络中的数据共享和交流更加方便。
2.3.2采用XML集成的优点
XML是被设计的主要目的是应用于Web,最主要的功能是简化数据的存储和共享,非常适用于企业间信息的交换,它主要具有以下的的特点:
1)XML文档是具有良好的格式的文件,它的标记是成对出现的,方便验证文档的完整性和正确性。
例如:
<姓名>李明姓名>,它以姓名开头,再议姓名标签作为结尾,标记都是成对出现,只有这样的才是完整的,不然XML文档就不是完整的。
2)XML具可扩展自我描述性,XML可以自由地定义自己的标签。
定义标签的可以根据用户的要求来表达文件的内容。
例如:
李明给张三的一张留言条,用XML的存储方式:
,这的
3)XML是具有验证机制,XML通常包含一个DocumentTypeDefinition(文档类型声明)或XMLSchema(可扩展标记语言模式),这两种技术都可以用来验证文档合乎规范性,元素和标签的正确性。
4)XML可以作为数据交换的中间介质,用来实现信息的传递和信息的共享。
在近几十年来,物联网技术飞速发展,造成当今各个网络节点存在系统、数据管理平台等方面的不同,从而使这些网络节点之间信息交流和共享困难。
要想这些网络节点之间能够互相地交流信息,必须使用一种中介格式,来解读其他系统传递的数据,使得系统之间能够实现信息的共享。
5)XML描述能力比较强,而XML本身就属于非结构化数据,因此它具有能描述结构化数据和非结构化数据功能。
我们可以根据XML的这种特性,建立数据集成系统,用XML来作为中间转换介质,实现数据的共享和传递以及屏蔽数据的异构性。
6)XML能长久长久保存数据,XML文档的可读性强,又是以文档的形式存在。
2.3.3XML的验证机制
我们用XML语言去我一件事物时,不同的人使用的标记可能是不同的。
例如:
不同的人对同一个公司的职工的描述:
A可能是这样<职工>职工>,B则是<职员>职员>。
这样就造成了XML文档的标记不同,给信息交换和数据共享带来了困难,为了解决这种问题,我们需要一种机制来规定用XML语言如何描述特定的事物。
目前,有两种技术方法能实现这种功能:
DTD和XMLSchema。
DTD是用来验证XML文档模块合法性的技术,DTD规定了XML文档的结构准则。
任何一个XML文档都可以有一个DTD,我们将DTD用来描述XML文档的格式,测试XML文档是否有效。
DTD规范XML文档的编写,提高文档标记的参数一致,对于数据间的传递和共享有很大的作用。
DTD虽然实用,但是也是有缺陷的,DTD有自己独特的语法,要学起来较为困难,而且它不是XML文档;DTD提供的数据类型十分有限,还不支持用户自己定义类型的功能,满足不物联网中对数据类型的大量需求;DTD不支持域名机制。
XMLschema是一种可以代替DTD的,对XML文档结构准则的另外一种定义。
XMLschema可以定义XML文档里中元素和属性的关系、元素之间的嵌镶、子元素的顺序等。
和DTD相比,XMLschema显然更适来验证XML文档。
原因是:
(1)XMLschema支持的数据类型种类远远多于DTD,DTD只提供了十种内置数据类型,还不支持用户自定义类型,而XMLschema仅提供的内置数据类型就有十九中,还有二十五种派生类型。
XMLschema对大量数据类型的支持,可以用它轻松地描述需要转换的文档内容、验证数据格式和文档的准确性、定义数据约束类型等,而DTD在这方面的功能远不如XMLschema。
(2)XMLschema使用的是XML语法,而DTD有自己独特的语法和要求想要使用的话就得重新学习一门新的语法。
使用XMLschema,我们就不必再去学习一门新的语言,这样节省了时间和精力,还能直接用用XML的编辑器来编辑文件、XML解析器来解析文件等,不再需要两套解析器,使用起来得心应手。
(3)XMLSchema能够解析的内容更为丰富,扩充内容也能够解析,而DTD则无法解析哪些扩充的内容。
2.3.4XML的查询语言
XML文档存储的数据可能是文件系统、关系数据库、XML数据库或者面向对象数据库中的数据,XML作为数据交换和共享的中间介质,需要一种统一的方法来实现搜索、操作和查询XML中的信息,目前,XQuery查询语言是最适合的。
XMLQuery简称为XQuery,是W3C制定的一套标准。
XQuery是被设计来查询和提取XML文档中信息的一项技术。
XQuery和XML的关系,就如同SQL和数据库表的关系,XQuery是被设计用来查询XML数据的,但是,它能查询的不仅仅是XML文件,任何以XML形态呈现的数据都能用它来查询。
2.3.5现有的XML应用程序接口技术
应用程序想要访问或得到XML文档中信息,需要通过XML的程序接口才能实现,目前,常用的XML程序接口有:
DOM、JDOM、SAX。
DOM(文档对象模型)是DocumentObjectModel的缩写,是中立于平台和语言的接口,也是比较常用的一种用来访问XML文档的程序接口,应用程序通过它可以动态地访问XML文档中的内容,也可以更新XML文档中的内容和格式。
DOM定义了XML元素的对象和属性,提供一种访问XML文档的方法,是添加、删除或更改XML元素一套规范。
SAX是SimpleAPIforXML(xml的简单应用接口)的简称,它是属于是事件驱动型解析XML文档的接口。
SAX对XML文档的工作原理是:
SAX对XML文档进行顺序扫描,扫描到文档或元素的开始、文档或元素的结束的地方,就通知事件处理函数,事件处理函数来完成任需要处理的任务,一直到扫描文档结束。
JDOM是JavaDocumentObjectModel(Java文档对象模型)的缩写,是一个JAVA工具包,利用JAVA技术对XML文档进行解析、生成等操作,是XML的新的API,它利用JAVA语言的特性,把SAX和DOM的功能结合起来了,也弥补了它们的不足之处。
DOM不是为JAVA特别设计的,不具有良好的可移植性,SAX则没有有随机访问文档、修改文档和输出等功能。
JDOM和两者相比,具有更大的开发便捷性,因此,JDOM为XML文档操作的API。
2.3.6WebServices
由于网络节点的分布,所以数据库所处的物理位置往往是不一样的,想要把不同物理位置中数据库的数据提取出来,就一定会用到we
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联网 环境 数据 整合 方法 研究 毕业设计 论文