UNITfour数据仓库技术.pptx
- 文档编号:18901264
- 上传时间:2024-02-10
- 格式:PPTX
- 页数:47
- 大小:440.19KB
UNITfour数据仓库技术.pptx
《UNITfour数据仓库技术.pptx》由会员分享,可在线阅读,更多相关《UNITfour数据仓库技术.pptx(47页珍藏版)》请在冰点文库上搜索。
UNITfourUNITfour数据仓库技术数据仓库技术1学完本讲后,你应该能够了解:
1.数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术;但数据仓库有很多特殊的技术上的需求;2.数据仓库的专用DBMS与通用DBMS的区别;3.多维DBMS和数据仓库之间的互补关系;4.数据仓库环境中的元数据与操作型环境中的元数据所扮演的角色不同;5.为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维6.数据仓库的高效刷新方法:
”数据复制”和”变化数据捕捉”本讲主要目标2一数据仓库的技术需求一数据仓库的技术需求二数据仓库专用二数据仓库专用DBMSDBMS三多维三多维DBMSDBMS和数据仓库和数据仓库四数据仓库环境中的元数据四数据仓库环境中的元数据五上下文维和上下文信息五上下文维和上下文信息六六.建立数据仓库建立数据仓库七七.数据仓库的数据刷新数据仓库的数据刷新3数据仓库的数据仓库的技术需求技术需求4数数据据仓仓库库的的技技术术需需求求1.数据仓库与数据库技术需求不同的原因:
u数据仓库中没有联机数据更新比数据库的技术需求更简单u数据仓库中的数据量非常大要考虑大量和不同数据的存储和查询的技术和效率u数据仓库的数据来源于现有的系统,而现有的各个系统可能使用不同的技术不同来源数据的集成、转换和传送5数数据据仓仓库库的的技技术术需需求求2.数据仓库的技术需求u管理大量数据u管理各种各样介质上的数据u方便的索引和监视数据u大量接口技术u允许程序员将数据直接放在物理存储设备上u数据的并行存储和访问u数据仓库的元数据控制u高效地装入数据仓库u有效地使用索引u以压缩方式存储数据u支持复合键码u有效地管理变长数据u有选择地关闭锁管理u单独索引处理u从大容量存储器迅速恢复6数数据据仓仓库库的的技技术术需需求求u管理大量数据分四个方面u基本的管理技术u效率u存储的费用u处理的费用7数数据据仓仓库库的的技技术术需需求求u管理各种各样介质上的数据考虑访问速度和存储费用,一个满载的数据仓库应该放在多种存储介质上:
8数数据据仓仓库库的的技技术术需需求求u方便的索引和监视数据u成功的数据仓库必须能方便和有效地检索数据u成功的数据仓库的数据必须能被随意地监视u监视数据仓库的数据的理由:
u决定是否应数据重组u决定索引是否建立得恰当u决定是否有太多数据溢出u决定数据的统计成分u决定剩余的可用空间9数数据据仓仓库库的的技技术术需需求求u大量接口技术u能够用各种不同的技术获得和传送数据u接口不仅要高效,还要便于使用u能够在批模式下运行10数数据据仓仓库库的的技技术术需需求求u允许程序员将数据直接放在物理存储设备上为了对数据进行高效地访问和更新,程序员需要在物理的块/页的一级上对数据的存放进行特殊的控制11数数据据仓仓库库的的技技术术需需求求u数据的并行存储和访问u当数据被并行存储和管理时,性能会提高很多12数数据据仓仓库库的的技技术术需需求求u数据仓库的元数据控制u数据仓库的用户应该能够对元数据进行准确和实时的访问u典型的元数据u数据仓库表的结构u数据仓库表的属性u数据仓库的源数据(记录系统)u从记录系统到数据仓库的映射u数据模型的规格说明u抽取日志u访问数据的公用例行程序13数数据据仓仓库库的的技技术术需需求求u数据仓库要有多种语言接口u数据仓库需要有非常丰富的语言接口u数据仓库接口语言需要u能够一次访问一组数据u能够一次访问一条记录u特别要保证,为了满足某个访问要求,能够支持一个或多个索引u能够插入、删除、更新数据14数数据据仓仓库库的的技技术术需需求求u高效地装入数据仓库在装入数据的同时,索引也要高效地装入15数数据据仓仓库库的的技技术术需需求求u有效地使用索引u数据仓库技术不仅必须能够方便地支持新索引的创建和装入,而且要能够高效地访问这些索引u高效访问索引的方法u位映象的方法u多级索引u将部分或全部索引装入内存u当被索引的数据的次序允许压缩时,对索引项进行压缩u创建选择索引或范围索引16数数据据仓仓库库的的技技术术需需求求u以压缩方式存储数据u数据仓库中的数据很少更新,数据压缩的管理很简单u解压缩的开销是CPU开销,不是I/O资源的开销17数数据据仓仓库库的的技技术术需需求求u支持复合键码复合键码在数据仓库中随处可见18数数据据仓仓库库的的技技术术需需求求u有效地管理变长数据在数据仓库中,变长数据很稳定,没有数据库中变长数据的固有性能问题19数数据据仓仓库库的的技技术术需需求求u有选择地关闭锁管理u应用加锁管理程序的后果之一是它消耗了相当的资源,即使数据不被更新也是一样20数数据据仓仓库库的的技技术术需需求求u单独索引处理u当只通过查看一下索引就可以满足某些请求时,由于用不着查看数据的最初数据源而会更加有效21数数据据仓仓库库的的技技术术需需求求u从大容量存储器迅速恢复指能够从非直接存取存储设备快速地恢复数据仓库表.当可以从二级存储设备上恢复时,就可以节约大量开支22数据仓库专用数据仓库专用DBMSDBMS23数数据据仓仓库库专专用用DDBBMMSS1.数据仓库专用数据库管理系统2.-是特别为数据仓库和决策支持而优化设计的管理系统.2.与通用DBMS的区别u专用DBMS的处理类型为装入和访问,而通用DBMS必须适合于记录级的数据更新u专用DBMS不需要自由空间,而通用DBMS对数据在块级上的管理要包括一些附加空间u专用DBMS可以使用更完善的索引结构,而通用DBMS限制有限数量的索引u专用DBMS物理上优化数据是为了便于访问和分析,而通用DBMS优化数据是为了事务的访问24数数据据仓仓库库专专用用DDBBMMSS3.是否应该改变DBMS技术?
是u当今可用的DBMS技术,当数据仓库首次载入数据时并不合适u数据仓库已经变得非常之大,以至于应该提出新的技术方法u数据仓库的利用已经提高许多,也改变了许多,使得现在的数据仓库的DBMS技术已经不适用了25数数据据仓仓库库专专用用DDBBMMSS4.是否应该考虑找一种新的DBMS技术?
u新的DBMS技术是否满足可预知的需求?
u从旧的DBMS向新的DBMS的转换应该怎样去做?
u转换的程序应该怎样改变?
26多维多维DBMSDBMS和和数据仓库数据仓库27多多维维DDBBMMSS和和数数据据仓仓库库1.多维DBMS(有时也叫”数据集市”)u多维DBMS提供一种信息系统结构,使得对数据的访问非常灵活,可以以多种方法对数据进行分片、分割,动态地考察汇总数据和细节数据的关系u多维DBMS不仅提供了灵活性,还可以对终端用户进行管理u多维DBMS和数据仓库有互补关系28多多维维DDBBMMSS和和数数据据仓仓库库2.多维DBMS数据集市的关系型基础u优u能支持大量数据u能支持数据的动态连接u已被证实是有效的技术u如果对数据的使用模型不清楚的话,关系型结构与其他任何结构一样好u劣u性能上不是最好的u不能单独对访问处理进行优化29多多维维DDBBMMSS和和数数据据仓仓库库3.多维DBMS数据集市的“立方体”基础u优u对于DSS处理性能上是优化的u能够对数据的快速访问进行优化u如果已知数据访问的模式,则数据的结构可以优化u能够很轻松地”切片和分块”u可以用多种方法检测u劣u几乎不能处理像标准的关系模型那么多的数据u不支持通用的更新处理u装入的时间很长u如果对路径的访问不被数据设计所支持的话,这种结构就显得不灵活u对数据的动态连接的支持是有问题的30数据仓库中的数据仓库中的元数据元数据31数数据据仓仓库库中中的的元元数数据据1.数据仓库中的元数据包括两大部分:
u有关集成的信息u数据仓库字典32数数据据仓仓库库中中的的元元数数据据2.数据仓库中元数据特点u服务于DSS专业人员,而不仅仅是IT人员33数数据据仓仓库库中中的的元元数数据据2.数据仓库中元数据特点u涉及到从操作型环境到数据仓库环境的映射34数数据据仓仓库库中中的的元元数数据据2.数据仓库中元数据特点u数据会存在一段很长的时间35上下文维和上下文维和上下文信息上下文信息36上上下下文文维维和和上上下下文文信信息息1.数据仓库中需要上下文维u数据仓库的一个重要特征是能够对一段时间的信息进行存储和管理u为了理解和解释一段时间内的信息,需要信息发生的背景2.三个级别的上下文信息u简单上下文信息u复杂上下文信息u外部上下文信息37上上下下文文维维和和上上下下文文信信息息3.简单上下文信息与数据本身的基本结构有关,包括u数据的结构u数据的编码u数据的命名约定u描述数据的度量u数据的多少u数据增长速度u数据的哪一部分增长u数据是怎样被使用的简单上下文以往是用字典,目录,系统监视器等管理的38上上下下文文维维和和上上下下文文信信息息4.复杂上下文信息描述的是和简单上下文相同的数据,但从不同的侧面描述,其强调下面几点u产品定义u市场领域u定价u包装u组织结构u分发复杂上下文信息非常有用但基本,但非常难以捉摸,它令人难以捉摸是因为它是想当然的,并存在于背景环境中39上上下下文文维维和和上上下下文文信信息息5.外部上下文信息是公司以外的,但在理解随时间变化的信息方面起重要作用的信息,实例包括u经济预测u通货膨胀u金融u税务u经济增长u政治信息u竞争信息u技术进展40上上下下文文维维和和上上下下文文信信息息6.捕获和管理上下文信息u复杂上下文信息和外部上下文信息是非结构化的u上下文信息变化很快u以往管理上下文信息的方法的缺点u信息的管理针对信息系统的开发者,而不是最终用户u对上下文管理的意图是被动的u对上下文管理的意图在很多情况下会从开发计划中删除掉u对上下文管理的意图仅局限于简单上下文41建立数据仓库建立数据仓库42建建立立数数据据仓仓库库u建建立立数数据据仓仓库库的的任任务务就就是是将将数数据据源源中中的的数数据据整整理理后后按按照照数数据据仓仓库库的的结结构构,放放入入数数据据仓仓库库的的物物理理存储介质中存储介质中u数据仓库的建立分为三个子任务数据仓库的建立分为三个子任务:
u抽取数据(extractingdata)u转换数据(transformingdata)u加载数据(transporting/loadingdata)因此,建立数据仓库的过程也称为ETT过程或ETL过程43建建立立数数据据仓仓库库uETT过程过程llExtractsourcedataExtractsourcedatallTransform/cleandataTransform/cleandatallIndexandsummarizeIndexandsummarizellLoaddataintoWHLoaddataintoWHllDetectchangesDetectchangesllRefreshdataRefreshdataProgramsToolsETTETTOperationalOperationalsystemssystemsWarehouseWarehouseBrowser:
http:
/HollywoodHollywoodXX+Customers:
arecorofasXX+Customers:
Browser:
http:
/HollywoodHollywoodBrowser:
http:
/HollywoodHollywoodXX+Gateways44数据仓库的数据仓库的数据刷新数据刷新45数数据据仓仓库库的的数数据据刷刷新新u数据仓库的数据定期刷新是一项巨大的开销u数据刷新的方法u直接读取老的传统的数据库-开销非常大u在传统环境中捕捉正在修改的数据u数据复制-改变发生时数据被捕获,设置一个”触发器”来捕获数据的更新活动u变化数据捕获-将发生了的改变从在联机更新时生成的日志中提取出来46学完本讲后,你应该能够了解:
1.数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术;但数据仓库有很多特殊的技术上的需求;2.数据仓库的专用DBMS与通用DBMS的区别;3.多维DBMS和数据仓库之间的互补关系;4.数据仓库环境中的元数据与操作型环境中的元数据所扮演的角色不同;5.为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维6.数据仓库的高效刷新方法:
”数据复制”和”变化数据捕捉”本讲主要目标47
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- UNITfour 数据仓库 技术
![提示](https://static.bingdoc.com/images/bang_tan.gif)