欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    第4章数据仓库设计与开发.pptx

    • 资源ID:15122888       资源大小:301.76KB        全文页数:61页
    • 资源格式: PPTX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第4章数据仓库设计与开发.pptx

    1、第四章 数据仓库设计与开发,本章目标了解数据仓库开发应用过程熟悉数据仓库的规划内容、目标等掌握数据仓库的分析与设计过程、内容了解数据仓库的实施过程,第四章 数据仓库设计与开发,本章内容4.1 数据仓库开发应用过程4.2 数据仓库的规划4.3 数据仓库的分析与设计4.4 数据仓库的实施4.5 数据仓库技术与开发的困难,4.1 数据仓库开发应用过程,数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成三个阶段:数据仓库规划分析数据仓库设计实施数据仓库使用维护这三个阶段是一个不断循环、完善、提高的过程(螺旋式)。,螺旋式开发应用过程,设计体系结构,开发概念模型,开

    2、发逻辑模型,数据库与元数据设计,数据抽取转换与加载,开发中间件,填充与测试数据仓库,数据仓库应用,数据仓库维护,数据仓库评价,规划与确定需求,规划分析阶段,设计实施阶段,使用维护阶段,4.2 数据仓库的规划,选择数据仓库实现策略自顶向下:实际应用比较困难。自底向上:用于一个数据集市或一个部门的数据仓库开发,容易获得成功。两种策略的联合使用:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。,用自顶向下方法,建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分

    3、的集成数据直接依赖于数据仓库的可用性问题投资效益的时间?建设中心数据模型的必要性和可能性?初始费用?,用自底向上方法,建立部门数据集市限制在一个主题区域快速投资收益 区域自治 设计的可伸缩性强对相关部门的应用容易复制 对每个数据集市需要数据重构存在一定的冗余及不一致性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标存在的问题:数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?,采用从顶向下 VS 从底向下,企业内部、各个业务部门和各个工作岗位对数据仓库的理解和期望不同。作为具体的部门,有特定的信息需求,都希望能在尽可能短的时间内需求获得满足。建立局部的系统,所需信息

    4、能够立即为其使用。因此对部门而言,他们追求的是一种短期的局部目标,关心的是基于所在位置的局部解决方案。整个企业看,建立数据仓库的目的之一是获得对整个企业业务信息的视图。以便能把握和管理企业的经营运行,并对企业进行业务重组。企业现有系统往往不同程度上存在各自为政,缺乏统一的规划和设计。数据出自各部门,提供的信息不一致,使得高层无法获得可靠、统一和协调的信息。企业追求的是长期的集成目标,关心的是基于整个企业的全面解决方案。两者的目标是有矛盾的!,确定数据仓库的开发目标和实现范围,首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。另一个重要目标是确定

    5、利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模 从用户的角度分析 从技术的角度分析,数据仓库的结构,数据仓库的应用结构 基于业务处理系统的数据仓库 单纯数据仓库 单纯数据集市 数据仓库和数据集市 数据仓库的技术平台结构单层结构 客户/服务器两层结构 三层客户/服务器 多层式结构,数据仓库使用方案和项目规划预算,实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来 开发方案的预算进行估计 编制数据仓库开发说明书:说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。

    6、计划中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。,4.3 数据仓库的分析与设计,4.3.1 需求分析4.3.2 概念模型设计4.3.3 逻辑模型设计4.3.4 物理模型设计4.3.5 数据仓库的索引技术,4.3.1 需求分析,确定主题域支持决策的数据来源数据仓库的成功标准和关键性能指标数据量与更新频率,确定主题域,(1)明确对于决策分析最有价值的主题领域有哪些?(2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些?(3)制定决策的商业分区是什么?(4)不同地区需要哪些信息来制定决策?(5)对

    7、哪个区域提供特定的商品和服务?,支持决策的数据来源,(1)哪些源数据(操作型)与商品主题有关?(2)在已有报表和在线查询中得到什么样的信息?(3)提供决策支持的细节程度是怎样的?,数据仓库的成功标准和关键性能指标,(1)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什么?,数据量与更新频率,(1)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少?时间间隔是多长?(3)每种决策分析与不同时间的标准对比如何?(4)数据仓库中的信息需求的时间界限是什么?,开发模型,

    8、模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。,4.3.2 概念模型设计,概念模型的特点是:能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。易于向数据仓库的数据模型(星型模型)转换。,概念模型表示,概念模型最常

    9、用的表示方法是实体关系法(E-R法)。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。,例子,有两个主题:商品和客户,主题也是实体。商品有如下属性组:商品的固有信息(商品号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。,4.3.3逻辑模型设计,主要工作:分析主题

    10、域进行概念模型(ER图)到逻辑模型(星型模型)的转换确定粒度层次划分确定数据分割策略关系模式定义定义记录系统,分析主题域,概念模型到逻辑模型的转换,星型模型的设计步骤如下:(1)确定决策分析需求。决策需求是建立多维数据模型的依据。(2)从需求中识别出事实。选择或设计反映决策主题业务的表,如在“商品”主题中,以“销售业务”作为事实表。(3)确定维。确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等。,概念模型到逻辑模型的转换,星型模型的设计步骤如下:(4)确定数据汇总水平。数据仓库中对数据不同粒度的集成和综合,形成了多层次、多种知识的数据结构。例如,对于时间维,可以以

    11、“年”、“月”或者“日”等不同水平进行汇总。(5)设计事实表和维表。设计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的维表又会影响查询的速度。,概念模型到逻辑模型的转换,星型模型的设计步骤如下:(6)按使用的DBMS和分析用户工具,证实设计方案的有效性。根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验(7)随着需求变化修改设计方案。随着应用需求的变化,整个数据仓库的数据模式也可能

    12、会发生变化。因此在设计之初,充分考虑数据模型的可修改性可以节省系统维护的代价。,转换示例,(1)业务数据的E-R图,转换示例,(2)E-R图向多维表的转换,转换示例,(3)利用维关键字制定的星型模型,转换示例,(4)修改后的星型模型,确定粒度层次,粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越高。决定数据仓库采取的是单一粒度还是多重粒度,以及粒度划分的层次。通过聚集的设计为数据仓库的使用提供各种可能的聚集查询便利进行粒度划分,首先要确定所有在数据仓库中建立的表,然后估计每个表的大约行数。,确定数据分割策略,把逻辑上整体的

    13、数据分割成较小的、可以独立管理的物理单元进行存储。便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率 数据分割标准:1.数据量2.数据分析处理的对象3.粒度分割的策略,定义关系模式,在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述。在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。,“商品”主题,公共码键:商品号。商品固有信息:商品表(商品号、商品名、类型、颜色)细节级商品销售信息:销售表1(商品号、客户号、销售量、)细节级销售表2(商品号、时间段1、销售量、)综合级 销售表n(商品号、时间段n、销售

    14、量、)综合级,定义记录系统,定义记录系统是建立数据仓库中的数据以源系统中的数据的对照记录。记录系统的定义要记入数据仓库的元数据。商品主题的记录系统在元数据中可描述如表,4.3.4 物理模型设计,物理模型设计因素:I/O存取时间空间利用率维护的代价主要工作:全面了解所选用的数据库管理系统,确定一个最适合应用要求的物理结构,特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。,确定一个最适合应用要求的物理结构,(1)估计存储容量(2)确定数据的存储计划(3)确定索引策略(4)确定数据存放位置(5)确定存储分配,(1)估计存储容量,对

    15、每一个数据库表确定数据量对所有的表确定索引估计临时存储,(2)确定数据的存储计划,建立聚集(汇总)计划确定数据分区方案建立聚类选项,(3)确定索引策略,在数据仓库中由于数据量很大,需要对数据的存取路径进行仔细设计和选择,建立专用的复杂的索引,以获得最高的存取效率。采用BTree索引,它是一个高效的索引,见图4.7所示。B树是一个平衡(balance)树,即每个叶结点到根节点的路径长度相同。B树索引是一个多级索引。,(4)确定数据存放位置,在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要

    16、求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。,(5)确定存储分配,物理存储中以文件、块和记录来实现。一个文件包括很多块,每个块包括若干条记录。文件中的块是数据库的数据和内存之间I/O传输的基本单位,在那里对数据进行操作。用一个简例来说明逻辑模型和物理模型的内容,见下图所示。,4.3.5 数据仓库的索引技术,位索引技术Bit-Wise索引技术B-Tree技术与Bit-Wise索引技术对比标识技术广义索引,Bit-Wise索引技术,对于每一个记录的字段满足查询条件的真假值用“1”或“0”的方式表示,或者用该字段中不同取值(

    17、即多位二进制)来表示。例如,检索“美国加州有多少男性未申请保险?”利用BitWise技术得到有两个记录 满足条件。,B-Tree技术与Bit-Wise索引技术对比,Bit-Wise索引技术比B-Tree技术能提高相应速度10100倍。对于检索“美国加州有多少男性未申请保险?”为例,假设数据库有10M记录,每个记录长800个字节,每一页16K字节。按传统的关系数据库的检索:需要经过50万次I/O操作。按BitWise检索:对于10M个记录建立三列的BitWise索引。存取这些索引只要进行235次I/O操作。,标识技术,样本记录数据库中的每个实体创建一个标识。“江西”在籍贯中是01标识。“28”在

    18、年龄中是02标识。“讲师”在职称名中有一个03标识。,姓名 籍贯 职称 年龄陈文东 江西 教授 56何玉辉 河北 讲师 32李宝 湖南 副教授 37施东 江苏 讲师 28曹文 湖南 副教授 36赵玉 吉林 讲师 32黄小斌 江苏 讲师 28赛英花 山东 副教授 32彭宏 江西 讲师 25廖宇宙 湖南 教授 42,标识技术,姓名 籍贯 职称 年龄陈文东 01 江西 01 教授 01 25 01何玉辉 02 河北 02 副教授 02 28 02李宝 03 湖南 03 讲师 03 32 03施东 04 江苏 04 36 04曹文 05 吉林 05 37 05赵玉 06 山东 06 42 06黄小斌

    19、07 56 07赛英花 08 彭宏 09 廖宇宙 10,记录1 01,01,01,07记录2 02,02,03,03记录3 03,03,02,05记录4 04,04,03,02记录5 05,03,02,05记录6 06,05,03,03记录7 07,04,03,02记录8 08,06,02,03记录9 09,01,03,01,广义索引,对数据仓库的一个很广泛的应用问题是“这个月销售最好和最差的10种商品是哪些?”,我们可以设计这么一块“黑板”,在上面标明了当月销售最好和最差的10种商品的名称或者它们相关记录的存放地址。这块“黑板”就是我们所说的“广义索引”。,4.4 数据仓库的实施,实施过程中

    20、需要完成的工作:建立数据仓库与业务处理系统的接口数据仓库的体系结构建立实现数据仓库物理仓库与元数据库进行数据仓库的数据初次加载完成数据仓库的中间件设计进行数据仓库的测试。,数据仓库与业务处理系统的接口,接口应该具有这样一些功能:从面向应用和操作环境生成完整的数据;数据基于时间的转换;数据的聚集;对现有数据系统的有效扫描,以便今后数据仓库的数据追加。,数据仓库的建立,关系型数据库、多维数据库和对象数据库 创建数据仓库的工具:MS SQL Server2000,2005,2008Oracle 9i,10iSybaseInformix Red Brick Decision Server,数据仓库的加

    21、载、复制和发行,数据加载之前,首先需要对准备加载的数据进行清理 复制技术,复制结构应完成以下的复杂任务:不会受到系统失败等问题的影响,保证提供可靠的数据复制。只传送符合数据完整性规则的一致数据。可以优化传送过程,减少在捕获或修改数据和复制品作为结果传送之间的等待时间。技术和数据结构应保证数据发行系统完成以下的功能:保证数据以适时和有效的方式发行。保证只发送被排序的数据。建立正确的和所需要的服务水平标准。,数据仓库的测试,单元测试单元测试的目的是寻找出存在于单个程序、存储过程和其它位于一些独立环境中模块的错误。系统集成测试测试目的是验证每个单元与数据仓库系统和子系统之间的接口是否完好,是否能够正

    22、常传递数据与执行系统的整体功能。,4.5 数据仓库技术与开发的困难,4.5.1数据仓库技术4.5.2数据仓库开发的困难,4.5.1数据仓库技术,(1)管理大量数据数据仓库要管理大量的数据,是因为它们:包括粒状的、原子的细节包括历史数据包括细节和汇总数据包括元数据有好多种管理大量数据的方法通过寻址,通过索引,通过数据的外延,通过有效的溢出管理等,(2)数据的高效装入和数据压缩,数据仓库的一个重要的技术就是能够高效地装入数据。有好多种装入数据的方法:通过一个语言接口一次一条记录。当数据能够被压缩时,它便能存储在很小的空间中。,(3)存储介质的管理,存储介质 访问速度 存储费用,主存 非常快 非常贵

    23、扩展内存 非常快 贵高速缓存 非常快 贵磁盘 快 适中光盘 不慢 不贵微缩胶片 慢 便宜,考虑到访问速度和存储费用,对数据的存储要分层次,层次的区分如下:,(4)多维DBMS和数据仓库,多维数据库管理系统(多维DBMS)使得对数据的访问非常灵活,可以用多种方法对数据进行切片、分割,动态地考察汇总数据和细节数据的关系。数据仓库和多维DBMS的区别:数据仓库有大量的数据;多维DBMS中的数据至少要少一个数量级。数据仓库只适合于少量的灵活访问;而多维DBMS适合大量的非预知的数据的访问和分析。数据仓库内存储了很长时间范围内的数据从5年到10年;多维DBMS中存储着比较短时间范围内的数据。数据仓库允许分析人员以受限的形式访问数据,而多维DBMS允许自由的访问。,多维DBMS和数据仓库,决策支持系统(DSS)分析者大部分时间里可以在多维DBMS中享受其操作高效的优点,同时如果需要的话,还可以向下钻取最低层次的细节数据。一些多维DBMS建立在关系模型上,而一些多维DBMS建立在多维立方体内.,4.5.2数据仓库开发的困难,没有理解数据的价值未能理解数据仓库概念尚未清楚了解用户将如何使用数据仓库之前,便贸然开发数据仓库对数据仓库规模的估计模糊忽视了数据仓库体系结构和数据仓库开发方法,


    注意事项

    本文(第4章数据仓库设计与开发.pptx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开