数据仓库概述(PPT 57页).pptx
- 文档编号:15122950
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:57
- 大小:3.15MB
数据仓库概述(PPT 57页).pptx
《数据仓库概述(PPT 57页).pptx》由会员分享,可在线阅读,更多相关《数据仓库概述(PPT 57页).pptx(57页珍藏版)》请在冰点文库上搜索。
第1讲数据仓库概述,1,数据仓库概述,1.1数据仓库产生的原因1.2数据仓库的基本概念1.3数据仓库的体系结构,2,数据仓库概述,1.1数据仓库产生的原因1.1.1操作型数据处理1.1.2分析型数据处理1.1.3两种数据处理模式的差异1.1.4数据库系统的局限性,3,1.1数据仓库产生的原因,两者有何不同?
数据库:
存放数据的地方。
数据仓库:
存放数据的地方。
4,1.1数据仓库产生的原因,两者有何不同?
数据库:
存放数据的地方。
数据仓库:
存放数据的地方。
5,1.1数据仓库产生的原因,两者有何不同?
数据库:
存放数据的地方。
数据仓库:
存放数据的地方。
6,1.1数据仓库产生的原因,7,1.1数据仓库产生的原因,8,1.1数据仓库产生的原因,两者有何不同?
数据库:
存放数据的地方。
数据仓库:
存放数据的地方。
9,1.1数据仓库产生的原因,数据处理的类型操作型处理(OLTP):
数据的收集、整理、存储、查询和增、删、改操作。
分析型处理(OLAP):
数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。
10,1.1.1操作型数据处理,是数据库系统的主要应用特点:
数据存取频率高、响应时间要快、存取数据量小、数据存储正确可靠。
系统基本架构:
11,1.1.1操作型数据处理,为了有效地对事务进行处理,数据库管理系统在技术和管理上采取了很多措施:
提出了事务的概念采用日志、备份等恢复技术和并发控制技术采用索引技术快速定位数据,12,1.1.1操作型数据处理,在数据库设计中广泛采用了规范化理论,消除表中属性间的部分函数依赖和传递函数依赖。
消除了数据的冗余,缩短了数据处理时间。
13,1.1.2分析型数据处理,典型的分析型应用就是决策支持系统。
需要具备的基本功能是:
建立各种数学模型,对数据统计分析,得出有用的信息作为决策的依据。
14,1.1.2分析型数据处理,常规应用实例:
某产品的销售经理希望通过调整该产品在各零售店的分配数量来扩大其销售量。
需要查询历史数据库中各类零售店最近若干年(例如5年)内每天的销售记录。
统计运算计算出近5年来各店的年度销售量。
比较确定销售量增长较快的零售店。
15,1.1.2分析型数据处理,决策支持系统:
需要花数小时甚至更长时间的处理、需要遍历数据库中的大部分数据,进行复杂的计算,需要消耗大量的系统资源。
16,1.1.3两者数据处理模式的差别,17,1.1.4数据库系统的局限,传统的数据库系统在操作型数据处理应用中取得了巨大的成功。
将其应用到分析型数据处理方面却无能为力。
18,1.1.4数据库系统的局限,信息系统建设的阶段性和分布性的特点,导致“信息孤岛”的存在。
19,1.1.4数据库系统的局限,20,1.1.4数据库系统的局限(续),1)数据的分散联机事务处理系统一般只需要与本部门业务相关的当前数据。
企业内部各应用之间实际上几乎都是独立的。
21,2)“蜘蛛网”问题解决数据分散的一种方法就是对数据进行集成抽取程序带来了“蜘蛛网”问题,即需要在抽取的数据中再次抽取,将导致企业数据之间形成错综复杂的网状结构。
1.1.4数据库系统的局限,22,3)数据不一致问题由于数据分散,导致多个应用间的数据不一致:
同一字段在不同应用中具有不同的数据类型同一字段在不同应用中具有不同的名字字段名字相同,但含义不同,1.1.4数据库系统的局限,23,4)数据动态集成问题数据集成开销很大。
一些应用仅在开始时对进行集成,以后一直以这部分集成数据作为分析基础,称为静态集成。
导致决策者使用过时数据。
如果希望能够用上最新数据,每次分析之前都进行数据集成,称为动态集成。
联机事务处理系统不具备动态集成能力。
1.1.4数据库系统的局限,24,5)历史数据问题联机事务处理一般只需要当前数据,数据库适于存储高度结构化的日常事务细节数据。
决策型数据多为历史性、汇总性或计算性数据。
1.1.4数据库系统的局限,25,6)数据的综合问题联机事务处理系统中积累了大量的细节数据,决策支持系统并不对细节数据进行分析。
决策分析环境中,细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。
因此分析前,需要对细节数据进行不同程度的综合。
1.1.4数据库系统的局限,26,结论要提高分析和决策的效率和有效性,必须把分析数据从事务处理环境中提取出来,按照决策支持系统处理的需要进行重新组织,建立单独的分析型处理环境。
数据仓库正是为了构建这种新的分析型处理环境而出现的一种数据存储和组织技术。
1.1.4数据库系统的局限,27,数据仓库概述,1.1数据仓库产生的原因1.2数据仓库的基本概念1.3数据仓库的体系结构,28,“数据仓库”一词最早是在1990年,由BillInmon提出的。
数据仓库的四个基本特征:
数据仓库的数据是面向主题的(SubjectOriented);数据仓库的数据时集成的(Integrate);数据仓库的数据不可更新(Non-Volatile);数据仓库的数据时随时间不断变化(TimeVariant)的。
1.2数据仓库的基本概念,29,数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,通常用于企业的决策支持。
1.2数据仓库的基本概念,30,主题:
是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述。
1.2.1面向主题,31,传统的面向应用的数据组织方式围绕相关的组织、部门进行详细调查,收集数据库的基础数据及其处理过程。
掌握企业内数据的动态特征(数据流图)。
面向主题的数据组织方式抽取主题确定每个主题所应包含的数据内容,1.2.1面向主题,32,采购子系统:
订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:
顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期),1.2.1面向主题,33,人事管理子系统:
员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)库存管理子系统:
领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述),1.2.1面向主题,34,传统的面向应用进行数据组织方式的特征为:
重点在“数据”和“处理”;所生成的各项数据库模式与企业实际的业务处理流程中所涉及的单据及文档,有很好的对应关系;并没有真正体现数据与数据处理的分离。
1.2.1面向主题,35,面向应用到面向主题的转变:
面向主题的数据组织方式应分为两个步骤:
抽取主题确定每个主题所包含的数据内容仍以商场为例,它所应有的主题包括:
商品、供应商、顾客。
每个主题有各自独立的逻辑内涵,对应一个分析对象。
1.2.1面向主题,36,商品:
商品固有信息:
商品号,商品名,类别,颜色等商品采购信息:
商品号,供应商号,供应价,供应日期,供应量等商品销售信息:
商品号,顾客号,售价,销售日期,销售量等商品库存信息:
商品号,库房号,库存量,日期等,1.2.1面向主题,37,供应商:
供应商固有信息:
供应商号,供应商名,地址,电话等。
供应商品信息:
供应商号,供应价,供应日期,供应量等。
顾客:
顾客固有信息:
顾客号,顾客名,性别,年龄,文化程度,住址顾客购物信息:
顾客号,商品号,售价,购买日期,购买量等。
1.2.1面向主题,38,从面向应用面向主题丢弃了原来不必要,不适合分析的信息。
将分散在各子系统中的有关主题的信息集成,形成关于商品的一致信息。
不同主题之间也有重叠的内容,但只是逻辑上的重叠,细节级上的重叠,另外主题间并不是两两重叠。
1.2.1面向主题,39,主题的实现:
一个主题可划分成多个表,基于一个主题的所有表都有一个公共码,作为主码的一部分,将各表统一起来,体现它们是属于一个主题。
例如实现商品主题:
1.2.1面向主题,40,主题:
商品公共码键:
商品号商品表(商品号,商品名,类型,颜色,)采购表1(商品号,供应商号,供应日期,供应价,)采购表2(商品号,时间段,采购总量,):
采购表n(商品号,时间段,采购总量,),描述的是商品的固有信息,描述的是商品的采购细节信息,时间段不等的采购综合表,1.2.1面向主题,41,销售表1(商品号,顾客号,销售日期,售价,销售量,)销售表2(商品号,时间段,销售总量,):
销售表n(商品号,时间段,销售总量,)库存表1(商品号,库房号,库存量,日期,)库存表2(商品号,库房号,库存量,月份,):
库存表n(,),1.2.1面向主题,42,面向主题的数据组织方式:
根据分析要求将数据组织成主题域,即要具有:
独立性:
可交叉,但必须具有独立内涵完备性:
能在主题内找到该分析处理所要求的一切内容,1.2.1面向主题,43,2.数据仓库的数据是集成的通常,构造数据仓库是将多个异种数据源(如关系DB、一般文件和联机事务处理记录)集成在一起,使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。
主要做两个工作,1.2.2数据仓库的其它三个特征,44,3.数据仓库的数据是稳定的数据仓库主要供企业决策分析使用,包括大量历史数据,数据经集成进入DW后极少或根本不更新。
所以通常它只需要两种数据访问:
数据的初始装入数据访问因此数据仓库不需要事务处理、恢复和并发控制机制。
1.2.2数据仓库的其它三个特征,45,4.数据仓库的数据是不同时间的数据集合数据仓库的数据不可更新是针对应用而言,它随时间而发生变化的特征体现在:
数据仓库随时间变化不断增加新内容;数据仓库随时间变化不断删除旧内容;数据仓库随时间变化不断重新综合数据。
数据仓库的关键结构都隐式或显式地包含时间元素。
1.2.2数据仓库的其它三个特征,46,根据数据仓库的四个特征表明,数据仓库实际上是一种数据存储,它将各种异构数据源中的数据集成在一起,并保持其语义一致,从而为企业决策提供支持。
1.2.3数据仓库的功能,47,数据仓库概述,1.1数据仓库产生的原因1.2数据仓库的基本概念1.3数据仓库的体系结构,48,1.3.1体系结构从数据仓库的概念结构看,数据仓库系统由:
数据源、集成工具、数据仓库与数据仓库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成。
1.3数据仓库的体系结构,49,1.3.1体系结构,50,源数据:
是数据仓库系统的基础,是整个系统的数据源泉。
集成工具:
用于数据抽取(Extracting)、清洗(Cleaning)、转换(Transformation)、加载(Load)的工具,简称ETL工具。
数据仓库服务器:
负责管理数据仓库中的数据。
一般由关系数据库管理系统扩展而成。
OLAP服务器:
对分析所需要的数据按照多维数据模型进行再次组织,以支持用户多角度、多层次的数据分析。
1.3.1体系结构,51,数据集市:
是一种小型的数据仓库。
是面向部门级的应用,因此也称之为部门级数据仓库。
前台分析工具:
主要包括各种数据分析工具,如报表工具、OLAP工具、数据挖掘工具等。
元数据:
是整个数据仓库的所有描述性信息。
1.3.1体系结构,52,数据集市(DataMarts):
为了特定目的,从数据仓库中独立出来的一部分数据。
也称为部门级数据仓库。
数据集市的产生:
参见W.H.Inmon在其所著的BuildingtheDataWarehouse中提到的第1天到第n天现象。
1.3.2数据集市,53,从属型数据集市:
从中央数据仓库中获取数据而生成的数据集市,1.3.2数据集市,54,独立型数据集市:
直接从操作型环境中获取数据。
1.3.2数据集市,55,从属型数据集市和独立型数据集市反映了建立数据仓库的两种思想,即:
自顶向下:
在原来分散的操作型环境中建立一个全局数据仓库(或称中央数据仓库),然后根据特定部门的特定需求建立数据集市,即多个从属型数据集市。
1.3.2数据集市,56,自底向上:
先以最少投资,根据部门的当前需求,建立起多个独立型的数据集市,然后再不断扩充、不断完善,形成一个全局数据仓库。
1.3.2数据集市,57,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库概述PPT 57页 数据仓库 概述 PPT 57