7-数据仓库与数据挖掘.pptx
- 文档编号:15127978
- 上传时间:2023-07-01
- 格式:PPTX
- 页数:101
- 大小:1.64MB
7-数据仓库与数据挖掘.pptx
《7-数据仓库与数据挖掘.pptx》由会员分享,可在线阅读,更多相关《7-数据仓库与数据挖掘.pptx(101页珍藏版)》请在冰点文库上搜索。
1/101,2023/7/1,第六章数据仓库与数据挖掘,2/101,2023/7/1,数据挖掘的发展动力-需要是发明之母,数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。
我们拥有丰富的数据,但却缺乏有用的信息解决方法:
数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:
在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),3/101,2023/7/1,什么是数据挖掘?
数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。
4/101,2023/7/1,数据挖掘:
数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,5/101,2023/7/1,KDD的步骤,从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:
(这个可能要占全过程60的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式狭义)6.模式评估7.知识表示(如图形等表示方法),6/101,2023/7/1,典型数据挖掘系统的体系结构,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,7/101,2023/7/1,并非所有的东西都是数据挖掘,基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。
机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。
信息系统专注于数据的查询处理。
相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合,8/101,2023/7/1,在何种数据上进行数据挖掘,9/101,2023/7/1,数据挖掘的主要功能可以挖掘哪些模式?
一般功能描述性的数据挖掘预测性的数据挖掘通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:
概念/类描述:
特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析,10/101,2023/7/1,概念/类描述:
特性化和区分,概念描述:
为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)特征化:
提供给定数据集的简洁汇总。
例:
对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:
4050岁,有固定职业,信誉良好,等等区分:
提供两个或多个数据集的比较描述。
例:
11/101,2023/7/1,关联分析,关联规则挖掘:
从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
广泛的用于购物篮或事务数据分析。
例:
12/101,2023/7/1,分类和预测,1、分类在商业上应用最多,其目的是找出一组能够描述数据集合典型特征的模型和函数。
2、数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类别的过程。
3、分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述,然后使用这些描述,对数据库中的其他数据进行分类。
4、分类通常和预测联系起来,这是因为分类可以用来预测数据对象的类标记,也可以用来预测不知道的数据值,当被预测的值是数值数据时,通常称之为预测。
13/101,2023/7/1,分类和预测,例:
通过训练数据获得了如下规则:
IF年龄=“31.40”AND收入=“较高”THEN信用程度=“优秀”规则的含义:
年龄在31到40之间,收入较高的情况下,这类顾客群的信用程度被认为是“优秀”IFage=“40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“40”ANDcredit_rating=“fair”THENbuys_computer=“no”,14/101,2023/7/1,聚类分析,聚类分析:
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
最大化类内的相似性和最小化类间的相似性例:
对WEB日志的数据进行聚类,以发现相同的用户访问模式聚类分析与分类分析相反,首先输入的是一组没有被标记的记录,系统按照一定的规则合理地划分记录集合(相当于给记录打标记,只不过分类标准不是用户指定的),然后可以采用分类分析法进行数据分析,并根据分析的结果重新对原来的记录集合(没有被标记的记录集合)进行划分,进而再一次进行分类分析,如此循环往复,直到获得满意的分析结果为止。
15/101,2023/7/1,孤立点分析,孤立点分析孤立点:
一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常),16/101,2023/7/1,趋势和演变分析,是针对事件或对象行为随时间变化的规律或趋势,并以此来建立模型。
例如:
对股票市场交易数据进行时序演变分析,则可能得到这样的规则:
AT&T股票连续上涨两天且DEC股票不下跌,那么第三天IBM股票上涨的可能性为75%。
趋势和偏差:
回归分析序列模式匹配:
周期性分析基于类似性的分析,17/101,2023/7/1,所有模式都是有趣的吗?
数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。
模式兴趣度的度量一个模式是有趣的,如果
(1)它易于被人理解;
(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量:
基于所发现模式的结构和关于它们的统计,比如:
支持度、置信度等等主观度量:
基于用户对数据的判断。
比如:
出乎意料的、新颖的、可行动的等等,18/101,2023/7/1,能够产生所有有趣模式并且仅产生有趣模式吗?
找出所有有趣的模式:
数据挖掘算法的完全性问题数据挖掘系统能够产生所有有趣的模式吗?
试探搜索vs.穷举搜索关联vs.分类vs.聚类只搜索有趣的模式:
数据挖掘算法的最优化问题数据挖掘系统可以仅仅发现有趣的模式吗?
方法首先生成所有模式然后过滤那些无趣的.仅仅生成有趣的模式挖掘查询优化,19/101,2023/7/1,数据挖掘:
多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,20/101,2023/7/1,数据挖掘系统的分类
(1),数据挖掘的多学科融合的特性,决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。
根据所挖掘的数据库分类关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时序数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,21/101,2023/7/1,数据挖掘系统的分类
(2),根据挖掘的知识类型特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等.多种方法的集成和多层机挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等.根据挖掘所用的应用金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等.,第二节:
数据仓库和数据挖掘的OLAP技术,23/101,2023/7/1,数据仓库数据挖掘的有效平台,数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤数据仓库提供OLAP工具,可用于不同粒度的数据分析很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现分类预测关联聚集,24/101,2023/7/1,数据仓库的定义与基本特性,1.数据仓库的定义WilliamH.Inmon在1993年所写的论著BuildingtheDataWarehouse首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。
文中他将数据仓库定义为:
adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。
25/101,2023/7/1,数据仓库关键特征一面向主题,面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。
由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。
例如,企业中的客户、产品、供应商等都可以作为主题看待。
从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。
从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。
26/101,2023/7/1,数据仓库关键特征二数据集成,一个数据仓库是通过集成多个异种数据源来构造的。
关系数据库,一般文件,联机事务处理记录(OLTP)使用数据清理和数据集成技术。
确保命名约定、编码结构、属性度量等的一致性。
当数据被移到数据仓库时,它们要经过转化。
27/101,2023/7/1,数据仓库关键特征三随时间而变化,数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。
操作数据库系统:
主要保存当前数据。
数据仓库:
从历史的角度提供信息(比如过去5-10年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10年前的数据进行决策分析,那决策所带来的后果将是十分可怕的。
28/101,2023/7/1,因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。
数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。
例如,如果分析企业近几年的销售情况,那快照可以每隔一个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。
29/101,2023/7/1,数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。
因为数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。
数据仓库关键特征四数据不易丢失,30/101,2023/7/1,数据仓库关键特征四数据不易丢失,尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。
操作数据库的更新操作不会出现在数据仓库环境下。
不需要事务处理,恢复,和并发控制等机制(大大提高了处理速度)只需要两种数据访问:
数据的初始转载和数据访问(读操作),31/101,2023/7/1,数据仓库的构建与使用,数据仓库的构建包括一系列的数据预处理过程数据清理数据集成数据变换数据仓库的使用热点是商业决策行为,例如:
增加客户聚焦产品重定位寻找获利点客户关系管理,32/101,2023/7/1,数据仓库与操作数据库系统,操作数据库系统的主要任务是联机事务处理OLTP日常操作:
购买,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分析处理OLAP数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要,33/101,2023/7/1,OLAPVS.OLTP
(1),用户和系统的面向性面向顾客(事务)VS.面向市场(分析)数据内容当前的、详细的数据(如超市一个月的数据)VS.历史的、汇总的数据数据库设计实体联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计,34/101,2023/7/1,OLAPVS.OLTP
(2),数据视图当前的、企业内部的数据VS.经过演化的、集成的数据访问模式事务操作(如查询、写入、修改)VS.只读查询(但很多是复杂的查询)任务单位简短的事务VS.复杂的查询访问数据量数十个VS.数百万个,35/101,2023/7/1,OLAPVS.OLTP(3),用户数数千个VS.数百个(复杂查询,消耗资源)数据库规模100M-数GB(因此一般关注近期数据)VS.100GB-数TB设计优先性高性能、高可用性VS.高灵活性、端点用户自治度量事务吞吐量VS.查询吞吐量、响应时间,36/101,2023/7/1,为什么需要一个分离的数据仓库?
“既然操作数据库存放了大量数据”,“为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个分离的数据仓库?
”分离的主要原因是提高两个系统的性能DBMS是为OLTP而设计的:
存储方式,索引,并发控制,恢复(OLAP不需要)数据仓库是为OLAP而设计:
复杂的OLAP查询,多维视图,汇总,为什么需要一个分离的数据仓库?
两个系统提供不同的功能和处理不同的数据:
历史数据:
决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:
决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量:
不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成由于两个系统提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。
然而,许多关系数据库管理系统卖主正开始优化这种系统,使之支持OLAP查询。
随着这一趋势的继续,OLTP和OLAP系统之间的分离可望消失。
OLAP与OLTP对比总结,39/101,2023/7/1,OLAP的几个基本概念,1、维:
维是关于一个组织想要记录的视角或观点。
每个维都有一个表与之相关联,称为维表。
同一个问题可以从不同维度进行观察分析。
如:
超市分析某一个时期内营业额的变化,是从时间维角度分析。
按所处地区对连锁店的营业额分析,是从地理维角度分析。
2、维的层次:
在同一维度上存在多个程度不同的细节。
3、维的成员:
是指某个维的某个具体取值。
4、多维数组:
如果一个数据集合可以从多个角度进行观察,则根据这些维度将数据组织所构成的数组,就是多维数组.多维数组可以用图形化来表示,也可以用表格表示,OLAP的几个基本概念,当维度的数量不超过3时,采用图形的方法可以很直观的表达出该数组的内涵,但超三维的结构,图形方式无能为力。
如增加客户类别维。
OLAP的几个基本概念,超三维数据的表格表示,42/101,2023/7/1,多维数据模型
(1),数据仓库和OLAP工具基于多维数据模型(OLTP基于什么?
)在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。
它由维和事实定义维是关于一个组织想要记录的视角或观点。
每个维都有一个表与之相关联,称为维表。
多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量,43/101,2023/7/1,多维数据模型
(2)示例,time_keydayday_of_the_weekmonthquarteryear,time维表,location_keystreetcitystate_or_provincecountry,location维表,Sales事实表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,度量,item_keyitem_namebrandtypesupplier_type,item维表,branch_keybranch_namebranch_type,branch维表,数据仓库的概念模型,最流行的数据仓库概念模型是多维数据模型。
这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。
星型模式(Starschema):
事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。
雪花模式(Snowflakeschema):
是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。
结果,模式图形成类似于雪花的形状。
事实星座(Factconstellations):
多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation),45/101,2023/7/1,time_keydayday_of_the_weekmonthquarteryear,time维表,location_keystreetcitystate_or_provincecountry,location维表,Sales事实表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,度量,item_keyitem_namebrandtypesupplier_type,item维表,branch_keybranch_namebranch_type,branch维表,星型模式实例,46/101,2023/7/1,雪花模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,47/101,2023/7/1,雪花模型是在星形模型的基础上发展起来的,它在事实表和维度表的基础上,增加了一类新的表详细类别表。
在星形表中事实表的规范化程度较高,但是对于维度表的冗余度未加限制,雪花模型引入详细类别表就是为了将维度表的数据进一步分解,以提高数据模型的规范化程度,具有较低的粒度。
在实际运用中使用星形模型较多,雪花模式实例,48/101,2023/7/1,事实星座模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,ShippingFactTable,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,49/101,2023/7/1,概念分层
(1),一个概念分层(concepthierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念E.g.表示location的概念:
杭州浙江中国亚洲概念分层允许我们在各种抽象级审查和处理数据概念分层可以由系统用户、领域专家、知识工程师人工的提供,也可以根据数据分布的统计分析自动的产生,50/101,2023/7/1,概念分层
(2):
location维的一个概念分层,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M.Wind,L.Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,许多概念分层的定义隐含在数据库的模式中。
比如:
location维的定义,officecitycountryregion;这些属性按一个全序相关,形成一个层次结构:
year,day,quarter,month,week,Time维的属性也可以组成一个偏序,形成一个格。
例如,维time基于属性day,week,month,quarter和year就是一个偏序“daymonthquarter;weekyear”,51/101,2023/7/1,概念分层(3)使用,概念分层为不同级别上的数据汇总提供了一个良好的基础综合概念分层和多维数据模型的潜力,可以对数据获得更深入的洞察力通过在多维数据模型中,在不同的维上定义概念分层,使得用户在不同的维上从不同的层次对数据进行观察成为可能。
多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:
52/101,2023/7/1,多维数据模型上的OLAP操作
(1),上卷(roll-up):
汇总数据(实例图)通过一个维的概念分层向上攀升或者通过维规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):
上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为给定数据添加更多细节)切片和切块(sliceanddice)切片操作在给定的数据立方体的一个维上进行选择,导致一个子方切块操作通过对两个或多个维进行选择,定义子方,53/101,2023/7/1,多维数据模型上的OLAP操作
(2),转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列转轴是一种可视化操作,通过转动当前数据的视图来提供一个数据的替代表示,54/101,2023/7/1,知识点回顾,1、试比较OLAP与OLTP的区别。
2、数据仓库的概念模型有哪些?
各有什么特点?
3、多维数据模型上的OLAP操作有哪些?
55/101,2023/7/1,数据仓库的结构,数据仓库的数据级别(粒度),早期细节数据存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质中。
(例如磁带中)当前细节数据存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。
随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。
轻度综合数据从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。
高度综合数据这一层的数据十分精炼,是一种准决策数据。
57/101,2023/7/1,数据仓库设计:
一个商务分析框架
(1),数据仓库给商业分析专家提供了什么?
通过提供相关数据与信息,获得竞争优势通过有效的收集精确的描述组织的数据,获得生产力的提高通过提供不同级别(部门、市场、商业)的客户视图,协助客户关系管理通过追踪长期趋势、异常等,降低成本有效构建数据仓库的关键:
理解和分析商业需求通过提供一个商业分析框架,综合各种不同的数据使用者的视图,58/101,2023/7/1,数据仓库设计:
一个商务分析框架
(2),数据仓库设计的四种视图自顶向下视图使得我们可以选择数据仓库所需的相关信息。
数据源视图揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图由事实表和维表所组成商务查询视图从最终用户的角度透视数据仓库中的数据,59/101,2023/7/1,数据仓库设计:
一个商务分析框架(3),数据仓库的构建与使用涉及多种技能商业技能理解系统如何存储和管理数据数据如何提取数据如何刷新技术方面的技能如何通过使用各种数据或量化的信息,导出可以提供决策支持的模式、趋势、判断等如何通过审查历史数据,分析发展趋势等计划管理技能如何通过与不同的技术、厂商、用户交互,来及时、有效、经济的提交结果,数据仓库的设计过程
(1),自顶向下法、自底
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘