欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    数据仓库与数据挖掘第1章.pptx

    • 资源ID:15122986       资源大小:2.31MB        全文页数:64页
    • 资源格式: PPTX        下载积分:30金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库与数据挖掘第1章.pptx

    1、数据仓库与数据挖掘,陈 昕2015.04,数据挖掘的应用人文地理,数据挖掘的应用娱乐传媒,数据挖掘的应用智慧城市,数据挖掘的应用商业零售,数据挖掘的应用Web推荐,数据挖掘的应用体育竞技,VS,数据挖掘的应用大数据应用,信息安全,舆情分析,能效优化,商务智能与数据挖掘工具,商务智能与数据挖掘工具,商务智能与数据挖掘工具,商务智能与数据挖掘功能,核心:数据,参 考 书 目,1.数据挖掘概念与技术,Jiawei Han Micheline Kamber 著,范 明、孟小峰等译,机械工业出版社出版2.数据仓库,W.H.Inmon 著,王志海等译,机械工业出版社出版3.数据仓库技术与联机分析处理,王

    2、珊等编著,科学出版社出版4.数据挖掘实践,Olivia Parr Rud 著,朱扬勇、左子叶等译,机械工业出版社出版,数据仓库以及数据挖掘是目前数据库领域最为活跃的一个方面,受到学术界与产业界的广泛关注。典型应用环境如DSS,EIS,ERP。大型数据库的数据仓库解决方案有:Informix MetaCube Oracle Express Sybase QuickStart DataMart DB2 Data Warehouse Manager SQL Server Analysis services NCR Teradata Warehouse对各类海量数据需要自动分析、分类、汇总、发现和描述

    3、数据蕴涵的趋势、标记异常等,课程简介,各类管理人员需要从大量复杂的业务数据中获取各自权限内的决策信息,及时把握市场变化脉搏,作出正确有效的判断与抉择 随着数据库系统的逐日运行,数据将堆积越来越庞大 数据处理的重点需要从传统业务扩展到业务数据的联机分析处理,并得到面向各种管理主题的统计信息和决策支持信息 数据仓库是基于大规模数据库的DSS环境的核心,课程简介,数据仓库的基本概念 多维数据模型 数据仓库的系统结构 数据仓库的实现 基于数据仓库的数据挖掘,课程简介,数据挖掘通常称为数据库中的知识发现(KDD),是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识

    4、涉及的学科有:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库、知识获取、信息检索、高性能计算和数据可视化,课程简介,数据挖掘的概念数据挖掘的功能数据挖掘的分类与主要问题数据挖掘系统的结构挖掘大型数据库中的关联规则分类与预测聚类分析复杂类型的数据挖掘数据仓库与数据挖掘的应用与发展趋势,课程简介,一、数据仓库与数据挖掘概述二、数据仓库的OLAP技术三、数据预处理四、数据挖掘的系统结构五、挖掘大型数据库中的关联规则六、分类与预测七、聚类分析八、复杂类型的数据挖掘九、数据仓库与数据挖掘的应用与发展趋势,课程结构,1.什么是数据仓库2.什么是数据挖掘3.数据挖掘的功能4.数据挖掘的分

    5、类5.数据挖掘的主要问题,第一章 数据仓库与数据挖掘概述,第一节 什么是数据仓库,1.数据仓库的产生当前的数据处理与数据分为两类:操作型处理与数据 分析型或信息型处理与数据,第一节 什么是数据仓库,1.数据仓库的产生操作型处理:又称事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要为企业的特定应用服务,所关心的是响应时间,数据的安全性和完整性操作型环境是以单一数据库为中心的数据环境,第一节 什么是数据仓库,1.数据仓库的产生分析型处理:又称信息型处理,是针对制定决策过程中管理方面的需求而进行的处理,通过浏览大量数据找出其中的趋势。如DSS,EIS等分析型环境是一种新

    6、的体系化环境,第一节 什么是数据仓库,第一节 什么是数据仓库,1.数据仓库的产生操作型数据和分析型数据的不同而导致的数据分离和自然扩展过程:,第一节 什么是数据仓库,2.数据仓库的定义数据仓库之父W.H.Inmon给出了定义:数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策,第一节 什么是数据仓库,2.数据仓库的定义 面向主题主题:是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,即对应企业中某一宏观分析领域所涉及的分析对象面向主题的数据组织方式就是对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业

    7、各项数据,以及数据之间的联系,第一节 什么是数据仓库,2.数据仓库的定义 面向主题每个主题在数据仓库中都是由一组关系表实现的主题的实现基于关系数据库在具体实现中,一个主题可以划分成多个表,主题只是一个逻辑的概念基于一个主题的所有表都含有一个称为公共键码的属性作为其主码的一部分,第一节 什么是数据仓库,2.数据仓库的定义 面向主题,第一节 什么是数据仓库,2.数据仓库的定义 数据仓库的数据是集成的要统一源数据中所有矛盾之处,如同名异义、字长不一致等等进行数据综合和计算。数据综合可以从原有数据库抽取数据生成,但许多是在数据仓库内部生成,第一节 什么是数据仓库,2.数据仓库的定义 数据仓库数据是不可

    8、更新数据仓库的数据主要供企业决策分析使用,所涉及的数据操作主要是数据查询,一般不进行修改操作数据库中进行联机处理的数据经过集成输入到数据仓库中,数据仓库中的数据超过存储期限,这些数据将从当前数据仓库中删去DWMS比DBMS简单,但查询要求高,第一节 什么是数据仓库,2.数据仓库的定义 数据仓库数据随时间不断变化数据仓库随时间变化不断增加新的内容数据仓库随时间变化不断删除旧的内容数据仓库中包含有大量的综合数据,这些数据随时间变化不断地进行重新综合数据仓库数据的码键包含时间项,标明历史时期,第一节 什么是数据仓库,3.数据仓库的数据组织3.1 组织结构,第一节 什么是数据仓库,3.数据仓库的数据组

    9、织3.1 组织结构 数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高 元数据(metadata):关于数据的数据操作型环境向数据仓库环境转换而建立的元数据数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,也为DSS元数据,第一节 什么是数据仓库,3.数据仓库的数据组织3.2 粒度与分割 粒度是数据仓库的重要概念粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别细化程度越高,粒度级就越小;细化程度越低粒度级就越大一般采用多重粒度级:高细节级、低细节级,第一节 什么是数据仓库,3.数据仓库的数据组织3.2 粒度与分割 分割是数据仓库的重要概念分割

    10、是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率数据分割后的数据单元称为分片数据分割标准依据实际情况确定,一般应包括日期项分割使数据更易重构、索引、重组、恢复、监控,第一节 什么是数据仓库,3.数据仓库的数据组织3.2 粒度与分割 简单分割实例,分片以时间标准来组织:,第一节 什么是数据仓库,3.数据仓库的数据组织3.3 数据组织形式 简单堆积文件:数据逐天积累 轮转综合文件:按日、周、月、年组织数据集 简化直接文件:每隔一定时间的数据库快照 连续文件:通过比较两个简单直接文件不同而生成,第二节 什么是数据挖掘,1.数据挖掘的提出数据挖掘是信息技术自然演化的结果 数据收

    11、集、数据库创建 数据管理:数据存储和检索,数据库事务处理 数据分析与理解:涉及数据仓库和数据挖掘,第二节 什么是数据挖掘,1.数据挖掘的提出数据库技术的发展历史20世纪60年代,功能强大的数据库系统70年代,从网状和层次到关系数据库系统、建模工具、索引和数据组织技术,联机事务处理OLTP80年代,使用先进的数据模型,如面向对象模型、对象关系模型、演绎模型,第二节 什么是数据挖掘,1.数据挖掘的提出数据仓库技术数据清理:文件之间转换、存储介质转移、清除过期数据、层次转换(操作型到分析型)数据集成:从操作型环境到分析型环境联机分析处理OLAP:是一种分析技术,具有汇总、合并和聚集功能,以及从不同角

    12、度观察信息的能力,第二节 什么是数据挖掘,1.数据挖掘的提出数据的丰富增强了对功能更强的数据分析工具的需求对海量数据的理解,远远超出人的能力,产生“数据坟墓”决策者缺乏从海量数据中提取有价值知识的工具,许多专家系统技术还是依赖经验数据挖掘工具进行数据分析,可以发现重要的数据模式,破除数据与信息的鸿沟,第二节 什么是数据挖掘,2.数据挖掘的定义数据挖掘是指从大量数据中提取或“挖掘”知识。通常也可理解为数据库中的知识发现KDD,也可以理解为KDD的一个基本步骤。还有提法:数据库中知识挖掘 知识提取 数据/模式分析 数据考古 数据捕捞,第二节 什么是数据挖掘,2.数据挖掘的定义知识发现过程7个步骤如

    13、下:1)数据清理:消除噪声或不一致2)数据集成:多种数据源组合在一起3)数据选择:从数据库中检索与分析任务相关的数据。4)数据变换:数据变换或统一成适合挖掘的形式,如汇总或聚集操作5)数据挖掘:使用智能方法提取数据模式,第二节 什么是数据挖掘,2.数据挖掘的定义知识发现过程7个步骤如下:6)模式评估:根据某种兴趣度量,识别表示知识的真正有趣的模式7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识,第二节 什么是数据挖掘,2.数据挖掘的定义知识发现过程7个步骤如下:,第二节 什么是数据挖掘,2.数据挖掘的定义数据挖掘的广义定义:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据

    14、中挖掘有趣知识的过程,第二节 什么是数据挖掘,3.数据挖掘系统的主要成分 数据库、数据仓库或其他信息库 数据库或数据仓库服务器 知识库 数据挖掘引擎 模式评估模块 图形用户界面,第二节 什么是数据挖掘,4.数据挖掘的应用环境 关系数据库 数据仓库 事务数据库 高级数据库系统和高级数据库,第二节 什么是数据挖掘,第三节 数据挖掘功能,1.数据挖掘功能数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分为两类:描述和预测 描述性挖掘任务刻划数据库中数据的一般特性 预测性挖掘任务在当前数据上进行推断,以进行预测,第三节 数据挖掘功能,2.概念/类描述:特征化和区分 数据可以与类或概念

    15、相关联。用汇总的、简洁的、精确的方式描述每个类和概念称为类/概念描述这种描述可以通过以下方法得到:数据特征化:目标类数据的一般特征或特性的汇总数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性进行比较数据特征化和比较,第三节 数据挖掘功能,3.关联分析 关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析适用于事务数据分析关联规则形式化描述为,解释为“满足X中条件的数据库元组也满足Y中的条件”多维关联规则 一个以上属性或谓词之间的关联规则 单维关联规则 包含单个谓词的关联规则,第三节 数据挖掘功能,4.分类与预测 分类就是找出描述并区分数据类或概

    16、念的模型(或函数),以便能够使用模型预测类标记未知的对象类预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间,第三节 数据挖掘功能,4.分类与预测 数据分类的基本技术有:判定树归纳 贝叶斯分类 贝叶斯网络 神经网络,第三节 数据挖掘功能,5.聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程成为聚类(clustering)由聚类所生成的簇是一组数据对象的集合,同一 簇中的对象彼此相似,而与其他簇中的对象相异通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系,聚类,第三节 数据挖掘功能,5.聚类分析 聚类

    17、分析是数据挖掘的一个功能,能够作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析也可以作为其他算法的预处理步骤聚类技术主要有:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法,第四节 数据挖掘的分类,1.数据挖掘受多学科的影响,第四节 数据挖掘的分类,2.数据挖掘的分类根据挖掘的数据库类型分类:关系型、面向对象型、对象关系型、空间的、文本的或多媒体的等等根据挖掘的知识类型分类:特征化、区分、关联、分类、聚集等等根据所用的技术分类:机器学习、统计学、模式识别、神经网络等等根据应用分类:金融、电信、股票市场、E-mail等等

    18、,第五节 数据挖掘的主要问题,1.挖掘方法和用户交互的问题2.性能问题3.关于数据库类型的多样性问题,第五节 数据挖掘的主要问题,1.挖掘方法和用户交互的问题 在数据库中挖掘不同类型的知识 多个抽象层的交互知识挖掘 综合背景知识 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和显示 处理噪声和不完全数据 模式评估兴趣度问题,第五节 数据挖掘的主要问题,2.性能问题 数据挖掘算法的有效性和可伸缩性 并行、分布式和增量挖掘算法,第五节 数据挖掘的主要问题,3.关于数据库类型的多样性问题 关系的和复杂的数据类型的处理 由异种数据库和全球信息系统挖掘信息,思考问题:,1.什么是数据仓库?它与数据库有何差异?2.什么是数据挖掘?3.数据挖掘的主要功能是什么?4.简述知识发现的基本步骤。5.典型的数据挖掘系统主要是由哪些部分构成的?,


    注意事项

    本文(数据仓库与数据挖掘第1章.pptx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开