欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    传统数据挖掘与大数据中的数据挖掘的异同详解.docx

    • 资源ID:12958833       资源大小:52.21KB        全文页数:28页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    传统数据挖掘与大数据中的数据挖掘的异同详解.docx

    1、传统数据挖掘与大数据中的数据挖掘的异同详解毕 业 设 计 论 文 院系名称: 信息学院软件工程专业班级: 软件本111学生姓名: 韩晓冬指导教师: 张 楠 密级:内部传统数据挖掘与大数据中数据挖掘的异同专业班级: 软件本111学生姓名: 韩晓冬学 号: 2011417123指导教师: 张 楠摘 要大数据是IT产业具有颠覆性的技术革命,在这之前的技术革命还有物联网、云计算等。大数据时代的到来对人们影响巨大,尤其在生活方式和商业模式上影响着人们,而且也在组织流程、企业决策等方面影响着人们。随着大数据的提出,许多信息技术迎来了新的发展机遇,尤其对数据挖掘技术影响巨大,而数据挖掘技术也开始了一个新的发

    2、展阶段。目前信息世界中一个非常严峻的问题就是数据的大爆炸与知识的匮乏,要想解决这个严峻的问题,数据挖掘是一个非常有力的手段。过去的几年是知识大爆炸与信息大爆炸的时代,而现在则是数据大爆炸的时代。大量的数据信息隐藏着巨大价值,要想发现这些价值,进行数据挖掘是必不可少的。由于大数据的数据量比较庞大,数据类型比较复杂,因此,想要针对大数据进行数据挖掘必然不能在用传统的数据挖掘技术,基于大数据的数据挖掘必然不同于传统数据挖掘技术。大数据与相对较小的数据相比在存储上、数据类型上都有着非常大的不同,因此,数据对象不同的数据挖掘技术也有着很大的不同。那么传统数据挖掘与基于大数据的数据挖掘之间究竟有何不同之处

    3、、有何相同之处?这对于大数据的发展具有十分重要的意义。本文主要论述了传统数据的概念和特点、大数据的概念和特点以及基于大数据的数据挖掘的概念和特点,最后进行传统数据挖掘与基于大数据的数据挖掘比较,最终得出传统数据挖掘与基于大数据的数据挖掘既有相同之处又有不同之处。相同之处在于数据挖掘的思想、目的、基本方法等方面,不同之处在于数据存储、数据处理、数据类型等方面。关键词 数据挖掘,大数据,知识大爆炸 目 录摘 要 IAbstract II第1章 绪 论 11.1 大数据时代 11.2 数据挖掘的意义 11.3 基于大数据的数据挖掘 11.4 本文的主要目的与内容 2第2章 传统数据挖掘的起源 32.

    4、1 传统数据挖掘的定义 32.2 传统数据挖掘的概念 32.3 传统数据挖掘的起源 32.4 传统数据挖掘的发展阶段 4第3章 传统数据挖掘技术 53.1 数据挖掘的分析方法 53.1.1 关联分析 53.1.2 分类分析 53.1.3 序列模式分析 63.1.4 聚类分析 63.2 复杂数据类型挖掘 63.3 传统数据挖掘面临的挑战 73.3.1 数据挖掘的对象 73.3.2 输入数据的复杂性 73.3.3 用户的参与度 73.3.4 信息的验证技术 83.3.5 信息的表达和解释 83.3.6 信息的维护更新 83.3.7 有限的支持和集成 83.4 数据挖掘的发展趋势 8第4章 基于大数

    5、据的数据挖掘 104.1 大数据技术 104.1.1 大数据的定义 104.1.2 大数据的意义 104.1.3 大数据的特点 104.1.4 内存分析 114.1.5 集成设备 114.1.6 大数据的结构 114.2 基于大数据的数据挖掘 124.2.1 基于内容的大数据挖掘 124.2.2 基于结构的大数据挖掘 134.3 基于大数据的数据挖掘的意义 134.4 基于大数据的数据挖掘的应用 13第5章 传统数据挖掘与大数据挖掘的异同 155.1 数据存储方面 155.1.1 容量方面 155.1.2 延迟方面 155.1.3 安全方面 155.1.4 成本方面 165.1.5 数据积累方

    6、面 165.2 数据处理方面 165.2.1 处理工具方面 165.2.2 存储工具方面 175.2.3 数据计算方面 17结 论 19致 谢 20参考文献 21第1章 绪 论1.1 大数据时代2009年以来“大数据”成为各界的流行词,尤其是在信息领域中。而在麦肯锡的2011年数据呈报报告中指出,大数据现已渗透社会各个领域,数据中的信息已然成为重要的生产要素。作为时下最流行的关键技术,随之而来的数据仓库、数据挖掘、数据分析、数据处理等围绕大数据的技术也逐渐开始进入一个新的发展阶段。那么“大数据”究竟有多大?根据世界互联网数据中心统计报告,互联网上数据的年增长率是50%,而在过去的几年里产生了9

    7、0%的数据,数据量已经达到了ZB级别。“大数据”被比作未来的“石油”,它不仅是信息世界的特殊技术,这也将是一个国家综合国力的重要组成部分。一个国家拥有的数据规模与数据运用的能力以及对数据的占有量和控制量将成为国家间新的争夺点。1.2 数据挖掘的意义大数据作为一种重要的战略资源,如何发挥大数据的战略意义显得十分重要,数据挖掘的目的是挖掘隐藏在数据中的对人们有效的信息,通过数据挖掘,我们才能得到大量数据集中所蕴含的信息。这些信息可以创造价值,并对人们的多个领域产生深远影响。数据挖掘是一种基于数据库、模式识别、机器学习、人工智能、统计学、可视化技术的决策支持模式。数据挖掘可以分析数据、归纳数据,从数

    8、据中挖出对人们有用的信息,帮助人们做出正确的决策,减少风险14。数据挖掘又被称作基于数据库的知识发现,是数据库技术和人工智能领域的重要应用,也是重要的研究热点。数据挖掘发现的知识可以用作商业决策支持、信息管理、工业过程控制和查询优化等,更可以用作数据自身的维护。数据挖掘将以前低层次的简单数据查询提升到挖掘数据间的隐藏信息,用以各个领域中。12数据挖掘作为一种比较成熟的数据处理技术,主要是从数据中的数据进行抽取、转换、数据分析和数据建模处理,从中提取出对人们有用的关键信息。数据挖掘与传统的数据分析有很大的不同,数据挖掘是在未知的前提下去挖掘信息、发现知识的,而可实用、有效和未知是数据挖掘的三大基

    9、本特征。目前比较常用的成熟的挖掘方法主要有七种,分别是关联分析、决策树、遗传算法、贝叶斯网络、粗糙集方法、神经网络和统计分析。1.3 基于大数据的数据挖掘基于大数据的数据挖掘技术是在大数据提出之后才开始引起人们关注的,大数据引起的信息技术革命不仅在于数据量庞大上,而是在于这些庞大的数据中隐藏了相对于过去更加复杂的、更加有用的信息。过去的数据量比较小,经过这么多年的积累,数据量开始庞大起来,数据类型开始复杂起来,若想使用这些庞大的、复杂的数据中的信息,数据挖掘技术必须解决因数据量庞大、数据类型复杂所带来的问题。因此,数据挖掘技术必须得以改进,只有改进后的数据挖掘技术才能有效的挖掘出对人们有用的知

    10、识。若还用以前的数据挖掘技术来挖掘当前的大数据,即使可以挖掘出来,那么我们需要花费的时间以及各种资源也会使得这项工作毫无意义。所以,基于大数据的数据挖掘是一种更加新式的、更加先进的、更加复杂的数据挖掘技术。与传统的数据挖掘技术相对比,其对象数据不再是简单的结构化数据,而是一种复杂的非结构化或半结构化的数据,而对象数据的改变也使得许多数据挖掘技术已无用武之地,因此,基于大数据的数据挖掘技术应是未来几年发展的重中之重。1.4 本文的主要目的与内容 相对于传统数据挖掘来说,基于大数据的数据挖掘研究的对象发生了改变。传统数据挖掘的研究对象是数据量比较小的、数据类型比较简单的结构化数据。但基于大数据的数

    11、据挖掘研究对象是数据量比较庞大的、数据类型比较复杂的半结构化或非结构化数据。由于研究对象的改变,数据挖掘技术也有所改变,主要体现在数据的存储,数据的处理,数据的类型等方面。二者也有相同之处,那就是数据挖掘的思想、目的、方法等。第2章 传统数据挖掘的起源2.1 传统数据挖掘的定义数据挖掘(英文名:Data Mining简称:DM),专业领域上又称为资料探勘、数据采矿。数据挖掘是数据知识发现(英文名:Knowledge Discover in Databases,简称:KDD)中的一个重要步骤。一般指从海量的信息数据中通过特定的算法挖掘其中隐藏的信息的过程。152.2 传统数据挖掘的概念随着数据库

    12、技术的不断发展,数据应用的不断成熟,数据量正在以爆炸式的速度增长。大量的数据正向我们涌来。如今我们有着大量的数据确没有足够的信息,面对这些浩瀚的数据,人们期望有这样一种技术,它能从这些大量数据中去粗求精、去伪求真。恰是由于人们的期望,从数据库中挖掘信息的核心技术数据挖掘应运而生。可以这样说,数据挖掘其实就是从大量数据中找出对人们有用的信息的过程。数据挖掘是数据库研究、开发和应用最活跃的分支。典型的数据挖掘系统具有以下成分18:数据库:对数据清理和集成。数据库服务器:根据数据挖掘请求,提取相关的数据信息。信息库:用于搜索、评价结果模式的兴趣度的领域信息。数据挖掘引擎:由一组功能模块组成,用于完成

    13、用户提交的数据挖掘任务。模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。图形用户界面:提供用户与系统的交互,提交数据挖掘任务,帮助搜索聚焦评估挖掘的模式等。原则上讲,数据挖掘能够在任一类型的数据存储上进行,包括关系型数据库、数据仓库、事物数据库、高级数据库系统、展开文件和WWW等。2.3 传统数据挖掘的起源数据挖掘来源于业界的需求,在信息数据逐渐爆炸的时代,数据挖掘引起了信息产业界的极大关注,主要是因为在这些大量的数据中隐藏我们需求的信息,所以数据挖掘在信息产业界被广泛的使用,并将这些大量的数据通过一定的方式转换成有用的信息。被获取的信息可以应用在各个领域,如

    14、商务管理,成产控制,市场分析调查,工程技术,科学探索等。 数据挖掘不仅使用了统计学的抽样、估计和假设检验以及人工智能、模式识别、机器学习的搜索算法、建模手段等思想,同时它也接受的思想也包括其它领域,例如最优化、进化计算、信息论、信号处理、可视化和信息检索等思想。特别的,数据挖掘需要数据库系统提供可靠地存储、索引以及查询处理的支持,其中,源于高性能的并行的计算技术在处理这些大量数据集方面是非常重要的。几年来,分布式处理技术也可以帮助处理大量数据集,并且当数据集不能集中在一起进行处理时更加方便,更显的至关重要。2.4 传统数据挖掘的发展阶段数据挖掘的发展可以分为五个阶段,它是逐步递进的方式发展的,

    15、由简单到复杂、由数据量较小到数据量庞大的方式发展的。11第一阶段:电子邮件阶段此阶段业界认为从70年代开始,平均的通讯量基本以每年几倍的速度来增长。第二阶段:信息发布阶段从1995年起,以Web技术为代表的信息发布系统呈爆炸式地成长起来,成为当前Internet的主要应用技术。如何把握好从“粗放型”到“精确型”营销时代的电子商务成为主要问题。第三阶段:电子商务阶段电子商务(英文名:Electronic Commerce,简称EC),在美国也刚刚开始,之所以将EC列为一个划时代的东西,就是因为Internet的最终目的主要用于商业用途,其实就是电子商务。同时可以这样说,以后的商业信息,主要是通过

    16、Internet传递。Internet将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上,时任美国总统的克林顿提出敦促各国共同促进电子商务发展的议案,这引起了全球首脑的关注,IBM、HP、Sun等国际知名的信息技术厂商也已经宣布1998年为电子商务年。第四阶段:全程电子商务阶段随着软件服务模式(英文名:Software as a service,简称SaaS)的出现,软件开始登陆互联网,这延长了电子商务的链条,形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科数据挖掘与客户关系管理硕士。第五阶段:大数据阶段随着

    17、信息技术的发展,信息量开始爆炸式的增长,如何在这些超大量数据集中挖掘出有用的信息成为越来越关注的问题,同时,基于大数据的数据挖掘技术也开始兴起,未来的几年,大数据时代将会以爆炸式的方式来临。第3章 传统数据挖掘技术3.1 数据挖掘的分析方法 数据挖掘的分析方法有很多种,根据发现知识的种类分类比较常用的有分类分析方法、聚类分析方法、关联分析方法、序列模式分析方法、趋势分析方法、偏差分析方法、回归分析方法等多种分析方法。其中关联分析、分类分析、序列模式分析、聚类分析是从功能上划分的数据挖掘分析方法,这里只介绍以上下种分析方法。3.1.1 关联分析 关联分析是基于关联规则的数据挖掘分析方法。关联分析

    18、的主要目的是挖掘隐藏在数据集中的相互关系,从中找到有用的依赖关系或关联关系的信息。最著名的关联分析应用有沃尔玛的“啤酒与尿布”的关联分析。它的基本思路是A B,A可解释为属性的集合,B可解释为属性的个体,关联规则就是A的属性集具有一种特性,那么B这个个体就具有了 这种特性的可能性或者说未来趋势。关联分析在很多行业中都有着非常广泛的应用,例如在零售业中分析顾客购买A产品后又购买了B产品的机会是多少?这可以给零售商在配货、产品布局、和管理上有很大启示。又例如在机械工业中A部件发生故障导致B故障发生故障的概率是多少?这可以给机械维修与养护带来极大地方便。关联规则之所以被广泛应用,就是因为它可以再大量

    19、的数据集中发现一些人们想要知道的信息。在数据挖掘发展的过程中,关联分析方法的研究是最深的,人们提出了非常多的关联规则分析的挖掘算法,其中APRIORI算法是比较经典的算法之一。它的思想就是反复的扫描数据库,在第N次扫描之后创建一个长度为N的大项集LN,在下一次扫描时只研究大项集LN中N项集产生的长度为N+1的备选集LN+1。3.1.2 分类分析 有这样一个数据库和一个具有不同特征得记录,这个数据库中的每个记录都被标记了一个特别的类,而分类分析就是通过分析这个数据库中的数据来为每个赋予特别类的记录做出精确地描述或建立一种分析模型,挖掘这种分析模型中的分类规则,然后利用这个分类规则来对其它具有和这

    20、个数据库相似的数据库中的记录进行分类。在分类分析中,人们发明出很多分类分析的挖掘算法,比较经典的有决策树法、神经网络法和贝叶斯算法。贝叶斯算法的主要思想是假设们对研究对象数据有一定的认识,我们用先验概率分布来描述这种认识,然后用抽取的样本来完善这种认识得到后验概率分布,最后根据后验概率分布来建立函数。【吉根林】。3.1.3 序列模式分析 序列模式分析与关联分析在方法上是相似的,它的目的也是为了挖掘出隐藏在数据集中的相互关系,从中找到有用的依赖关系或关联关系的信息。但序列模式分析与关联分析的侧重点不同,序列模式分析侧重于分析数据的因果关系。运用序列模式来分析产品的销售情况,商家可以发现顾客的购物

    21、习惯,例如顾客在购买炒锅的同时会不会也购买电磁炉。3.1.4 聚类分析 聚类分析方法与分类分析方法截然不同,聚类分析方法分析的是一个记录集,这个记录集没有任何的标记,简单来说就是这个记录集中没有类别的划分。聚类分析的目的是将记录集合合理的按照一定规则划分类别,同时,这些不同的类别可以用显式或隐式的方法来描述。聚类分析是我们应用的最广泛的一种分析方法,比如一个从未见过老虎与狮子的儿童,通过不断的观看老虎与狮子来改进意识中的聚类模式,这个儿童就会学会如何分辨老虎与狮子,或者生物与无机物,动物与植物。聚类分析也广泛应用于数据分析、图像处理、市场调查等技术。在数据挖掘技术的发展过程中,人们提出了很多的

    22、聚类分析算法,基本上可以分为基于概率的聚类分析算法和基于距离的聚类分析算法。基于概率的聚类分析算法挖掘大数据集时效率极低,因此它适用于小型数据集的数据挖掘。而基于距离的聚类分析算法比较适合大数据集的数据挖掘,它的基本思想是从数据对象中任取N个对象作为初始聚类中心,那些剩下的数据对象根据它们与聚类中心的距离分配给与其最近的聚类中心,然后在计算获得新聚类的聚类中心,重复此过程直至数据收敛为止。3.2 复杂数据类型挖掘 复杂数据类型挖掘其实也是数据分析方法中的一种,之所以将它单独拿出来,是因为我觉得复杂数据类型相对于之前所提到的数据类型(之前所提到的数据类型都是以机构化数据为主的)更加重要,页更加特

    23、殊。随着数据处理技术、数据库技术以及万维网技术的高速发展,大量的复杂类型数据如结构化与非结构化数据、超文本数据与多媒体数据等数据不断涌现,数据挖掘的重要研究方向就转为对这些复杂类型数据的挖掘,包括一些复杂对象、多媒体、时间与空间序列数据、超文本数据和WEB数据等。19空间数据用来描述电子信息世界中的空间对象在现实世界的具体方位和分布。包括对象的数量、属性、位置和相互关系等,涵盖了宏观世界和微观世界。空间数据库存储了大量空间数据,例如地图、透视图像等。空间数据与关系数据所不同的是数据的显著特征,包括空间对象的拓扑特征、非空间对象的属性特征和两种对象在时间上的状态变化。空间数据挖掘指的是对空间数据

    24、中非显式存在的信息、位于空间的关系或其它有意义的关系的提取。空间数据挖掘技术需要结合数据挖掘与空间数据技术。时间数据是指对象在不同时间变化下的数据,它通常是在等时间间隔或特定时间间隔下测得的数据值。时间序列数据库是由有序时间序列组成的数据库,它可以有时间标记、也可以没有时间标记。时序数据挖掘的研究主要方法是趋势分析,在分析中依赖相似度搜索和与时间相关数据中序列模式的挖掘。超文本数据挖掘是分析和发现非结构化文本中的关系。它不在依赖以关键字和相似度检索的范畴。超文本挖掘利用智能算法如神经网络、可能性推理等算法,在结合文字处理技术来分析大量的非结构化文本集如文档、表格、邮件、网页等,抽取其中关键字的

    25、概念和文字之间的关系,按照内容对文档分类,以获取感兴趣的信息。文本挖掘最早可追溯到信息检索,它包括关键字检索和全篇检索。文本挖掘分析方法的关键在于文本内的量化表征。超文本挖掘是数据挖掘的一个分支,用于文本信息的挖掘。万维网是广泛分布的全球信息服务中,服务内容不仅包括金融、新闻、电子商务、教育等多方面的领域,页包涵了丰富的动态的超链接信息、访问使用信息等。这给数据挖掘提供了丰富的数据资源。万维网数据挖掘是根据基于Internet的分布式信息资源的特点的一种抽取过程,它可以找到分布式信息资源中已经存在的信息,也可以发现存于海量数据中的隐含的有效的规律。万维网数据挖掘涵盖万维网连接结构、万维网内容和

    26、访问模式的挖掘。3.3 传统数据挖掘面临的挑战3.3.1 数据挖掘的对象现在的数据挖掘对象是更大型的数据库、更高的维数、属性更复杂的关系,这些因素使数据挖掘搜索信息所花费的资源代价极高,由于这些原因,数据挖掘应该发展出新的技术来应对越来越大的数据库、越来越高的维数和越来越复杂的关系属性。3.3.2 输入数据的复杂性 目前,数据挖掘工具还只能处理有限的几种数据形式,主要处理结构化数据,但大多数的数据挖掘工具无法处理超文本的、图形的、图像和万维网资源等这些非结构化的数据形式,也无法挖掘隐藏在其中有用的信息。3.3.3 用户的参与度有效的决策需要多次反复的交互与沟通,当前用户很少能真正参与到数据挖掘

    27、工具、数据挖掘系统、数据挖掘过程中。用户的指导与其所拥有的知识可以加快挖掘进程,并且保证发现的信息对用户更加有时效性。3.3.4 信息的验证技术数据挖掘采用的是特定的分析方法与分析逻辑来挖掘信息,例如归纳演绎、分类聚类等。但是数据挖掘系统却无法与数据挖掘人员交互,进而无法证实发现的信息是不是因没有普遍的实用性而不能成为对用户来说有用的信息。而还有一种情况则是数据挖掘的对象本身就是错误的,这样数据挖掘出的信息也一定是错误的,所以数据挖掘技术必须能确定信息具有何种程度的时效性。3.3.5 信息的表达和解释在数据挖掘的过程中,最重要的是用户能够理解数据挖掘出的信息。这就为数据挖掘带来了相当大的困难,

    28、因为这要求了信息的表达和解释的形式不能局限于信息符号,而应该是更容易被理解的图形、表格或者可视化的工具。3.3.6 信息的维护更新数据挖掘出的信息经过一段时间的数据积累,可能会导致以前发现的信息失去有效性,这些信息急需维护更新,而目前数据挖掘采用的是增量更新法来维护更新已有的信息,最著名的当属维护关联规则的增量算法。3.3.7 有限的支持和集成当前的数据挖掘系统无法支持多种平台,也无法和其他系统集成,例如有些数据挖掘的信息是基于PC机的,有些则是面向大型主机系统的,还有一些是面向服务器客户的。而且数据挖掘系统还需要和其他系统进行有机集成,例如鞠策支持系统,特别是用户需要的系统结合在一起,这对于

    29、系统发挥作用是非常有意义的。3.4 数据挖掘的发展趋势数据挖掘作为一种智能信息处理技术,随着信息技术的高速发展,数据挖掘也越来越深入在各个领域中,特别是在生物医学、DNA分析、军事、保险、零售、电信等行业有着极其重要的意义。而数据挖掘的发展趋势主要体现在以下几个方面:1.数据挖掘应用方面:现如今,探索扩大数据挖掘的应用范围是非常有必要的,例如数据挖掘在生物医学领域、军事领域、保险领域、零售领域以及电信领域等多方面的探索。但是,现如今存在的通用数据挖掘系统在处理某些特定的应用问题时,有着无法弥补的局限性,所以,开发一种可以针对特定应用问题的数据挖掘系统是未来数据挖掘的一种趋势。2.数据挖掘与其他

    30、数据系统的集成:其他的数据系统例如数据库系统、数据仓库系统、万维网数据库系统已经成为信息处理系统的主流。而现如今的数据挖掘系统与这些数据库系统的结合还不够理想,所以,在未来的发展中,使数据挖掘系统与数据库、数据仓库、万维网数据库系统的紧密结合是最理想的体系结构。3.数据挖掘的标准化:对于数据挖掘系统的开发,标准的数据挖掘语言与其它方面的标准化是非常有帮助的,这些标准化既有利于数据挖掘系统的开发,改进数据挖掘系统和功能之间的相互操作,也有利于促进数据挖掘系统在各领域的发展与使用。4.数据挖掘的可视化:数据挖掘的可视化是从海量数据中发现有效信息的最佳途径。5.复杂数据类型的挖掘方法:现如今的数据挖

    31、掘系统已经无法满足人们在复杂数据类型方面的挖掘,针对于复杂数据类型的数据挖掘是一项必要的研究课题。第4章 基于大数据的数据挖掘4.1 大数据技术4.1.1 大数据的定义大数据(BIG DATA),又称海量资料,信息领域认为大数据指的是新处理模式具有的更强的决策力、更敏锐的洞察力和更合理的流程优化能力的大量、高速增长率和多样化的信息资产。4.1.2 大数据的意义大数据技术具有很高的战略意义,但大数据技术不在于所掌握的海量的数据信息,而在于对这些海量的有意义的数据信息进行专业化的处理,如果将大数据比作一种产业,那么大数据产业的关键在于对数据的加工能力,通过加工数据实现数据的增值。4.1.3 大数据的特点大数据采用的分析方法不是随机分析法(抽样调查法)这种便捷的分析方法,而是采用所有数据进行分析处理。大数据分析与传统数据仓库应用相比,具有数据量更大、查询分析更复杂等特点。而大数据具有4V的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。1.数据量巨大(Volume)信息产业中的大数据指的是PB以上的数据量。我们会产生如此庞大的数据量主要在于三个方面的原因。通信、传感工具的应用:通信传感工具的应用使人们可以再任何时间任何时段都能保持联系,而M2M方式使得交流的数据量以指数形式高速增长。


    注意事项

    本文(传统数据挖掘与大数据中的数据挖掘的异同详解.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开