欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    判别分析的数据挖掘研究.docx

    • 资源ID:7018265       资源大小:51.58KB        全文页数:21页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    判别分析的数据挖掘研究.docx

    1、判别分析的数据挖掘研究 毕设报告 学院:自动化学院 判别分析的数据挖掘研究本题目应完成以下工作:理清逐步判别分析方法的数学原理,编写出相应的算法程序。成果形式为完成的毕业论文与模型试验。【摘要】:在使用判别分析进行数据处理时,对判别能产生影响的变量往往很多,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当筛选变量的问题就成为一个很重要的事情。逐步判别法就是一种具有筛选变量能力的判别分析方法。本课题旨在廓清逐步判别分析方法,并在明晰该方法数学原理的基础上,编制出逐步判别分析方法的计算程序。运用逐步判别分析原

    2、理,在多个评价因子中按其对数据挖掘判别能力贡献的大小进行筛选,从而确定主要的评价因子。应用改进的层次分析法对筛选后的评价因子进行赋权,使求得的判断矩阵满足一致性要求,避免了层次分析法后期检验过程中多次调整判断矩阵带来的过于主观性的问题。在评价因子的筛选和赋权的基础上进行了单沟泥石流危险度评价的实例验证,结果表明,运用逐步判别分析法筛选后的评价因子客观、准确地反映了当地泥石流危险度的影响因素,与传统方法所得危险度结果相比更符合泥石流危险度实际情况,可靠性更强。用汉字开发一个操作界面好、通用性强的逐步判别分析计算程序 第二章 逐步判别分析法1.判别分析问题的提出 判别分析是一种用于分析组间差异的多

    3、元分析法,用判别分析可以研究针对多个变量的两组或多组的差异,以回答如下类型的问题:1) 各组相对各变量是否有显著差异?2) 哪些变量适合或不适合用于区分各组? 使用判别分析要求拥有元素的判别变量及其属性的相关数据。 判别分析,同回归分析或方差分析一样,属于结构检验法的范畴。元素的判别变量必须是基数测度的,而组的属性可由名义测度变量(分组变量)表示。因此,判别分析在形式上可看做是一种分析一个名义测度变量与几个基数测度的变量间相关性的方法。1.1 判别分析的基本思想有时我们会遇到包含属性被解释变量和几个度量解释变量的问题,这时需选择合适的分析方法。而当被解释变量是属性变量而解释变量是度量变量时,判

    4、别分析是合适的统计分析方法。判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。在现实世界中,经常会遇到需要判别的问题。例如,根据人均国民收入,人均工农业产值,人均消费水平等多种指标来判定一个国家的经济发展程度所属类型。在对教师的课堂教学质量进行评价中,根据教学效果、能力培养、教学目的和要求、教学方法等指标来评判一个教师的课堂教学水平所属等级。在医疗诊断上,一个病人肺部有阴影,大夫要根据阴影大小、阴影部位、是否有痰、是否有低烧等多项指标来判断病人是患肺结核、肺部良性肿瘤还是肺癌。判别分析所要解决的问题是,在一些已知研究对象用某种方法已分成若干类的情况下,确定新的观测数据属于已知类别

    5、中的哪一类。判别分析方法处理问题时,通常要给出一个衡量新样品与已知各类别接近程度的描述指标,即判别函数,同时也指定一种判别规则,即以判定新样品的归属。判别规则可以是统计性的,决定新样品所属类别时用到数理统计的显著性检验;也可以是确定性的,决定样品归属时,只考虑判别函数值的大小。1.2 判别分析的分类判别分析按判别的组数来分,有两组判别分析和多组判别分析;在很多情况下,被解释变量包含两组或者两类,比如,雄性与雌性、高与低。另外,有多于两组的情况,比如低、中、高的分类。判别分析能够解决两组或者更多组的情况。当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。按区分不同总体所

    6、用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别等;按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇(Fisher)判别等。判别分析在教育评价中可用于判断学校的等级,进行人才类型的评价等方面。判别分析有二级判别、多级判别、逐步判别等多种方法。在气候分类、农业区划、土地类型划分中有着广泛的应用。1.3 判别分析的假设条件判别分析最基本的要求是:分组类型在两组以上;在第一阶段工作时每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理的应用于统计函数。与其他多元线性统计模型类似,判别分析的假设之一是每一个

    7、判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。不仅如此,有时一个判别变量与另外的判别变量高度相关、或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误差将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。判别分析的假设之二,是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。判别分析的假设之三,是各判别变量之间具有多元正态分布,即

    8、每个变量对于所有其他变量的固有值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时,计算的概率将非常不准确。1.4 判别分析可分为六个步骤:1)定义组 组的定义可直接由用于问题得出,但分组也可承接前一分析的结果。2)建立判别函数 在判别分析中,要先建立和估计一个判别函数,然后用此函数实现: a -组间最优判别 b -判别变量判别意义的检验判别函数的一般形式如下: Y=b0+b1X1+b2X2+b3X3+.bjXJ其中,Y:判别指标;Xj:判别变量j(j=1,2,3,J); bj:判别变量j的判别系数;b0:常数可在判别变量数据的基础上,估计残数b0和bj. 3)估

    9、计判别函数 4)检验判别函数 5)检验判别变量 6)将新元素分类二.逐步判别分析原理2.1 判别函数的建立 逐步判别是一种筛选变量的方法。筛选的过程其实就是作假设检验的过程, 通过检验找出显著性变量, 剔除不显著变量 。所建立的判别函数中仅保留了对分类判别能力显著的变量。2.2 判别结果的检验1)总体均值的检验假设2总体GiN (,)(i=1,2),为检验2总体的均值是否有显著性差异(H0: =) , 可以构造F 统计量 4:F = (1,2)F(m,n1+n2-m-1)式中,ni 是第i个总体的样品个数( i = 1, 2) 。计算F统计量的值f ,得p = PF f 。若p小于给定的显著性

    10、水平a( 常取a = 0.05) , 则否定2总体均值相等的假设, 即对这2个总体讨论判别问题是有意义的。2) 错判率的估计􀀁 利用舍一法( 或称交叉确认法) 对错判率进行估计。a.根据研究目的确定研究对象及所用指标。例子 110个癌症病人和190个正常人 。指标:X1 X2 X3 X1:三倍体的得分 X2:八倍体的得分X3:不整倍体的得分。(0-10分)b.收集数据,得到训练样本检测,得到X1 X2 X3这就是训练样本.c.用判别分析方法得到判别函数 Y=X1+10X2+X3 ,X1,X2,X3是实测值,当Y100,此人有癌症,Y100,无癌症。d.考核 该判别函数是否有实

    11、用价值还需要进行考核;分为回顾性考核(组内考核) 前瞻性考核(组外考核)2.3 实际应用 未知类别样品的判别归类。 判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学判断类别的规则,并非多方考核。训练样本的质量与数量至关重要。每一个体所属类别必须用“金标准”予以确认;解释变量X1,X2,.XP必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。1)Bayes判别分析 用于两类或两类以上间判别,要求各类内指标服从多元正态分布。2)逐步判别分析 建立在Bayes判别分析基础上,它像逐步回归分析一样,

    12、可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著地判别作用而方程外的指标作用都不显著。2.4 分析总结从逐步回归分析中我们已经知道,回归方程中的自变量并非越多越好。作用不大的变量进入方程中不但无益,反而有害。在判别分析中也有类似情况,解释变量并非越多越好。解释变量的特异性越强,判别能力越强,这类解释变量当然越多越好;相反,那些判别能力不强的解释变量如果引入分类函数,同样也是有益无害的,不但增加了搜集数据和处理数据的工作量,而且还可能削弱判别效果。因此我们希望在建立分类函数时既不要遗漏有显著判别能力的变量,也不要引入不必要的判别能力很弱的变量。 逐步判别分析是达

    13、到上述目标的重要方法。它象逐步回归分析一样,可以在很多候选变量中挑选一些有重要作用的变量来建立分类函数,使方程内的变量都较重要而方程外的变量都不甚重要。分类函数内的变量是否有重要作用可用F检验,检验的零假设是:该变量对判别的贡献为零。若P值较小便拒绝零假设,认为该变量的贡献具有统计学意义。逐步回归是将一组变量全部选进去进行拟合,从自变量和因变量的显著性大小逐步选择变量进入模型中。而进入模型中的自变量并不是按照显著性进行排序的,而是按照自变量的顺序排的。参数检验表中的beta并不是表示显著性的概率值,而是标准回归系数,表示自变量对因变量影响大小的系数,就是通常模型中的变量系数。因此在模型中剩下的

    14、自变量中都是对因变量有显著的影响,而并没有按影响的大小进行排序。3.数据预处理和数据处理3.1数据预处理的主要方法:1). 数据清理:主要是消除或减少数据噪声和处理空缺值。2). 特征选择:从已知一组特征集中按照某一准则选择出有很好的区分特性的特征子集,或按照某一准则对特征的分类性能进行排序,用于分类器的优化设计。3). 数据变换:通过平滑、聚集、数据概化、规范化、特征构造等手段将数据转化为适合于挖掘的形式。 KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。1) 问题定义阶段的功能:和领域专家以及最终用户紧密协作,一方面了解相关领域的有关情

    15、况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。2) 数据抽取阶段的功能:选取相应的源数据库,并根据要求从数据库中提取相关的数据。3) 数据预处理阶段的功能:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性。4) 数据挖掘阶段的功能:运用选定的数据挖掘算法,从数据中提取出用户所需要的知识。5) 模式评估阶段的功能:将KDD系统发现的知识以用户能了解的方式呈现,并且根据需要进行知识评价。如果发现知识和用户挖掘目标不一致,则重复以上阶段以最终获得可用的知识。3.2 数据处理的概念 数据处理(data processing)

    16、是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。 数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。3.3.数据处理应用范围 数据处理是对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析

    17、、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算及应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如测绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。有关商务网站的数据处理:由于网站的访问量非常大,在进行一些专业的数据分析时,往往要有针对性的数据清洗

    18、,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。4.数据挖掘和数据挖掘技术4.1数据挖掘概述 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋

    19、大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对人们被数据淹没,人们却饥饿于知?的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。经过十几年的研究,产生了许多新概念和方法。特别是最近几年来,一些基本概念和方法趋于清晰,它

    20、的研究正向着更深入的方向发展。数据挖掘技术正在以一种全新的概念改变着人类利用数据的方式,它被认为是未来信息处理的骨干技术之一,网络之后的下一个技术热点。数据挖掘(Data Mining)是一门受到来自各种不同领域的研究者关注的交叉性学科,有很多不同的术语名称,除了常用的“数据挖掘”和“知识发现”之外,与数据挖掘相近的同义词有数据融合、数据分析、知识抽取、信息发现、数据采掘、知识获取、数据考古、信息收获和决策支持等。4.2数据挖掘技术的概述 从技术的角度讲,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

    21、。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和

    22、工程技术人员。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明,只要能支持特定的发现问题即可。实际上,利用数据挖掘从数据集中所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果从商业的角度讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,

    23、数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题

    24、的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大 BC 省电话公司要求加拿大 SimonFraser 大学 KDD 研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领

    25、域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此 DMKD 的研究成果是很讲求实际的。4.3 数据挖掘研究现状KDD一词首先出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的 KDD 国际研讨会已经召开了 7 次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从 2X1 到 6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处

    26、理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD 专题或专刊。人们可以通过电子邮件相互讨论 DMKD 的热点问题。而领导整个潮流的 DMKD 开发和研究中心,当数设在美国 EMDEN 的 IBM 公司开发部。随着 DMKD 研究逐步走向深入,人们越来越清楚地认识到,DMKD 的研究主要有 3 个技术支柱,即数据库、人工智能和数理统计。数据库技术在经过了 80 年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库

    27、最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域-客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统,目前的主要理论

    28、工具是基于谓词演算的机器定理证明技术-二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。其次,知识工程师在整理表达从领域专家那里获得的知识时,用 if-then 等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。此外,即使某个领域的知识通过一定

    29、手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum 估计,一般人拥有的常识存入计算机大约有 100 万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据在某地发现一只刚死的波斯猫的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。以上这 3 大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实

    30、生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言 SQL 中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在 DMKD 这个结合点上,立即呈现出忽如一夜春风来,千树万树梨花开的繁荣景象。4

    31、.4 数据挖掘与数据库中的知识发现(1)KDD看成数据挖掘的一个特例数据挖掘系统可以在关系数据库、事务数据库、数据仓库、空间数据库(Spatial Database)、文本数据(Text Data)以及诸如WEB等多种数据组织形式中挖掘知识,既然如此,那么可以说数据库中的知识发现只是数据挖掘的一个方面,这是早期比较流行的观点。因此,从这个意义说,数据挖掘就是从数据库、数据仓库以及其它数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多样性。 (2) 数据挖掘是KDD过程的一个步骤 在“知识发现96国际会议” 上,许多学者建议对这两个名词加以区分。核心思想是:KDD是从数据

    32、库中发现知识的全部过程,而Data Mining则是此全部过程的一个特定的、关键步骤,这种观点有它的合理性。虽然我们可以从数据仓库、WEB等源数据中挖掘知识,但是这些数据源都是和数据库技术相关的。数据仓库是由源数据库集成而来的,即使是像WEB这样的数据源恐怕也离不开数据库技术来组织和存储抽取的信息。因此KDD是一个更广义的范畴,它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样,我们可以把KDD看作是一些基本功能构件的系统化协同工作系统,而数据挖掘则是这个系统中的一个关键的部分。(3)KDD与Data Mining含义相同也有些人认为,KDD与Data Mining只是叫法不一样,它们的含义基本相同。事实上,在现今的文献中,许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有人说,KDD在人工智能界更流行;Data Mining在数据库界使用更多


    注意事项

    本文(判别分析的数据挖掘研究.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开