欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    第1章 数据挖掘概述20.docx

    • 资源ID:7363744       资源大小:34.74KB        全文页数:8页
    • 资源格式: DOCX        下载积分:1金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要1金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第1章 数据挖掘概述20.docx

    1、第1章 数据挖掘概述20 第一部分 正确认识数据挖掘技术第一章 数据挖掘概述案例分析1: 假如一个医院将诊断过的所有病人的情况记录在一个数据库中,下表是数据样本的一个小部分,分析人员希望归纳出判断病人是否患了链球菌种感染性炎症的诊断规则,于是他们运用一些我们即将介绍的方法进行了分析。 表1 疾病诊断假想训练数据患者嗓子疼发烧淋巴肿充血头疼诊断结果1是是是是是链球菌种感染性咽喉2否否否是是敏感性3是是否是否感冒4是否是否否链球菌种感染性咽喉5否是否是否感冒6否否否是否敏感性7否否是否否链球菌种感染性咽喉8是否否是是敏感性9否是否是是感冒10是是否是是感冒经过一段时间,分析人员从以上数据中归结出以

    2、下规则:1.如果病人淋巴肿,则可以诊断为链球菌感染性咽炎症;2.如果病人没有淋巴肿的症状,但是发烧,则可以诊断为感冒;3.如果病人没有淋巴肿的症状,也不发烧,则可以诊断为敏感症。案例分析2:一些会计学者对数据挖掘的误解美国鲍勃瑞安等人合著的财务和会计研究方法与方法论中,作者总结了会计学研究的传统领域,以及研究内容的发展和研究范式的演变,从中可以发现会计研究的基本目标。1.早期的规范会计理论:归纳学派和演绎学派.1929年的世纪大萧条使得对会计理论的研究受到重视,对会计准则的研究成果纷纷涌现。2.先验研究方法反对会计进行武断地理论解释,呼吁采用科学的严谨的方法对会计学科构造科学的大厦,建立符合经

    3、济学原理又符合会计规则的收益计量原理模型。运用先验的理论假说对现存的理论进行演绎推导。3.经验研究方法20世纪60年代后期,会计准则的研究成为美国英国的主要问题,但是由于缺少前后如一的理论框架,并且不同利益集团对会计的立场不同,导致美国会计准则公布的31份意见公告书和4份报告得不到承认。由此认为,没有理想的收益计量模型,只是不同决策背景下的使用者要求使用不同的收益模型,会计学这应该建立符合使用者的收益决定模型,并且有助于做决策。4.实证会计研究方法对于“实证会计”的批评从一产生就存在了,在20世记50年代实证研究的开始阶段,就有学者对此产生怀疑,例如Stephen A.Ross等人在公司理财第

    4、6版中认为:对实证会计方法感到怀疑的人批评这种所谓的“数据挖掘”。研究人员在研究过程中选择那些特别的参数常常是因为它们已经显示出与收益有关。例如,对于美国亚利桑那州的SAT成绩与其它变量之间的关系,但是你可能发现成绩与长颈鹿的生长有密切的关系,而数据也能够显示出之中关系。可是,事实上果真如此吗?由于,相关性的偶然性是显示于其它更多的地方,所以单纯的分析并不能够说明内在的实证规律。会计人员更多地习惯了“假设-检验”模式的数据分析思路,许多人不能正确地理解数据挖掘。由于对数据挖掘理解的错误或者不准确造成对数据挖掘的误解,原因可以归结为如下几点原因:(1)所处的年代没有为他们提供理解数据挖掘所必需的

    5、技术环境;(2)他们自身的学术背景使得他们自己不能透彻理解数据挖掘技术;(3)他们对知识的发现过程持有不同的观念,他们反对“透过现象来归纳知识”,而是喜欢从一个推论到另外一个推论;第一节 数据挖掘的定义数据挖掘(Data Mining)的定义多种多样,但是基本上可以将其看作利用一种或者多种计算机学习技术,自动分析数据库中的数据并提取知识的处理过程,或者说数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来作出决策或预测。数据库中的知识发现,以下简称为KDD(Knowledge Discovery in Database),是一个通常可

    6、以和DM互换的术语。于是,上述定义可以知道,数据挖掘(DM)具有以下几个特征:1.数据挖掘处理的是“海量数据”,事先对数据中的规律并不晓得,但是可能有一个基本的预期;2.强调计算机自动处理;3.揭示事物本质的面貌,需要领域知识和数据挖掘知识的结合; 同时,可见知道数据挖掘的本质如下:1.数据挖掘并非漫无目的,只是在挖掘之前并不知道最终的结果挖掘,野地里挖宝。应该是有针对性的挖掘,但是确实不知道最终的结果。案例分析3: 1984年,一台推土机在狮子山村西南取土的时候偶然铲出了一批汉代兵马俑,根据经验分析这是汉墓的一部分,象征着卫戍王陵的部队。但是,考古队耗费了大量的资金却没有能够发现最终的墓地。

    7、 后来,在6年之后的一次 闲谈中,考古家王垲在村里和人交谈的时候,了解到村里一户人家的地窖特别大,超过了一般人的想象,于是感到有点奇怪。于是,经过挖掘才找到了最终的陵墓。 可以发现两个问题:(1)考古工作者为什么在发现实物后才推论附近可能存在墓地,而没有根据古代的记载?(2)依据经验,发现兵马俑之后就应该发现王陵,可是为什么却没有理解发现呢?2.“假设-验证”不是发现规律的唯一途径很多人认为数据挖掘不是理性的推导所建立的规律,而是数据的分析,因此显得不够“理论化”。果真如此吗?案例分析4:“日心说”在哥白尼1543年的天体运行论发表以后提出的,但是却由于没有数据的支持被认为是“异端邪说”。但是

    8、1609年的加利略的天文望远镜的发明为“日心说”提供了有利证据,但是直到开普勒(1571-1630)的椭圆说代替了圆形轨道,才被证实是完全正确的。由此,只有不断地发现才能够接近于真理,而部分数据的支持是不能够作为坚强的理论的。目前的海量数据和计算机技术的发展使得一切成为可能数据挖掘网站:www.KDN 可以查看目前的产品;www.ics.uci.edu/mlearn/MLOther.html 是机器学习研究的数据仓库。第二节 数据挖掘的起源一、数据挖掘技术是人们长期以来对数据库技术进行研究和开发的结果。海量数据的存储是数据挖掘技术存在的客观基础。仅仅把数据存储在计算机中是不能够获取其应该有的收

    9、益,而是需要进行检索和汇总,方便地获取其中内在的潜在关系。二、传统的统计学“推理-假设-检验”模式,实际上已经有一种先入为主的认知,存在先天的缺陷。为了克服上述研究的缺陷,研究人员选择的数据不是精心设计的,而是数据的时机性样本(Opportunistic Sample),而不是随机样本(Random Sample)。三、计算机技术的发展为数据挖掘技术的发展提供了发展空间。 图1:数据挖掘技术的学科联系 第三节 数据挖掘的几个注意点一、数据挖掘技术是“发现”,而不是“推理”。数据挖掘的关键在于发现前人未知的知识,因此研究过程充满了探索。不存在固定的推导格式对此进行研究。目前的实证会计理论却通过“

    10、推论”事先排除了很多需要关注的数据属性。二、数据挖掘技术的“海量数据”是一把双刃剑。海量数据的存在使得研究需要的数据越来越多,存储技术的发展也使得数据的获取显得越来越方便。海量数据的本质在于:1.是样本足够多;2.属性特别多。但是,数据海量也使得数据研究的难度越来越大,使得研究工作越来越烦琐。三、数据挖掘的“发现”同样需要理论的支持。没有定性支持的数据发现是没有生命力的,或者隐藏着新的理论。第四节 数据挖掘技术的应用一、应用领域1.天文学数据挖掘在天文学上最成功的案例是著名的SKICAT系统,由美国加州理工学院喷气推进实验室与天文学家合作开发的帮助天文学家发现遥远的类星体的一个工具。天文学家运

    11、用这一工具已经发现了16个新的极其遥远的类星体,从而为天文学家进行早期宇宙结构的起源和演化提供了条件。2.生物学数据挖掘在生物学上的最重要的应用是对基因群组的研究,人类基因组计划,并且发展成为一门新的学科,即生物信息学。随着数据挖掘技术的成功应用,对人类的起源的探索的研究将会继续作出有价值的研究。3.零售业运用数据挖掘技术可以进行商业市场分析、客户关系管理以及市场机会分析等等,可以说,目前比较大的公司都有相关的技术部门。4.欺诈甄别商业欺诈在商业经营中经常涉及,那么如何甄别商业欺诈就成为了企业必须进行分析的重要内容了。5.金融投资预测金融市场的分析必须对变换的数据进行跟踪管理,并且发现其中的规

    12、律。但是仅仅运用现成的分析方法肯定会丢失一些关键的属性。投资过程中合作伙伴的选择,项目组合的优化以及各种前景的评估都需要重要的数据挖掘方法。二、数据挖掘技术的分类1.有指导的数据挖掘和无指导的数据挖掘 有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定的属性的描述,而无指导的数据挖掘则没有使用模型对选出的某一个属性进行描述,而是在所有的属性进行寻找。2.数据挖掘主要技术(1)分类首先,从数据中选出已经分类好的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,然后将该模型用于对没有分类的数据进行分类。 例如:将信用卡申请者的信用分为可靠、普通和危险三类,在这个过程中类的个数

    13、是事先确定的。(2)估值估值与分类类似,所不同的是估值最终的输出结果是连续型数值,而分类最终输出的是表示类别的离散型数值。一般来说分类的结果是预先确定的数目的,而估值的量并不是预先确定的。估值可以作为分类的准备工作,即首先通过输入一些给定的输入数据,利用估值来得到未知的连续型变量的值,再根据预先设定的阈值进行分类。 (3)预测预测是通过分类或者估值来进行的,通过分类或估值的训练得出一个模型,如果对检验样本而言具有比较高的准确率,则可以将该模型用于对新样本的未知变量进行预测。 预测的目标是对未来的新样本的未知变量进行推断,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预测准确率是多少。

    14、(4)相关性分组或关联规则这种方法是发现哪些事情在一起发生,以发现其中的内部规则。例如成人经常在买婴儿尿布的时候买啤酒,所以把这两种商品放在一起。(5)聚类聚类是一种自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似性的样本划分在一个簇中。 聚类和分类的区别是,聚类不需要预先定义好类的数量,而是自动分析当前数据集所自然呈现出的类数量,它不需要训练集。第五节 数据挖掘和其它学科:联系和区别一、数据挖掘和统计学的关系1.统计学和数据挖掘的共同点发现数据中的结构、隐藏的内在规律。但是,决定不能够认为数据挖掘是统计学的一个新的分支,因为数据挖掘有自己的内在思想。2.两个学科的性质(1)统

    15、计学是一们比较保守的学科,而数据挖掘却属于开拓性理论基础可能不是特别坚实的科学;(2)数据挖掘面对的一个大的数据集,属于海量数据,而统计学却是抽样样本的研究;(3)模型与准则对于两者所扮演的角色不相同:统计学更加重视模型的运用,而数据挖掘却重视规则在其中的应用。二、回归分析和数据挖掘的区别:.数据挖掘需要对结果进行事后解释,而使用统计学的回归方法需要对模型进行事先的理论推导;.回归方法比较方便地说明了因变量和自变量之间是否存在相关关系,而数据挖掘方法是要具体的决策规则,更加深化对问题的理解;3.数据挖掘可以接受非数值的离散型数据,也不需要因变量符合正态分布,以及回归残差均值为零的条件等;4.离散性数据更加适合于数据挖掘技术。5.数据挖掘方法的多样性使得我们能够应用各种技术对问题进行研究。本章小结一、从整体上看:模型数据挖掘意味着对数据进行抽样,而海量数据的处理技术使得数据处理变得很容易。例如,SAS软件处理Enterprise Miner”表格”,就是数据的抽样所得。二、从局部上看:模式发现对海量数据的属性进行分析,发现其中的规律。讨论题:1.上网查询数据挖掘产品,说明该产品的特征以及能够解决的用途,成功运用的案例?2.以行业作为运用的例子,说明数据挖掘的应用?


    注意事项

    本文(第1章 数据挖掘概述20.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开