数据挖掘与R语言工具优势.docx
- 文档编号:1295732
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:10
- 大小:1.18MB
数据挖掘与R语言工具优势.docx
《数据挖掘与R语言工具优势.docx》由会员分享,可在线阅读,更多相关《数据挖掘与R语言工具优势.docx(10页珍藏版)》请在冰点文库上搜索。
1.数据挖掘概述
数据挖掘是应用统计学、机器学习和模式识别等学科的知识,从数据中发现有用的、有效的、未知的并且可以理解的信息的一项技术。
简言之,数据挖掘技术就是从大量的历史数据中总结原因,发现事物的本质,把握事物发展的趋势。
2.数据挖掘常用模型
有了数据,我们要做的就是寻找合适的模型。
数据挖掘的目的或者是理解产生数据的机制,或者是预测。
根究不同的目的,我们可以将模型分为描述性模型与预测性模型。
其中描述性模型是为了揭示蕴含在历史数据中的规律,属于无监督模型;预测性模型是对未来时间的预测,属于监督模型。
模型
图示
原理
应用场景
相关性分析
探索现象之间关系的密切程度和表达形式。
研究设备发生的缺陷类型与投运年限的相关性。
主成分分析
将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
用于招投标专家打分数据中各技术要素明细指标中的降维研究。
因子分析
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。
因子分析将招投标中相关的各技术要素指分解为因子的线性组合,构造因子模型。
典型相关分析
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的扩展。
运用在生产领域中的设备类型与缺陷类型间两组变量间的线性关系研究。
对应分析
利用因子分析原理,同时将变量与样本反映在一张图上。
同时将样本(设备类别)与变量(缺陷原因)在一张图上展示,研究之间的相似性。
聚类分析
通过分析事物的内在特点和规律,并根据相似性原则对事物进行分组。
通过不同的聚类方法对研究对象进行聚类,并以图形化将结果展示出来。
时间序列
从历史数据中,总结事物发展的规律,把握未来发展的趋势。
通过时间序列模型,了解缺陷随时间变化的发展趋势。
线性回归
确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
建立缺陷供电局和设备类型间的线性模型,对未来缺陷数进行预测。
Logistic回归
Logistic回归只能处理两类分类问题,是一种线性分类器,实现简单,但容易欠拟合,一般精确度不太高。
应用在设备是否发生缺陷的业务场景中。
生存分析
对管理对象的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法。
研究设备在投运后开始发生缺陷的危险时刻。
并对统计区间内的设备是否发生缺陷进行研究。
关联规则
从大量数据中发现潜在的对象之间的同时出现的关系。
A现象出现B现象也会同时发生的情况。
研究设备在不同情况下会发生严重和紧急缺陷的频繁程度和关系。
序列模式挖掘
对代表事件之间存在某种序列关系的数据进行相对时间或者其他模式出现频率高的模式挖掘。
用在研究某个单体设备随着时间变化而出现不同缺陷类型的模式挖掘。
决策树
根据数据规则的生成过程,用倒立的树形图将结果展示出来。
将影响缺陷类型的供电局、供应商、设备间的关系用树形图展示出来。
贝叶斯分类
是一类利用概率统计知识进行分类的算法。
该方法简单(利用先验概率)、分类准确性高、速度快。
对历史缺陷数据的严重等级进行贝叶斯分类,计算下次缺陷发生出现不同等级的概率来进行分类。
GBDT(MART)迭代决策树
是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。
GBDT几乎可应用与所有的回归问题(线性/非线性),亦可应用与二分类问题。
KNN算法
(最近临近法)
KNN算法是机器学习里面比较简单的一个分类算法:
计算一个点A与其他所有点之间的距离,然后将A点分配到所属类别中比例最大的类别中。
用于生成领域、招投标领域等分类问题的研究。
Bagging回归
利用不断放回抽样的简单组合方法实现对简单决策树的改良,提高精确性。
利用机器学习中的再抽样组合算法建立缺陷预测模型。
随机森林
另一种组合方式,随机产生大量决策树,再进行投票分类。
利用抽样组合,对结果进行等权投票的算法建立缺陷预测模型。
神经网络
利用模拟神经网络的自我学习系统进行模型拟合,有效地解决很复杂的有大量相互相关变量的分类和回归问题,但对维度多、样本量小的数据模拟效果不好。
利用自我学习的机器学习算法建立缺陷预测模型。
支持向量机
SVM核心是寻找最大间隔分类超平面、引入核方法极大提高对非线性问题的处理能力。
对一些系统收集数据时间不长、维度复杂的数据进行研究。
文本挖掘
指从文本数据中抽取有价值的信息和知识的计算机处理技术。
对大量的缺陷描述的文本信息进行挖掘,迅速找出有价值的关联信息。
社会网络
来源于数学的图论,目前被广泛应用于社会学、经济学、管理学领域。
应用到生产领域的缺陷数据中,进行设备缺陷的社会网络分析。
推荐系统
推荐系统的实现主要分析两个方面:
基于内容(用户或者物品基本信息的相似度)和协同滤波(基于历史数据,过滤复杂的、难以表达的概念)的实现。
基于营销数据库中的用户信息和用电情况进行针对性营销。
LDA(主题模型)
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。
LDA模型可以运用到营销个性化推荐、电网的社交网络等领域。
异常检测
发现与数据一般行为或特征不一致的模式,常用的有基于统计、距离、密度、深度、偏移、高维数据的异常点检测算法。
用于用户用电量异常行为检测。
EM算法
(最大期望法)
在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。
EM算法常用在机器学习中的数据聚类(DataClustering)领域。
遗传算法
遗传算法是由进化论和遗传学机理而产生的直接搜索优化方法。
遗传算法用于分类和其他优化算法,也可能用于评估其他算法的拟合度。
FP-Growth算法
FPGrowth是一种比Apriori更高效的频繁项挖掘方法,它采用了一种简洁的数据结构(频繁模式树),在这棵树上找出包含P的频繁项集。
用于在大量的缺陷数据中快速寻找关联关系,大大提高效率。
粗糙集方法
粗糙集理论可以用于分类,发现不准确数据或噪声数据内的结构联系。
可对数据集进行降维,发现分类规则,并对得到的结果进行统计评估等应用。
模糊集方法
模糊集理论作为传统的二值逻辑和概率论的一种替代,它允许我们处理高层抽象,并且提供了一种处理数据的不精确测量的手段。
模糊集理论允许处理模糊不清或不精确的事实的分类问题。
空间数据挖掘
空间数据挖掘是从空间数据中发现模式和知识。
可以结合局方的GIS系统进行电量、设备等数据的挖掘。
深度学习
深度学习是机器学习研究中的一个新的领域,它模仿人脑的机制来解释数据,例如图像,声音和文本。
深度学习是目前最接近人脑的复杂模型,百度在语音、OCR、人脸识别、图片搜索领域有应用。
3.R语言工具优势
ØR语言的排名
R语言由于其开源、丰富的各种算法和数据挖掘模型、强大的画图能力和可拓展能力让它成为这几年各大高校和企业届最受欢迎的数据挖掘软件。
第13期KDnuggets关于数据挖掘软件使用的调查–对于过去的12个月里实际的项目过程中使用了哪些数据挖掘(分析)软件,R、Excel和RapidMiner则名列三甲(去年R排名第二)。
另一份关于最常使用的底层语言依次为R语言、SQL、Java和Python。
ØR语言的优势
ü几乎覆盖了整个统计领域最前沿的算法。
ü广泛、便捷的数据接口。
比如R-base可以良好的接入CSV(CommaSeparatedValues)数据
扩展包,直接读入SPSS、SAS、Minitab、Stata、Excel等文件
通过数据库,读取MySQL、SQLServer、DB2、Oracle等数据库
甚至直接读取图片、语音、网页等非结构化数据
ü同其他语言的调用。
ü强大、完善的绘图功能。
R提供了为“高级”(Highlevel)、“低级”(Lowlevel)和“交互式”(Interactive)三种绘图方式
基于GraphicalProgrammingLanguage的完整绘图框架
ps、pdf、png、jpeg、bmp、gif、SVG、LATEX、HTML输出,甚至动画
ü最重要的一点:
Risfree(inbothsenses)。
ØR语言的操作界面
控制台通过交互式操作,输入命令后敲回车即可看到运行结果。
R语言可以通过不同的加载包调用其他开源数据挖掘软件
例如:
通过加载rattle包,调出rattle工具的操作界面(图形化建模工具)
通过加载RWeka包,可以应用Weka工具的各种数据挖掘算法
ØR语言工具与公司系统集成
可以通过Rjava包在JAVA中调用R中的命令,技术部门同事已经实现在公司系统的编译R语言,并将模型结果部署到系统中(下图是相关性分析在系统中的演示)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 语言 工具 优势