CRM-8.ppt
- 文档编号:18724133
- 上传时间:2023-10-19
- 格式:PPT
- 页数:60
- 大小:2.14MB
CRM-8.ppt
《CRM-8.ppt》由会员分享,可在线阅读,更多相关《CRM-8.ppt(60页珍藏版)》请在冰点文库上搜索。
2023/10/19,1,引言,CRM四大技术,三个层级,后续各章,2023/10/19,2,第八章商业智能与数据挖掘技术,第一节概述第二节关联规则挖掘第三节决策树挖掘技术第四节市场细分与聚类分析,2023/10/19,3,第一节概述,一、商业智能1、概念:
是对商业信息进行加工处理、帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合。
2、目标:
决策能力、运营能力的提高。
对各种业务系统的多数据源数据进行整合面向主题的多维度分析面向高层决策者的快速、及时、正确的决策分析为各层决策者服务的即时查询对业务模型的深层次分析与预测,2023/10/19,4,3、商业智能与数据挖掘,2023/10/19,5,惠普公司2007/11表示:
正在寻找数据管理软件和商业智能软件公司,交易额可能达3-5亿美元,也可能为50亿-100亿美元。
赛门铁克是全球最大的数据管理软件公司之一。
2005年,赛门铁克通过并购Veritas进入该市场。
在商业智能软件市场,2007年已有过多起并购交易:
如IBM并购Cognos,SAP并购BusinessObjects,Oracle并购Hyperion。
消息:
Oracle2007/4/18以29亿美元收购商业智能软件商HyperionSolutions。
它将该公司软件与自己的商业智能和分析工具软件整合起来,以提高客户的规划、预算、运营分析等管理能力。
2023/10/19,6,二、商业智能体系的构成理论基础,如CRM中的八大理论三项技术:
数据仓库和数据集市产品,OLAP工具,数据挖掘软件应用界面:
终端用户查询和报告工具,2023/10/19,7,三、商业智能与企业应用系统之间的关系,2023/10/19,8,三、数据挖掘概念定义:
DM就是应用一系列技术从数据仓库中提取人们感兴趣的信息概念、规则、规律、模式。
它是深层次的数据分析,是分析型CRM的核心。
DataMiningistheapplicationofartificialintelligence(AI)techniques(Neuralnetwork,fuzzyLogic,geneticarithmetic,etc)tolargequantitiesofdata,todiscoveryhiddentrends,patterns,andrelationships-MetaGroup,2023/10/19,9,DM与KDD(知识发现)的关系。
KDD:
Knowledgediscoveryindatabaseisthenon-trivialprocessofidentifyingvalid,novel,potential,useful,andultimatelyunderstandablepatternindata.等价:
人工智能领域习惯称知识发现,数据库领域称DM。
核心:
把DM当作KDD的最核心部分。
2023/10/19,10,首次KDD和DM研讨会1989年在底特律召开。
1995年国际第一届KDD和DM学术会议在加拿大召开,定义了DM。
1998年第四届KDD和DM学术会议,30多家公司展示DM软件产品。
KDD和DM现在已成为数据库领域最重要的课题之一,DM软件广泛应用于商业.经济.金融.管理。
3、DM的研究现状,2023/10/19,11,有影响的数据挖掘软件,SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。
http:
/.提供数据挖掘系统和工具的性能测试报告。
2023/10/19,12,市场营销:
预测顾客购买行为,划分顾客群体。
银行业:
侦测欺诈行为;客户信誉度分析。
零售业:
预测销售额;决定库存量,批发点分布。
制造业:
预测机器故障;发现生产力的关键因素。
经纪业和安全交易:
预测债券价格、确定交易时间。
电信:
评估客户群;综合效益分析;网络性能评估。
经营管理:
评估客户信誉、部门业绩、员工业绩等。
四、DM的应用,2023/10/19,13,1.技术部要求:
就某钢种找到一组生产条件,通过调整化学成分或轧制参数,提高断裂延伸率,降低抗拉强度。
2.数据预处理:
从数据集市中,找出15000条质量记录。
3.DM方法:
聚类分析。
4.结论:
(1)钢材两项性能指标与温度和两种元素含量有关。
(2)增加该两项元素含量可实现两项目标。
5.效益:
技术部工程师建议:
(1)结合工程现状,保持温度不变。
(2)将某一元素(成本高)减少50%以降低成本。
(3)另元素含量客户需求加调整。
例:
宝钢的DM,2023/10/19,14,五、DM技术的分类,根据发现的知识种类分类
(1)总结(summarizing):
概括数据,做一般性结论
(2)特征(characteristics):
描述数据的分布特征。
(3)分类(Classification):
生成一分类函数或分类树。
(4)聚集(Clustering):
聚集和分类的区别。
(5)数据可视化(DescriptionandVisualization)(6)关联规则(associationrules)(7)序列分析(SequenceAnalysis)(8)偏差分析(DeviationAnalysis),2023/10/19,15,预测技术:
回归分析关联规则:
Apriori算法分类技术:
Bayes分类、决策树、神经网络聚类技术:
快速聚类概念描述:
分组汇总、决策树、遗传算法数据可视化:
把多维数据变成多种图形,2、按挖掘技术分,2023/10/19,16,信息论方法:
ID3方法、IBLE方法集合论方法:
粗糙集方法、概念树方法、模糊集方法、AQ系列方法神经网络NeuralNetworks:
前馈网络、反馈网络、自组织网络遗传算法GeneticAnalysis:
模拟生物进化过程的方法。
统计分析方法:
相关分析、时间序列分析、回归分析、分组分析、因子分析、聚类分析、判别分析。
3、按挖掘所用算法分,2023/10/19,17,六、DM在CRM中的作用,1、发现最有价值客户和新客户,2023/10/19,18,2、使交叉销售更有效率,2023/10/19,19,3、客户保持:
客户流失预警模型个性化营销和服务,2023/10/19,20,4、欺诈发现,返回,2023/10/19,21,5、评估营销工具性能英国电信采用DM,建模确定潜在客户的购买倾向及价值。
法国电信利用DM在预防欺诈、客户流失分析和预测、交叉销售方面取得成果。
韩国SKTelecom公司用DM分析客户通话行为,预测通话中的掉线情况。
2023/10/19,22,五、DM的流程,
(一)一般流程数据准备数据挖掘结果表达和解释,转换数据,预处理后的数据,数据预处理,数据选择目标数据,数据集成,数据源,数据转换,数据挖掘,模式,结果表达和转换,知识,数据,2023/10/19,24,
(一)数据准备,数据集成:
合并多文件或数据,解决模糊语义,弥补数据遗漏、清除脏数据。
数据选择:
目的是缩小处理范围,提高挖掘质量。
数据预处理:
清理和充实数据。
数据转换:
对数据编码,数据库中字段的不同取值转换成数码形式,利于搜索。
(二)数据挖掘,利用挖掘技术,从数据库中发现有用的模式或知识。
(三)结果表达与解释,分析提取的信息,找出最有价值的信息。
对信息进行过滤处理。
2023/10/19,25,
(二)CRISP-DM流程简介,1、CRISPDM是CRoss-IndustryStandardProcessDataMining的缩写,由SPSS、NCR、Daimler-Benz在1996年制定,是数据挖掘的标准之一。
2、CRISPDM过程:
2023/10/19,26,商业理解数据理解数据准备建立模型模型评估模型发布,返回,2023/10/19,27,六、OLAP与DM的区别,OLAP是数据汇总/聚集工具,获得信息;数据挖掘进行更复杂的分析,发现知识。
OLAP限于数值型数据;数据挖掘可以是多媒体数据。
OLAP侧重于快速响应和提供多维视图;数据挖掘则注重发现隐藏的模式和信息。
OLAP分析结果为数据挖掘提供依据;数据挖掘拓展OLAP分析的深度,发现OLAP所不能发现的更为复杂、细致的信息。
2023/10/19,28,第二节关联规则(associationrules),Old=MotoV730Female&Young=SiemensMinnie8008,一、实例与问题实例1:
关联规则让繁杂的数据指示重要信息.,2023/10/19,29,实例2:
某商店出售数码商品:
DellD820,SonyBX145,SonyFJ68C,HP1010,HP4300,CanonLBP5200,CanonEOS-20D,CanonIXUS700,SonyDSC-V3。
记录如下:
购买规律?
2023/10/19,30,商品间不存在关联规则品牌间存在着关联规则,2023/10/19,31,实例3:
购物篮里有什么?
顾客购物篮中各种商品之间的关系:
如买牛奶,也购买面包的可能性有多大?
买铁锤的顾客中有多少人同时也买铁钉?
数学表达:
设事务数据库中有9个事务,如右图。
试按最小支持度2次、最小可信度70%的标准寻找关联规则。
2023/10/19,32,1.项集:
项的集合称为项集。
设I=I,I2,.,In是一个项集,其中Ii(i=1,2,3,n)可以是购物篮中的一物品,或保险公司的顾客。
K项集-包含K个项的项集被成为K项集。
2.事务:
事务是项的集合,设有事务T,则TI.对应每个事务有唯一的标识,如TID。
又设A是I中项的集合,如果AT,则称A为事务T的子集。
3.事务集:
事务的集合称为事务集。
设某事务集为D,则D=T1,T2,,Tp,4.逻辑蕴涵:
AB,其中A,B是项集,AI,BI,AB=。
二、基本概念,2023/10/19,33,设A,B是项集,对于事务集D,AD,BD,AB=,则5.置信度(Confidence):
反映在出现项集A的事务集D中,项集B也同时出现的概率。
例如买牛奶顾客中有80%也购买面包,则(牛奶面包)的置信度为80%。
6.支持度(Support):
描述了A和B这两个项集在所有事务中同时出现的概率。
例如某商场某天共有1000笔业务,其中有100笔业务同时买了牛奶和面包,则(牛奶面包)的支持度为10%。
两种形式:
相对数、绝对数。
2023/10/19,34,7.关联规则:
同时满足最小支持度阈值和最小可信度阈值的逻辑蕴涵式:
AB8.寻找强关联规则的步骤(Apriori算法):
(1)寻找事务数据库中所有的频繁项集支持度大于最小支持度的项集称为频繁项集。
(2)在所有频繁集中寻找强关联规则a.用每一频繁集生成所有逻辑蕴涵式;b.计算每一逻辑蕴涵式的置信度,并判断是否超过阈值。
2023/10/19,35,10关联规则的种类:
(1)根据变量类型分为布尔型和数值型。
布尔型考虑的是项集是否存在;而数值型则是量化的关系。
例如:
性别=“女”职业=“秘书”布尔型性别=“女”avg(收入)=2300数值型
(2)根据数据的维数分为单维和多维。
单维关联规则,只涉及到数据的一个维度,如用户购买的物品。
多维关联规则涉及到多个维度。
例如:
啤酒尿布单维(物品)性别=“女”职业=“秘书”多维(性别和职业),2023/10/19,36,(3)根据是否允许同一维在规则的左右方同时出现,多维关联规则:
维间关联规则(不允许)混合维关联规则(允许)年龄(X,“20.30”)职业(X,“学生”)=购买(X,“笔记本电脑”)。
年龄、职业、购买,没有一个维是重复出现的,故是维间关联规则。
年龄(X,“20.30”)购买(X,“笔记本电脑”)=购买(X,“打印机”)。
年龄、购买,且购买出现过两次,故是混合维关联规则。
2023/10/19,37,三、计算实例P215,四、软件实现,返回,2023/10/19,38,一、实例,第三节决策树,购电脑贷款决策树,age?
30-40,creditrating?
no,yes,fair,excellent,=30,40,no,no,yes,yes,yes,根:
X,根节点、属性枝属性值第二层节点枝属性值叶节点(目标变量),student?
2023/10/19,40,问题:
某公司根据以往的销售经验,整理出了关于是否给予客户销售折扣的记录,如表所示。
试根据这些记录,运用ID3算法:
计算目标变量“是否给予折扣”的信息熵;通过计算确定在根节点上的分割变量;,2023/10/19,41,二、基本概念,决策树:
通过一系列规则对数据进行分类的工具。
特点:
将数据的分类规则可视化。
用途:
提取分类规则,进行分类预测。
例如,金融领域将贷款对象分为低贷款风险与高贷款风险。
用决策树可判定申请者是属于哪一类。
比如,某人月收入4000元,尽管申请“高贷款”,却被认为属于“低风险”人群。
某人月收入5年,却属于高风险人群。
2023/10/19,42,基本思路:
2023/10/19,43,决策树的六要素一个根结点,上有属性(分割变量)若干个枝节点,每一节点代表一个数据集。
每节点下有若干条分枝。
每个分枝代表分割变量的一个取值(属性值)。
最终的节点叫叶节点,表示一个分类(目标变量的一个取值)。
2023/10/19,44,三、实施决策树的过程,构造数据集市数据预处理:
离散化、概化建立相关属性集建立模型实施分类(ID3)提取分类规则评估与修剪:
去掉一些可能是噪音或者异常的数据使用模型进行分类,2023/10/19,45,四、ID3算法步骤,构造数据集:
根节点(X,Q)将所有记录X用所选变量进行划分。
其中,变量都是离散型的(如是连续的,则离散化)根据启发式规则或某统计度量(如,informationgain)确定分割变量停止分割。
有下列之一者:
节点上所有记录同属一个类别(目标变量属性值相同)测试变量集Q为空,2023/10/19,46,五、统计度量:
信息增益(ID3/C4.5),未分割时目标变量的信息熵设总体有单位数n个,某目标变量g的取值为(x1,x2xm),对应的总体单位数为(n1,n2,nm),则g的信息熵:
经变量A分割后的期望熵:
A的信息增益:
Gain(A)=I(g)E(g/A),2023/10/19,47,例:
学生购买电脑决策树-第一层分割属性选择,ClassP:
buys_computer=“yes”。
P=9ClassN:
buys_computer=“no”。
N=5I(p,n)=I(9,5)=0.940Computetheentropyforage:
Similarly,返回,2023/10/19,48,2023/10/19,49,2023/10/19,50,实例二,2023/10/19,51,第四节市场细分与聚类分析,市场细分(MarketSegmentation),即根据消费者某些特征(变量),把整体市场细分为若干个子市场,使这些特征的取值在组内具有相似性,而在组间却有明显差异性。
分组变量:
依研究目的而异。
如地理、人口统计学特征、行为特征、心理特征等。
细分技术:
统计分组(组数及组特征已知)聚类分析(组数及组特征未知),一、市场细分的概念,2023/10/19,52,例子:
已知客户的人口统计学特征、心理特征、行为特征。
问题:
为反映终身价值的大小,分成几类?
各客户归于哪一个类?
二、什么是聚类分析,2023/10/19,53,聚类,就是根据距离将各样品或变量归入不同的组,使组内的差距尽量小而组间的差距尽量大的统计学方法。
聚类方法:
系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法。
2023/10/19,54,三、系统聚类的种类,层次聚类Q型聚类:
对样本分类,使具有共同特点的样本聚在一起,以便对不同类的样本进行分析。
(测定距离:
样本-样本,样本-小类,小类-小类)R型聚类:
对变量分类,使具共同特征的变量聚在一起,以便从不同类中分别选出具代表性的变量进行分析。
(测定距离:
变量-变量)快速聚类特点:
样本大;事先指定类别数;可以指定初始类的中心点;用“欧氏距离”。
2023/10/19,55,欧氏距离Euclidean:
SquaredEuclideanDistance:
四、点-点距离的定义,距离。
将一个样品看作P维空间的一个点,并在空间定义距离,距离小的两点归为一类,大的则归为两类。
例如:
行向量xi=(xi1,xip)与xj=(xj1,xjp)的两种距离,2023/10/19,56,五、类-类距离的定义,类间平均链锁法between-groupslinkage,Dpq:
类Gp与类Gq之间的距离d(xi,xj):
点xiGp和xjGq距离,2023/10/19,57,六、层次聚类的基本过程Q型、R型HierarchicalClustering,不用确定类的数目开始时,有多少个样本就是多少个类。
把最近的两点并成一小类,再把最近的点并入小类,小类与小类合并成一中类中类与中类合并成一大类,2023/10/19,58,七、快速聚类K-MeansClusterAnalysis,事先要确定分多少类(例如:
3类)确定初始点,为“聚类种子”(SPSS自动选种子)。
根据每一样本与这三个点的距离远近,把所有点分到三类。
计算这三类的中心(均值)作为新的种子(原来的“种子”就没用了),对所有样本按新距离重新分类。
如此重复,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。
2023/10/19,59,八、聚类要注意的问题,所选聚类变量要能反映聚类目的和样本的特征聚类结果受所选变量影响。
增减变量,结果就不同。
合理的类数目。
聚类要使各类距离尽可能远,类内距离尽可能近,分类结果要令人信服。
聚类变量值如有量级差别,要先标准化处理。
变量分连续变量、顺序变量(名义变量),计算方法不同。
前者已讲过;后者有Chi-squaremeasure(默认),Phi-squaremeasure两种。
Cluster:
Case,Q型;Variables,R型,2023/10/19,60,商务印书馆创始人张元济:
“数百年旧家无非积德,第一件好事还是读书”温家宝:
“也许有人会说,没有时间读书。
但是一个人一天总可以抽出半个小时读三四页书,一个月就可以读上百页,一年就可以读几部书。
读书要有选择,读那些有闪光思想和高贵语言的书,读那些经过时代淘汰而巍然独存下来的书。
这些书才能撼动你的心灵,激动你的思考。
我们不仅要读书,而且要实践;不仅要学知识,而且要学技术。
要读活书、活读书、读书活,即不仅要学会动脑,而且要学会动手;不仅要懂得道理,而且要学会生存;不仅要提高自己的修养,而且要学会与人和谐相处。
”,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CRM