数据挖掘技术及在电信行业中的应用Word文档下载推荐.docx
- 文档编号:409152
- 上传时间:2023-04-28
- 格式:DOCX
- 页数:29
- 大小:315.71KB
数据挖掘技术及在电信行业中的应用Word文档下载推荐.docx
《数据挖掘技术及在电信行业中的应用Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术及在电信行业中的应用Word文档下载推荐.docx(29页珍藏版)》请在冰点文库上搜索。
(6)知识表示(KnowledgePresentation)利用可视化和知识表达技术,对所提取的知识进行展示。
图1-2数据库中的知识发现(KDD)流程示意图
1.2数据挖掘的分类和应用
数据挖掘技术涵盖的范围很广,可以用来解决各类不同的实际问题,下面从数据挖掘的任务和功能这两个不同的角度对数据挖掘进行分类。
首先,从数据挖掘任务的角度对数据挖掘进行分类。
数据挖掘是以数据挖掘任务为单位的,一个数据挖掘任务走完数据挖掘的整个流程,其中包含了挖掘的各个环节,如图1-2所示。
数据挖掘任务可以分为描述和预测两类:
描述性的挖掘任务刻画数据的一般特性,是对数据中所蕴含的规则的描述,或者根据数据的相似程度将数据分成若干组;
预测性挖掘任务是在当前数据的基础上,对未来数据的某种行为做出预测,所使用的数据都是可以明确知道结果的。
描述和预测的主要区别在于:
描述是静态的,是抓取数据的主要特征,并加以归纳和总结;
预测是动态的,是指通过学习,将当前学到的知识推广到未来,是更为高级的一种知识提取形式。
其次,从数据挖掘功能的角度对数据挖掘进行分类。
根据数据挖掘的不同功能,可将数据挖掘分成以下几类:
(1)概念描述(ConceptDescription):
概念描述是数据挖掘最简单和直接的功能,它指的是以汇总的、简洁的、精确的方式描述数据库中的大量的细节数据,以方便用户通过数据做出决策。
通常可以通过数据特征化、数据区分、数据特征比较等方法得到概念描述,也可通过一些统计学的方法对数据进行描述。
(2)关联分析(AssociationAnalysis):
关联分析是指从大量数据中发现项集之间有趣的关联。
关联分析广泛地应用于购物篮或事物数据分析中,可以有效地帮助商家制定许多市场营销方面的决策,使他们知道哪些物品或服务应该被捆绑在一起销售,以提高销售额,“啤酒和尿布”的例子是关联规则最具代表性的应用。
(3)分类和预测(ClassificationandForecast):
分类和预测是两种性质类似的数据分析形式,因为两者都是根据当前数据行为预测未来的数据行为,所不同的是,分类通常预测的是类标签,类标签通常是离散值,而预测通常用于对连续值的预测,例如对某个连续属性的缺失值做出估计。
分类是数据挖掘最重要的功能,其实际应用也最为广泛。
(4)聚类分析(Clustering):
聚类和分类的功能类似,都是预测类标签,但从学习方式的角度看,两者的实现机理却是相反的;
聚类不依赖任何先验知识,只根据数据的某些特征来定义数据之间的距离,如使用最简单的欧式距离,从而衡量数据之间的相似度,将相似度大的归入一类;
因此,通常将分类称作有指导的学习,而将聚类称作无指导的学习。
(5)离群点分析(OutlierAnalysis):
通常称那些远离大多数点的少数点为离群点;
针对数据集中的离群点,一般的做法是将其视为噪声或异常而丢弃,但在如故障诊断、欺诈检测等应用中,离群点本身可能是非常重要的信息,因此,如何检测离群点并对其含义进行合理解释也是数据挖掘的重要的研究方向之一。
(6)演变分析(EvolutionAnalysis)数据演变分析是对行为随时间变化的对象的规律或趋势的描述并建模。
这种分析包括时间序列数据分析、序列模式匹配和基于相似性的数据分析。
通过这种分析,可以识别整个股票市场和特定公司的股票演变规律,从而帮助预测股票市场价格的未来走向,支持股票投资者进行决策。
在实际的工程应用中,往往根据实际作用把挖掘得到的模式细分为:
关联模式、分类模式、回归模式、聚类模式、时间序列模式等等。
分类模式和回归模式是使用最普遍的模式,两者都是通过对当前数据建模,以对数据的未知属性质值做出预测,所不同的是,分类针对离散属性,而回归针对连续属性。
分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以用来检测模式的准确性,模式的产生是在先验知识的指导下进行的;
一般在建立这些有监督模式的时候,使用其中一部分数据作为样本,用另一部分数据来检验和校正模式,因此,这两部分数据分别称作训练数据集和检验数据集。
聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前的结果是未知的,模式的产生不受任何监督,没有任何先验知识的指导。
通过这些模式,我们一般可以从中获得广义型知识(Generalization)、分类型知识(Classification)、预测型知识(Prediction)、关联型知识(Association)、偏差型知识(Deviation)等类型的知识。
数据挖掘技术诞生于实际应用,由此决定它是一门实践性的学科。
目前,在很多重要的领域,数据挖掘都广泛地应用于其中,发挥着积极的促进作用,尤其是在如银行、电信、保险、交通、零售等商业应用领域,更是离不开数据挖掘。
数据挖掘能够解决许多典型的商业问题,其中包括:
客户分群、数据库营销、交叉销售等市场分析行为,以及客户流失预测、客户信用评估、信用卡欺诈检测、股票价格分析与预测、金融投资风险分析、购物篮分析等等。
图1-3描述了数据挖掘在解决具体的商业问题时所遵循的一般流程。
在统计和机器学习领域中也存在许多数据挖掘系统。
另外,将数据仓库、联机事务处理(OLTP)、联机分析处理(OLAP)和数据挖掘技术结合是近期数据库发展的一个趋势。
数据仓库和数据挖掘都可以完成对决策技术的支持,相互间有一定的内在联系,两者集成,可以有效地提高系统的决策支持能力。
目前,电信行业已经逐步建立起数据仓库系统,在数据仓库的基础上将逐步建立如下数据挖掘专题:
客户价值模型、客户信用等级模型、客户流失预测模型、交叉销售模型、营销计划预演模型和客户细分模型等。
数据挖掘在电信中的应用如图1-4所示。
图1-3CRISP-DM的参考模型
数据、数据挖掘任务和数据挖掘方法的多样性和复杂性给数据挖掘提出了许多具有挑战性的课题。
数据挖掘语言的设计,高效、准确的挖掘算法和挖掘系统的开发,交互和继承的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要难题。
针对以上课题,数据挖掘产生了很多研究分支,主要有:
数据挖掘与数据库技术、数据仓库和Web数据库系统的集成、可伸缩的数据挖掘算法、数据挖掘的应用、数据挖掘语言的标准化实现、数据挖掘的可视化、对于复杂数据类型进行挖掘的新方法、数据挖掘中的隐私保护与信息、安全等。
图l-4数据挖掘在电信行业的应用
1.3数据挖掘在电信行业的应用
1.3.1数据挖掘在电信行业的应用分类
数据挖掘是由其应用的需求所驱动的,每一个数据挖掘工程都有一个挖掘主题,描述挖掘目标,指导整个挖掘过程。
电信企业是典型的以数据为驱动的服务型企业,丰富的数据资源以及行业内的激烈竞争,促使数据挖掘在该行业得到了较为广泛的应用。
数据挖掘在电信行业中的应用通常使用挖掘主题来分类,由于电信业务的复杂性和多样性,产生了许多电信数据挖掘主题,下面对其中常见的主题做一简要的介绍。
(1)客户欺诈识别(CustomerFraudDetection)指根据历史的客户欺诈数据建立用户属性、服务属性和客户消费数据与其欺诈可能性关联的模型,对每个客户在未来实施欺诈的可能性进行量化,以达到客户欺诈的识别和预防。
欺诈识别是数据挖掘在电信中最为主要的应用之一,它的兴起缘于电信欺诈行为在电信业的普遍存在和不断扩张,以及给电信运营商造成的越来越大的损失。
本文重点研究的客户恶意欠费欺诈预测便是客户欺诈识别中的一项重要内容。
(2)客户流失预测(CustomerChurnPrediction)指通过分析客户的历史行为数据,对客户的忠诚度做出评估,判断客户流失的可能性大小。
客户流失的广泛应用是因为电信行业,尤其是电信运营商之间日趋激烈的竞争。
竞争是电信市场的未来趋势,尽可能多地争取新客户和保留老客户是电信市场营销的两大重要内容,而客户流失预测是在为服务后者的基础上兴起的,它的主要作用是给出了需要被挽留的客户范围,避免了营销手段的盲目性造成的成本浪费。
(3)客户细分(CustomerSub-division)指按照一定的标准将电信企业的现有客户划分为不同的群体,采取“分而治之”的策略,针对不同的客户群采用不同的营销手段,一方面可以节省营销成本,另一方面能够达到更优的营销效果。
许多营销者认为,行为变量,如场合、用户地位、使用率、忠诚度、购买阶段及购买态度,是构建细分市场的最佳起点,而历史的电信客户行为数据正好记录了以上的这些关键信息,数据挖掘正好提供了处理和分析这些信息的有力手段。
(4)交又销售(CrossSellion)指通过分析电信各类产品之间的关联,开发各类产品的套餐捆绑策略,并且有针对性地对老客户销售其尚未使用过的相关产品。
与客户细分类似,交叉销售也是有针对性地进行销售,是重要的现代营销策略之一,它并不是简单地将客户未购买的产品推销出去,而是根据每个个体的行为特征,判断其已购买的和哪些未购买的产品有较大的关联,并将那些有较大关联的未购买产品推销给该客户。
以上四个挖掘主题在电信数据挖掘的应用中最为常见,除此之外,客户的消费模式分析、客户盈利能力分析、目标客户定位、盗用模式分析和异常模式分析也在电信行业得到了应用。
随着电信行业中新问题的不断涌现,新的挖掘主题也会应运而生。
1.3.2数据挖掘在电信行业的应用现状
随着电信市场垄断格局的打破,各个电信企业间的竞争日趋激烈,谁能提供更好的服务,谁就能占领市场,甚至重新获得行业的垄断地位。
因此,构建其经营分析系统,充分利用其业务支撑系统中每天产生并存储的大量历史数据,实现对信息的深加工和处理已成为当前电信企业系统建设关注的焦点。
近几年来,国内外的许多电信企业已经完成从“以产品为中心”到“以客户为中心”的经营理念的转变,利用数据挖掘进行分析以辅助决策,推动自身的现代化经营和内部管理。
在国外,数据挖掘在电信行业中已有较多的应用实例。
美国西部电信公司(USWEST)是美国最大的长途电信运营公司之一,其拥有的客户数量超过2000万。
该公司为了进一步增强其目标市场战略,使用SAS的企业数据挖掘EnterpriseMiner软件进行经营分析。
USWest利用销售活动管理软件,配合SAS的EnterpriseMiner,使营销专家能够对列入目标的销售活动进行规划、执行及评估,这样既有利于消除销售人员对客户的全部数据进行评分,减轻了销售人员的负担,同时也减少了手工操作所造成的人为错误,使得公司的市场营销周期大幅缩短。
由于能够对市场进行更加细致和高度目标化的划分,USWEST得到了更高的营销投资回报,增强了自身的盈利能力。
老牌电信运营商、《财富》500强企业之一的英国电信(BritishTelecom)通过数据挖掘的手段建立模型,来确定潜在客户的购买倾向和他们变为用户之后可能带来的价值,从而实现从市场营销预算中获得最大的价值。
英国电信的“商业高速公路”的目标为小型商业客户;
通过使用SPSS公司的著名数据挖掘软件产品Clementine,英国电信较为成功实现了其“商业高速公路”活动的数据分析和模型建立方面的探索。
通过应用该系统,英国电信更好地了解了客户及其在电信市场的行为特征,向销售人员和营销活动提供了“最佳客户”清单,有针对性地进行营销活动,其直邮活动的回应率提高了100%。
比利时著名的电信运营商比利时电信(Belgacom)购买了新型TeradataWarehouse数据仓库解决方案,使用数据仓库建立了客户信息系统,其数据仓库中拥有超过数据挖掘手段,1万亿字节的历史数据,其中包含了详细的电话通信记录。
通过比利时电信具有强烈欺诈性的通话方式能够进行欺诈检测,从而迅速地发现异常电话以及,这样就能够在这些电信欺诈方式给企业带来重大经济损失之前采取一系列措施加以终止。
图1-4某市电信经营分系统的逻辑模型
相对于国外的相对较为成熟的应用,电信数据挖掘在国内的研究与应用还处于刚刚起步的阶段,但也不乏一些较为成功的实例。
厦门电信采用CA数据仓库构建了电信大客户关系管理(CRM)系统,对其管辖范围内大客户的消费习惯和消费偏好进行数据挖掘,为其管理层做出营销方面的决策提供了较科学的依据。
除此以外,近年来,中国电信运营业的BOSS(Business&
Operationsupportsystem),即业务运营支撑系统的市场规模占我国主要电信运营商设备投资总额的份额越来越大,运营商的日常运营也越来越离不开BOSS系统;
作为中国的两大主流运营商,中国电信和中国移动高举BOSS建设大旗,其目的是为了提高计费结算、营业帐务、客户服务、决策支持等能力,希望通过固定报表、专题分析、多维分析、数据挖掘等多种数据分析的手段帮助电信企业有效遏制存量流失、激发收入增量,其经营方式也将实现从粗放式到精细化的转变,顺应了现代的经营管理理念。
1.4数据质量评估研究概述
1.4.1数据质量评估的背景和意义
现代社会是一个充满数据的社会,数据资源是企业实现信息化的必要基础和宝贵资本,然而随着企业数据库中存储的数据量的急剧膨胀、新应用的不断出现以及各类应用之间越来越频繁的相互整合,数据质量问题日益显现并日渐突出;
这些数据质量问题主要表现为数据不正确、数据不一致、数据不完整等方面,亟需一套方案对数据质量进行有效管理。
质量低劣的数据已经成为影响企业进行正确决策的重要因素,所以数据质量管理必将成为企业进行信息化进程中一个不可或缺的重要环节。
针对数据质量问题的各个环节,其中包括数据清洗、数据整合、相似记录检测、数据质量评估、数据质量过程控制和管理等,业界的学者已进行了大量的学术研究以及实际应用方面的探索。
在数据质量管理的所有环节中,数据质量评估是提高数据质量的基础和必要前提,它能对应用系统的整体或部分数据的质量状况给出一个合理的描述和评价,从而可以帮助数据用户了解应用系统的数据质量水平,及时发现数据质量问题,并采取相应的处理过程来修复数据质量问题,提高数据质量。
数据质量评估((DataQualityAssessment)是数据质量管理(DataQualityManagement的重要组成部分,承担着发现数据问题的重任,是改善数据质量的驱动力和风向标。
数据质量是一个多维的概念,每一个维度代表一个审视数据质量的角度,例如可信度(Believability)、完整度(Completeness)、精简度(ConciseRepresentation)、及时度(Timeliness)、可理解度(understandability)等,数据质量评估是以需求为导向的,同样的数据在不同的应用背景下的接受度是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,而在另一个挖掘主题下却得不到有意义的结果。
因此,需求分析实际上是维度选择的过程,数据质量评估从一个或几个维度出发,以动态或静态的方式审视数据。
所谓动态的评估方式,是指从数据产生机制上对数据质量进行评估,而静态方式只考虑数据本身。
虽然动态的评估方式能够更彻底全面地对数据质量做出评价,但在很多的应用背景下,如数据挖掘,往往受条件限制,无法得知数据产生机制的信息。
数据质量的定义随着具体应用背景的不同而不同,因此,在进行具体的数据质量评估时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。
但是,数据质量评估至少应包含以下两个方面的基本评估指标,
(1)数据对用户来说必须是可以信赖的,其中包括精确性、完整性、有效性、一致性、唯一性等指标,其具体含义列举如下
A.精确性(Accurate):
数据是否客观真实,是否存在虚假。
B.完整性(ComPlete):
数据是否存在缺失的记录或字段。
C.有效性(valid):
数据是否满足用户定义的条件或处于一定的域值范围内。
D.一致性(Consistent):
同一实体的同一属性值在不同的系统或数据集中的表达是否是一致的。
E.唯一性(unique):
数据中是否存在重复。
(2)数据对用户必须是可以使用的,其中包括稳定性、时间性等方面的指标,其具体含义如下:
A.稳定性(Volatile):
数据是否稳定,是否处于有效期内。
B.时间性(Timely):
数据是当前的还是历史的。
为了实现有效的数据质量评估,下面给出了一个数据质量评估模型,该模型由六个要素组成,是一个六元组,
M=<
D,I,R,W,E,S>
其中
D:
待评估数据集;
对于关系数据库来讲,一个表或视图代表一个数据集。
I:
数据集D上需要进行评估的指标,或称数据质量维度。
R:
与评估指标集I相对应的规则,规则既可使用规范化的自然语言表达,也可使用形式化的语言来书写,以便转换成程序脚本。
泌赋予规则R的权值,为大于0的整数,描述了规则R在所有规则中所占的比重。
E:
对规则R给出的期望值,为介于0到100之间的实数,是在评估之前对规则R所期望得到的结果。
S:
规则R对应的最终结果,为介于0到100之间的实数,是在检测规则R后得到的结果。
1.4.2数据质量评估的研究现状
随着电信行业内部竞争的加剧,数据挖掘作为知识发现的有效工具已得到广泛应用。
电信行业有着丰富的数据资源,但由于各个数据源的数据质量参差不齐,加之数据仓库的ETL机制本身的某些问题,导致在数据集成时产生数据缺失和错误,对挖掘结果产生巨大影响。
因此,合理量化这种影响,对数据质量做出评估,这对分析数据挖掘的可行性具有重要意义。
对于数据质量评估,一些研究人员也开展了许多的研究工作。
文献1从不同的角度提出了数据质量的评估方法,文献2设计了一个数据质量分析和浏览的工具,文献3从用户的角度描述了对数据质量评估的要求,文献4给出了一种基于属性的数据质量评估模型。
但总的来讲,已有的研究成果大部分集中在框架理论,较少涉及特定的行业背景和具体应用,而面向特定数据挖掘主题的数据质量评估,尚未有专门的文献进行讨论。
基于实际经验,每个行业、每个应用都有自己的特点,对数据的评估方法也应有所差别,只能够相互借鉴,但不能够完全照搬,应该“量身定制”。
本论文所做的研究工作就是针对电信欠费挖掘这一具体的应用背景,充分考虑该背景下数据集和数据挖掘本身的特点,搭建了相对完整的数据质量评估体系,实现了面向电信欠费挖掘的数据质量评估,为挖掘的可行性分析提供了指导。
二、数据质量评估技术与方法
本章首先叙述了面向数据挖掘的数据质量评估的意义以及数据质量评估的一般方法,然后针对欠费挖掘主题,叙述了电信行业欠费的现状与危害,以及欠费挖掘的现实意义,并对电信欠费挖掘中的非平衡问题、缺失问题、离群问题的研究成果作了简要回顾,介绍了解决这些问题的常用算法,为后续提出面向电信欠费挖掘的数据质量评估策略作铺垫。
2.1引言
随着电信行业竞争的不断加剧,数据挖掘作为一种知识提取和决策支持的手段,已得到了广泛的应用。
然而,由于电信企业数据采集系统人为和非人为的扰动,造成各个数据源的数据质量参差不齐,加之数据仓库的ETL机制本身的某些问题,导致在数据集成时发生数据缺失和错误,造成数据的整体质量不高,从而对数据挖掘的结果产生影响。
因此,合理地量化这种影响,对数据质量做出评估,这对分析数据挖掘的可行性、减少无回报成本具有重要的积极意义。
2.2面向数据挖掘的数据质量评估
2.2.1数据质量评估的意义
数据质量是一个相对的概念。
在不同的时期,数据质量有着不同的定义和评估标准。
20世纪80年代以来,国际上普遍认为,数据质量的标准基本上是围绕着以提高数据准确性为出发点和原则的。
然而,随着质量本身的含义不断进行延伸,数据质量的概念也由原来的狭义转变为广义,其中,基于实际需要,融入了许多数据质量的考察和评判的标准,准确性不再是衡量数据质量的惟一指标。
上世纪90年代,美国的麻省理工学院开展了全面数据质量管理TDQM(TotalDataQualityManagement)的活动,该活动借鉴了物理产品质量管理体系的成功经验,提出了以信息生产系统生产的数据产品为基础的质量管理体系。
该活动提出,应充分、客观、全面地理解用户的信息需求,将数据看作具有生命周期的产品,并对此进行管理,要设置数据产品管理员来管理数据生产的整个过程和结果。
在数据生产过程中形成的质量维度,如准确性(Accuracy)、完整性(Completeness)、一致性(Consistence)等,已经成为数据质量评估的基本要求;
另外,用户对数据的满意程度也已成为衡量数据质量的重要指标之一。
目前,尚未形成系统化的数据质量评估指标,数据质量评估往往只零散地针对系统中比较重要的质量指标,如一致性问题、复杂性问题、完整性问题等来进行。
在数据质量评估领域已经得到使用的产品,如CRG的完整度分析器IA(IntegrityAnalyzer),可以实现对数据完整性的严格检查,这里的完整性包括实体完整性、引用完整性、域完整性以及用户自定义的完整性。
数据质量的描述通常可以分为不同的层次,不过到目前为止,还没有形成专门用于表示这种层次性的统一术语,例如,有的用类和域表示这种层次,而ISOTC211则用数据质量元素及子元素来表达。
不同的应用领域对数据质量的描述也是不同的,因此,建立反映应用领域特点的数据质量框架,是数据质量评估所要解决的首要问题。
数据质量评估是面向应用的,同样的数据在不同的应用背景下的接受度是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,而在另一个挖掘主题下却得不到有意义的结果。
因此,需求分析实际上是维度选择的过程,数据质量评估从一个或几
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 电信行业 中的 应用