数据挖掘作业.docx
- 文档编号:12874051
- 上传时间:2023-06-08
- 格式:DOCX
- 页数:36
- 大小:80.01KB
数据挖掘作业.docx
《数据挖掘作业.docx》由会员分享,可在线阅读,更多相关《数据挖掘作业.docx(36页珍藏版)》请在冰点文库上搜索。
数据挖掘作业
《数据挖掘》作业
第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:
、、
、、、和
(2)数据挖掘的性能问题主要包括:
、和
(3)当前的数据挖掘研究中,最主要的三个研究方向是:
、和
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:
(5)孤立点是指:
二、单选题
(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:
A、所涉及的算法的复杂性;B、所涉及的数据量;
C、计算结果的表现形式;D、是否使用了人工智能技术
(2)孤立点挖掘适用于下列哪种场合?
A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测
(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析
A.关联分析B.分类和预测C.聚类分析D.演变分析
(4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能
A、选择任务相关的数据B、选择要挖掘的知识类型
C、模式的兴趣度度量D、模式的可视化表示
(5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析
A、关联分析B、分类和预测C、聚类分析D、演变分析
(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()
A.关联分析B.分类和预测C.演变分析D.概念描述
(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()
A.关联分析B.分类和预测C.聚类分析D.孤立点分析E.演变分析
(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()
A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述
三、简答题
(1)什么是数据挖掘?
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
(3)请简述不同历史时代数据库技术的演化。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
(5)什么是模式兴趣度的客观度量和主观度量?
(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?
(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
第2章数据预处理
一、填空题
(1)进行数据预处理时所使用的主要方法包括:
、、
和
(2)处理噪声数据的方法主要包括:
、、
和
(3)模式集成的主要问题包括:
和
(4)数据概化是指:
(5)数据压缩可分为:
和两种类型。
(6)进行数值归约时,三种常用的有参方法是:
、
和
(7)数据离散度的最常用度量是、和
二、单选题
(1)数据归约的目的是()
A、填补数据种的空缺值B、集成多个数据源的数据
C、得到数据集的压缩表示D、规范化数据
(2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?
A.数据清理B.数据集成C.数据变换D.数据归约
(3)进行数据规范化的目的是()
A.去掉数据中的噪声
B.对数据进行汇总和聚集
C.使用概念分层,用高层次概念替换低层次“原始”数据
D.将属性按比例缩放,使之落入一个小的特定区间
(4)数据的噪声是指()
A、孤立点B、空缺值
C、测量变量中的随即错误或偏差D、数据变换引起的错误
(5)那种数据变换的方法将数据沿概念分层向上汇总
A、平滑B、聚集C、数据概化D、规范化
(6)()通过将属性域划分为区间,从而减少给定连续值的个数。
A.概念分层B.离散化C.分箱D.直方图
三、多选题
(1)下面哪些问题是我们进行数据预处理的原因?
A.数据中的空缺值B.噪声数据
C.数据中的不一致性D.数据中的概念分层
(2)下面的度量中,哪些是数据离散度的度量?
A.中位数B.标准差C.模D.中间四分位数区间
(3)数据清理的目的是处理数据中的()
A、空缺值B、噪声数据C、不一致数据D、敏感数据
(4)下列哪些是数据变换可能涉及的内容?
A、数据压缩B、数据概化C、维归约D、规范化
(5)以下哪些原因可能引起空缺值
A、设备异常
B、命名规则的不一致
C、与其他已有数据不一致而被删除
D、在输入时,有些数据因为得不到重视而没有被输入
四、简答题
(1)常用的数值属性概念分层的方法有哪些?
(2)典型的生成分类数据的概念分层的方法有哪些?
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
(4)常见的数据归约策略包括哪些?
第四章数据挖掘原语、语言和系统结构
一、填空题
(1)概念分层有四种类型,分别是:
、、和
(2)常用的四种兴趣度的客观度量是:
、、和
(3)同时满足和的关联规则称为强关联规则。
二、单选题
(1)以下DMQL片断:
mineassociationsasbuyingHabits
matchingP(X:
customer,W)∧Q(X,Y)=>buys(X,Z)
所指定的挖掘知识类型是:
A、特征化B、区分C、关联D、分类
(2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?
A、不耦合B、松散耦合C、半紧密耦合D、紧密耦合
三、多选题
(1)以下哪些OLAP操作是和概念分层紧密相关的?
A、上卷B、切片C、下钻D、切块
四、简答题
(1)定义数据挖掘任务的原语,主要应该包括哪些部分?
(2)为什么需要数据挖掘原语和语言来指导数据挖掘?
(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:
不耦合、松散耦合、半紧密耦合和紧密耦合。
(4)数据挖掘的GUI可能包含哪些部分?
第五章概念描述:
特征化与比较
一、填空题
(1)概念描述由和组成。
(2)一般来说,进行类比较的过程应该包括以下几个步骤:
、、
和
(3)从数据分析的角度看,数据挖掘可以分为两类:
和
(4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。
可采用的度量包括:
、、和
(5)数据离散度的最常用度量包括:
、和
二、单选题
(1)类比较的过程中,我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体?
A、数据收集B、维相关分析C、同步概化D、导出比较的表示
(2)哪种图形显示方法常用于描述两个变量间的依赖模式?
A、直方图B、分位数图C、散布图D、LOESS曲线
(3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?
A、直方图B、分位数图C、散布图D、LOESS曲线
(4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?
A、直方图B、分位数图C、散布图D、LOESS曲线
(5)中心趋势度量模(mode)是指
A、算术平均值B、数据集中出现频率最高的值C、最大值D、最小值
三、多选题
(1)下面哪些是常用的数据概化方法?
A、离散化B、数据立方体(OLAP技术)
C、判定归纳树D、面向属性的归纳
(2)使用数据立方体方法进行数据概化的优点包括:
A、数据概化的一种有效实现
B、可以计算各种不同的度量值
C、受数据类型和度量类型的约束比较少
D、概化和特征分析通过一系列的数据立方体操作完成,简单高效
(3)以下哪些是属于中心趋势的度量
A、平均值B、标准差C、五数概括D、中位数
四、简答题
(1)简述类比较的过程。
(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。
(3)简述概念描述的属性相关分析的基本步骤。
(4)简要叙述概念描述和OLAP之间的主要区别。
(5)为什么进行属性相关分析?
(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。
(7)什么是概念描述的增量挖掘?
第六章大型数据库中的关联规则挖掘
一、填空题
(1)关联规则挖掘中,两个主要的兴趣度度量是:
和
(2)Aprior算法包括和两个基本步骤
(3)项集的频率是指
(4)大型数据库中的关联规则挖掘包含两个过程:
和
(5)根据规则中所处理的值类型,关联规则可分为:
和
(6)Apriori性质是指:
(7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法:
、
和
(8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型:
、
、、和
(9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是
二、单选题
(1)下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析
(2)支持度(support)是衡量兴趣度度量()的指标。
A、实用性B、确定性C.、简洁性D、新颖性
(3)置信度(confidence)是衡量兴趣度度量()的指标。
A、简洁性B、确定性C.、实用性D、新颖性
(4)根据关联分析中所处理的值类型,可以将关联规则分类为:
()
A、布尔关联规则和量化关联规则B、单维关联规则和多维关联规则
C、单层关联规则和多层关联规则D、简答关联规则和复杂关联规则
(5)规则:
age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)是一个
A、单维关联规则B、多维关联规则
C、混合维关联规则D、不是一个关联规则
三、多选题
(1)根据关联分析中所涉及的抽象层,可以将关联规则分类为:
()
A、布尔关联规则B、单层关联规则C、多维关联规则D、多层关联规则
(2)根据关联分析中所涉及的数据维,可以将关联规则分类为:
()
A、布尔关联规则B、单维关联规则C、多维关联规则D、多层关联规则
(3)Apriori算法所面临的主要的挑战包括:
A、会消耗大量的内存B、会产生大量的候选项集
C、对候选项集的支持度计算非常繁琐D、要对数据进行多次扫描
四、简答题
(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?
各有什么特点?
(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。
(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
(4)什么是简洁性约束?
第6章分类和预测
一、填空题
(1)通过对数据进行预处理,可以提高分类和预测过程的、
和
(2)防止分类中的过分适应的两种方法分别是:
和
二、单选题
(1)下面哪种分类方法是属于神经网络学习算法?
()
A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理
(2)下面哪种分类方法是属于统计学的分类方法?
()
A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理
(3)下列哪个描述是正确的?
()
A、分类和聚类都是有指导的学习C、分类是有指导的学习,聚类是无指导的学习
B、分类和聚类都是无指导的学习D、分类是无指导的学习,聚类是有指导的学习
三、简答题
(1)简述判定树分类的主要步骤。
(2)在判定树归纳中,为什么树剪枝是有用的?
(3)为什么朴素贝叶斯分类称为“朴素”的?
简述朴素贝叶斯分类的主要思想。
(4)请简述判定树归纳算法的基本策略。
(5)对分类和预测方法进行比较和评估的标准都有哪些?
(6)简述数据分类的两步过程。
(7)简述后向传播分类的优缺点。
四、算法题
(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:
<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PCGame,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益
对age<18的顾客:
Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323
对age>23的顾客:
Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155
请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PCGame。
age
<1818…23>23
income
student
credit_rating
class
Income
student
credit_rating
class
high
no
fair
no
high
no
fair
no
medium
yes
fair
no
high
yes
excellent
yes
high
no
fair
no
medium
yes
fair
yes
medium
yes
excellent
yes
low
yes
fair
yes
low
no
excellent
yes
low
no
excellent
no
income
student
credit_rating
class
high
no
fair
yes
medium
yes
fair
yes
high
no
fair
yes
medium
yes
excellent
yes
第7章聚类分析
一、填空题
(1)在数据挖掘中,常用的聚类算法包括:
、、、基于网格的方法和基于模型的方法。
(2)聚类分析常作为一个独立的工具来获得
(3)一个好的聚类分析方法会产生高质量的聚类,具有两个特征:
和
(4)许多基于内存的聚类算法所常用的两种数据结构是和
(5)基于网格的聚类方法的优点是:
(6)孤立点产生的主要原因包括:
和
(7)在基于统计的孤立点检测中,常用于不一致性检验的参数包括:
、
和
二、单选题
(1)下面那种数据挖掘方法可以用来检测孤立点?
A.概念描述B.分类和预测C.聚类分析D.演变分析
(2)以下哪个指标不是表示对象间的相似度和相异度
A、Euclidean距离B、Manhattan距离C、Eula距离D、Minkowski距离
(3)以下哪种聚类方法可以发现任意形状的聚类?
A、划分的方法B、基于模型的方法C、基于密度的方法D、层次的方法
三、简答题
(1)数据挖掘对聚类分析有哪些要求?
(2)简述基于划分的聚类方法。
划分的准则是什么?
(3)列举孤立点挖掘的常见应用。
(4)简单地描述如何计算由如下类型的变量描述的对象间的相异度:
a)不对称的二元变量
b)标称变量
c)比例标度型(ratio-scaled)变量
d)数值型的变量
(5)给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤。
第九章电子商务与数据挖掘
一、填空题
(1)Web数据挖掘通常包括、和三种形式。
(2)进行WebUsageMining主要是通过对系统日志信息的数据挖掘,常用的数据源包括:
、和。
二、简答题
(1)列举WEB日志的字段。
(2)跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?
(3)列举WEB使用挖掘(WebUsageMining)的应用。
(4)基于Web日志的用户访问模式挖掘有什么缺点?
(5)电子商务中进行数据挖掘有哪些难点?
作业答案
第一章引言
一、填空题
(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示
(2)算法的效率、可扩展性和并行处理
(3)统计学、数据库技术和机器学习
(4)WEB挖掘
(5)一些与数据的一般行为或模型不一致的孤立数据
二、单选题
(1)B;
(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;
三、简答题
(1)什么是数据挖掘?
答:
数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:
一个典型的数据挖掘系统应该包括以下部分:
数据库、数据仓库或其他信息库
数据库或数据仓库服务器
知识库
数据挖掘引擎
模式评估模块
图形用户界面
(3)请简述不同历史时代数据库技术的演化。
答:
1960年代和以前:
研究文件系统。
1970年代:
出现层次数据库和网状数据库。
1980年代早期:
关系数据模型,关系数据库管理系统(RDBMS)的实现
1980年代后期:
出现各种高级数据库系统(如:
扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。
1990年代:
研究的重点转移到数据挖掘,数据仓库,多媒体数据库和网络数据库。
2000年代:
人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:
常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:
空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
(5)什么是模式兴趣度的客观度量和主观度量?
答:
客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:
支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:
出乎意料的、新颖的、可行动的等等。
(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?
答:
一个模式是有趣的,如果
(1)它易于被人理解;
(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。
(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
答:
根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。
第二章数据仓库和数据挖掘的OLAP技术
一、填空题
(1)星形模式、雪花模式和事实星座模式
(2)不物化、部分物化和全物化
(3)面向主题、数据集成、随时间而变化和数据不易丢失
(4)事务操作,只读查询
(5)分布的、代数的和整体的
(6)自顶向下视图、数据源视图、数据仓库视图、商务查询视图
(7)关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
(8)分布的
(9)海量数据,有限的内存和时间
二、单选题
(1)B;
(2)D;(3)C;(4)A;(5)B
三、多选题
(1)ABD;
(2)ABC;(3)BCD;(4)ACD;
四、简答题
(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
答:
使用一个独立的数据仓库进行OLAP处理是为了以下目的:
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。
(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
(2)为什么说数据仓库具有随时间而变化的特征?
答:
(1)数据仓库的时间范围比操作数据库系统要长的多。
操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10年)。
(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。
(3)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?
答:
因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。
而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。
此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
(4)请简述几种典型的多维数据的OLAP操作
答:
典型的OLAP操作包括以下几种
上卷:
通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;
下钻:
上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;
切片:
在给定的数据立方体的一个维上进行选择,导致一个子方;
切块:
通过对两个或多个维执行选择,定义子方;
转轴:
转动数据的视角,提供数据的替代表示;
钻过:
执行涉及多个事实表的查询;
钻透:
使用关系SQL机制,钻到数据立方体的底层,到后端关系表
(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?
答:
(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。
(2)数据仓库不需要事务处理,恢复,和并发控制等机制。
(3)数据仓库只需要两种数据访问:
数据的初始转载和数据访问(读操作)。
(6)假定Big_University的数据仓库包含如下4个维:
student,course,semester和instructor;2个度量:
count和avg_grade。
在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 作业