数据挖掘作业讲解.docx
- 文档编号:13339610
- 上传时间:2023-06-13
- 格式:DOCX
- 页数:32
- 大小:60.74KB
数据挖掘作业讲解.docx
《数据挖掘作业讲解.docx》由会员分享,可在线阅读,更多相关《数据挖掘作业讲解.docx(32页珍藏版)》请在冰点文库上搜索。
数据挖掘作业讲解
《数据挖掘》作业
第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:
数据清理、数据集成、
数据选择、数据变换、数据挖掘、模式评估和知识表示
(2)数据挖掘的性能问题主要包括:
算法的效率、可扩展性和并行处理
(3)当前的数据挖掘研究中,最主要的三个研究方向是:
统计学、数据库技术和机器学习
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:
WEB挖掘
(5)孤立点是指:
一些与数据的一般行为或模型不一致的孤立数据
二、单选题
(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:
(B)
A、所涉及的算法的复杂性;B、所涉及的数据量;
C、计算结果的表现形式;D、是否使用了人工智能技术
(2)孤立点挖掘适用于下列哪种场合?
(D)
A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测
(3)下列几种数据挖掘功能中,(D)被广泛的应用于股票价格走势分析
A.关联分析B.分类和预测C.聚类分析D.演变分析
(4)下面的数据挖掘的任务中,(B)将决定所使用的数据挖掘功能
A、选择任务相关的数据B、选择要挖掘的知识类型
C、模式的兴趣度度量D、模式的可视化表示
(5)下列几种数据挖掘功能中,(A)被广泛的用于购物篮分析
A、关联分析B、分类和预测C、聚类分析D、演变分析
(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是(B)
A.关联分析B.分类和预测C.演变分析D.概念描述
(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是(C)
A.关联分析B.分类和预测C.聚类分析D.孤立点分析E.演变分析
(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是(E)
A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述
三、简答题
(1)什么是数据挖掘?
答:
数据挖掘是指从大量数据中提取或“挖掘”知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:
典型的数据挖掘系统具有:
数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;数据挖掘引擎;模式评估;用户界面。
(3)请简述不同历史时代数据库技术的演化。
答:
1960年代和以前:
研究文件系统;
1970年代:
出现层次数据库和网状数据库
1980年代早期:
关系数据模型,关系数据库管理系统(RDBMS)的实现
1980年代后期:
出现各种高级数据库系统(如:
扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等)
1990年代:
研究的重点转移到数据挖掘、数据仓库、多媒体数据库和网络数据库
2000年代:
人们专注于研究数据管理和挖掘,基于各种应用的数据挖掘、XML数据库和整合的信息系统。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:
常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:
空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
(5)什么是模式兴趣度的客观度量和主观度量?
答:
客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:
支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:
出乎意料的、新颖的、可行动的等等。
(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?
答:
一个模式是有趣的,如果
(1)它易于被人理解;
(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。
(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
答:
根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。
第二章数据仓库和数据挖掘的OLAP技术
一、填空题
(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:
星形模式、雪花模式和事实星座模式
(2)给定基本方体,方体的物化有三种选择:
不物化、部分物化和全物化
(3)著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别
的四个特征是:
面向主题、数据集成、随时间而变化和数据不易丢失
(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。
(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:
分布的、代数的和整体的
(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:
自顶向下视图、数据源视图、数据仓库视图、商务查询视图
(7)OLAP服务器的类型主要包括:
关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
(8)求和函数sum()是一个分布的的函数。
(9)方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。
二、单选题
(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作(B)
A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)
(2)以下哪个范围是数据仓库的数据库规模的一个合理范围(D)
A、1-100MB、100M-10GC、10-1000GD、100GB-数TB
(3)存放最低层汇总的方体称为:
(C)
A、顶点方体B、方体的格C、基本方体D、维
(4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?
(A)
A、上卷B、下钻C、切块D、转轴
(5)平均值函数avg()属于哪种类型的度量?
(B)
A、分布的B、代数的C、整体的D、混合的
三、多选题
(1)OLAP系统和OLTP系统的主要区别包括(ABD)。
A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;
B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;
C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;
D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。
(2)从结构的角度看,数据仓库模型包括以下几类:
(ABC)
A、企业仓库B、数据集市C、虚拟仓库D、信息仓库
(3)数据仓库的三层架构主要包括以下哪三部分?
(BCD)
A、数据源B、数据仓库服务器C、OLAP服务器D、前端工具
(4)以下哪些是数据仓库的主要应用?
(ACD)
A、信息处理B、互联网搜索C、分析处理D、数据挖掘
四、简答题
1、为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
答:
使用一个独立的数据仓库进行OLAP处理是为了以下目的:
(1)提高两个系统的性能
操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。
(2)两者有着不同的功能
操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(3)两者有着不同的数据
数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
2、为什么说数据仓库具有随时间而变化的特征?
答:
(1)数据仓库的时间范围比操作数据库系统要长的多。
操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息(比如过去5-10年)。
(2)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。
3、试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法?
答:
因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。
而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。
此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
4、请简述几种典型的多维数据的OLAP操作
答:
典型的OLAP操作包括以下几种
上卷:
通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;
下钻:
上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;
切片:
在给定的数据立方体的一个维上进行选择,导致一个子方;
切块:
通过对两个或多个维执行选择,定义子方;
转轴:
转动数据的视角,提供数据的替代表示;
钻过:
执行涉及多个事实表的查询;
钻透:
使用关系SQL机制,钻到数据立方体的底层,到后端关系表
5、为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?
答:
(1)尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下。
(2)数据仓库不需要事务处理,恢复,和并发控制等机制。
(3)数据仓库只需要两种数据访问:
数据的初始转载和数据访问(读操作)。
6、假定Big_University的数据仓库包含如下4个维:
student,course,semester和instructor;2个度量:
count和avg_grade。
在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。
在较高的概念层,avg_grade存放给定组合的平均成绩。
(1)为数据仓库画出雪花模式图。
(2)由基本方体[student,course,semester,instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。
答:
特殊的OLAP操作如下所示:
a)在课程维表中,从course_id到department进行上卷操作;
b)在学生维表中,从student_id到university进行上卷操作;
c)根据以下标准进行切片和切块操作:
department=”CS”anduniversity=”BigUniversity”;
d)在学生维表中,从university到student_id进行下钻操作。
(3)如果每维有5层(包括all),如student 答: 这个立方体将包含54=625个长方体。 7、在数据仓库中,元数据的主要用途包括哪些? 答: 在数据仓库中,元数据的主要用途包括: (1)用作目录,帮助决策支持系统分析者对数据仓库的内容定义 (2)作为数据仓库和操作性数据库之间进行数据转换时的映射标准 (3)用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。 8、数据仓库后端工具和程序包括哪些? 答: 数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括: (1)数据提取: 从多个外部的异构数据源收集数据 (2)数据清理: 检测数据种的错误并作可能的订正 (3)数据变换: 将数据由历史或主机的格式转化为数据仓库的格式 (4)装载: 排序、汇总、合并、计算视图,检查完整性,并建立索引和分区 (5)刷新: 将数据源的更新传播到数据仓库中 五、计算题 1、假定基本立方体有三个维A,B,C,其单元数如下: |A|=100,000,|B|=10,000,|C|=1,000,假定分块将每维分成10部分 a.请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序; 答: a.内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示: 2、分别求这两个次序下计算二维平面所需要的内存空间的大小。 答: 这两个次序下计算二维平面所需要的内存空间的大小: 内存空间需求最小的次序: 10,000×1,000(用于整个BC平面)+(100,000/10)×1,000(用于AC平面的一行)+(100,000/10)×(10,000/10)(用于AB平面的一格)=30,000,000 内存空间需求量最大的块计算次序: 100,000×10,000(用于整个AB平面)+100,000×(1,000/10)(用于AC平面的一行)+(10,000/10)×(1,000/10)=1,010,100,000 第三章数据预处理 一、填空题 (1)进行数据预处理时所使用的主要方法包括: 数据清理、数据集成、数据变换和数据规约 (2)处理噪声数据的方法主要包括: 分箱、聚类、计算机和人工检查结合和回归 (3)模式集成的主要问题包括: 整合不同数据源中的元数据和实体识别问题 (4)数据概化是指: 沿概念分层向上概化 (5)数据压缩可分为: 有损压缩和无损压缩两种类型。 (6)进行数值归约时,三种常用的有参方法是: 线性回归方法、多元回归和对数线性模型 (7)数据离散度的最常用度量是五数概括、中间四分位数区间和标准差 二、单选题 (1)数据归约的目的是(C) A、填补数据种的空缺值B、集成多个数据源的数据 C、得到数据集的压缩表示D、规范化数据 (2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A A.数据清理B.数据集成C.数据变换D.数据归约 (3)进行数据规范化的目的是(D) A.去掉数据中的噪声 B.对数据进行汇总和聚集 C.使用概念分层,用高层次概念替换低层次“原始”数据 D.将属性按比例缩放,使之落入一个小的特定区间 (4)数据的噪声是指(C) A、孤立点B、空缺值 C、测量变量中的随即错误或偏差D、数据变换引起的错误 (5)那种数据变换的方法将数据沿概念分层向上汇总(C) A、平滑B、聚集C、数据概化D、规范化 (6)(B)通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层B.离散化C.分箱D.直方图 三、多选题 (1)下面哪些问题是我们进行数据预处理的原因? (ABC) A.数据中的空缺值B.噪声数据 C.数据中的不一致性D.数据中的概念分层 (2)下面的度量中,哪些是数据离散度的度量? (BD) A.中位数B.标准差C.模D.中间四分位数区间 (3)数据清理的目的是处理数据中的(ABC) A、空缺值B、噪声数据C、不一致数据D、敏感数据 (4)下列哪些是数据变换可能涉及的内容? (BD) A、数据压缩B、数据概化C、维归约D、规范化 (5)以下哪些原因可能引起空缺值(ACD) A、设备异常 B、命名规则的不一致 C、与其他已有数据不一致而被删除 D、在输入时,有些数据因为得不到重视而没有被输入 四、简答题 1、常用的数值属性概念分层的方法有哪些? 答: 常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。 2、典型的生成分类数据的概念分层的方法有哪些? 答: 典型的生成分类数据的概念分层的方法包括: (1)由用户或专家在模式级显示的说明属性的部分序; (2)通过显示数据分组说明分层结构的一部分。 (3)说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。 (4)对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。 3、在现实世界的数据中,元组在某些属性上缺少值是常有的。 描述处理该问题的各种方法。 答: 处理空缺值的方法有: (1)忽略元组。 当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。 (2)人工填写空缺值。 这种方法工作量大,可行性低 (3)使用一个全局变量填充空缺值: 比如使用unknown或-∞ (4)使用属性的平均值填充空缺值 (5)使用与给定元组属同一类的所有样本的平均值 (6)使用最可能的值填充空缺值。 如使用像Bayesian公式或判定树这样的基于推断的方法 4、常见的数据归约策略包括哪些? 答: 数据归约策略包括: (1)数据立方体聚集 (2)维归约 (3)数据压缩 (4)数值归约 (5)离散化和概念分层产生 第四章数据挖掘原语、语言和系统结构 一、填空题 (1)概念分层有四种类型,分别是: 模式分层、集合分组分层、操作导出的分层和基于规则的分层 (2)常用的四种兴趣度的客观度量是: 简单性、确定性、实用性和新颖性 (3)同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。 二、单选题 (1)以下DMQL片断: (C) mineassociationsasbuyingHabits matchingP(X: customer,W)∧Q(X,Y)=>buys(X,Z)所指定的挖掘知识类型是: A、特征化B、区分C、关联D、分类 (2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能? (D) A、不耦合B、松散耦合C、半紧密耦合D、紧密耦合 三、多选题 (1)以下哪些OLAP操作是和概念分层紧密相关的? (AC) A、上卷B、切片C、下钻D、切块 四、简答题 1、定义数据挖掘任务的原语,主要应该包括哪些部分? 答: 一个定义数据挖掘任务的原语主要应该包括以下部分的说明: 说明数据库的部分或用户感兴趣的数据集; 要挖掘的知识类型; 用于指导挖掘的背景知识; 模式评估、兴趣度量; 如何显示发现的知识。 2、为什么需要数据挖掘原语和语言来指导数据挖掘? 答: 如果不使用数据挖掘原语和语言来指导数据挖掘 (1)会产生大量模式(重新把知识淹没) (2)会涵盖所有数据,使得挖掘效率低下 (3)大部分有价值的模式集可能被忽略 (4)挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。 3、描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别: 不耦合、松散耦合、半紧密耦合和紧密耦合。 答: 不耦合: DM系统不利用DB/DW系统的任何功能。 这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合: DM系统将使用DB/DW系统的某些功能。 这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。 半紧密耦合: 除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。 如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。 紧密耦合: DM系统平滑的集成到DB/DW系统中。 数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。 这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。 4、数据挖掘的GUI可能包含哪些部分? 答: 数据挖掘的GUI可能包含以下部分: (1)数据收集和数据查询编辑 (2)发现模式的表示 (3)分层结构说明和操纵 (4)数据挖掘原语的操作 (5)交互的多层挖掘 (6)其他各种信息 第五章概念描述: 特征化与比较 一、填空题 (1)概念描述由特征化和区分组成。 (2)一般来说,进行类比较的过程应该包括以下几个步骤: 数据收集、维相关分析、 同步概化和导出比较的表示 (3)从数据分析的角度看,数据挖掘可以分为两类: 描述性挖掘和预测性挖掘 (4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。 可采用的度量包括: 信息增益、Gini索引、不确定性和相关系数 (5)数据离散度的最常用度量包括: 五数概括、中间四分位数区间和标准差 二、单选题 (1)类比较的过程中,我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体? (C) A、数据收集B、维相关分析C、同步概化D、导出比较的表示 (2)哪种图形显示方法常用于描述两个变量间的依赖模式? (D) A、直方图B、分位数图C、散布图D、LOESS曲线 (3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势? (C) A、直方图B、分位数图C、散布图D、LOESS曲线 (4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现? (B) A、直方图B、分位数图C、散布图D、LOESS曲线 (5)中心趋势度量模(mode)是指(B) A、算术平均值B、数据集中出现频率最高的值C、最大值D、最小值 三、多选题 (1)下面哪些是常用的数据概化方法? (BD) A、离散化B、数据立方体(OLAP技术) C、判定归纳树D、面向属性的归纳 (2)使用数据立方体方法进行数据概化的优点包括: (ABD) A、数据概化的一种有效实现 B、可以计算各种不同的度量值 C、受数据类型和度量类型的约束比较少 D、概化和特征分析通过一系列的数据立方体操作完成,简单高效 (3)以下哪些是属于中心趋势的度量(AD) A、平均值B、标准差C、五数概括D、中位数 四、简答题 1、简述类比较的过程。 答: 类比较的过程一般包括以下四个步骤: (1)数据收集 通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类; (2)维
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 作业 讲解