欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    数据仓库与数据挖掘考试习题汇总Word文件下载.docx

    • 资源ID:3924564       资源大小:40.44KB        全文页数:39页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库与数据挖掘考试习题汇总Word文件下载.docx

    1、实体完好地描绘出来。4、依照事实表中胸怀的可加性状况,能够把事实表对应的事实分为 4 种种类:事务事实、快照事实、线性项目事实和事件事实。5、确立了数据库房的粒度模型此后,为提升数据库房的使用性能,还需要依据拥戴需求设计聚合模型。6、在项目实行时,依据事实表的特色和拥戴的查问需求,能够采纳时间、业务种类、地区和部下组织等多种数据切割种类。7、当维表中的主键在事实表中没有与外键关系时,这样的维称为退化维。它于事实表并没关系,但有时在查问限制条件(如订单号码、出货单编号等)中需要用到。8、维度能够依据其变化快慢分为元变化维度、迟缓变化维度和强烈变化维度三类。9、数据库房的数据量往常较大,且数据一般

    2、极少更新,能够经过设计和优化索引结构来提升数据存取性能。10、数据库房数据库常有的储存优化方法包含表的合并与簇文件、反向规范化引入冗余、表的物理切割(分区) 。第四章1、关系规则的经典算法包含 Apriori 算法和 FP-growth 算法 ,此中 FP-grownth算法的效率更高。2、假如 L2=a,b,a,c,a,d,b,c,b,d, 则连结产生的 C3=a,b,c,a,b,d,a,c,d,b,c,d再经过修剪, C3=a,b,c,a,b,d3、设定 supmin=50%, 交易集如则 L1=A , B , C L2=A,CT1A B CT2A CT3A DT4B E F第五章1、分类

    3、的过程包含获取数据、预办理、分类器设计和分类决议。2、分类器设计阶段包含三个过程:区分数据集、分类器结构和分类器测试。3、分类问题中常用的评论准则有精准度、查全率和查准率和会合均值。4、支持向量机中常用的核函数有多项式核函数、径向基核函数和 S 型核函数。第六章1、聚类解析包含连续型、二值失散型、多值失散型和混淆种类 4 种种类描绘属性的相像度计算方法。2、连续型属性的数据样本之间的距离有欧氏距离、 曼哈顿距离和明考斯基距离。3、区分聚类方法对数据集进行聚类时包含三个重点:选种某种距离作为数据样本减的相像性胸怀、选择评论聚类性能的准则函数和选择某个初始分类,以后用迭代的方法获取聚类结果,使得评

    4、论聚类的准则函数获得最优值。2/224、层次聚类方法包含凝集型和分解型两中层次聚类方法。填空题 20 分,简答题 25 分,计算题 2 个( 25 分),综合题 30 分1、数据库房的构成? P2数据库房数据库,数据抽取工具,元数据,接见工具,数据市集,数据库房管理,信息公布系统2、数据发掘技术对聚类解析的要求有哪几个方面? P131可伸缩性;办理不同种类属性的能力;发现随意形状聚类的能力;减小对先验知识和用户自定义参数的依靠性;办理噪声数据的能力;可解说性和适用性3、数据库房在储存和管理方面的特色与重点技术? P7数据库房面对的是大量数据的储存与管理并行办理针对决议支持查问的优化支持多维解析

    5、的查问模式4、常有的聚类算法能够分为几类? P132鉴于区分的聚类算法, 鉴于层次的聚类算法, 鉴于密度的聚类算法, 鉴于网格的聚类算法,鉴于模型的聚类算法 等。5、一个典型的数据库房系统的构成? P12数据源、数据储存与管理、 OLAP服务器、前端工具与应用6、 数据库房常有的储存优化方法? P71表的合并与簇文件;反向规范化,引入冗余;表的物理切割。7、 数据库房发展演变的 5 个阶段? P20以报表为主以解析为主以展望模型为主以运转导游为主以及时数据库房、自动决议应用为主8、 ID3 算法主要存在的弊端? P116(1)ID3 算法在选择根结点和各内部结点中的分枝属性时, 使用信息增益作

    6、为评论标准。信息增益的弊端是偏向于选择取值许多的属性,在有些状况下这种属性可能不会供给太多有价值的信息。(2) ID3 算法只好对描绘属性为失散型属性的数据集结构决议树。9、 简述数据库房 ETL软件的主要功能和对产生数据的目标要求。 P30 ETL软件的主要功能 :数据的抽取,数据的变换,数据的加载对产生数据的目标要求:详尽的、历史的、规范化的、可理解的、即时的、质量可控制的10、 简述分类器设计阶段包含的 3 个过程。区分数据集,分类器结构,分类器测试11、 什么是数据冲洗? P33数据冲洗是一种使用模式辨别和其余技术,在将原始数据变换和移到数据库房从前来升级原始数据质量的技术。12、 支

    7、持度和置信度的计算公式及数据计算( P90)找出全部的规则 X Y , 使支持度和置信度分别大于门限支持度: 事务中 X 和 Y 同时发生的比率 ,P(X ? Y) 置信度:项集 X 发生时, Y 同时发生的条3/ 22c( XSupport ( X Y ) Milk , DiaperBeer(0.4, 0.67)Y )Support ( X )件概率 P(Y|X)Example:13、利用信息包图设计数据库房观点模型需要确立的三方面内容。 P57确立指标,确立维度,确立类型14、K-近邻分类方法的操作步骤(包含算法的输入和输出) 。P12815、什么是技术元数据,主要包含的内容? P29技术

    8、元数据是描绘对于数据库房技术细节的数据, 应用于开发、 管理和保护DW,包含:DW结构的描绘 , 如 DW的模式、视图、维、层次结构和导出数据的定义,数据市集的地点和内容等业务系统、 DW和数据市集的系统结构和模式汇总算法。包含胸怀和维定义算法,数据粒度、主题领域、聚合、汇总和预约义的查问和报告。由操作型业务环境到数据库房业务环境的映照。包含源数据和他们的内容、数据切割、数据提取、 冲洗、变换规则和数据刷新规则及安全(用户受权和存取控制)16、业务元数据主要包含的内容?业务元数据:从业务角度描绘了 DW中的数据,供给了介于使用者和实质系统之间的语义层,主要包含:使用者的业务属于所表达的数据模型

    9、、对象名和属性名接见数据的原则和数据的根源系统供给的解析方法及公式和报表的信息。17、K-means算法的基本操作步骤(包含算法的输入和输出) 。P1384/2218、数据从集结区加载到数据库房中的主要方法? P36SQL命令(如 Insert 或 Update)由 DW供给商或第三方供给特意的加载工具由 DW管理员编写自定义程序19、多维数据模型中的基本观点:维,维类型,维属性,粒度 P37维:人们察看数据的特定角度, 是考虑问题的一类属性, 如时间维或产品维维类型:也称维分层。即同一维度还能够存在细节程度不同的各个类型属性(如时间维包含年、季度、月等)维属性:是维的一个取值,是数据线在某维

    10、中地点的描绘。粒度: DW中数据综合程度高低的一个权衡。粒度低,细节程度高,回答查问的种类多?20、 Apriori 算法的基本操作步骤 P93Apriori 使用一种称作逐层搜寻的迭代方法, K 项集用于探究 K+1 项集。该方法是鉴于候选的策略,降低候选数Apriori 剪枝原则:若任何项集是非屡次的, 则其超集必定是非屡次的 (不用产生和测试超集)该原则鉴于以下支持度的特征 :X ,Y : ( X Y) s( X ) s(Y)项集的支持度不会超出其子集支持度的反单一特征( anti-monotone ):假如一个会合不可以经过测试,则它的全部超集也都不可以经过同样的测试。令 k=1产生长

    11、度为 1 的屡次项集循环,直到无新的屡次项集产生从长度为 k 的屡次项集产生长度为 k+1 的候选屡次项集连结步:项集的各项排序,前 k-1 个项同样若候选屡次子集包含长度为 k 的非屡次子集,则剪枝5/22剪枝步:利用支持度属性原则扫描数据库,计算每个候选屡次集的支持度删除非屡次项 , 保存屡次项什么是数据库房?数据库房是一个面向主体的、集成的、时变的、非易失的数据会合,支持管理过程的决议过程数据库房清除与对于决议无用的数据,供给特定主题的简洁视图。经过集成多个异种数据源而构成数据库房老是物理地分别寄存数据,这些数据源于操作环境下的应用数据操作性的数据更新不会发生在数据库房的环境下 .2联机

    12、事务办理 OLTP (on-line transaction processing)传统的关系 DBMS 的主要任务他们涵盖了一个组织的大多半平时操作:购置、库存、制造、银行、薪资、注册、记账等。联机解析办理 OLAP (on-line analytical processing)数据库房系统的主要任务数据解析和决议OLTP 和 OLAP 的差异用户和系统的面向性 :OLTP 面向顾客,而 OLAP 面向市场数据内容: OLTP 系统管理目前数据,而 OLAP 管理历史的数据。数据库设计: OLTP 系统采纳实体 -联系( ER)模型和面向应用的数据库设计,而 OLAP 系统往常采纳星形和雪花

    13、模型视图: OLTP 系统主要关注一个公司或部门内部的目前数据,而 OLAP 系统主要关注汇总的一致的数据。接见模式: OLTP 接见主要有短的原子事务构成, 而 OLAP 系统的接见大多半是只读操作,只管很多可能是复杂的查问数据库房和 OLAP 工具鉴于多维数据模型。这种模型将数据看作数据立方体形式。数据立方体赞同从多维对数据建模和察看。它由维和事实定义。3最流行的数据库房数据模型是多维模型,这种模型能够以星形模式、雪花型模式或事实星座模式形式存在。成立数据库房模型:维与胸怀星型模型 : 最常有的模型典范是星形模式,此中数据库房包含( 1)一个大的包含大量数据而且不含冗余的中心表(事实表)

    14、;(2)一组小的隶属表(维表) ,每维一个。中间是事实表,连结一组维表雪花模式 : 雪花模式是星型模式的变种,此中某些维表是规范化的,而数据进一步分解到附带的维表中,它的图形近似于雪花的形状事实星座表 : 多个事实表共享维表,这种模式能够看作星型模式及,所以称为星系模式或事实星座数据立方体胸怀是一个数值函数,能够对数据立方体空间的每一个点求值。经过对给定点的各维 -值对齐集数据,计算该点的胸怀值。胸怀能够依据所用的齐集函数种类能够分红三类 (即散布的、代数的和整体的)。观点分层定义一个映照序列,将低层观点映照到更一般的较高层观点。6/22多维数据模型中的 OLAP 操作(1)上卷:上卷操作经过

    15、沿一个维的观点分层向上爬升或许经过维规约,对数据立方体进行齐集;(2)下钻:下钻是上卷的逆操作,它由不太详尽的数据到更详尽的数据。下钻能够经过沿维的观点分层向下或引入附带的维来实现;(3)切片和切块:切片操作对给定立方体的一个维进行选择, 致使一个子立方体。切块操作经过对两个或多个维履行选择,定义子立方体;(4)转轴(旋转):转轴是一种可视化操作,它转动数据的视角,供给数据的代替表示;(5)其余 OLAP 操作:钻过履行波及多个事实表的查问; 钻透操作使用关系 SQL 体制,钻透数据立方体的基层,到后段关系表。三层数据库房的系统结构(1)基层是库房数据服务器,它几乎老是关系数据库系统。(2)中

    16、间层是 OLAP 服务器,其典型的实现或许是 (i) 关系 OLAP (ROLAP )模型 ,即扩大的关系 DBMS ,它将对多维数据的操作映照为标准的关系操作; 或许是( ii )多维 OLAP(MOLAP) 模型即特意的服务器,它直接实现多维数据和操作。(3)顶层是前段客户层,它包含查问和报表工具、 解析工具和 /或数据发掘工具(比如趋向解析、展望等)。从结构的角度看,有三种数据库房模型:公司库房、数据市集和虚构库房。数据市集( Data Mart ):数据市集包含公司范围数据的一个子集,对于特定的用户群是实用的。其范围限于选定的主题。依据数据的根源不同,数据市集分为独立的和依靠的两类。数

    17、据库房后端工具和适用程序包含以下功能:数据提取;数据清理;数据变换;装入;刷新。数据立方体的物化有三种选择: (1)不物化; (2)完好物化;( 3)部分物化。有三种数据库房应用:信息办理、解析办理和数据发掘。4分类和展望找出描绘并区分数据类和观点的模型 (或函数) 以便能够使用模型展望类标志未知的对象类。比如:依照天气区分国家种类或许依照每里的耗油量区分汽车种类。表示形式:判断树,分类规则,神经网络。展望:展望某些未知的或空缺的数据值。聚类解析类标志未知:把数据聚类或分构成新的类,比如:把房屋聚类来找出房屋的散布模式。聚类依照以下原则:最大化类内的相像性和最小化类间的相像性。FP-树结构的长

    18、处完好性 : 不会损坏任何交易的长模式 为屡次模式发掘保存了完好的信息简短性 减少了不有关的信息 非屡次项集被删掉屡次项集按支持度递减次序摆列 :越是屡次的项集越有可能被共享7/22不会比原数据库大 (假如不算节点链和计数 )基本思想 (分治策略):使用 FP-树循环的产生屡次模式路径方法 对于每一个项 ,先结构它的条件模式基 ,而后结构它的条件 FP-树在每一个新创立的条件 FP-树上重复此过程直到结果 FP 树为空 ,或它只包含一条路径 (单路径将产生全部的它的子路径的联合 ,每一便条路径都是一个屡次模式 )发掘 FP-树的主要步骤1)为 FP-树中的每一个节点结构条件模式基2)为每一个条

    19、件模式基条件 FP-树3)循环的发掘条件 FP-树,生成到现在为止获取的屡次模式假如条件 FP-树只包含单条路径,简单的列举全部的模式一、 名词解说1.数据库房:是一种新的数据办理系统结构,是面向主题的、集成的、不行更新的 (稳固性 )、随时间不停变化 (不同时间 )的数据会合,为公司决议支持系统供给所需的集成信息。2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异样数据。3.OLAP :OLAP 是在 OLTP 的基础上发展起来的,以数据库房为基础的数据解析办理, 是共享多维信息的迅速解析, 是被特意设计用于支持复杂的解析操作,重视对解析人员和高层管理人员的决议支持。4.粒度:

    20、指数据库房的数据单位中保存数据细化或综合程度的级别。粒度影响寄存在数据库房中的数据量的大小, 同时影响数据库房所能回答查问问题的细节程度。5.数据规范化:指将数据按比率缩放 (如改换大单位 ),使之落入一个特定的地区(如 01)以提升数据发掘效率的方法。规范化的常用方法有:最大最小规范化、零均值规范化、小数定标规范化。6.关系知识:是反应一个事件和其余事件之间依靠或互相关系的知识。假如两项或多项属性之间存在关系, 那么此中一项的属性值就能够依照其余属性值进行展望。7.数据发掘:从大量的、不完好的、有噪声的、模糊的、随机的数据中,提取隐含在此中的、人们早先不知道的、 但又是潜伏实用的信息和知识的

    21、过程。8.OLTP : OLTP 为联机事务办理的缩写, OLAP 是联机解析办理的缩写。前者是以数据库为基础的, 面对的是操作人员和低层管理人员, 对基本数据进行查问和增、删、改等办理。8/229.ROLAP :是鉴于关系数据库储存方式的,在这种结构中,多维数据被映像成二维关系表,往常采纳星型或雪花型架构,由一个事实表和多个维度表构成。10.MOLAP :是鉴于近似于“超立方”块的 OLAP 储存结构,由很多经压缩的、近似于多维数组的对象构成,并带有高度压缩的索引及指针结构,经过直接偏移计算进行存取。11.数据归约:减小数据的取值范围,使其更合适于数据发掘算法的需要,而且能够获取和原始数据同

    22、样的解析结果。12.广义知识:经过对大量数据的归纳、归纳和抽象,提炼出带有广泛性的、归纳性的描绘统计的知识。13.展望型知识:是依据时间序列型数据,由历史的和目前的数据去推断将来的数据,也能够认为是以时间为重点属性的关系知识。14.偏差型知识:是对差异和极端特例的描绘,用于揭露事物偏离惯例的异样现象,如标准类外的特例,数据聚类外的离群值等。15.遗传算法:是一种优化搜寻算法,它第一产生一个初始可行解集体,而后对这个集体经过模拟生物进化的选择、 交错、变异等遗传操作遗传到下一代集体,并最后达到全局最优。16. 聚类:是将物理或抽象对象的会合分构成为多个类或簇 (cluster) 的过程,使得在同

    23、一个簇中的对象之间拥有较高的相像度, 而不同簇中的对象差异较大。17.决议树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则发掘的典型方法,可用于对新样本进行分类。18. 相异度矩阵:是聚类解析顶用于表示各对象之间相异度的一种矩阵, n 个对象的相异度矩阵是一个 nn 维的单模矩阵,其对角线元素均为 0,对角线双侧元素的值同样。19.屡次项集:指知足最小支持度的项集,是发掘关系规则的基本条件之一。20.支持度:规则 A B 的支持度指的是全部事件中 A 与 B 同地发生的的概率,即 P(AB),是 AB 同时发生的次数与事件总次数之比。支持度是对关系规则重要性的权衡。21.

    24、可信度:规则 A B 的可信度指的是包含 A 项集的同时也包含 B 项集的条件概率 P(B|A) ,是 AB 同时发生的次数与 A 发生的全部次数之比。 可信度是对关系规则的正确度的权衡。22.关系规则:同时知足最小支持度阈值和最小可信度阈值的规则称之为关系规则。二、 综合题9/221.何谓数据发掘?它有哪些方面的功能?从大量的、不完好的、有噪声的、模糊的、随机的数据中,提取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程称为数据发掘。有关的名称有知识发现、数据解析、数据交融、决议支持等。数据发掘的功能包含:观点描绘、关系解析、分类与展望、聚类解析、趋向解析、孤立点解析以及偏差

    25、解析等。2.何谓数据库房?为何要成立数据库房?数据库房是一种新的数据办理系统结构,是面向主题的、集成的、不可更新的 (稳固性 )、随时间不停变化 (不同时间 )的数据会合,为公司决议支持系统供给所需的集成信息。成立数据库房的目的有 3 个:一是为认识决公司决议解析中的系统响应问题,数据库房能供给比传统事务数据库更快的大规模决议解析的响应速度。二是解决决议解析对数据的特别需求问题。决议解析需要全面的、正确的集成数据,这是传统事务数据库不可以直接供给的。三是解决决议解析对数据的特别操作要求。决议解析是面向专业用户而非一般业务员,需要使用专业的解析工具,对解析结果还要以商业智能的方式进行表现,这是事

    26、务数据库不可以供给的。3.列举操作型数据与解析型数据的主要差异。操作型数据 解析型数据目前的、细节的 历史的、综合的面向应用、事务驱动 面向解析、解析驱动屡次增、删、改 几乎不更新,按期追加操作需求早先知道 解析需求早先不知道生命周期切合 SDLC 完好不同的生命周期对性能要求高 对性能要求宽松一次操作数据量小 一次操作数据量大支持平时事务操作 支持管理决议需求4.何谓 OLTP 和 OLAP ?它们的主要异同有哪些?OLTP 即联机事务办理, 是以传统数据库为基础、 面向操作人员和低层管理人员、对基本数据进行查问和增、删、改等的平时事务办理。 OLAP 即联机解析办理,是在 OLTP 基础上发展起来的、以数据库房基础上的、面向高层管理人员和专业解析人员、为公司决议支持服务。OLTP 和 OLAP 的主要差异以下表:OLTP OLAP数据库数据 数据库或数据库房数据10/22细节性数据 综合性数据目前数据 历史数据常常更新 不更新,但周期性刷新一次性办理的数据量小 一次办理的数据量大对响应时间要求高 响应时间合理用户数目大 用户数据相对较少面向操作人员,支持平时操作 面向决议人


    注意事项

    本文(数据仓库与数据挖掘考试习题汇总Word文件下载.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开