CPDA考试真题与包括.docx
- 文档编号:8798437
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:25
- 大小:21.87KB
CPDA考试真题与包括.docx
《CPDA考试真题与包括.docx》由会员分享,可在线阅读,更多相关《CPDA考试真题与包括.docx(25页珍藏版)》请在冰点文库上搜索。
CPDA考试真题与包括
精选文档
一、判断题(题数:
15,共15.0分)
1.定量属性能够是整数值或许是连续值。
()
正确答案:
√
2.分类模型的偏差大概分为两种:
训练偏差(trainingerror)和泛化偏差(generalization
error)。
()
正确答案:
√
3.在决议树中,跟着树中结点数变得太大,即使模型的训练偏差还在持续减低,可是查验误
差开始增大,这是出现了模型拟合不足的问题。
()
正确答案:
×
4.在聚类剖析中间,簇内的相像性越大,簇间的差异越大,聚类的成效就越差。
()
正确答案:
×
5.聚类剖析能够看作是一种非监察的分类。
()
正确答案:
√
6.假如一个对象不强属于任何簇,那么该对象是鉴于聚类的离群点。
()
正确答案:
√
7.同意偏差应依据错误记录对整个系统可能带来的损坏来确立,往常正是那些低使用率的产
品或不常使用的产品为库存偏差带来很大麻烦,所以应联合数目方差百分比和绝对值方差来
确立偏差。
()
正确答案:
√
8.召回率反应的是展望为正中的样本中正例的概率。
()
正确答案:
×
9.支持度表示前项与后项在一个数据集中同时出现的频次。
()
正确答案:
√
10.最大最小值标准化法也叫极值法,该方法合用于已知数据集的最小值或最大值状况。
()
正确答案:
√
.
精选文档
11.波特五力模型中五个压力根源是供给商讨价能力、购置者的议价能力、行业新进入者的
威迫、代替产品的威迫及公司内部的管理压力。
()
(1.0分)1.0分
正确答案:
×
12.异样值在数理统计里一般是指一组观察值中与均匀值的偏差超出三倍标准差的测定值。
()
正确答案:
×
13.数据可视化能够便于人们对数据的理解。
()
正确答案:
√
14.大数据思想,是指一种意识,认为公然的数据一旦办理适当能够为人类急需解决的问题供给答案。
()
正确答案:
√
15.资本自己拥有时间价值。
()
正确答案:
×
二、单项选择题(题数:
30,共45.0分)
1.某商场研究销售记录发现,购置牛奶的人很大体率会购置面包,这类属于数据发掘的哪种问题?
()
A、聚类剖析
B、关系规则
C、分类剖析
D、自然语言办理
正确答案:
B
2.以下两种描绘分别对应哪两种对分类算法的评论标准?
()
(a)警察抓杀人犯,描绘警察抓的人中有多少个是杀人犯的标准。
(b)描绘有多少比率的杀人犯给警察抓了的标准。
A、Precision,Recall
B、Recall,Precision
C、Precision,ROC
D、Recall,ROC
.
精选文档
正确答案:
A
3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
()
A、数据获得
B、分类和展望
C、数据预办理
D、数据可视化
正确答案:
C
4.当不知道数据所带标签时,能够使用哪一种技术促进带同类标签的数据与带其余标签的数据相分别?
()
A、分类
B、聚类
C、关系剖析
D、主成分剖析
正确答案:
B
5.下边哪一种不属于数据预办理的方法?
()
A、变量代换
B、失散化
C、齐集
D、预计遗漏值
正确答案:
D
6.假定12个销售价钱记录组已经排序以下:
5,10,11,13,15,35,50,55,72,92,204,215使
用等宽区分(宽度为50)方法将它们区分红四个箱,求15在哪个箱子里?
()
A、第一个
B、第二个
C、第三个
D、第四个
正确答案:
A
7.以下哪些算法是分类算法?
()
A、DBSCAN
B、
.
精选文档
C、K-Mean
D、K-medoids
正确答案:
B
8.以下哪些分类方法能够较好地防止样本的不均衡问题?
()
A、KNN
B、SVM
C、Bayes
D、神经网络
正确答案:
A
9.对于K均值和DBSCAN的比较,以下说法不正确的选项是()。
A、K均值抛弃被它辨别为噪声的对象,而DBSCAN一般聚类全部对象
B、K均值使用簇的鉴于原型的观点,而DBSCAN使用鉴于密度的观点
C、K均值很难办理非球形的簇和不一样大小的簇,DBSCAN能够办理不一样大小和不一样形状的
簇
D、K均值能够发现不是显然分别的簇,即使簇有重叠也能够发现,可是DBSCAN会集并有
重叠的簇
正确答案:
A
10.以下不属于关系剖析的重点因素的是()
A、支持度
B、置信度
C、满意度
D、提高度
正确答案:
C
11.因子剖析的主要作用有()
A、对变量进行降维
B、对变量进行鉴别
C、对变量进行聚类
D、以上都不对
正确答案:
A
12.ROC曲线凸向哪个角,代表模型越理想?
()
.
精选文档
A、左上角
B、左下角
C、右上角
D、右下角
正确答案:
A
13.SQL语句中删除表的命令是()
A、DROPTABLE
B、DELETETABLE
C、ERASETABLE
D、DELETEDBF
正确答案:
A
14.在多元回归模型的查验中,目的是查验每一个自变量与因变量在指定明显性水平上能否
存在线性有关关系的查验是()
A、r查验
B、t查验
C、f查验
D、DW查验
正确答案:
B
15.()供给的支撑技术,有效解决了大数据剖析、研发的问题,比方虚构化技术、并行计算、海量储存和海量管理等。
A、点计算
B、线计算
C、云计算
D、面计算
正确答案:
C
16.智能健康手环的应用开发,表现了()的数据采集技术的应用。
A、统计报表
B、网络爬虫
C、API接口
D、传感器
.
精选文档
正确答案:
D
17.以下对于数据重组的说法中,错误的选项是()
A、数据重组是数据的从头生产和从头采集
B、数据重组能够使数据焕发新的光辉
C、数据重组实现的重点在于多源数据交融和数据集成
D、数据重组有益于实现新奇的数据模式创新
正确答案:
A
18.美国海军军官莫里经过对古人航海日记的剖析,绘制了新的航海路线图,标了然狂风与
洋流可能发生的地址。
这表现了大数据剖析理念中的()
A、在数据基础上偏向于全体数据而不是抽样数据
B、在剖析方法上更着重有关剖析而不是因果剖析
C、在剖析成效上更追查效率而不是绝对精准
D、在数据规模上重申相对数据而不是绝对数据
正确答案:
B
19.目前国内社会中,最为突出的大数据环境是()
A、互联网
B、物联网
C、综合国力
D、自然资源
正确答案:
A
20.以下对于聚类发掘技术的说法中,错误的选项是()
A、不早先设定数据归类类目,完好依据数据自己性质将数据聚合成不一样类型
B、要求同类数据的内容相像度尽可能小
C、要求不一样类数据的内容相像度尽可能小
D、与分类发掘技术相像的是,都是要对数据进行分类办理
正确答案:
B
21.以下对于大数据的剖析理念的说法中,错误的选项是()
A、在数据基础上偏向于全体数据而不是抽样数据
B、在剖析方法上更着重有关剖析而不是因果剖析
C、在剖析成效上更追查效率而不是绝对精准
.
精选文档
D、在数据规模上重申相对数据而不是绝对数据
正确答案:
D
22.对于公司来说,数据使用的重点是()
A、数据采集
B、数据储存
C、数据剖析
D、数据再利用
正确答案:
D
23.数据库房的最后目的是()
A、采集业务需求
B、成立数据库房逻辑模型
C、开发数据库房的应用剖析
D、为用户和业务部门供给决议支持
正确答案:
D
24.大数据背景下,数据支撑业务的目的是()
A、成立数据科学
B、达成数据应用
C、装备数据硬件
D、吸纳数据人材
正确答案:
B
25.在SQL中,创立数据库用的命令是()
A、CREATESCHEMA
B、CREATETABLE
C、CREATEVIEW
D、CREATEDATABASE
正确答案:
D
26.以下四项中,不属于数据库特色的是()
A、数据共享
B、数据完好性
.
精选文档
C、数据冗余很高
D、数据独立性高
正确答案:
C
27.资本的时间价值是()
A、同一资本在同一时点上价值量的差额
B、同一资本在不一样时点上价值量的差额
C、不一样资本在同一时点上价值量的差额
D、不一样资本在不一样时点上价值量的差额
正确答案:
B
28.以下选项中属于现金流入的项目是()
A、所得税
B、建设投资
C、经营成本
D、营业收入
正确答案:
D
29.以下对于计算机储存容量单位的说法中,错误的选项是()
A、1KB<1MB<1GB
B、基本单位是字节(Byte)
C、一个汉字需要一个字节的储存空间
D、一个字节能够容纳一个英文字符
正确答案:
C
30.按数据的结构程度来区分,分为()
A、结构化数据半结构化数据非结构化数据
B、强结构化数据弱结构化数据
C、截面数据面板数据
D、一级数据二级数据三级数据
正确答案:
A
三、多项选择题(题数:
20,共40.0分)
1.以部下于数据预办理的是()
.
精选文档
A、缺失值填补
B、噪声数据剔除
C、异样值辨别
D、数据可视化
正确答案:
ABC
2.缺失值的办理方法有哪些?
()
A、用均匀值填补
B、忽视缺失记录
C、以随意数据填补
D、用默认值填补
正确答案:
ABD
3.以部下于数据规约方法的是()
A、数据失散化
B、数据标准化
C、噪声数据辨别
D、数据压缩
正确答案:
AD
4.数据发掘的展望建模任务主要包含哪几大类问题?
()
A、分类
B、回归
C、模式发现
D、模式般配
正确答案:
AB
5.以下说法正确的有哪些?
()
A、大数据只是是讲数据的体量大
B、大数据对传统行业有帮助
C、大数据会带来机器智能
D、大数据是一种思想方式
正确答案:
BCD
.
精选文档
6.对于大数据的根源,以下理解正确的选项是()
A、大数据是数据量变积累达到质变的结果
B、数据的产生需要经历很长时间
C、我们每一个人都是数据的制造者
D、现在的世界,基本上全部都能够用数字表达,所以叫数字化的世界
正确答案:
ACD
7.大数据在今日这个时间点上迸发的原由有哪些?
()
A、各样传感器无时无刻不在为我们供给大批的数据
B、各样监控设施无时无刻不在为我们供给大批的数据
C、各样智能设施无时无刻不在为我们供给大批的数据
D、互联网的采集和积累
正确答案:
ABCD
8.()这些数据特征都是对聚类剖析拥有很强影响的。
A、高维性
B、规模
C、稀少性
D、噪声和离群点
正确答案:
ABCD
9.以下哪个散布是右偏散布?
()
A、均匀散布
B、卡方散布
C、F散布
D、对数正态散布
正确答案:
BCD
10.以下哪些变量使用RFM方法结构出来的?
()
A、近来3期境外花费金额
B、近来6期网银花费交易笔数
C、信誉额度
D、距近来一次逾期的月数
正确答案:
ABD
.
精选文档
11.以下表student中,怎样挑选type为包含数学或语文的记录?
()
A、select*fromstudentwheretype=
B、select*fromstudentwheretype=
C、select*fromstudentwheretypein(
D、select*fromstudentwheretypein(
“数学”andtype=“语文”
“数学”type=or“语文”
“数学”),“语文”
“数学”?
“语文”)
正确答案:
BC
12.主成分剖析计算选择有关系数计算法时,确立主成分个数的大概原则包含()
A、特色根值大于1
B、特色根值大于
C、积累特色根值加总占总特色根值的80%以上
D、积累特色根值加总占总特色根值的90%以上
正确答案:
AC
13.在客户关系管理中,客户的生命周期都包含()阶段。
A、潜伏客户
B、响应客户
C、即得客户
D、流失客户
正确答案:
ABCD
14.分箱方法有哪些?
()
(2.0分)0.0分
A、等深分箱
B、等宽分箱
C、数据标准化
D、自定义区间法
正确答案:
ABD
15.利用Apriori算法计算屡次项集能够有效降低计算屡次集的时间复杂度。
在以下的购物篮
中产生支持度不小于3的候选3-项集,在候选
2-项集中需要剪枝的是(
)ID项集。
1
面包、牛奶
2
面包、尿布、啤酒、鸡蛋
3
牛奶、尿布、啤酒、可乐
4
面包、牛奶、尿布、啤酒
5
面包、牛奶、尿布、可乐
.
精选文档
A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶
正确答案:
BD
16.我们能够用哪一种方式来防止决议树过分拟合的问题?
()
A、利用修剪法来限制树的深度
B、利用盆栽法例定每个节点下的最小的记录数目
C、利用逐渐回归法来删除部分数据
D、目前并没有合适的方法来办理这问题
正确答案:
AB
17.图中0展望的正确率和召回率是多少?
A、
B、
C、
D、
正确答案:
AC
18.以部下于聚类算法的是()
A、K均值
B、DBSCAN
C、Apriori
D、k-medoids
正确答案:
ABD
19.以下对ID3算法的描绘,正确的选项是()
A、每个节点的分支度都不同样
B、使用InformationGain作为节点切割的依照
C、能够办理数值型态的字段
D、没法办理空值的字段
正确答案:
ABD
20.以部下于聚类算法的是()
.
精选文档
A、K均值
B、DBSCAN
C、Apriori
D、knn
正确答案:
AB
.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CPDA 考试 包括