原数据挖掘习题.docx
- 文档编号:15849192
- 上传时间:2023-07-08
- 格式:DOCX
- 页数:16
- 大小:58.81KB
原数据挖掘习题.docx
《原数据挖掘习题.docx》由会员分享,可在线阅读,更多相关《原数据挖掘习题.docx(16页珍藏版)》请在冰点文库上搜索。
原数据挖掘习题
ch1
1.讨论以下每项活动是不是是数据挖掘任务:
(fgh是)
(a) 依照性别划分公司的顾客。
(b) 依照可获利性划分公司的顾客。
(c) 计算公司的总销售额。
(d) 按学生的标识号对学生数据库排序。
(e) 预测掷一对骰子的结果。
(f) 利用历史记录预测某公司以后的股票价钱。
(g) 监视病人心率的异样转变。
(h) 监视地震活动的地震波。
(i) 提取声波的频率。
2.(ch1)数据挖掘能够在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。
3.(ch1)数据挖掘必然能够取得有趣的强关联规那么。
4.(ch1)为了提高挖掘质量,通常要进行数据预处置,包括数据清理、集成、选择、变换等。
5.(ch5){发烧,上呼吸道感染}是
(2)项集
6.企业要成立预测模型,需预备建模数据集,以下四条描述建模数据集正确的选项是(B)。
A数据越多越好
B尽可能多的适合的数据
C数据越少越好
D以上三条都正确
7.数据挖掘算法以(D)形式来组织数据。
A行B列C记录D表格
Ch2
8.(ch2)
假定用于分析的数据包括属性age。
数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:
1)利用按箱平均值滑腻对以上数据进行滑腻,箱的深度是3。
说明你的步骤。
2)利用按箱边界值滑腻对以上数据进行滑腻,箱的深度是3。
说明你的步骤。
7、P98(ch3)假定大学的数据仓库包括4个维{student学生、course课程、semester学期、instructor教师},2个气宇count和avg_grade。
在最低的概念层(例如关于给定的学生、课程、学期和教师组合),气宇avg_grade存下学生的实际成绩。
为数据仓库画出雪花模式图8、P98(ch3)假定数据仓库包括4个维date,spectator,location和game,2个气宇count和charge。
其中,change是观众在给定的日期观看节目的付费。
观众能够是学生、成年人或老人,每类观众有不同的收费标准。
画出该数据仓库的星形模式图
10、(ch5)
数据库有4个事物。
设min_sup=60%,min_conf=80%
TID
日期
购买的物品
T100
99/10/15
{K,A,D,B}
T200
99/10/15
{D,A,C,E,B}
T300
99/10/19
{C,A,B,E}
T400
99/10/22
{B,A,D}
a)利用Apriori算法找出最大得频繁项集b)列出所有强关联规那么(带支持度s和置信度c)
11.(参P229)
假定希望分析爱喝咖啡和爱喝茶得人之间得关系。
搜集一组人关于饮料偏爱的信息,汇总如下:
咖啡
不喝咖啡
汇总
茶
150
50
200
不喝茶
650
150
800
汇总
800
200
1000
假设支持度和置信度阈值别离为10%,50%,评估关联规那么{茶}——>{咖啡}。
(负相关)
12.(ch5,参P224)
有如下事务数据集。
试挖掘频繁项集。
(最小支持度为2)
TID
项
1
{a,b}
2
{bcd}
3
{acde}
4
{ade}
5
{abc}
6
{abcd}
7
{a}
8
{abc}
9
{abd}
10
{bce}
结果:
后缀
频繁项集
e
{e},{de},{ade},{ce},{ae}
d
{d},{cd},{bcd},{acd},{bd},{abd},{ad}
c
{c},{bc},{abc}{ac}
b
{b}{ab}
a
{a}
13.(ch5,参P256,17)
假定有一个购物篮数据集,包括100个事务和20个项。
若是项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%。
令最小支持度阈值和最小置信度阈值别离为10%和60%。
1)计算关联{a}——>{b}的置信度。
依照置信度气宇,这条规那么是有趣的么?
(这条规那么是不是是强关联规那么?
)(80%,是)
2){a}——>{b}是不是有趣?
(负相关,无趣)
11.求出下表的强关联规那么(ch5)
ID
P1
P2
P3
P4
1
bread
cheese
butter
water
2
water
milk
bread
noodle
3
orange
noodle
meat
beer
4
fish
softdrink
frozenmeal
bread
12、(ch6)下表给出某门课程假设干学生期中和期末考试成绩期中725081749486598365338881期末846377789075497977527490
绘数据图。
X和Y看上去具有线性联系吗?
13.(ch6)
下表是对是不是购买运算机的调查表,请依照ID3算法画出是不是购买运算机的决策树。
计数
年龄
收入
学生
信誉
归类:
买计算机?
64
青
高
否
良
不买
64
青
高
否
优
不买
128
中
高
否
良
买
60
老
中
否
良
买
64
老
低
是
良
买
64
老
低
是
优
不买
64
中
低
是
优
买
128
青
中
否
良
不买
64
青
低
是
良
买
132
老
中
是
良
买
64
青
中
是
优
买
32
中
中
否
优
买
32
中
高
是
良
买
63
老
中
否
优
不买
1
老
中
否
优
买
(参P94)
TID
有房
婚姻状况
年收入
拖欠贷款
1
是
单身
125K
否
2
否
已婚
100K
否
3
否
单身
70K
否
4
是
已婚
120K
否
5
否
离异
95K
是
6
否
已婚
60K
否
7
是
离异
220K
否
8
否
单身
85K
是
9
否
已婚
75K
否
10
否
单身
90K
是
一客户信息如下:
X=(有房=否,婚姻状况=已婚,年收入=120K)
用贝叶斯分类法,预测记录的拖欠贷款类别。
(否)
年收入
可能的分裂点
熵
60
65
70
75
80
85
90
95
100
110
120
125
220
原数据集合修正为:
TID
有房
婚姻状况
年收入
拖欠贷款
1
是
单身
125K(>
否
2
否
已婚
100K(>
否
3
否
单身
70K(<=
否
4
是
已婚
120K(>
否
5
否
离异
95K(<=
是
6
否
已婚
60K(<=
否
7
是
离异
220K(>
否
8
否
单身
85K(<=
是
9
否
已婚
75K(<=
否
10
否
单身
90K(<=
是
P(是)=p(否)=
因此,他可能不拖欠贷款
最正确割裂点:
15.(CH6,参P122)
考虑如下二元分类问题的训练样本:
顾客ID
性别
车型
衬衣尺码
类
1
男
家用
小
C0
2
男
运动
中
C0
3
男
运动
中
C0
4
男
运动
大
C0
5
男
运动
加大
C0
6
男
运动
加大
C0
7
女
运动
小
C0
8
女
运动
小
C0
9
女
运动
中
C0
10
女
豪华
大
C0
11
男
家用
大
C1
12
男
家用
加大
C1
13
男
家用
中
C1
14
男
豪华
加大
C1
15
女
豪华
小
C1
16
女
豪华
小
C1
17
女
豪华
中
C1
18
女
豪华
中
C1
19
女
豪华
中
C1
20
女
豪华
大
C1
1)计算整个训练样本集得GINI指标()
2)计算属性顾客ID的GINI指标(0)
3)计算属性性别的GINI指标()
4)那个属性更好?
性别、车型仍是衬衣尺码?
(车型,因为其GINI指标最低)
16.(CH6,参P122)
考虑如下二元分类问题的训练样本:
实例标号
a1
a2
a3
目标类
1
T
T
1
+
2
T
T
6
+
3
T
F
5
_
4
F
F
4
+
5
F
T
7
-
6
F
T
3
-
7
F
F
8
-
8
T
F
7
+
9
F
T
5
-
1)整个训练样本集关于类属性得熵是多少?
()
2)关于这些训练样本,a1和a2的信息增益是多少?
(,)
3)关于持续属性a3,计算所有可能的划分的信息增益
是最正确割裂点。
4)依照信息增益,那个是最正确划分?
(在a1,a2,a3中)(a1)
5)依照GINI指标,那个是最正确划分?
(在a1,a2,a3中)(a1)
17.考虑如下二元分类问题得数据集(CH6,参P123)
A
B
类标号
T
F
+
T
T
+
T
T
+
T
F
-
T
T
+
F
F
+
F
F
+
F
F
+
T
T
+
T
F
+
1)计算依照属性A、B划分时得信息增益。
决策树归纳算法将会选择那个属性?
(GA=)
2)计算依照属性A、B划分时的GINI指标。
决策树归纳算法将会选择那个属性?
(不纯度降低:
,(B)
18.已知下表:
(CH6,参P124)
A
B
C
实例数
+
—
T
T
T
5
0
F
T
T
0
20
T
F
T
20
0
F
F
T
0
5
T
T
F
0
0
F
T
F
25
0
T
F
F
0
0
F
F
F
0
25
试成立一颗两层的决策树
19.(CH6,参,P139)贝叶斯分类
考虑两队之间的足球竞赛:
对0和1.假设65%的竞赛队0胜出,剩余得竞赛队1获胜。
队0获胜得竞赛中只有30%是在队1的主场,而对1取胜的竞赛中75%是主场获胜。
若是下一场竞赛在队1的主场进行,哪一支球队最有可能胜出呢?
(队1)
x:
东道主(0,1)y:
成功者(0,1)
队0取胜得概率:
p(y=0)=
队1取胜得概率:
p(y=1)=
对1取胜的竞赛中75%是主场获胜:
队1获胜时作为东道主的概率:
p(x=1|y=1)=
队0获胜得竞赛中只有30%是在队1的主场:
即队0取胜时队1作为东道主得概率:
P(x=1|y=0)=
比较P(y=1|x=1)和P(y=0|x=1)
P(y=1|x=1)>P(y=0|x=1)因此,队1可能取胜。
20.(ch6,参P195,8)
考虑以下数据集:
实例
A
B
C
类
1
0
0
1
-
2
1
0
1
+
3
0
1
0
-
4
1
0
0
-
5
1
0
1
+
6
0
0
1
+
7
1
1
0
-
8
0
0
0
-
9
0
1
0
+
10
1
1
1
+
1)估量条件概率P(A=1|+),P(B=1|+),P(C=1|+),P(A=1|-),P(B=1|-),P(C=1|-)
,,,,,
2)依照1)中的条件概率,利用朴素贝叶斯分类方式预测测试样本(A=1,B=1,C=1)得类标号。
(+)
3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。
(独立)
14、(ch7)假设数据集D含有9个数据对象(用2维空间的点表示):
A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),C2(9,6),C3(2,2)采纳k-均值方式进行聚类,距离函数采纳欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:
(1)第一次循环终止时的三个簇的质心。
(2)最后求得的三个簇。
A2
A3
B2
B3
C2
C3
A1
√49
√41
√5
√64
√52
√1
B1
√52
√2
√50
√74
√1
√58
C1
√10
√36
√4
√17
√49
√16
第一次循环终止时:
(A1,C3)质心为(,2)或(3,2)
(B1,A3,C2),质心为:
或(9,6)
(C1,A2,B2,B3),质心为:
(,)或(3,8)
平方误差E=28
第二次循环
A1
A2
A3
B1
B2
B3
C1
C2
C3
3,2
0
√49
√41
√45
√5
√64
√17
√52
1
9,6
√52
√45
1
1
√53
√65
√49
0
√65
3,7
√25
√25
√26
√40
√10
√9
√2
√37
√26
第二次循环终止时:
(A1,B2,C3)质心为(,)或(2,3)
(A3,B1,C2),质心为:
或(9,6)
(A2,B3,C1),质心为:
(,)或(3,7)
平方误差E=21
第三次循环
A1
A2
A3
B1
B2
B3
C1
C2
C3
2,3
√2
√37
√45
√53
√1
√50
√9
√58
1
9,6
√52
√45
1
1
√53
√65
√49
0
√65
3,7
√25
√4
√26
√40
√10
√9
√2
√37
√37
第三次循环终止时:
(A1,B2,C3)质心为(,)或(2,3)不变
(A3,B1,C2),质心为:
或(9,6)不变
(A2,B3,C1),质心为:
(,)或(3,7)不变
平方误差E=21不变
15.(ch7)
已知四个点的坐标如下:
点
X坐标
Y坐标
P1
0
2
P2
2
0
P3
3
1
P4
5
1
其欧几里德距离矩阵:
P1
P2
P3
P4
P1
0
P2
0
P3
0
P4
2
0
试进行单链、全链聚类,并画出树形图。
答案:
单链:
P1
P2,p3
P4
P1
0
P2,p3
0
P4
2
0
P1
P2,p3,p4
P1
0
P2,p3,p4
0
P2,p3——P2,P3,P4——p2,p2,p4,p1
全链:
第一步同单链
P1
P2,p3
P4
P1
0
P2,p3
0
P4
0
P2,p3——P2,P3,P4——p2,p2,p4,p1
或:
P2,p3——P2,P3,P1——p2,p2,p1,p4
16.请将以下属性分类:
(ch7)
1)用AM和PM表示的时刻(序数变量)
2)按度测出得0和360之间的角度(区间标度变量)
3)奥运会上授予得铜牌、银牌和金牌(序数)
4)学生的性别(二元)
5)用如下值表示得透光能力:
不透明、半透明、透明(序数)
6)外衣寄放号码(当你出席一个活动时,你常常能够将你的外衣交给某个人,然后他给你一个号码,你能够在离开时来取)(名义)
17.计算下表表示的混淆矩阵得熵和纯度
簇
娱乐
财经
国外
都市
国内
体育
合计
#1
1
1
0
11
4
676
693
#2
27
89
333
827
253
33
1562
#3
326
465
8
105
16
29
949
合计
354
555
341
943
273
738
3204
18.已知四个点的相异度矩阵:
点
P1
P2
P3
P4
P1
0
P2
0
P3
0
P4
0
试进行单链、全链聚类,并画出树形图。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 习题