书签分享收藏举报版权申诉 / 18

立即下载加入VIP,免费下载

当前位置：首页 > 职业教育 > 其它 > 模式识别贝叶斯统计iris数据集.docx

模式识别贝叶斯统计iris数据集.docx

文档编号：12608611
上传时间：2023-06-06
格式：DOCX
页数：18
大小：89KB

《模式识别贝叶斯统计iris数据集.docx》由会员分享，可在线阅读，更多相关《模式识别贝叶斯统计iris数据集.docx（18页珍藏版）》请在冰点文库上搜索。

模式识别贝叶斯统计iris数据集.docx

模式识别贝叶斯统计iris数据集

IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析

贺翔

3115370035

硕5101

1.问题描述

1.1Iris数据集

Iris数据集包含3类4维样本,分别标为1,2,3。

其中,每类样本数目为50,且服从正态分布，每个数据样本有4个特征向量，分别代表萼片长度,萼片宽度,花瓣长度和花瓣宽度。

1.2要求

假设Iris数据是正态分布的，要求考虑各种实验可能性（分组数量、分组策略、先验概率等），用样本对多维正态密度函数进行参数估计（均值向量和协方差矩阵），最后对3类Iris两两分类。

2.原理描述

2.1贝叶斯公式

已知共有

类别

，统计分布为正态分布，已知先验概率

及条件概率密度函数

，对于待测样品，贝叶斯公式可以计算出该样品分属各类别的概率，即后验概率。

贝叶斯公式为

因此给定一个未知类别的数据样本

，贝叶斯分类法将预测

属于具有最高后验概率的类。

故此问题的数学描述为：

多元正态概率模型下的贝叶斯分类。

2.2参数估计

其中，条件概率密度函数

为正态密度函数，用大量样本对其中未知参数进行估计，多维正态密度函数为

式中，

为n维向量；

为n维均值向量；

为n维协方差矩阵；

是

的逆矩阵；

是

的行列式。

大多数情况下，条件密度可以采用多维变量的正态密度函数来模拟。

为

类的均值向量。

2.3先验概率

设数据集样本有

个属性，因此可用一个

维列向量

来表示。

同时假定有

个类

。

如果类的先验概率未知，则可以假定这些类是等概率的，即

，且

其中，

是类

中的训练样本数，而

是训练样本总数。

2.4贝叶斯决策

2.4.1最小错误判别准则，似然比形式：

其中，

为似然比，

为似然比阈值。

2.4.2最小风险判别准则：

对观测值

条件下，各状态后验概率求加权和的方式，表示风险如下：

其中，

为将第j类判为第i类的损失。

若判对i=j，则

取负值或零值，表示没有损失；若判对i

j，则

取正值，数值大小表示损失多少。

对得到的M个类型的风险值

进行比较，得到使条件风险最小的类别，判别X属于该类别。

3.实验过程

实验环境：

MATLABR2014a

实验策略：

三类数据两两分类，考虑以下几种可能性，

A.取几组数据（数量可变）？

B.怎么选组（取法可变）？

C.改变先验概率等...

3.1最小错误判别准则：

以“对第2类、第3类鸢尾花数据分类”为例，

（1）准备第2类、第3类数据集，共100个样本，每个样本包含4维特征，

（2）读入训练样本，

d=4;c=3;N=50;

D=load（'Iris_data_12.txt'）;

data=zeros（100,d）;

G1=zeros（50,d）;

G2=zeros（50,d）;

fori=1:

1:

4

data（:

i）=D（:

i+1）;

end

%分组数量和取法在这个步骤实现

fori=1:

1:

N

G1（i,:

）=data（i,:

）;

G2（i,:

）=data（i+N,:

）;

end

disp（G1）;

disp（G2）;

（3）读入训计算各组的均值向量和协方差矩阵，即正态分布的两个重要参数均值

和方差

，

miu1=mean（G1,1）

miu2=mean（G2,1）

sigma1=zeros（d,d）;

sigma2=zeros（d,d）;

fori=1:

1:

N

sigma1=sigma1+（G1（i,:

）-miu1）'*（G1（i,:

）-miu1）;

sigma2=sigma2+（G2（i,:

）-miu2）'*（G2（i,:

）-miu2）;

End

sigma1=sigma1/N

sigma2=sigma2/N

（4）已经估计出三类数据的统计特征。

首先使用最小错误判别准则进行分类，实验中采用对数形式计算。

比较三个值的大小，哪个最大，就可判断X属于哪一类。

最后进行了分类器判据结果的验证。

%要将分类结果写入txt文本

R=zeros（100,2）;

fid=fopen（'classifier_result_23.txt','wt'）;

fori=1:

1:

100

R（i,1）=-1/2*（data（i,:

）-miu1）*inv（sigma1）*（（data（i,:

）-miu1）'）-1/2*log（det（sigma1））;

R（i,2）=-1/2*（data（i,:

）-miu2）*inv（sigma2）*（（data（i,:

）-miu2）'）-1/2*log（det（sigma2））;

switch（compare（R（i,1）,R（i,2）））

caseR（i,1）

fprintf（fid,'第%-2d个样本属于第1类\n',i）;

caseR（i,2）

fprintf（fid,'第%-2d个样本属于第2类\n',i）;

end

fclose（fid）;

（5）其中比较函数为，

functionmax=compare（a,b）

max=a;

ifmax

max=b;

end

3.2最小风险判别准则：

（1）再使用最小风险判别准则进行分类，实验中仍采用对数形式计算。

设计出风险参数矩阵L，该数据可根据实际损失的情况需要进行修改。

将X代入得到三个数值，哪个最小，即为风险最小，便属于该类型，

R=zeros（100,2）;

fid=fopen（'classifier_result_23.txt','wt'）;

%三个类型的先验函数相等

hw1=log（1/3）;hw2=log（1/3）;hw3=log（1/3）;

%设计风险参数矩阵，可根据损失多少进行改变

L=[0,1,1;

1,0,1.3;

1.02,1,0];

fori=1:

1:

150

%先计算先验概率%hxw1=-1/2*（data（i,:

）-miu1）*inv（sigma1）*（（data（i,:

）-miu1）'）-1/2*log（det（sigma1））;hxw2=-1/2*（data（i,:

）-miu2）*inv（sigma2）*（（data（i,:

）-miu2）'）-1/2*log（det（sigma2））;

%再计算含有风险因子的后验概率%

R（i,1）=L（1,1）*（hxw1+hw1）+L（1,2）*（hxw2+hw2）+L（1,3）*（hxw3+hw3）;

R（i,2）=L（2,1）*（hxw1+hw1）+L（2,2）*（hxw2+hw2）+L（2,3）*（hxw3+hw3）;

R（i,3）=L（3,1）*（hxw1+hw1）+L（3,2）*（hxw2+hw2）+L（3,3）*（hxw3+hw3）;

switch（compare3_2（R（i,1）,R（i,2）,R（i,3）））

caseR（i,1）

fprintf（fid,'第%-2d个样本属于第1类\n',i）;

caseR（i,2）

fprintf（fid,'第%-2d个样本属于第2类\n',i）;

end

fclose（fid）;

（2）最小风险判别准则有着自己相应的比较函数

functionmax=compare（a,b,）

max=a;

ifmax>b

max=b;

end

4.实验结果与分析

4.1最小错误判别准则：

第1个样本属于第2类

第2个样本属于第2类

第3个样本属于第2类

第4个样本属于第2类

第5个样本属于第2类

第6个样本属于第2类

第7个样本属于第2类

第8个样本属于第2类

第9个样本属于第2类

第10个样本属于第2类

第11个样本属于第2类

第12个样本属于第2类

第13个样本属于第2类

第14个样本属于第2类

第15个样本属于第2类

第16个样本属于第2类

第17个样本属于第2类

第18个样本属于第2类

第19个样本属于第2类

第20个样本属于第2类

第21个样本属于第3类

第22个样本属于第2类

第23个样本属于第2类

第24个样本属于第2类

第25个样本属于第2类

第26个样本属于第2类

第27个样本属于第2类

第28个样本属于第2类

第29个样本属于第2类

第30个样本属于第2类

第31个样本属于第2类

第32个样本属于第2类

第33个样本属于第2类

第34个样本属于第3类

第35个样本属于第2类

第36个样本属于第2类

第37个样本属于第2类

第38个样本属于第2类

第39个样本属于第2类

第40个样本属于第2类

第41个样本属于第2类

第42个样本属于第2类

第43个样本属于第2类

第44个样本属于第2类

第45个样本属于第2类

第46个样本属于第2类

第47个样本属于第2类

第48个样本属于第2类

第49个样本属于第2类

第50个样本属于第2类

第51个样本属于第3类

第52个样本属于第3类

第53个样本属于第3类

第54个样本属于第3类

第55个样本属于第3类

第56个样本属于第3类

第57个样本属于第3类

第58个样本属于第3类

第59个样本属于第3类

第60个样本属于第3类

第61个样本属于第3类

第62个样本属于第3类

第63个样本属于第3类

第64个样本属于第3类

第65个样本属于第3类

第66个样本属于第3类

第67个样本属于第3类

第68个样本属于第3类

第69个样本属于第3类

第70个样本属于第3类

第71个样本属于第3类

第72个样本属于第3类

第73个样本属于第3类

第74个样本属于第3类

第75个样本属于第3类

第76个样本属于第3类

第77个样本属于第3类

第78个样本属于第3类

第79个样本属于第3类

第80个样本属于第3类

第81个样本属于第3类

第82个样本属于第3类

第83个样本属于第3类

第84个样本属于第2类

第85个样本属于第3类

第86个样本属于第3类

第87个样本属于第3类

第88个样本属于第3类

第89个样本属于第3类

第90个样本属于第3类

第91个样本属于第3类

第92个样本属于第3类

第93个样本属于第3类

第94个样本属于第3类

第95个样本属于第3类

第96个样本属于第3类

第97个样本属于第3类

第98个样本属于第3类

第99个样本属于第3类

第100个样本属于第3类

第1类中没有出现判决错误，第2、3类中出现了个别的错误，分类正确率较高。

要想提高正确率，可以选取更多的样本进行训练。

在实际应用中，先验概率的确定也是比较重要的，会在一定程度上影响结果。

4.2最小风险判别准则：

根据需要改变风险因子矩阵L，当判错第j类为第i类损失较大时，设计

取较大的值。

从4.1最小错误判别准则的实验中可以看出：

有2个第2类数据判为第3类，1个第3类数据判为第2类，因此将

略增大一点，使损失变大，以减少这样的错误。

因此设计风险因子矩阵

，得到如下结果：

第1个样本属于第2类

第2个样本属于第2类

第3个样本属于第2类

第4个样本属于第2类

第5个样本属于第2类

第6个样本属于第2类

第7个样本属于第2类

第8个样本属于第2类

第9个样本属于第2类

第10个样本属于第2类

第11个样本属于第2类

第12个样本属于第2类

第13个样本属于第2类

第14个样本属于第2类

第15个样本属于第2类

第16个样本属于第2类

第17个样本属于第2类

第18个样本属于第2类

第19个样本属于第2类

第20个样本属于第2类

第21个样本属于第3类

第22个样本属于第2类

第23个样本属于第2类

第24个样本属于第2类

第25个样本属于第2类

第26个样本属于第2类

第27个样本属于第2类

第28个样本属于第2类

第29个样本属于第2类

第30个样本属于第2类

第31个样本属于第2类

第32个样本属于第2类

第33个样本属于第2类

第34个样本属于第3类

第35个样本属于第2类

第36个样本属于第2类

第37个样本属于第2类

第38个样本属于第2类

第39个样本属于第2类

第40个样本属于第2类

第41个样本属于第2类

第42个样本属于第2类

第43个样本属于第2类

第44个样本属于第2类

第45个样本属于第2类

第46个样本属于第2类

第47个样本属于第2类

第48个样本属于第2类

第49个样本属于第2类

第50个样本属于第2类

第51个样本属于第3类

第52个样本属于第3类

第53个样本属于第3类

第54个样本属于第3类

第55个样本属于第3类

第56个样本属于第3类

第57个样本属于第3类

第58个样本属于第3类

第59个样本属于第3类

第60个样本属于第3类

第61个样本属于第3类

第62个样本属于第3类

第63个样本属于第3类

第64个样本属于第3类

第65个样本属于第3类

第66个样本属于第3类

第67个样本属于第3类

第68个样本属于第3类

第69个样本属于第3类

第70个样本属于第3类

第71个样本属于第3类

第72个样本属于第3类

第73个样本属于第3类

第74个样本属于第3类

第75个样本属于第3类

第76个样本属于第3类

第77个样本属于第3类

第78个样本属于第3类

第79个样本属于第3类

第80个样本属于第3类

第81个样本属于第3类

第82个样本属于第3类

第83个样本属于第3类

第84个样本属于第2类

第85个样本属于第3类

第86个样本属于第3类

第87个样本属于第3类

第88个样本属于第3类

第89个样本属于第3类

第90个样本属于第3类

第91个样本属于第3类

第92个样本属于第3类

第93个样本属于第3类

第94个样本属于第3类

第95个样本属于第3类

第96个样本属于第3类

第97个样本属于第3类

第98个样本属于第3类

第99个样本属于第3类

第100个样本属于第3类

由以上的实验结果可知：

适当的调节风险因子，可以改善结果。

而在实际应用中，最小风险判别准则的应用主要是针对犯某一类错误会造成严重损失时，增大相应的风险因子，来减少判错带来的风险。

欢迎您的下载，

资料仅供参考！

致力为企业和个人提供合同协议，策划案计划书，学习资料等等

打造全网一站式需求

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 模式识别贝叶斯统计 iris 数据

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：模式识别贝叶斯统计iris数据集.docx
链接地址：https://www.bingdoc.com/p-12608611.html

模式识别贝叶斯统计iris数据集.docx

热门标签