机器学习在模式识别中的应用研究docWord文档格式.docx

资源ID：4097760 资源大小：159.28KB 全文页数：12页
资源格式： DOCX 下载积分：1金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要1金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

机器学习在模式识别中的应用研究docWord文档格式.docx

1、不同的模型决定了不同的目标函数，也决定了不同的学习机制。算法的能力和复杂性决定了学习系统的学习能力和效率。同时训练样本集大小和特征选择问题也是制约机器学习系统性能的关键因素。2机器学习算法在模式识别中的应用模式识别（Pattern Recognition）是指对感知信号进行分析，对其中的物体现象或行为进行判别和解释的过程。模式识别过程如图2 所示。机器学习的核心问题是搜索问题。针对不同的应用模型，研究者们设计了不同的搜索算法。目前在模式识别领域，采用得比较多的有遗传算法、神经网络、支持向量机、k-近邻法等机器学习算法。图2 模式识别过程2.1 遗传算法特征维数是困扰机器学习的一大难题，因为从

2、一种模式中提出的特征，反映事物本质的权重是不一样的，有些对分类结果无重大贡献，甚至是冗余的，所以特征的选择过程是非常关键的。遗传算法作为一种寻优算法可以在很大程度上解决特征选择问题。遗传算法可以选择出那些既能反映原模式信息，又对分类结果有重大影响，且彼此间关联性非常小的特征。遗传算法是根据达尔文的自然界生物进化思想，将其灵活运用到优化运算领域而产生的一种寻优算法。它是由美国Michigan 大学的Holland 教授于1975 年提出的3。遗传算法的基本方法是以种群中的个体为对象，对其进行选择、交叉和变异等遗传操作。通过遗传操作使群体一代又一代地不断进化，最终得到最优的个体。群体的进化首先从初

3、始群体开始进行，在进化过程中，依据个体对环境的适应度从当前群体中选出优良的个体，使它们有机会作为父代繁衍子孙。遗传算法的程序实现步骤如下：1）选择编码策略，确定适应度函数和遗传策略。遗传策略包括选择种群大小和选择、交叉、变异方法，以及交叉概率、变异概率等遗传参数。 2）根据编码策略，把特征集转换成位串结构。3）初始化群体。4）计算群体中个体的适应度值。5）按照遗传策略，运用选择、交叉和变异算子作用于群体，形成下一代群体。6）判断群体性能是否满足某一指标，或已完成预定迭代次数，不满足则返回步骤5 或修改遗传策略后再返回步骤5。遗传算法从提出至今，其4 个基本要素：编码策略；初始群体的设定；适应度

4、函数的设计；遗传操作算子的设计，即选择算子、交叉算子、变异算子，一直是遗传算法研究者研究和改进的重点。2.2 人工神经网络人工神经网络（ANN）是人脑及其活动的一个理论化的数学模型，它由大量的处理单元通过适当的方式互连而成，是一个大规模的非线性自适应系统4。人们根据不同的应用，研究出了许多不同的神经网络。迄今为止已有50 余种神经网络模型，它们的区别主要在于网络的拓扑结构不同，神经元特性，学习和训练规则不同。例如BP 神经网络是应用最普遍的神经网络模型之一，它基于成熟并得到广泛应用的BP 算法。BP 网络学习是典型的有导师学习，其学习算法采用Delta 规则，BP 网络实现了多层网络学习设想，

5、其学习过程包括正向传播和反向传播两部分。在正向传播过程中，给定网络的一个输入后，输入信息从输入层经隐含层逐层处理，并传向输出层，每一层神经元的状态只影响下一层神经元的状态，由输出层单元产生一个输出，这是一个逐层的状态更新过程，称为正向传播。如果实际输出与期望输出的误差值不满足要求，那么就转入误差反向传播，将误差值沿原连接通路逐层反向传送并修正各层连接权值。对于给定的一组样本，不断用一个个训练样本进行学习，重复正向传播和误差反向传播过程，当各个训练样本都满足要求时，BP 网络训练完毕。在模式识别应用中，用神经网络设计的分类器是由相对少量的神经元按一定规律连接而成的网络体系，网络中的每个神经元均

6、具有相同的结构。神经元一般表现为一个多输入、单输出的非线性单元，通用的结构模型如图3 所示。其中xi为输入信号；wi表示与神经元连接的权值，权值为正表示激活，为负表示抑制；表示一个求和单元，用于求各输入信号的加权和（线性组合）；f 表示一个非线性激活函数，起非线性映射作用，用于将神经元输出值限制在一定范围内，一般限制在0，1或-1，1之间。图3 人工神经元在神经网络分类器中输入量一般选择那些对输出影响大且能够检测或提取的特征变量，此外还要求各输入变量之间互不相关或相关性很小。输出量代表系统要实现的功能目标。如系统的性能指标，分类问题的类别等。作为一种联结学习算法，神经网络的特点是：信息的并行

7、处理、分布存储及较强的容错性；自学习、自组织与自适用性。通过训练，神经网络可以自动地调节它的网络结构参数，来模拟输入输出间的非线性关系，以适应外界环境的变化；一个三层的神经网络可以做任意函数的逼近器。同时神经网络也存在一些缺陷，如网络结构需要事先指定或应用启发算法在训练过程中加以修正，而这些启发算法却难以保证网络结构的最优化；网络权系数的调整方法存在局限性；尽管采用梯度下降法，但有些神经网络还是易陷入局部最优，有些甚至无法得到最优解；训练样本集对分类性能影响非常大，样本集太小则训练不够，太大则会出现“过学习”现象。目前研究者们多利用遗传算法优化人工神经网络的拓扑结构和学习参数，而且大量实践证明

8、网络训练所需的样本数取决于输入输出非线性映射关系的复杂程度，映射关系越复杂，样本中含的噪声越大，为保证一定映射精度，所需要的样本数就越多，网络的规模也就越大。训练样本集规模的经验规则是：训练样本数是网络连接权总数的510 倍；同时样本要有一定的代表性，并尽量使每个类别的样本数量大致相等，即使是同一类样本也要照顾样本的均匀性和多样性。这样可以避免网络对样本数量多的类别印象深，出现次数少的类别印象浅。2.3 支持向量机机器学习系统的训练样本集大小，对学习系统的泛化能力有很大的制约。如果样本集太小，训练的结果往往会产生“盲人摸象”的效果。Vapnik 于1992 至1995 年提出的支持向量机（S

9、VM）理论很好地解决了这一问题。与传统的特征空间降维策略不同，支持向量机通过引用核函数，将特征空间中的非线性问题映射到高维特征空间中，在高维空间中构造线性函数进行判别。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法，SVM 可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器使类与类的间隔最大化，因而有较好的适应能力和较高的识别率5。该方法由各样本类所在区域的边界样本的类别来决定最后的分类结果。支持向量机是从线性可分情况下的最优分类面发展而来的，其基本思想可用图4 的两维情况说明。图4 中实心点和空心点代表两类样本，H 为分类线，H1，H2分别为过各类中离分类线

10、H 最近的样本且平行于分类线H 的直线，它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类样本正确分开（训练错误率为0），而且使分类间隔最大。对分类线方程进行归一化，使得对线性可分的样本集（xi,yi），i=1,n，y+1,-1，满足i=1,n 条件下：yi（wxi+b）-10 （1）满足条件（1）且使w2/2 最小的分类面就叫做最优分类面，H1和H2上的训练样本点就称作支持向量。图4 线性可分情况下的最优分类面示意图支持向量机算法的本质是寻找一个最优超平面。最优超平面不但能将两类样本正确分开，而且使分类间隔最大，使分类间隔最大实际上就是对模型推广能力的控制，这也正是支持向

11、量机的核心思想所在。由于传统SVM 是针对两类问题进行分类，而现实生活中需要解决的多是多类别问题，所以很多学者对SVM 进行了改进和推广。目前SVM 多值分类算法主要有两种构造方法：第一种方法是将多值分类看作二值分类的组合，最终将多分类问题转化为二值分类问题；第二种方法是通过修改目标函数从根本上解决SVM 多值分类问题。由于后者代价过高，只适用于小规模问题，所以目前多采用第一类方法。另一方面，计算量大、训练速度慢、模型选择和参数的确定还没有成熟的理论方法已成为SVM 不可回避的问题。针对上述问题，各种改进的SVM 分类方法正在不断提出。例如为提高训练速度，有的训练算法结合块算法和分解算法

12、的思想，让每次生成的训练样本集由违反KKT条件的样本和原训练样本集中的支持向量组成，同时限制训练样本集的规模，如果样本数超过限制数，则从样本集中删去部分边界支持向量，因为这些边界支持向量的值已被固定在边界处，从而不必参加训练过程。训练结束的标准不仅看测试结果，还要看SVM 的间隔值，即w值是否最小，从而保证最优分类面接近真正意义上的最优。2.4 k-近邻法k-近邻法（k-nearest neighbor）是一种应用广泛的基于实例的、无指导的学习方法，可用于线性不可分的多类别样本识别。它的优点是事先并不要求知道待分样本的分布函数。目前广泛使用的k-近邻法是以待分类样本为中心做超球体，逐渐扩大超

13、球半径直至超球内包含k 个已知模式样本为止，判断这k 个近邻样本中多数属于哪一类，就把待分类样本归为哪一类。分类算法描述如下6：假设有c 个类别w1，w2，wc，i=1，2，c。测试样本x 和与其最近的样本之间的距离为gi （x）=min k x-xki （2）k=1，2，ni，其中xki的下标i 表示wi类，上标k 表示wi类ni个样本中第k 个样本。在超球半径rmingi（x）的前提下，求L=arg i maxki （3）ki（0i/td /tr/table/body/html3.2 目录条件收放本系统设计了一个具有分模块动态展开和分用户权限显隐的超链目录，如图3 所示，其对应的主要AS

14、P 脚本如下：divspan农户信息管理%if session（quanxian）=1 or session（2 then %a href=DataMis/nonghuxinxiI.asp target=mainFrame农户基本信息（增加）DataMis/nonghushujuN.asp新年度农户信息生成DataMis/nonghuxinxiB1.asp农户基本信息（浏览）% if session（DataMis/nonghuxinxiB2.asp农户基本信息（编辑）div class=collapsed地区信息管理系统管理modify.asp target=修改密码logout.asp_t

15、op退出系统1 thenlx=x1-x0ly=y1-y0l=sqr（lx*lx+ly*ly）for I=0 to l step 2p=I/lpx=x0+lx*ppy=y0+ly*presponse.write table style=z-index:1;position:absolute;left:& px &px; top: py &border=0 cellpadding= cellspacing=width=2td bgcolor=blue height=2/td/trnextend if 方块2; left: x1-20 & 478 -CInt （Recordset1.Fields.I

16、tem （gj）.Value）*350/CInt （Recordset1A.Fields.Item （Maxgj）.Value） &border =1width =50bordercolor =#FF0000 tr td div align =centerRecordset1.Fields.Item（）.Value &Recordset1.movenextr=r+1loop%（上接第38 页）在这些超球体内寻找待分样本点的k 个近邻点。3结论机器学习在某种程度上可以理解成，对应于任何一种模型所定义的假设空间，核心技术就是如何用其学习算法在对应的假设空间中进行搜索，搜索的过程也就是学习过程。在模式识别应用中，由神经网络或支持向量机、k-近邻法构造的分类器就是在假设空间中的假设与样本集有相同性质的前提下，将样本集映射到假设空间中，寻找一个定义在这个假设空间上的决策面，使得不同类别的样本尽量分布在不相交的区域。4.结语农产品成本分析对于领导制定相关农业政策具有重要的指导意义，本文开发的基于B/S 和C/S 结构农产品成本分析系统，充分利用ASP 动态网页技术和数据库开发技术，较好实现了农产品的多元化成本分析，为领导制定相关政策提供重要保障。

注意事项

本文（机器学习在模式识别中的应用研究docWord文档格式.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。