章表示学习.pptx
- 文档编号:10464427
- 上传时间:2023-05-26
- 格式:PPTX
- 页数:36
- 大小:2.20MB
章表示学习.pptx
《章表示学习.pptx》由会员分享,可在线阅读,更多相关《章表示学习.pptx(36页珍藏版)》请在冰点文库上搜索。
第15章表示学习,信息任务完成的难易程度,取决于信息的表示形式210/60CCX/VI有序链表插入新元素O(n)红黑树插入元素O(lgnn)好的表示,会让后续的学习任务更简单,15.1贪心逐层无监督预训练,贪心逐层无监督预训练依赖于单层表示学习算法,例如限制波尔兹曼机、单层自编码器、稀疏编码模型或其他学习潜在表示的模型。
目的:
是得到新的表示分布,让分类或者其他任务更简单。
堆叠自编码器(stackedautoencoders):
由多个autoencoder级联而成,每个autoencoder的输出作为下一个autoencoder的输入。
堆叠自编码器网络参数的训练无监督的逐层贪心预训练微调(FineTuning)每次只训练其中一层,保持其他层参数不变。
训练的过程就和训练单个autoencoder一样,使autoencoder的输入和输出的误差尽量小。
贪心:
让每一层都达到最优,认为整体的参数在全局最优的附近。
微调:
将训练好的AE堆叠,形成StackedAE连接分类器,用顶层特征训练分类器,并用监督学习(BP)对整个网络的参数进行微调。
在很多分类任务中,贪心逐层无监督预训练能使测试误差得到很大的提升。
但是,也有一些问题,无监督训练不但不能带来改善,甚至会带来明显的负面影响。
无监督预训练主要由两种思想组合而成:
学习深度神经网络的初始化参数,提高优化性能最简单的做法是,直接将预训练好的特征提取层的参数固定,训练分类器的参数即可。
通过输入分布帮助学习输入和输出间的映射关系基本思想:
无监督学习到的一些有用的特征对监督学习也是有用的。
比如:
在训练汽车和摩托车图像的生成模型,轮子是它们的共同点。
无监督阶段学习到的轮子表示,会适合于监督学习。
无监督学习表示词向量(WordEmbedding)one-hot向量学习到的词向量,能用向量间的距离表示词语间的相似性。
图像图像本身已经在很丰富的向量空间中,其中的距离对相似度的测量,作用不大。
无监督预训练的缺点使用了两个单独的训练阶段用户可以通过调整单一超参数的值来控制正则化的强度,但是其效果只能在第二个阶段度量。
无法预测正则化强度,灵活调整正则化方式。
每个阶段都有各自的超参数,第一阶段提出的超参数和第二阶段根据反馈来更新之间存在较长的时延。
实验证明在有极大的标定数据集上,使用监督学习的深度学习技术,通过dropout或者批标准化准确率会更高。
预训练的思想同样推广到了监督预训练中迁移学习(在源领域学习的分类器,进行目标领域的测试)用在ImageNet上预训练好的CNN,做微调后完成新的分类任务。
在NLP任务中,直接使用官方公布的预训练好的单词向量。
15.2迁移学习和领域自适应,迁移学习:
学习器执行两个或者多个不同的任务,它们在底层有许多共享的特征。
可以在第一个场景中学习的特征表示器,在第二个领域有少量的标定样本快速泛化。
领域自适应:
训练集和测试集数据分布不一致。
概念漂移(conceptdrift)随着时间的推移,数据分布会逐渐发生变化比如语言迁移学习中的无监督深度学习在一些机器学习的比赛中有很好的成绩。
通过来自分布为p1的数据集,学习一个良好的特征空间(就是将原始输入映射到某种表示中)。
来自p2的数据,可以通过映射关系,并用少量的标定样本使分类器有较好的性能。
用来学习特征表示的网络架构越深,在新场景和类别上学习到的曲线越好。
即只需少量标注样本就可以显著提高分类器的泛化性能。
迁移学习的两种极端(小样本学习问题):
zero-shotlearning指的是我们之前没有这个类别的训练样本,但是有类似的样本出现过,我们学习到了一个映射(特征组合到类别的映射)没有狮子的训练样本,但是猫和老虎的特征可能也对狮子的预测有帮助。
one-shotlearning训练样本很少,甚至只有一个的情况下,也可以学习出的映射关系。
举例:
使用大规模人脸数据库训练好的人脸模型,应用于小规模人脸识别。
每个使用者只提供较少几张注册图像。
zero-shotlearning发生的条件:
额外信息:
即在完成的映射关系时,需要一个附加的随机变量T,完成条件分布的估计。
例子:
没有看猫的图像去识别猫,需要拥有一些未标注的文本数据比如“猫有四条腿”,“猫有尖耳朵”等等的特征描述。
在QA问题上很有用。
15.3半监督解释因果关系,关于表示学习的一个重要问题是“什么使一个表示比另一个更好?
”一种假设是一个理想表示是一个表象特征对应的观测数据的根本原因,特征空间中不同的特征或方向对应着不同的原因,从而表示能够将这些原因区分开。
这个假设激励我们去寻找比较好地表示p(x)的方法。
如果y是产生x的重要原因之一,那么这种表示也可能是计算p(y|x)的一种良好表示。
首先,让我们看看p(x)的无监督学习无助于学习p(y|x)时,半监督学习是如何失败的考虑一种情况,p(x)是均匀分布的,我们希望学习f(x)=Ey|x。
显然,仅仅观察训练集的值x不能给我们关于p(y|x)的任何信息。
接下来,让我们看看半监督学习成功的一个简单例子考虑这样的情况,x来自一个混合分布,每个y值具有一个混合分量,如图所示。
如果混合分量很好地分出来了,那么建模p(x)可以精确地指出每个分量的方向,每个类一个标记样本的训练集足以精确学习p(y|x)。
如果y与x的因果关系非常相关,那么p(x)和p(y|x)也会紧密关联,试图找到变化根本因素的无监督表示学习可能会有助于半监督学习。
假设y是x的因果因素之一,让h代表所有的这些因素。
真实的生成过程可以被认为是根据这个有向图模型结构化出来的,其中h是x的因素:
因此数据的边缘概率为,从这个直观的观察,我们得出结论,x最好的可能的模型(从广义的观点)是会表示上述“真实”结构的,其中h作为隐变量解释x中观察到的变动。
上文讨论的“理想”的表示学习应该能够反映出这些隐变量。
如果y是其中之一(或是紧密关联于其中之一),那么将很容易从这种表示中预测y。
我们也看到给定x下y的条件分布通过贝叶斯规则关联到上式中的分量:
因此边缘概率p(x)和条件概率p(y|x)密切相关,前者的结构信息应该有助于学习后者。
因此,在这些假设情况下,半监督学习应该能提高性能。
一个重要的研究问题是大多数观察是由极其大量的潜在原因形成的假设y=hi,但是无监督学习并不知道是哪一个hi。
无监督学习的暴力解是学习一种表示,捕获所有合理的重要生成因子hj,并将它们彼此区分开来,因此不管hi是否关联于y,从h预测y都是容易的。
在实践中,暴力解是不可行的,因为不可能捕获影响观察的所有或大多数变化。
目前处理大量潜在原因的两个主要策略使用无监督学习信号的同时使用监督学习信号,从而使模型捕获最相关的变动因素或是在使用纯无监督学习的情况下学习更大的表示。
无监督学习的一个新兴策略是修改确定哪些潜在因素最为关键的定义。
之前,自动编码器和生成模型被训练来优化类似于均方误差的固定标准。
这些固定标准确定了哪些原因是突出的。
也有一些其他的关于突出性的定义例如,如果一组像素具有高度可识别的模式,那么即使该模式不涉及到极端的亮度或暗度,该模式还是被认为非常突出的。
实现这样一种突出性定义的方法是生成式对抗网络。
生成式对抗网络会在第20.10.4节中被更详细地介绍。
就现在的讨论而言,知道它能学习出确定什么是突出的就可以了。
15.4DistributedRepresentation,Concept:
RepresentationscomposedofmanyelementsthatcanbesetseparatelyfromeachotherDistributedrepresentationsarepowerfulbecausetheycanusefeatureswithvaluestodescribedifferentconcepts.LocalRepresentationone-hotcoding,Usingspacetobindthingstogether,Ifweusetopographicmapsfordifferentproperties,wecanassumethatpropertiesatthesamelocationbelongtothesamething.,kNN,DistributedRepresentation,Capacityremainslimited,TheVCdimensionofaneuralnetworkoflinearthresholdunitsisonly()whereisthenumberofweights.,Thislimitationarisesbecause,whilewecanassignverymanyuniquecodestorepresentationspace,wecannotuseabsolutelyallofthecodespace,norcanwelearnarbitraryfunctionsmappingfromtherepresentationspacehtotheoutputyusingalinearclassifier.,15.5ExponentialGainsFromDepth,在许多不同情景中已经证明,非线性和重用特征层次结构的组合来组织计算,可以获得统计效率的指数级提升,15.6ProvidingCluestoDiscoverUnderlyingCauses,理想的表示:
区分生成数据变化的潜在因果因子(15.3)监督学习:
每个观察向量x的标签y,它通常直接指定了至少一个变化因素。
一些通用正则化策略的列表平滑:
假设对于单位d和小量e,有f(x+ed)f(x).线性:
很多学习算法假定一些变量之间的关系是线性的。
多个解释因子:
许多表示学习算法受以下假设的启发,数据是由多个潜在解释因子生成的,并且给定每一个因素的状态,大多数任务都能轻易解决。
因果因子:
该模型认为学习到的表示所描述的变量是观察数据x的成因,而并非反过来。
深度,或者解释因子的层次组织:
高级抽象概念能够通过将简单概念层次化来定义。
任务间共享因素:
当多个对应到不同变量yi的任务共享相同的输入x时,或者当每个任务关联到全局输入x的子集或者函数f(i)(x)时,我们会假设每个变量yi关联到来自相关因素h公共池的不同子集。
流形:
概率质量集中,并且集中区域是局部连通的,且占据很小的体积。
自然聚类:
很多机器学习算法假设输入空间中每个连通流形可以被分配一个单独的类。
时间和空间相干性:
慢特征分析和相关的算法假设,最重要的解释因子随时间变化很缓慢,或者至少假设预测真实的潜在解释因子比预测诸如像素值这类原始观察会更容易些。
稀疏性:
假设大部分特征和大部分输入不相关在表示猫的图像时,没有必要使用象鼻的特征。
简化因素依赖性:
在良好的高级表示中,因素会通过简单的依赖相互关联。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 表示 学习
![提示](https://static.bingdoc.com/images/bang_tan.gif)