书签分享收藏举报版权申诉 / 179

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 农学 > 知识图谱2机器学习基础.pdf

知识图谱2机器学习基础.pdf

文档编号：3430672
上传时间：2023-05-05
格式：PDF
页数：179
大小：8.79MB

知识图谱2机器学习基础.pdf

《知识图谱2机器学习基础.pdf》由会员分享，可在线阅读，更多相关《知识图谱2机器学习基础.pdf（179页珍藏版）》请在冰点文库上搜索。

知识图谱2机器学习基础.pdf

机器学习基础刘康中国科学院自动化研究所研讨课安排研讨课第4章知识图谱框架（3学时）刘康（10月10日）第8章研讨课：

事件抽取（3学时）赵军（11月7日）第11章研讨课：

知识图谱构建（3学时）赵军（11月28日）形式分组汇报（每组：

6-8人，15分钟汇报一篇相关的文章）候选Topic：

知识融合（1-6组，内容可以参考OAEI评测相关文章）事件抽取（7-12组，内容可以包括事件抽取；事件关系预测；事件框架生成；事件预测）知识图谱构建（13-18组，内容可以包括实体识别；实体消歧；关系抽取）研讨课安排分组办法有道云协作：

http:

/163.fm/4dMfuC4t请组长进群后填写本组相关信息信息填写截止时间：

2017年9月20日晚8：

00（周三）文章下载地址：

http:

/www.aclweb.org/anthology/只要Topic属于上述候选Topic即可，也可以从其他期刊或者会议下载编号规则：

请大家按编辑先后顺序编写自己的小组序号，先到先得，例如：

第一个编辑的小组可以选择1-18中的任意编号，第二个小组可以选择除了第一个小组以外的其它编号，如果后填写的小组看到自己的小组号码或者文章题目和已经填写好的小组冲突，请后面的小组更换为不冲突的编号和文章。

切记：

这个协作笔记有操作记录，请大家只编辑自己小组的信息，不要更改其余小组的信息！

参考书籍1.KnowledgeRepresentationandReasoning（RonaldJ.Brachman,HectorJ.Levesque）2.ArtificialIntelligence:

AModernApproach（StuartRussell,PeterNorvig）3.ASemanticWebPrimer（GrigorisAntoniou等）4.SpeechandLanguageProcessing（DanielJurafsky，JamesH.Martin）目录机器学习基础理论与概念神经网络与深度学习基础卷积神经网络循环神经网络机器学习机器学习（MachineLearning,ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能机器学习是人工智能的一个分支,其目的在于使得机器可以根据数据进行自动学习,通过算法使得机器能从大量历史数据中学习规律从而对新的样本做决策它目前是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎机器学习输出y模型学习算法输入x训练样本（x,y）机器学习主要是研究如何使计算机从给定的数据中学习规律，即从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。

目前，主流的机器学习算法是基于统计的方法，也叫统计机器学习机器学习概要训练数据训练数据：

（xi,yi）,1im模型：

模型：

线性方法：

y=f（x）=wTx+b非线性方法：

神经网络优化优化：

损失函数：

L（y,f（x）经验风险最小化：

正则化：

优化目标函数优化目标函数：

1（）（）1,miiiQLyfxm=2|（|）Q+2|奥卡姆剃刀原则机器学习狭义地讲，机器学习是给定一些训练样本（xi,yi）,1iN（其中xi是输入，yi是需要预测的目标），让计算机自动寻找一个决策函数f（）来建立x和y之间的关系。

这里，是模型输出,为决策函数的参数，（）表示样本x对应的特征表示。

因为x不一定都是数值型的输入，因此需要通过（）将x转换为数值型的输入。

（）,）yfx=损失函数在机器学习算法中，一般定义一个损失函数损失函数L（y,f（x,），在所有的训练样本上来评价决策函数的好坏（风险）。

风险函数R（）是在已知的训练样本（经验数据）上计算得来的，因此被称之为经验风险。

参数的求解其实就是寻求一组参数，使得经验风险函数达到最小值，就是我们常说的经验风险最小化原则（EmpiricalRiskMinimization）（）（）（）（）（）i11,NiiRLyfxN=（）*=argminR损失函数如何度量错误的程度。

0-1损失函数平方损失函数（）（）（）（）（）（）0,1,ifyfxLyfxifyfxlyfx=（）（）2,Lyyyfx=损失函数交叉熵损失函数对于分类问题，模型输出f（x,）为每个类y的条件概率。

假设y1,C，模型预测样本属于第i个类的条件概率P（y=i|x）=fi（x,），则f（x,）满足fy（x,）可以看作对于所标注类别y的似然函数。

参数可以直接用最大似然估计来优化。

考虑到计算问题，我们经常使用最小化负对数似然，即负对数似然损失函数负对数似然损失函数（NegativeLogLikelihoodfunction）。

（）（）1,0,1,1Ciiifxfx=（）（）（）,log,yLyfxfx=损失函数如果我们用one-hot向量来表示目标类别c，其中只有yc=1，其余向量元素都为0。

则目标函数可以写为：

）是所标注真实类别的分布，上式恰好是交叉熵的形式。

因此，损失函数也称之为交叉熵损失函数（CrossEntropyLossfunction）。

（）（）（）1,log,CiiiLyfxyfx=损失函数Hinge损失函数对于两类分类问题，假设y和f（x,）的取值为1,+1。

Hinge损失函数（HingeLossFunction）的定义如下：

（）（）（）（）（）,max0,1,1,Lyfxyfxyfx+=过拟合overfitting结构风险最小化原则为了解决过拟合问题，一般在经验风险最小化的原则上加参数的正则化正则化（Regularization），也叫结构风险最小化原则结构风险最小化原则（StructureRiskMinimization）。

用来控制正则化的强度，正则化项也可以使用其它函数，比如L1范数（）（）（）（）（）22i1*=argmin1argmin,NiiRLyfxN=+=+正则化项正则化项学习在机器学习问题中，我们需要学习到参数，使得风险函数最小化。

如果用梯度下降法进行参数学习，搜索步长在机器学习中也叫作学习率（LearningRate）。

（）（）（）（）（）i1*=argmin1argmin,tNiiRLyfxN=（）（）（）（）11a=a;,atttiiNttiRRxy+=梯度下降法学习率学习率设置：

自适应法AdaGrad（AdaptiveGradient）算法是借鉴L2正则化的思想。

在第t次迭代时，其中，是初始的学习率，gR|是第次迭代时的梯度。

随着迭代次数的增加，梯度逐渐缩小121ttttgg=开发集在梯度下降训练的过程中，由于过拟合的原因，在训练样本上收敛的参数，并不一定在测试集上最优。

因此，我们使用一个验证集验证集（ValidationDataset）（也叫开发集开发集（DevelopmentDataset）来测试每一次迭代的参数在验证集上是否最优。

如果在验证集上的错误率不再下降，就停止迭代。

如果没有验证集，可以在训练集上进行交叉验证交叉验证训练集开发集测试集机器学习问题类型回归（Regression）y是连续值（实数或连续整数），f（x）的输出也是连续值。

这种类型的问题就是回归问题。

对于所有已知或未知的（x,y），使得f（x,）和y尽可能地一致。

损函数通常定义为平方误差。

分类（Classification）y是离散的类别标记（符号），就是分类问题。

损失函数有一般用0-1损失函数或负对数似然函数等。

在分类问题中，通过学习得到的决策函数f（x,）也叫分类器。

机器学习算法类型有监督学习有监督学习（SupervisedSupervisedLearningLearning）是利用一组已知输入x和输出y的数据来学习模型的参数，使得模型预测的输出标记和真实标记尽可能的一致无监督学习（无监督学习（UnsupervisedUnsupervisedLearningLearning）用来学习的数据不包含标注信息，需要学习算法自动学习到一些有价值的信息，例如聚类聚类（Clustering）半半监督学习监督学习（SemiSemi-SupervisedSupervisedLearningLearning）是利用少量已知输入x和输出y的数据以及未标注的样本，来学习模型的参数分类、回归和聚类Clustering主动学习（ActiveLearning）集成学习（EnsembleLearning）迁移学习（TransferLearning）多任务学习（Multi-taskLearning）强化学习（ReinforcementLearning）终生学习（Life-longLearning）课程学习（CurriculumLearning）零样本学习（One/zeroshotLearning）机器学习分类主成分分析流形学习核方法主题模型度量学习Embedding.特征表示：

特征选择、特征抽取线性分类线性分类是机器学习中最常见并且应用最广泛的一种分类器。

（）1000TTTifwxylwxifwx=LogisticRegressionLogistic回归回归我们定义目标类别y=1的后验概率为：

其中，（）为logistic函数，x和w为增广的输入向量和权重向量。

y=0的后验概率为=1=/=11+exp（/）=0=1=1=exp（/）1+exp（/）Logistic函数（x）=diag（x）（1（x）logistic函数经常用来将一个实数空间的数映射到（0,1）区间，记为（x）其导数为（x）=（x）（1（x）当输入为K维向量x=x1,xKT时，其导数为（）11xxe=+LogisticRegressiony=（wx+b）多类线性分类对于多类分类问题（假设类别数为C（C2）），一般有两种多类转两类的转换方式：

把多类分类问题转换为C个两类分类问题，构建C个一对多的分类器。

每个两类分类问题都是把某一类和其他类用一个超平面分开把多类分类问题转换为C（C1）/2个两类分类问题，构建C（C1）/2个两两分类器。

每个两类分类问题都是把C类中某两类用一个超平面分开。

缺陷：

一起区域中，点的类别是不能区分确定的多类线性分类为了避免上述缺陷，可以使用一个更加有效的决策规则，直接建立多类线性分类器。

假设y=1,C共C个类别，首先定义C个判别函数：

这里6为类c的权重向量。

对于空间中的一个点x，如果存在类别c，对于所有的其他类别（6/）都满足6（）6（），那么x属于类别c。

相应的分类函数可以表示为：

1argmaxCTccywx=6=6/,=1,Softmax回归SoftMax回归是Logistic回归的多类推广。

我们定义目标类别y=c的后验概率为：

（）（）（）（）1exp|maxexpTcTcCTiiwxPycxsoftwxwx=评价方法常见的评价标准有正确率、准确率、召回率和F值等。

给定测试集T=（x1,y1）,（xN,yN），对于所有的yi1,C。

假设分类结果为Y=?

?

。

则正确率正确率（Accuracy，CorrectRate）为：

其中，|为指示函数和正确率相对应的就是错误率错误率（ErrorRate）。

正确率是平均的整体性能。

1NiiiyyAccN=1NiiiyyErrN=评价方法在很多情况下，我们需要对每个类都进行性能估计，这就需要计算准确率和召回率。

正确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，在机器学习的评价中也被大量使用。

准确率准确率（Precision，P），是识别出的个体总数中正确识别的个体总数的比例。

对于类c来说，召回率召回率（Recall，R），也叫查全率，是测试集中存在的个体总数中正确识别的个体总数的比例。

111iiNiiiyccNiycyyP=111iiNiiiyccNiycyyR=自然语言处理让机器理解自然语言自然语言难点分词中国人为了实现自己的梦想中国/人为/了/实现/自己/的/梦想中国人/为了/实现/自己/的/梦想中/国人/为了/实现/自己/的/梦想其他例子“大学生”、“研究生物”、“从小学起”、“为人民工作”、“中国产品质量”、“部分居民生活水平”、“南京市长江大桥”等等指代消解我们把香蕉给猴子，因为它们饿了我们把香蕉给猴子，因为它们熟透了自然语言难点更困难的例子冬天，能穿多少穿多少；夏天，能穿多少穿多少。

剩女的原因：

一是谁都看不上，二是谁都看不上。

单身的来由：

原来是喜欢一个人，现在是喜欢一个人。

女致电男友：

地铁站见。

如果你到了我还没到，你就等着吧。

如果我到了你还没到，你就等着吧！

大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借十舅发给十一舅工资的1000元问：

1、究竟谁是小偷？

2、钱本来是谁的？

情感分类：

分类问题这个电影很好看。

这个电影太糟糕了。

分类模型模型表示模型表示特征抽取特征抽取参数学习参数学习解码算法解码算法情感分类诺基亚5800屏幕很好，操作也很方便，通话质量也不错，诺基亚158001屏幕1很好1操作1也2很1方便1通话1质量1不错1分类器（1,0,0,1,0,1,1.,0,1）中文分词：

分类问题自然语言处理01010窗口大小样本类别标签2“自然”0“然语”1“语言”04“自然语言”1“然语言处”0“语言处理”1单字符串特征BCD,BD,DD,D,CD双字符串特征BDD,DD,BD,三字符串特征BDD马氏链特征BD0000100010001000110011/0中文分词：

分类问题B:

词的开始字符M:

词的中间字符E:

词的结尾字符S:

单字符词上海上海/计划计划/到到/本本/世纪世纪/末末/实现实现/人均人均/国内国内/生产生产/总值总值/五千美元五千美元/。

/上上/B/B海海/E/E计计/B/B划划/E/E到到/S/S本本/S/S世世/B/B纪纪/E/E末末/S/S实实/B/B现现/E/E人人/B/B均均/E/E国国/B/B内内/E/E生生/B/B产产/E/E总总/B/B值值/E/E五五/B/B千千/M/M美美/M/M元元/E/E。

/S/S深度学习和神经网络基础MachineLearningRepresentationObjectiveOptimizationTraditionalMachineLearning人工特征工程+分类器特征抽取（Segmentation、PCA、Shape）分类器（SVM、NB、MaximumEntropy、CRF）DeepLearning自动学习多尺度的特征表示Low-levelFeaturesMid-levelFeaturesHigh-levelFeaturesClassifierHistory目录感知机前馈神经网络感知机Perceptron感知机Perception感知器是对生物神经细胞的简单数学模拟,是最简单的人工神经网络,只有一个神经元。

感知器也可以看出是线性分类器的一个经典学习算法。

细胞体（Soma）中的神经细胞膜上有各种受体和离子通道,胞膜的受体可与相应的化学物质神经递质结合,引起离子通透性及膜内外电位差发生改变,产生相应的生理活动:

兴奋或抑制。

细胞突起是由细胞体延伸出来的细长部分,又可分为树突和轴突。

树突（Dendrite）可以接受刺激并将兴奋传入细胞体。

每个神经元可以有一或多个树突。

轴突（Axons）可以把兴奋从胞体传送到另一个神经元或其他组织。

每个神经元只有一个轴突。

抑制与兴奋神经细胞的状态取决于从其它的神经细胞收到的输入信号量,及突触的强度（抑制或加强）。

当信号量总和超过了某个阈值时,细胞体就会兴奋,产生电脉冲。

电脉冲沿着轴突并通过突触传递到其它神经元。

感知机感知机给定输入x=（x1,x2,x3,!

xn）y=f（x）=sign（wix+b）sign（x）=+1,x01,xCH（）C_a_=H）=bcde）=）=（）=

（1）=）fgfhi=（）

（1）yzw2w1w3OtherActivationFunctionsrectifier（x）=max（0,x）rectifier函数被认为有生物上的解释性。

神经科学家发现神经元具有单侧抑制、宽兴奋边界、稀疏激活性等特性。

采用rectifier函数的单元也叫作正线性单元（rectifiedlinearunit,ReLU）前馈神经网络前馈神经网络FeedForwardNeuralNetworks前馈计算L表示神经网络的层数k表示第层神经元的个数k（）表示第层的激活函数wk表示第层的权重bk表示第层神经元的偏置zk表示第层神经元的状态yk表示第层神经元的输出zk=wkIykB+bkyk=k（zk）zk=wkIk（zkB）+bk前馈计算xzzzCCzCzkkzkzss（zs）训练：

梯度下降法=CH（）C_a_wkwkB=CH（）C_a_）训练：

ErrorBackPropagating=CH（s）C_a_k=kkk=kk（1k）k=k）kk=k）kBk=Htkbktkbt=Htkbtkbt=H）=bcde）kkk）kBtkbtbkbtBkbtkb1+1反向错误传播w12345CwwCwx=HxwCx=HCxCwyx=HyxywxCxyx反向传播在第层神经元上的误差：

k=fgfY各层神经元上的误差s=fgf|（s）k=kbkbkfgf=kfgfh=kBkBackPropagationAlgorithmInputxFeedForwardForeachlayer=2,3,computek=kkBandk=（k）OutputErrorComputes=|（k）BackPropagatingForeach=1,2,2computek=（kb）kb）（k）OutputThegradientofthecostfunctionisgivenbyfgfh=kBk卷积神经网络ConvolutionalNeuralNetworkSequenceModelingIwanttoplaygamewiththatlittlegirl.NNforsentencemodelingConvolutionalNeuralNetwork（CNN）RecurrentNeuralNetwork（RNN）RecursiveNeuralNetwork（RNN）FeedForwardNeuralNetworks全连接k表示第层神经元的个数L表示神经网络的层数参数个数：

ksk权重矩阵参数非常多，训练效率低下数据不足时，欠学习CNNConvolutionalNeuralNetwork是一种前馈神经网络。

卷积神经网络是受生物学上感受野（ReceptiveField）的机制而提出的。

一个神经元的感受野是指特定区域，只有这个区域内的刺激才能够激活该神经元。

局部链接权值共享采样具有平移、缩放和扭曲不变性全连接vs.卷积全连接CNN一维卷积信号x，信号长度n滤波器f，滤波器长度m当t=时，相当于移动平均=HtBtbtExample输入序列卷积核（filter）输出卷积类型窄卷积信号两端不补0输出信号长度为n-m+1宽卷积信号两端补0输出信号长度为n+m-1等长卷积信号两端补0输出信号长度为n窄卷积等长卷积滤波器步长步长=2滤波器步长步长=2滤波器步长步长=2二维卷积信号x，信号长度M*N滤波器f，滤波器长度m*n在图像中，卷积意味着区域内像素的加权平均当_=时，相当于平均）=HH_）B_b,Bb_卷积类型窄卷积信号四周不补0输出信号长度为M-m+1*N-n+1宽卷积信号四周补0输出信号长度为M+m-1*N+n-1等长卷积信号四周补0输出信号长度为M*NExamplesExamples两维卷积实例卷积层全连接前馈神经网络XZw2w1w3）（kB）=H）（k）（kB）+）（k）（k）=（）（kB）（k）=（HkkB（）+）（k）卷积层第层的每一个神经元都只和第1层的一个局部窗口内的神经元相连，构成一个局部连接网络。

其中，（k）为维的滤波器，则有权值共享权值共享：

在卷积层里，我们只需要+1个参数。

第+1层的神经元个数不是任意选择的，而是满足（kb）=（k）+1）（k）=（Hk）BkbkB+（k）=（kI）BkbkB+（k）（k）=（k）BkbkB+（k）二维卷积层假设k（h）和（kB）（hdd）分别是第层和第1层的神经元活性。

k的每一个元素为：

其中，（k）_为两维的滤波器，（k）为偏置矩阵。

第1层的神经元个数为，并且k=kB+1,k=kB+1,（k）=（HH）,kB）b_,BbkB_）+（k）（k）=（kkB+（k）两个filters特征映射FeatureMap为了增强卷积层的表示能力，我们可以使用个不同的滤波器来得到组输出。

每一组输出都共享一个滤波器。

如果我们把滤波器看成一个特征提取器，每一组输出都可以看成是输入图像经过一个特征抽取后得到的特征。

因此，在卷积神经网络中每一组输出也叫作一组特征映射特征映射（FeatureMap）假设第1层的特征映射组数为kB，每组特征映射的大小为kB=kBkB。

第1层的总神经元数：

kBkB。

第层的特征映射组数为。

如果假设第层的每一组特征映射（k,t）的输入为第1层的所有组特征映射。

第层的第k组特征映射（k,t）为：

其中，（k,t,a）表示第1层的第组特征向量到第层的第组特征映射所需的滤波器（k,t）=（Hk,t,akB,ada+（k,t）两维卷积层的映射关系（k,）（k,d）输入特征映射滤波器（,1）（k,t）输出特征映射滤波器（k,t,d）偏置b两维卷积层示例（k,t）=（Hk,t,akB,ada+（k,t）连接表第层的每一组特征映射都依赖于第层的所有特征映射，相当于不同层的特征映射之间是全连接的关系。

实际上，这种全连接关系不是必须的。

我们可以让第层的每一组特征映射都依赖于前一层的少数几组特征映射。

这样，我们定义一个连接表连接表来描述不同层的特征映射之间的连接关系。

如果第层的第组特征映射依赖于前一层的第组特征映射，则,=1，否则为0这样，假如连接表的非零个数为，那每个滤波器的大小为，共需要+k参数（k,t）=（Hk,t,akB,ada/,+（k,t）子采样层卷积层虽然可以显著减少连接的个数，但是每一个特征映射的神经元个数并没有显著减少高维数据过拟合降低维度：

Pooling、Subsampling特征选择、特征抽取子采样层对于卷积层得到的一个特征映射（k），我们可以将（k）划分为很多区域t,=1,。

区域t可以重叠，也可以不重叠，则采样层输出有：

其中，kb和（kb）分别是可训练的权重和偏置参数（k）是指子采样后的特征映射（kb）=（kbI（t）+（kb）（kb）=（kbI（k）+（kb）子采样层最大值采样（MaximumPooling）最小值采样（MinimumPooling）平均值（AveragePooling）TopK采样（AveragePooling）K（t）=max）（t）=min）c（t）=1|t|H）|）t（t）=topk）子采样层示例ExampleCNN在图像处理中的应用LeNet-5虽然提出时间比较早，但是是一个非常成功的神经网络模型。

基于LeNet-5的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。

LeNet-5共有7层。

LeNet-5网络结构LeNet-5LeNet-5网络结构输入层：

输入图像大小为3232=1024。

C1层：

这一层是卷积层。

滤波器