换一换

冰点文库 > 资源分类 > DOCX文档下载

预览

深度学习领域高性能计算发展分析文档格式.docx

资源ID：5789828 资源大小：831.13KB 全文页数：16页
资源格式： DOCX 下载积分：1金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要1金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

深度学习领域高性能计算发展分析文档格式.docx

1、自深度学习出现以来，它已成为很多领域，尤其是在计算机视觉和语音识别中，成为各种领先系统的一部分。在通用的用于检验的数据集，例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明，深度学习能够提高识别的精度。硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度，使得机器学习算法的运行时间得到了显著的缩短基本概念深度学习的基础是机器学习中的分散表示（distributed representation）。分散表示假定观测值是由不同因子相互作用生成。在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观

2、测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象。深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪婪算法逐层构建而成，并从中选取有助于机器学习的更有效的特征.不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。这一点也为深度学习赢得了重要的优势。人工神经网络下的深度学习一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫休伯尔（David H. Hubel）和托斯坦威泽尔（Torsten Wiesel）提出的

3、理论启发。休伯尔和威泽尔发现，在大脑的初级视觉皮层中存在两种细胞：简单细胞和复杂细胞，这两种细胞承担不同层次的视觉感知功能。受此启发，许多神经网络模型也被设计为不同节点之间的分层模型。福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构。事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。赛普霍克赖特（Sepp Hochreiter）在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。在分层训练的过程

4、中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下。为了解决这一问题，研究者们提出了一些不同的方法。于尔根rgen Schmidhuber）于1992年提出多层级网络，利用无监督学习训练深度神经网络的每一层，再使用反向传播算法进行调优。在这一模型中，神经网络中的每一层都代表观测变量的一种压缩表示，这一表示也被传递到下一层网络。另一种方法是赛普霍克赖特和于尔根施密德胡伯提出的长短期记忆神经网络（long short term memory，LSTM）。2009年，在ICDAR 2009举办的连笔手写识别竞赛中，在没有任何先验知识的情况下，深度多维长短期记忆神经网络取

5、得了其中三场比赛的胜利。斯文贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型，用以解决图像重建和人脸定位的问题。其他方法同样采用了无监督预训练来构建神经网络，用以发现有效的特征，此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕，这一深层结构成为一个生成模型，可以通过自上而下的采样重构整个数据集。辛顿声称这一模型在高维结构化数据上能够有效低提取特征。吴恩达和杰夫迪

6、恩（Jeff Dean）领导的谷歌大脑团队创建了一个仅通过YouTube视频学习高层概念（例如猫）的神经网络。其他方法依赖了现代电子计算机的强大计算能力，尤其是GPU。2010年，在于尔根施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中，丹奇雷尚（Dan Ciresan）和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法。截止2011年，前馈神经网络深度学习中最新的方法是交替使用卷积层（convolutional layers）和最大值池化层（max-pooling layers）并加入单纯的分类

7、层作为顶端。训练过程也无需引入无监督的预训练。从2011年起，这一方法的GPU实现多次赢得了各类模式识别竞赛的胜利，包括IJCNN 2011交通标志识别竞赛和其他比赛。深度学习结构深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络。卷积深度神经网络（Covolutional Neuron Networks, CNN）在计算机视觉领域得到了成功的应用。此后，卷积神经网络也作为听觉模型被使用在自动

8、语音识别领域，较以往的方法获得了更优的结果40 深度神经网络深度神经网络（deep neuron networks, DNN）是一种判别模型，可以使用反向传播算法进行训练。权重更新可以使用下式进行随机梯度下降求解：其中，为学习率，为代价函数。这一函数的选择与学习的类型（例如监督学习、无监督学习、增强学习）以及激活函数相关。例如，为了在一个多分类问题上进行监督学习，通常的选择是使用Softmax函数作为激活函数，而使用交叉熵作为代价函数。Softmax函数定义为，其中代表类别的概率，而和分别代表对单元的输入。交叉熵定义为代表输出单元的目标概率，代表应用了激活函数后对单元的概率输出41。深度神经

9、网络的问题与其他神经网络模型类似，如果仅仅是简单地训练，深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。深度神经网络很容易产生过拟合现象，因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此，权重递减（正规化）或者稀疏（-正规化）等方法可以利用在训练过程中以减小过拟合现象。另一种较晚用于深度神经网络训练的正规化方法是丢弃法（dropout regularization），即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模。反向传播算法和梯度下降法由于其实现简单，与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。但是，这

10、些方法的计算代价很高，尤其是在训练深度神经网络时，因为深度神经网络的规模（即层数和每层的节点数）、学习率、初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行，因而小批量训练（mini-batching），即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练44。而最显著地速度提升来自GPU，因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难，因而深度神经网络在训练并行化方面仍有提升的空间。深度置信网络深度置信网络（deep belief networks，DBN）是一种包含多层隐单元的概率生成模型，可被视为

11、多层简单学习模型组合而成的复合模型。深度置信网络可以作为深度神经网络的预训练部分，并为网络提供初始权重，再使用反向传播或者其他判定算法作为调优的手段。这在训练数据较为缺乏时很有价值，因为不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能，也加快了调优阶段的收敛速度46。深度置信网络中的每一层都是典型的受限玻尔兹曼机（restricted Boltzmann machine，RBM），可以使用高效的无监督逐层训练方法进行训练。受限玻尔兹曼机是一种无向的基于能量的生成模型，包含一个输入层和一个隐层。图中对的边仅在输入层和隐层

12、之间存在，而输入层节点内部和隐层节点内部则不存在边。单层RBM的训练方法最初由杰弗里辛顿在训练“专家乘积”中提出，被称为对比分歧（contrast divergence, CD）。对比分歧提供了一种对最大似然的近似，被理想地用于学习受限玻尔兹曼机的权重。当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。每次堆叠时，原有的多层网络输入层被初始化为训练样本，权重为先前训练得到的权重，该网络的输出作为新增RBM的输入，新的RBM重复先前的单层训练过程，整个过程可以持续进行，直到达到某个期望中的终止条件。尽管对比分歧对最大似然的近似十分粗略（对比分歧并不在任何函

13、数的梯度方向上），但经验结果证实该方法是训练深度结构的一种有效的方法。卷积神经网络卷积神经网络（convolutional neuron networks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积深度置信网络卷积深度置信网络（convo

14、lutional deep belief networks，CDBN）是深度学习领域较新的分支。在结构上，卷积深度置信网络与卷积神经网络在结构上相似。因此，与卷积神经网络类似，卷积深度置信网络也具备利用图像二维结构的能力，与此同时，卷积深度信念网络也拥有深度置信网络的预训练优势。卷积深度置信网络提供了一种能被用于信号和图像处理任务的通用结构，也能够使用类似深度置信网络的训练方法进行训练。注：资料来源于维基百科：https:/zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0常用深度学习软件简介CaffeCaffe的全称应该是Co

15、nvolutional Architecture for Fast Feature Embedding，它是一个清晰、高效的深度学习框架，它是开源的，核心语言是C+，它支持命令行、Python和Matlab接口，它既可以在CPU上运行也可以在GPU上运行。它的license是BSD 2-Clause。Deep Learning比较流行的一个原因，主要是因为它能够自主地从数据上学到有用的feature。特别是对于一些不知道如何设计feature的场合，比如说图像和speech。 Caffe的设计基本上，Caffe 对神经网络进行了一个简单假设-所有的计算都是以layer的形式表示的，layer做

16、的事情就是拿一些数据，然后输出一些计算以后的结果，比如说卷积，就是输入一个图像，然后和这一层的参数（filter）做卷积，然后输出卷积的结果。每一个layer需要做两个计算：forward是从输入计算输出，然后backward是从上面给的gradient来计算相对于输入的gradient，只要这两个函数实现了以后，我们就可以把很多层连接成一个网络，这个网络做的事情就是输入我们的数据（图像或者语音），然后来计算我们需要的输出（比如说识别的label），在training的时候，我们可以根据已有的label来计算loss和gradient，然后用gradient来update网络的参数，这个就是C

17、affe的一个基本流程。基本上，最简单地用Caffe上手的方法就是先把数据写成Caffe的格式，然后设计一个网络，然后用Caffe提供的solver来做优化看效果如何，如果你的数据是图像的话，可以从现有的网络，比如说alexnet或者googlenet开始，然后做fine tuning，如果你的数据稍有不同，比如说是直接的float vector，你可能需要做一些自定义配置，Caffe的logistic regression example兴许会很有帮助。 Caffe的亮点：（1）、模块化：Caffe从一开始就设计得尽可能模块化，允许对新数据格式、网络层和损失函数进行扩展。（2）、表示和实现分

18、离：Caffe的模型（model）定义是用Protocol Buffer语言写进配置文件的。以任意有向无环图的形式，Caffe支持网络架构。Caffe会根据网络的需要来正确占用内存。通过一个函数调用，实现CPU和GPU之间的切换。（3）、测试覆盖：在Caffe中，每一个单一的模块都对应一个测试。（4）、Python和Matlab接口：同时提供Python和Matlab接口。（5）、预训练参考模型：针对视觉项目，Caffe提供了一些参考模型，这些模型仅应用在学术和非商业领域，它们的license不是BSD。MXNet这是自xgboost, cxxnet, minerva以来集合DMLC几乎所有开

19、发者力量的一个机器学习项目。MXNet名字源于”Mix and Maximize”。我们一直有一个目标，就是希望把cxxnet这样强调性能静态优化的C+库和灵活的NDArray有机结合在一起。做包含cxxnet的静态优化，却又可以像minerva, theano, torch那样进行灵活扩展的深度学习库。与其他工具相比，mxnet结合了符号语言和过程语言的编程模型，并试图最大化各自优势，利用统一的执行引擎进行自动多GPU并行调度优化。不同的编程模型有各自的优势，以往的深度学习库往往着重于灵活性，或者性能。MXNet通过融合的方式把各种编程模型整合在一起，并且通过统一的轻量级运行引擎进行执行调度

20、。使得用户可以直接复用稳定高效的神经网络模块，并且可以通过Python等高级语言进行快速扩展。MXNet由 dmlc/cxxnet, dmlc/minerva和Purine2的作者发起，融合了Minerva的动态执行，cxxnet的静态优化和Purine2的符号计算等思想，直接支持基于Python的parameter server接口，使得代码可以很快向分布式进行迁移。每个模块都进行清晰设计，使得每一部分本身都具有被直接利用的价值。C接口和静态/动态Library使得对于新语言的扩展更加容易，目前支持C+和python 2/3 ，接下来相信会有更多语言支持，并方便其他工具增加深度学习功能。轻量

21、级调度引擎。在数据流调度的基础上引入了读写操作调度，并且使得调度和调度对象无关，用以直接有机支持动态计算和静态计算的统一多GPU多线程调度，使得上层实现更加简洁灵活。符号计算支持。MXNet支持基于静态计算流图符号计算。计算流图不仅使设计复杂网络更加简单快捷，而且基于计算流图，MXNet可以更加高效得利用内存。同时进一步优化了静态执行的规划，内存需求比原本已经省的cxxnet还要少。混合执行引擎。相比cxxnet的全静态执行，minerva的全动态执行。MXNet采用动态静态混合执行引擎，可以把cxxnet静态优化的效率带和ndarray动态运行的灵活性结合起来。把高效的c+库更加灵活地和P

22、ython等高级语言结合在一起。更加灵活：在MShadow C+表达式模板的基础上，符号计算和ndarray使在Python等高级语言内编写优化算法，损失函数和其他深度学习组件并高效无缝支持CPU/GPU成为可能。用户无需关心底层实现，在符号和NDArray层面完成逻辑即可进行高效的模型训练和预测。对于云计算更加友好：所有数据模型可以从S3/HDFS/Azure上直接加载训练。代码更加简洁高效：大量使用C+11特性，使MXNet利用最少的代码实现尽可能最大的功能。用约11k行C+代码（加上注释 4k行）实现了以上核心功能。开源用户和设计文档，mxnet提供了非常详细的用户文档和设计文档以及样

23、例。所有的代码都有详细的文档注释。并且会持续更新代码和系统设计细节，希望对于广大深度学习系统开发和爱好者有所帮助。TensorFlowGoogle 大脑项目开始于 2011 年，目的是探索在科研和 Google 的产品中超大规模深度神经网络的使用。作为这个项目的早期工作，Google构建了 DistBelief 第一代的可扩展分布式训练和推断系统，这个系统工作得很不错。Google 的同事使用 DistBelief 进行了广泛的研究包括非监督学习、语言表示、图像分类模型和目标检测、视频分类、语音识别、序列预测、Go 的移动选择、行人检测、强化学习等等。另外，超过 50 个 Google 内部的

24、团队和其他 Alphabet 公司也已经部署了使用 DistBelief 的深度神经网络在众多产品中，包括 Google Search、广告产品、语音识别系统、Google Photos、Google Maps 和街景、Google 翻译、Youtube 和很多其他的产品。Google基于使用 DistBelief 的经验和对于期望用来训练和使用神经网络的系统特性和需求更加完备地理解，构建了 TensorFlow第二代大规模机器学习模型的实现和部署的系统。TensorFlow 使用通过类似数据流模型的计算，将这些计算映射到不同的硬件平台例如使用包含一个或者多个 GPU 显卡的装有 Andro

25、id 和 iOS 的单个机器上进行推断，到运行在数百台包含数千个 GPU 的大规模系统训练和推断。拥有一个单一的系统可以扩展分布到众多的平台上可以大大简化真实场景中机器学习系统的使用，正如在用分离的系统进行大规模训练和小规模的部署，会产生巨大的维护代价和较差的抽象效果。TensorFlow 的计算被表示为含状态的数据流图，我们聚焦在让这个系统足够灵活能够快速地实验研究中产生的新模型，并同时充分地提升产品级训练的性能和部署机器学习模型健壮性。为扩展神经网络训练搞更大的部署环境，TensorFlow 允许 client 简单地表达不同类型的并行通过复制和并行执行一个核心模型数据流图，依赖不同计算设

26、备合作更新一个共享的参数或者其他的状态。对计算描述的微妙变动可以使用较低的代价来达到和尝试很多不同的并行的方法。一些 TensorFlow 的用途借助参数更新的一致性来实现灵活性，可以在一些更大的部署环境中轻易表达和利用这些同步上的松弛。对比 DistBelief，TensorFlow 的编程模型更加灵活，性能也更好，支持在大规模的异构硬件平台上训练和使用很多的模型。DistBelief 的内部用户已经切换成TensorFlow 了。这些客户依赖 TensorFlow 来研究和产品，执行诸如在移动电话计算机视觉模型的推断到使用数百台机器进行千亿级样本的千亿级参数的深度神经网络的训练。Terso

27、rFlow按照 Apache 2.0 协议在 2015 年 11 月开源了 TensorFlow API，可以在www.tensorflow.org查看。TorchTorch诞生已经有十年之久，但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua（该语言曾被用来开发视频游戏）。除了以上三个比较成熟知名的项目，还有很多有特色的深度学习开源框架也值得关注KerasKeras是一个极度简化、高度模块化的神经网络第三方库。基于Python+Theano开发，充分发挥了GPU和CPU操作。其开发目的是为了更快的做神经

28、网络实验。适合前期的网络原型设计、支持卷积网络和反复性网络以及两者的结果、支持人工设计的其他网络、在GPU和CPU上运行能够无缝连接。深度学习框架XSharp深度学习的泰斗吴恩达指出，高性能计算（High Performance Computing, HPC）是深度学习的动力引擎。凭借自身在国内HPC的技术和市场领先优势，率先提出深度学习XSystem系统。此系统为用户提供一体化的深度学习软硬件整体解决方案，包含深度学习XSharp软件栈和XMachine硬件平台。藉此软硬件一体化平台，帮助用户快速进入Deep Learning领域，实现企业应用快速成长，将科研成果快速转化为第一生产力。整个系

29、统以“XMachine Deep Learning一体机”为硬件平台，为深度学习定制开发，多种类型GPU服务器供选择，原生支持NVIDIA DIGITS开发环境，大大降低用户进入深度学习领域的软件件投入成本。XSharp系统特点XSharp深度学习软件与其他产品有着本质的区别。与其他厂商简单包装开源软件不同。XSharp产品初衷以用户应用为主，科研为辅。产品面向企业用户的实际应用，以XSharp平台为契合点，为用户提供相应的优化策略，加速应用效果。“XSharp Deep Learning软件平台”包含三个不同层次的软件开发优化层面，分别从分布式并行系统优化，分布式并行机器学习执行模式优化，大

30、规模机器学习算法工具集三个层面提供Deep Learning优化策略，帮助用户实现应用优化。同时，XSharp软件栈各模块可以随意组合，按照用户应用进行裁剪，满足不同需求。XSystem系统以“HPC+大数据处理”为设计理念，为深度学习用户提供完整的软件栈，整个平台的目标是加速用户开发进度，而非喧宾夺主，让用户偏离原有的研发方向。XSharp软件意义XSharp是目前国内厂商唯一一个针对深度学习的开放框架。我们利用HPC多年的技术积累，在HPC架构基础上构建XSharp软件栈，从原生技术上支持机器学习。XSharp聚焦用户应用，以加速实际应用为目标，抽取图像处理、音频处理、自然语言处理过程中的通用方法，以核心的算法

注意事项

本文（深度学习领域高性能计算发展分析文档格式.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。