欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    某软件学院大数据实验室建设方案.docx

    • 资源ID:11018052       资源大小:110.98KB        全文页数:19页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    某软件学院大数据实验室建设方案.docx

    1、某软件学院大数据实验室建设方案 工学院大数据实验室建设方案目 录1 建设目标 32 配置方案 32.1 已有资源 32.2 扩容资源需求 42.3 物理服务器扩容配置 42.4 磁盘阵列扩容配置 52.5 FC SAN网络扩容配置 62.6 IP网络扩容配置 62.7 扩容配置清单 73 部署方案 83.1 系统架构 83.2 IP网络部署 93.3 Hadoop集群部署 93.4 部署计划 104 Hadoop教学培训方案 114.1 Hadoop教学优势 114.2 课程以及考核安排 114.2.1 相关教材 114.2.2 课程大纲 134.2.3 考核安排 164.2.4 证书认证 1

    2、6建设目标中原工学院软件学院已经建设了云实验平台,在该平台上实现了编程教学实验、数据库实验以及网盘应用系统;该平台技术上采用服务器虚拟化技术通过云管理平台实现了实验环境的快速部署;虚拟化平台基于磁盘阵列集中存储,采用FC SAN网络架构。现规划建设一个Hadoop 大数据实验室,使用已经建设好的平台,通过扩展资源池的方式部署,利用现有服务器虚拟化平台虚拟出大量虚拟机用于构建Hadoop 集群,主要用于学生实验以及科研用途。假定建设目标和规模如下:建设目标:建设成校级实验室,满足学生做大数据实验和教师大数据科研。建设规模:系统支持100个左右的虚机同时运行,性能满足学生大数据实验需求。扩展性需求

    3、:系统需具备良好扩展能力,可以方便扩展系统容量和性能,以满足更多实验和科研需求。配置方案本章节对构建大数据实验室所需要的硬件资源进行配置,从大数据实验资源需求出发来分析构建大数据实验室需要对现有物理服务器、磁盘阵列、FC交换机、IP网络交换机的资源做哪些扩容。已有资源云实验平台已经部署了10多台2路物理服务器,通过1台FC交换机与1台磁盘阵列连接;现有物理计算资源可以支撑同时运行200个虚机(1个LCPU、4GB内存、30GB虚拟磁盘),现有磁盘阵列的存储资源主要提供虚机存储空间和网盘存储空间。扩容资源需求对资源需求进行估算是虚拟化系统硬件配置的基本依据。在大数据实验室中,资源可分为两大类:一

    4、类是运行时系统需要的资源,它决定了系统能支持同时运行多少个虚机,该情形主要关注物理服务器的CPU 资源、内存资源和磁盘阵列的IOPS 资源,磁盘IOPS资源在大数据实验中需求相对较高;另一类是系统可以“存放”多少个虚机,这主要关注磁盘阵列的存储容量。运行资源假定虚机规格如下表中所示,该规格满足大数据实验环境下对性能的需求;则200个虚机同时运行,需提供下表中所需资源。Linux虚机规格同时运行虚机数量虚拟资源池大小需求CPU大小2个逻辑CPU、2.0GHZ100CPU资源200个逻辑CPU、200GHz内存大小4GB内存大小400GB磁盘IOPS100磁盘IOPS10000当然,对于Hadoo

    5、p集群中的Master虚机应当配置大些内存,比如8GB。存储容量磁盘阵列存储空间由需要多少个虚机和虚机磁盘大小决定,假定虚机磁盘规格如下表所示、需要存放500个虚机,总共需要约210TB的存储空间。Linux虚机规格虚机总数磁盘阵列存储空间需求磁盘1(系统盘)大小15GB500磁盘空间107500GB(100TB)磁盘2(数据盘)大小200GB物理服务器扩容配置作为虚拟化主机的物理服务器,目前可选择的配置主要有2路和4路,综合考虑CPU利用率、网络成本等因素,我们建议选择2路服务器作为虚拟化主机,2路较4路将提供更好的性价比。 首先计算总共需要多少物理的CPU资源和内存资源,计算以上述“运行资

    6、源”为基本依据,并考虑物理资源的80%用作运行虚拟机。虚拟资源池大小比例物理资源池大小需求CPU资源200个逻辑CPU、200GHz80%CPU资源250个逻辑CPU 250GHz内存资源400GB内存资源500GB物理服务器规格和所需数量如下表所示。新增物理资源池大小物理服务器规格物理服务器数量CPU资源250个逻辑CPU 、250GHzCPU2路10核、超线程(40个逻辑CPU)、2.0GHz7内存资源500GB内存128GB4磁盘1*240GB SSD盘网口4*1gbFC口1*8gb根据估算,需要新增7台2路物理服务器即可满足计算性能需求,本项目中我们实际配置上述规格的物理服务器8台。磁

    7、盘阵列扩容配置磁盘阵列作为虚拟化系统后端共享存储,主要考虑IOPS性能和存储空间的要求。存储空间显然容易配置,而IOPS存在诸多变数,这是个无法准确估算的指标,为了使系统具备较好的性能,我们进行了仔细考量。依据2.2节所估算的IOPS性能要求和存储空间要求,估算系统需要多少块SAS磁盘。存储资源需求单块SAS盘需配置SAS磁盘数量IOPS10000IOPS20050块存储容量107500GB容量900GB120块同时满足IOPS性能和容量需求需要新增约120块SAS盘,这个投资显得过高。为了降低存储上的投资,我们采取如下配置和部署的策略:第1:使用高性能SSD盘结合SAS盘,提供较SAS盘更好

    8、的性能;该部分的空间主要用于虚机的系统盘。第2:使用高性能SSD盘结合大容量SATA盘,主要满足系统容量的需求,并提供了接近SAS盘的性能;此部分存储空间主要用于虚机的数据盘。现有磁盘阵列扩容配置配置如下表:磁盘阵列扩容配置可提供的规格、功能控制器(双活冗余控制器)IOPS大于12000缓存(32GB)存储容量120TB裸容量SSD盘新增:4*200GBSSD缓存支持SAS盘新增:12*900GB 精简置备支持SSD盘新增:4*400GB存储快照支持SATA盘新增:28*4TB FC SAN网络扩容配置由于新增加了8台物理服务器,FC交换机需要新增加激活端口和相应模块,数量为8个。IP网络扩容

    9、配置原交换机为48个千兆网口,从端口数量上来说资源是够的,但是在大数据实验环境中,虚机之间存在大量的东西向数据流量,因此我们设计增加一台24口的千兆交换机用于大数据集群后端网络流量通道。 扩容配置清单构建满足100个虚机同时运行的大数据实验平台,需要对现有云实验平台物理资源进行扩容,扩容包括:新增8台物理服务器、磁盘阵列添加SSD/SAS/SATA盘、FC交换机增加激活端口、新增1台24口IP交换机,详细扩容配置清单如下表:序号名称品牌/型号扩容配置描述数量单位一云实验平台硬件扩容配置1-1虚拟化主机云创cServer2U机架式服务器带机架安装套件;CPU:2颗Xeon E5-2670 V3,

    10、内存:128GB;4个千兆网口;Disk:1块240GB SSD,板载支持Raid0,1,5 ,FC口:单口8Gb;8台1-3磁盘阵列云创rStor 7000扩容新增:4*200GB SSD,4*400GB SSD,12*900GB SAS盘、28*4TB SATA盘,SSD缓存功能、精简配置功能、快照功能0台1-4光纤交换机Brocade 300B扩容新增:8个端口激活许可,8个端口8gb模块;0台1-5千兆交换机华为 S5700-28C-SI24个10/100/1000Base-T,可插拔交流电源,交流供电1台二Hadoop教学培训服务2-11套三其他相关费用3-1机柜1台3-2定制开发3

    11、-3安装调试3-4培训服务 部署方案系统架构系统架构在扩容前后基本没有变化,扩容后的整个虚拟化系统部署架构如下图所示。与原先区别主要是资源池扩充了,新增的物理服务器构成一个新的集群,并且通过新增加一台千兆交换机构成大数据实验虚机后端网络流量通道。IP网络部署本项目中对于IP网络的部署设计,除了考虑vSphere环境下一般性的部署注意事项外,还需要注意由虚机构成的Hadoop集群对IP网络的需求。 上图是一台物理服务器的虚拟网络和物理网络连接示意图。每个虚机配置2个虚拟千兆网口,一个用于虚机前端业务流量,一个用于Hadoop集群后端流量,虚拟交换机vSwitch1和vSwitch2技术上可以使用

    12、一台、可以配置为标准虚拟交换机或分布式虚拟交换机,为了清晰和降低难度,建议配置为2个标准虚拟交换机;vSwitch0和vSwitch1上行链路可以互为备份,vSwitch1和vSwitch2的上行链路可以互为备份;物理服务器4个网口连接到2台堆叠的物理交换机。这种部署设计实现了IP网络全冗余,提供了故障切换和网络负载均衡功能。Hadoop集群部署通过虚机部署Hadoop集群,当然需要评估虚机资源的需求,即使评估有误也无关系,虚拟化的一大好处就在于资源可以灵活调整。在部署和使用虚机时,我们可以结合使用虚机模板、虚机克隆、虚机快照等技术为创建和使用实验环境提供便利。Hadoop集群包含了Maste

    13、r节点和Slave节点,可以进行Hadoop部署实验、HDFS实验、MapReduce实验、HBase实验、Hive实验等。下表是节点虚机配置参考。Master节点配置参考Slave节点配置参考CPU2*LCPUCPU1-2*LCPUMEM8-16GBMEM2-8GBDisk1(sda)15GBDisk1(sda)15GBDisk2(sdb)20GBDisk2(sdb)50-200GB虚拟网卡1千兆虚拟网卡1千兆虚拟网卡2千兆虚拟网卡2千兆本项目部署时,需要注意一个细节点是:我们应该尽量将一个Hadoop集群内的所有虚机运行在一台物理服务器上,避免IP流量流出物理服务器。部署计划下表给出本项目

    14、部署实施的一些主要任务和时间预估。任务时间IP地址规划,VLAN规划4HFabric Zone规划1H存储LUN规划2H虚机资源规划1H设备上架,完成物理安装1D磁盘阵列初始安装2HFC交换机配置2HIP网络配置(交换机、路由器)2H存储完成配置2HvSphere安装配置1.5D虚机资源规划2H软件ISO导入,虚机模板创建1H第一个大数据集群建立1D使用测试,调整2D创建其他大数据集群Hadoop教学培训方案云创大数据科技股份有限公司为了帮助高校/高职培养Hadoop人才,提供Hadoop培训解决方案。为高校实现信息化教学和科研管理奠定良性基础,增加高校学生就业机会和薪资水平,逐步培养当今互联

    15、网时代IT行业的Hadoop人才。云创针对高校Hadoop培训提供了一揽子解决方案,该解决方案主要包含Hadoop培训课程、培训教材、考核认证、Hadoop教学实验平台等。本章节是对云创的Hadoop教学培训的介绍。Hadoop教学优势为什么要选择我们呢?第一点:国内最畅销的云计算教材和第一本Hadoo编程书籍由我们出版发行。第二点:国内排名第一的云计算和大数据网站由我们创办经营。第三点:南京航空航天大学、北方工业大学、南京农业大学等众多名校都在使用我们的产品,并且广受好评。第四点:作为国内云计算、大数据领域的领军企业,是国家工信部推荐的高科技企业之一。课程以及考核安排相关教材教材一实战Had

    16、oop简介该书强调动手、强调实战、以风趣幽默的语言和一系列生动的实战应用案例,系统地讲授了Hadoop的核心技术和扩展技术,包括:HDFS、MapReduce、HBase、Hive和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。本书读者对象为各类云计算相关企业、高校和科研机构的研发人员,亦适合作为高校研究生和本科生教材。内容介绍第1章 神奇的大象Hadoop 第2章 HDFS不怕故障的海量存储第3章 分久必合MapReduce第4章 一张无限大的表HBase第5章 更上一层楼MapReduce进阶第6章 Hive飞进数据仓库

    17、的小蜜蜂第7章 Pig一头什么都能吃的猪第8章 Facebook的女神Cassandra第9章 Chukwa收集数据的大乌龟第10章 一统天下ZooKeeper第11章 综合实战1打造一个搜索引擎第12章 综合实战2生物信息学应用第13章 综合实战3移动通信信令监测与查询第14章 高枕无忧Hadoop容错教材二云计算(第三版)简介本书是中国电子学会云计算专家委员会刘鹏教授主编的系统讲授云计算的专业图书,综述了云计算领域的理论研究热点问题。本书强化了可操作性,给出了大量应用实例、编程方法或实验步骤等。本书紧跟云计算的发展前沿,既有理论深度,又有实用价值,可作为高校教材使用,也可作为云计算研发人员

    18、和爱好者的学习和参考资料。内容介绍第1章 绪论 第2章 Google云计算原理与应用第3章 Amazon云计算AWS第4章 微软云计算Windows Azure第5章 VMware云计算第6章 Hadoop:Google云计算的开源实现第7章 Eucalyptus:Amazon云计算的开源实现第8章 其他开源云计算系统第9章 云计算仿真器CloudSim第10章 云计算研究热点第11章 总结与展望课程大纲培训课程知识点主要内容Hadoop、HBase、Hive集群安装(12课时)Hadoop集群部署安装HBase集群部署安装Hive部署安装HDFS基本概念(12课时)HDFS设计目标HDFS系

    19、统特点HDFS工作原理HDFS API操作(46课时)HDFS 接口命令行工具HDFS的Java API及使用API对HDFS编程MapReduce基本原理(12课时)什么是MapReduceMapReduce服务MapReduce工作机制MapReduce调度管理MapReduce编程实例(24课时)WordCountMapReduce 入门实例Hadoop生态圈(12课时)各Hadoop模块介绍企业应用中各Hadoop模块的正确运用与集成HBase原理、概念(12课时)HBase基本概念HBase架构和核心模块介绍HBase存储逻辑结构介绍HBase API操作(48课时)基本方法:Get

    20、/Put/Scan/Delete上机实战使用java实现(包含2种接口实现、随机批量写入、查询用户搜索结果)Hive 原理(12课时)Hive的作用和原理说明Hadoop/Hive仓库数据数据流HiveQL实例(48课时)HiveQL的使用上机实战使用JDBC 连接Hive进行查询和分析实训案例(10课时)案例培训:海量数据实时查询系统(涉及HDFS,MapReduce,HBase,ZooKeeper)案例培训:基于海量卡口数据的实时分析系统(涉及HDFS,MapReduce,HBase,ZooKeeper,Hive)HBase高级编程(46课时)HBase系统优化HBase集群高可靠方案HB

    21、ase协处理器编程HDFS系统原理分析(1课时)HDFS副本策略HDFS机架感知MapReduce高级编程(810课时)Hadoop 任务提交流程剖析Hadoop JobTracker 详解Hadoop TaskTracker 详解MapReduce流程详解,并剖析一个典型的MapReduce程序MapReduce高级编程(1520课时)Hadoop Mapper、Reducer类核心代码剖析基本MapReduce API 概念:数据类型,输入输出格式使用Eclipse上机实战如何自定义数据类型使用Eclipse上机实战如何自定义输入/输出格式与RecordReader、RecordWrite

    22、r使用Eclipse上机实战通过定制数据输出格式实现多集合文件输出Partitioner说明及上机实战定制PartitionerCombiner说明及上机实战定制Combiner组合式MapReduce计算作业简介及上机实战具有复杂依赖关系的组合式MapReduce作业的执行MapReduce前处理和后处理及上机实战具有前处理和后处理的MapReduce作业的链式执行上机实战多数据源连接的MapReduce作业执行上机实战全局参数和数据文件的MapReduce作业执行MapReduce常用算法(Sort、Index、Join、IF-IDF等)介绍MapReduce2.0 YARN架构MapRe

    23、duce2.0 YARN架构实例考核安排序号考核科目考核内容实验一Hadoop实验Hadoop 生态系统平台的安装部署,包括 HDFS、 MapReduce、Yarn 与 MR2.0 HDFS 集群状态查看 MapReduce 示例程序运行、状态查看实验二HDFS上机实验HDFS 分布式文件系统的常用命令操作与存储程序开发用户管理、权限管理等实验三MapReduce实验MapReduce 统计程序开发并运行MapReduce API编程应用开发实验四HBase实验部署 HBase 分布式半结构数据管理平台 HBase 数据库运维 HBase 数据表操作以及HBase API调用应用开发实验五H

    24、ive实验部署 Hive 分布式数据仓库利用 Hadoop、HBase、Hive 平台协同存储、管理与分析处理平台部署完成所有课时将参加考试。通过考试的学员可以获得中国云计算协会颁发的中国云计算协会认证证书。证书认证完成所有课程及所有考核的学员将颁发中国云计算协会认证证书。中国云计算协会简介中国计算机行业协会云计算专业委员会于2011年6月9日,在江苏省镇江市举行的2011中国云计算产业发展高峰论坛暨云计算专业委员会成立大会上正式成立。中国计算机行业协会云计算专业委员会由云计算领域中“产学研用”群体自愿组成,是自律性民间社团组织,其主要职能体现在开展调查研究及咨询工作,为云计算产业发展提供策略

    25、、规划及政策建议;积极维护会员合法权益,引领行业自律发展;组织并开展有利于行业健康发展的技术标准规范交流及互助合作活动等。中国计算机行业协会云计算专业委员会2011年主要工作在以下几个方面重点推进:在产业高端平台搭建方面,积极筹备成立“中国云计算基地(中心)联盟”,推动地方云计算基础设施科学规划、建设和有效利用,以联盟活动为载体,增强产业园区、云计算基地、(中心)、行业企业、云计算用户的互动、交流,提升云计算基地(中心)服务能力和应用层次。另外,每年定期举办“中国云计算产业发展高峰论坛”,搭建主管部门、会员企业、行业用户交流沟通平台;开展中国云计算 “十佳创新企业”、“十佳应用示范工程”、“十佳基地(中心)”评选活动以及组织与地方政府对接的云计算解决方案巡展等。


    注意事项

    本文(某软件学院大数据实验室建设方案.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开