JS21高性能计算集群方案书V5Word格式.docx
- 文档编号:984324
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:19
- 大小:784.42KB
JS21高性能计算集群方案书V5Word格式.docx
《JS21高性能计算集群方案书V5Word格式.docx》由会员分享,可在线阅读,更多相关《JS21高性能计算集群方案书V5Word格式.docx(19页珍藏版)》请在冰点文库上搜索。
也就是说一台4路JS21其计算性能就相当于60路SMP机器的性能。
2.方案介绍
本方案介绍了采用JS21刀片服务器的高性能计算集群的系统架构,优势分析与软硬件标准配置。
2.1.目标客户
由于JS21服务器性能强大的AltiVec处理器和系统架构设计,在某些领域中具有大大领先性能优势,如高性能计算(HPC)、气象预报,生命科学、计算化学、地震资料处理、信号与数字影像处理等。
对于自主开发的应用程序或其他平台的开源的应用软件,可以简单的通过编译器的自动优化功能(无需改动代码),重新编译即可利用到AltiVec的强大功能。
HPC的目标客户包括,学校,研究所等科学研究机构,气象、石油部门、医学成像,三维图形运算等各个计算领域。
JS21同时支持Linux和AIX两种操作系统。
同时两种计算平台也给您带来的丰富的应用支持。
AIX稳定高效的Unix平台,具有丰富的HPC应用软件资源和成熟的集群管理系统。
Linux的集群管理的软件、应用开发套件都完全免费。
并有大量的开源HPC应用支持。
采用哪种方案取决于客户的应用需求。
2.2.系统结构与配置
随着用户对系统总体运作成本和系统管理维护成本的关注,刀片式服务器已经成为高性能计算集群的主流,在全球超级500强和国内100强超级计算机中,许多新增的集群系统都采用了刀片架构。
由于采用刀片服务器可以极大减少所需外部线缆的数量,可以大大降低由于线缆连接故障带来的隐患,提高系统可靠性。
刀片式HPC集群通常由以下几个部分组成:
•管理节点,管理节点是集群的控制中心,作用包括整个集群的软硬件管理、计算节点的快速远程部署、提供用户登陆接口、任务调度与提交。
管理节点通常采用P520服务器。
可以部署2台实现管理节点的冗余。
•计算节点,集群中用来计算的资源。
在我们的方案中,每片JS21就是一个计算节点。
计算节点的系统安装,软硬件维护,电源管理等都可以通过管理节点来完成。
真正实现快速简易部署。
•存储节点,集群中可以采用专门的服务器连接存储。
然后通过各种网络文件系统协议(如GPFS,NFS),给计算节点提供网络文件系统服务。
存储节点可以根据集群的大小部署多个,实现负载均衡或冗余。
•管理网络,管理节点与计算节点中专门用于软硬件管理通讯的网络。
通常为以太网络。
•计算网络,集群中专为计算节点间通信的网络,根据不同计算类型对网络延迟带宽的要求不同,有高速以太网,Infiniband网络,Myrinet网络等各种高速交换网络可供选择。
参看如下方案拓扑图:
2.3.优势分析
基于JS21的高性能集群,IBM有非常成熟的解决方案,不仅仅是硬件架构,也包括完善的并行软件环境。
IBM能为您提供了更快,更稳定,更专业的高性能计算服务。
2.3.1.JS21刀片优异的特性
概括来说,JS21刀片优势在于其出色的浮点运算能力、优秀的硬件品质、以及丰富的软硬件支持。
2.3.1.1.JS21高性能的小深蓝宝刀
JS21刀片与IBM超级计算系统深蓝一样,采用了IBMPowerPCRISC处理器,PowerPC其中的PC既PerformanceComputing,是基于POWER专为计算而设计的CPU,JS21刀片采用了IBMPowerPC970RISC处理器,支持IBMAIX5L和Linux两种操作系统,可以对64位/32位高性能计算应用提供良好支持。
根据Linpack高性能计算机基准程序测试,单台采用两颗双核2.5GHz处理器的JS21服务器的实测浮点运算能力可以达到33。
7GFlops,远远领先于其它4路系统*。
*指标来源:
lib.org/benchmark/performance.pdf
在单颗(核)CPU的浮点计算能力上,JS21也表现优异*。
http:
//www。
spec。
org/cpu2000/results/
IBMPowerPC970芯片上具有独特向量处理单元,支持多达162条向量指令,能够在一条指令周期内对多条数据进行操作,可以明显提高某些应用的性能。
如下图所示:
如果应用程序针对VMX(或称为AltiVec)进行优化,则可以成倍地提高计算效率。
以在HMMER2.3.2(一种通过隐马尔可夫链模型进行生物序列分析的软件)为例,如果采用了优化版本,计算时间可以缩短3到4倍。
HmmsearchTestCase
NumberofThreads
AltiVecEnabledVersion
StandardVersion
Improvement
SmallCase
1
179
660
3.69x
2
109
333
3.05x
LargeCase
1371
6107
4.46x
813
2849
3.50X
由于JS21服务器因其强大的处理器和系统架构设计,在某些领域中可以获得大大领先于同类产品的性能。
2.3.1.2.JS21更快更稳定。
有人认为高性能计算,只要有钱,网上有现成的方案,随时可以搭一个万亿次的系统。
言下之意,集群并没有多高的技术难度,高性能计算就是一个钱的问题。
但问题真是这样简单,难道将一堆机器堆叠起来就是一台超级计算机?
构建高性能计算系统是对于操作系统、编译器、互联设备驱动、作业管理调度以及文件系统管理等等涉及各个系统层面的软硬件的整合。
对商业运行的集群系统其可靠性和可用性更被放在第一重要的位置。
IBM针对JS21刀片集群有非常成熟的高性能解决方案。
集成了众多IBM与非IBM的先进的软硬件技术,及其特有的技术优势与强大的服务支持。
采用刀片集群的高性能计算系统,管理节点可以采用双机冗余的高可用方案,同时根据集群架构的特点,当某个计算节点发生故障时,作业调度系统会自动的将任务分配到其他节点上,从而保证了计算节点的高可用性。
另外,JS21其小型机的硬件架构体系,IBMPOWER家族的一贯的优秀品质,值得您的信赖。
2.3.1.3.JS21计算粒度和密度专为HPC而设计。
每片刀片支持多达4颗POWERCPU,一个9U高的刀片中心支持多达56个CPU。
既能满足一些深度计算的运算需求。
又具有很好的灵活性,按需的动态调整资源,使资源利用更高效,管理更方便,
相对于SMP类型的HPC解决方案,其每个节点一般十几个到上百个CPU。
其价格昂贵,客户不可能购置很多的节点(一般1-2个)。
当多用户或多部门需要用到计算资源的时候,很难做到物理的划分资源。
任务基本都是放在一个队列里串行的执行。
一般适用于固定的生产应用。
扩展性较差,对称多处理器架构中(SMP)当CPU的个数超过某一阈值,其系统的可扩展性就变的极差。
主要瓶颈在于随着CPU个数的增加CPU访问内存的带宽并不能有效增长,同时CPU之间抢占内存与内存同步这两大的SMP架构的弊病就将会越发突出。
而且扩容升级成本很高,部署升级较复杂。
相对其他类型的HPC解决方案,刀片集群有以下3个优势:
•高可扩展性:
集群系统可以按需的增加节点来提高计算性能。
•高可用性:
集群中的一个节点失效,它的任务可以传递给其他节点。
可以有效防止单点失效。
•高性能:
JS21单片4核其较高的CPU密度再加上各种高性能网络的支持,既能保证其良好的并行计算效率,同时又能用较精确的粒度来划分资源。
多节点的负载平衡集群允许系统同时接入更多的用户。
2.3.1.4.丰富高效的交换网络
在高性能系统的搭建过程中,选择一个正确高效的数据交换网络是能否达到甚至超过您对集群性能预期的关键。
IBMBladeCenterJS21所支持的外部连接极为丰富,除了通常的千兆以及万兆以太网和SAN连接以外,JS21还支持适用于高性能计算的Infiniband网络,Myrinet网络。
Myrinet是在HPC应用较为成熟的计算网络。
采用基于普通千兆以太网的网络,通过TCP/IP通道来传输信息,但缺点是需要占用大量CPU资源来处理网络通信,导致整体处理效率的下降;
而Myrinet网络采用卸载引擎(offloadengine)技术降低了CPU资源在处理通信方面的消耗,并且拥有千兆以太网两倍的带宽。
Infiniband是一种新型的总线结构,它不仅提供了可扩展的高IO带宽,同时Infiniband技术还支持节点间内存的直接访问(RDMARemoteDirectMemoryAccess),将数据交换的延迟由毫秒降低到微秒级,参看下图我们会发现,借助Infiniband总线级的交换技术,刀片集群已变成类内存共享式的超级计算系统。
目前JS21已经能够支持4XInfiniband连接,到达10Gbps的传输率。
采用Infiniband网络的计算集群
Infiniband的四大优点:
基于标准的协议,每秒10GB性能,远程直接内存存取(RemoteDirectMemoryAccess,简称RDMA)和传输卸载(transportoffload)。
•标准:
成立于1999年的Infiniband贸易协会由225家公司组成,它们共同设计了该开放标准。
主要掌控该协会的成员包括:
IBM,Dell,Agilent,HP,InfiniSwitchIntel,Mellanox,NetworkAppliance和SunMicrosystems公司。
其他的100多家成员则协助开发和推广宣传该标准。
•速度:
Infiniband每秒10gigabytes的性能明显超过现有的FibreChannel的每秒4gigabits,也超过以太网的每秒1gigabit的性能。
•内存:
支持Infiniband的服务器使用主机通道适配器(HostChannelAdapter,简称HCA),把协议转换到服务器内部的PCI-X或者PCI-Xpress总线。
HCA具有RDMA功能,有时也称之为内核旁路(KernelBypass)。
RDMA对于集群来说很适合,因为它可以通过一个虚拟的寻址方案,让服务器知道和使用其他服务器的部分内存,无需涉及操作系统的内核。
•传输卸载(TransportOffload):
RDMA能够帮助传输卸载,后者把数据包路由从OS转到芯片级,节省了处理器的处理负担。
要是在OS中处理10Gbps的传输速度的数据,就需要80GHz处理器。
2.3.2.刀片中心的特点介绍
IBM提供的BladeCenter-H是一个9U的19英寸机架装置,可以为刀片服务器提供冗余电源、冗余风扇、管理单元以及连接背板,并可安装网络交换机模块等。
每一BladeCenter可以安装14个刀片服务器,不同CPU的刀片服务器可以混插,并支持刀片服务器的热插拔。
采用刀片服务器,单一机柜最多可容纳84个刀片服务器,共168个处理器。
目前,IBM的刀片支持IntelXeon,Opteron和PowerPC等不同CPU类型,以及AIX、Linux、Windows等不同操作系统。
由于刀片中心包含了交换机模块和独立的管理模块,可以极大地减少所需线缆和外部交换机。
和常用的1U机架服务器相比,刀片服务器具有以下优势。
•大大降低运行管理费用
•高处理能力密度,节省宝贵空间和占地费用
•低耗电降低电费
•低散热减少空调费用
•可靠性设计更加完善,减少停机时间
•冗余电源、风扇
•光路诊断
•电缆连接点大大减少冗余交换模块和电缆连接
•集成的电源控制、KVM模块
2.3.3.集群系统管理软件
2.3.3.1.CSM(ClusterSystemManagement)
IBM提供的跨平台集群系统管理软件CSM,允许通过一个单点控制和管理整个集群系统。
它在简化集群管理的同时,还使集群能够方便地实现快速扩展,从而提高了系统管理员的工作效率。
通过为集群提供一个单控制点,管理软件可以极大地简化系统总体管理,从而为服务器整合解决方案提供了一种经济高效的方式。
该软件可以提供预警分析报告,帮助用户防患于未然,最大限度地保证系统的生产运行时间。
同时,即使在硬件出现故障时,服务器也能提供快捷、方便的诊断工具,帮助快速查处问题所在,及时解决问题。
具体来讲,IBM的集群系统管理软件可以实现如下的功能:
实现系统的并行安装和配置;
管理和同步节点的配置文件;
提供系统远程运行命令操作,允许以命令或脚本方式运行在集群中的所有节点上;
支持用户帐户统一管理;
提供远程硬件控制,如:
节点的远程开机、关机和重新启动;
动态监视系统资源使用情况;
通过光通路诊断功能提供方便的软硬件错误诊断及错误自动记录,管理员能根据其提供的信息做出快速反应。
提供管理节点和节点组信息,进行组管理监视系统的硬件状况,如CPU、风扇、电源、内存、硬盘、稳压模块等的运行情况。
CSM同时支持运行Linux的IBMxSeries&
pSeries服务器和运行AIX的IBMpSeries服务器,为系统今后扩展打下了良好基础。
为了提供给用户更多的选择,IBM还提供了LinuxxCAT群集管理软件以满足不同环境的需求。
目前,IBM将CSM和xCAT作为IBM学者计划的一个部分,对于参加了IBM学者计划的学校,可以自由得使用计划中的1200多种软件用于科学研究而非商业目的,这1200多种软件中就包括了集群系统的管理软件CSM(ClusterSystemManagement)。
2.3.3.2.xCAT(http:
//www.xcat.org/)
XCAT是用于IBMSystemCluster1350上的开源的系统管理软件。
它由IBM资深工程师EganFord负责维护开发。
它基本上是由shell脚本写成,相当简捷及易于维护。
它实现了集群系统管理绝大部分的内容,是非常出色的免费的集群管理软件。
下表比较了以上两种主要集群系统管理软件:
项目
CSM
xCAT
支持的集群系统
IBMeServerCluster1350
支持的操作系统
RedhatLinux、SuSELinux、AIX
RedhatLinux、SuSELinux,结点可以采用Imaging和Cloning安装其他操作系统
资源管理
提供统一的、可扩展的,全面的资源管理,但是由于强大而使用起来很复杂。
基本没有
事件服务
提供事件订阅发布机制,并预先定义了很多系统事件和对事件的响应
将来会于Mon集成以完成事件服务
配置管理
支持
无
监控和诊断
支持分布式Shell(dsh)、支持SNMP
支持并发Shell(psh)、并发ping(pping)
硬件控制
远程电源管理(rpower)远程控制台(rconsole)
远程电源管理(rpower)远程控制台(rcon、wcon)
系统安装
支持KickStart和SIS支持PXE
支持KickStart、Imaging和Cloning支持PXE和bootp
域管理
全面
集成性
底层资源管理和事件服务提供编程接口,集成很方便。
上层可以通过命令调用集成。
自动安装PBS、Maui、Myrinet和MPI。
将来会支持SgridEngineScheduler
易用性
提供强大命令行工具和简单的GUI工具
命令行工具,将来会和Ganglia集成提供一定的GUI
2.3.4.作业管理软件
有很多种选择去管理集群系统中的资源。
其中PBS资源管理器和Maui作业调度器最适合集群系统。
2.3.4.1.PBS资源管理器
PBS(PortableBatchSystem)是由NASA开发的灵活的批处理系统。
它被用于集群系统、超级计算机和大规模并行系统。
PBS主要有如下特征:
•易用性:
为所有的资源提供统一的接口,易于配置以满足不同系统的需求,灵活的作业调度器允许不同系统采用自己的调度策略。
•移植性:
符合POSIX1003。
2标准,可以用于shell和批处理等各种环境。
•适配性:
可以适配与各种管理策略,并提供可扩展的认证和安全模型。
支持广域网上的负载的动态分发和建立在多个物理位置不同的实体上的虚拟组织。
•灵活性:
支持交互和批处理作业。
•OpenPBS(http:
//www.opengpbs.org/)是PBS的OpenSource的实现。
商业版本的PBS可以参照:
2.3.4.2.Maui作业调度器
Maui是一个高级的作业调度器。
它采用积极的调度策略优化资源的利用和减少作业的响应时间。
Maui的资源和负载管理允许高级的参数配置:
作业优先级(JobPriority)、调度和分配(SchedulingandAllocation)、公平性和公平共享(FairnessandFairshare)和预留策略(ReservationPolicy)。
Maui的QoS机制允许资源和服务的直接传递、策略解除(PolicyExemption)和指定特征的受限访问。
Maui采用高级的资源预留架构可以保证精确控制资源何时、何地、被谁、怎样使用。
Maui的预留架构完全支持非入侵式的元调度。
Maui的设计得益于世界最大的高性能计算中心的经验。
Maui本身也提供测试工具和模拟器用于估计和调节系统性能。
Maui需要资源管理器与其配合使用。
我们可以把Maui想象为PBS中的一个插入部件。
更多Maui的信息可以访问:
//www.supercluster.org
2.3.5.编译开发与并行运行环境
对于Power平台,IBM提供了专门针对POWER结构进行优化的高性能数学运算库ESSL和数学函数库MASS,将更加充分地利用所有浮点运算单元和寄存器,更高效率地利用多层高速缓存结构。
ESSL兼容业界标准BasicLinearAlgebraSubprograms(BLAS),ScalableLinearAlgebraPackage(ScaLAPACK),和ParallelBasicLinearAlgebraSubprograms(PBLAS)。
MASS提高了数学函数的计算速度。
在编译器方面,用户可以采用Linux发布版本中提供的Gnu编译器,或者是来自IBM的XLFortran/XLC++编译器。
并行环境方面,可以选用标准的MPICH软件包或者AIX的PE环境。
2.3.6.集群环境下的存储部署及共享文件系统
在高性能计算环境中,往往有大量的数据要交换与保存。
常常使用的是基于SAN的存储方式,当然也有基于NAS的存储方式。
在方案中我们推荐I/O节点连接SAN的存储方式。
采用I/O节点是一种比较简单和直接的存储方式。
这种方式通常采用2台Systemp5服务器作为I/O节点,大容量磁盘阵列和I/O节点连接,并且由I/O节点管理,通过共享文件系统(PVFS或者GPFS等方式)将存储资源共享给集群系统。
为了提高I/O性能和可靠性,也可以增加若干台服务器,并使用GPFS文件系统构成更高效的HPCI/O解决方案。
比之其它的共享文件系统,IBM的高性能并行文件系统GPFS的特点如下:
•跨节点共享文件系统;
•高性能,访问单个文件带宽超过2GB/s,I/O平衡调度能够改善吞吐性能;
•稳定性,日志型文件系统,在每个节点上创建日志文件,便于文件系统的恢复;
•灵活性,文件系统在mounted状态时,可以增加或减少磁盘,动态增加或减少节点,动态配置文件系统。
GPFS文件系统与其他常见的并行文件系统的对比:
NFS
DFS
GFS
PVFS
GPFS
可预测性Scalability
N
Y
并行性Parallelism
跨平台Cross-platform
安全性Security
故障恢复FailureRecovery
?
位锁功能Byte-ranglocking
3.建议配置
针对基本的HPC的应用环境,IBM提供的建议配置如下:
2台P520做为管理和存储节点。
1个BladeCenterH刀片中心,满配14个2C4GJS21刀片服务器。
IBMBladeCenterJS21刀片服务器HPC集群
名称及产品编号
描述
数量
刀片中心
BladeCenterH
8852-4XC
BladeCenterH机箱,9U,可装14片JS21
刀片中心选件
31R3335
BladeCenterH2900W电源模块(1组两个)
32R1860
Nortel2/3层铜口以太网交换机模块
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- JS21 性能 计算 集群 方案 V5