【高性能计算中心】高性能计算中心建设项目实施、验收、培训及售后服务方案.docx
- 文档编号:2008971
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:55
- 大小:2.93MB
【高性能计算中心】高性能计算中心建设项目实施、验收、培训及售后服务方案.docx
《【高性能计算中心】高性能计算中心建设项目实施、验收、培训及售后服务方案.docx》由会员分享,可在线阅读,更多相关《【高性能计算中心】高性能计算中心建设项目实施、验收、培训及售后服务方案.docx(55页珍藏版)》请在冰点文库上搜索。
高性能计算中心建设项目实施及验收方案高性能计算中心建设项目培训方案
高性能计算中心建设项目售后服务方案
12
目录
1高性能计算中心建设项目实施及验收方案 4
1.1项目团队 4
1.2项目系统集成 6
1.3实施时间进度表 7
1.4项目管理 8
1.4.1项目计划 8
1.4.2项目跟踪和汇报 8
1.5项目实施 9
1.5.1硬件安装 9
1.5.2操作系统 9
1.5.3存储系统 9
1.5.4集群网络环境 9
1.5.5系统管理软件 9
1.5.6并行库软件 9
1.5.7资源调度软件 10
1.5.8应用软件集成 10
1.5.9系统备份 10
1.5.10安装后验证 10
1.6IT系统验收方案 10
1.6.1功能性考核 10
1.6.2性能考核 11
1.6.3稳定性考核 11
2高性能计算中心建设项目培训方案 12
2.1培训目标 12
2.2培训方式、地点及人数 13
2.2.1培训方式 13
2.2.2培训地点 13
2.2.3培训人数 13
2.3高性能计算培训课程内容 13
3高性能计算中心建设项目售后服务方案 16
3.1本项目售后服务 16
3.1.1售后服务承诺 16
3.1.2保修服务内容 17
3.1.3服务流程和响应时间 18
3.1.4备件支持承诺 20
3.1.5质保期过后服务内容 20
3.2AA公司售后服务体系(战略客户) 21
3.2.1AA公司服务部门架构 21
3.2.2AA专业服务团队 22
3.2.3战略客户服务流程 27
3.2.4AA服务产品介绍 34
3.2.5AA售后服务体系文件列表 39
3.3AA公司服务网点 42
3.3.1AA各级服务网点资源介绍 44
3.3.2AA服务网点覆盖能力 44
3.4AA公司备件库体系 45
3.4.1遍布全国的四级响应能力库房 45
3.4.2备件品质管控 48
3.4.3AA公司备件库优势 52
1高性能计算中心建设项目实施及验收方案
本项目是一项投资较大的工程,对设备的质量、安装调试、售后服务和培训有很高的要求。
AA公司作为国内最大的高性能计算产品和解决方案供应商,拥有深入的行业知识和丰富的技术,可以向客户提供全面的IT服务方案。
AA公司与用户签署项目合同之后,将严格按照合同条款安排设备的生产、运输,进行系统集成、现场安装调试、项目验收、用户培训和售后服务等工作。
由AA公司专门成立的项目组负责,该队伍由资深技术工程师组成,设立现场安装实施组、技术方案和培训组(负责制定总体技术解决方案,制作工程实施标准和指导性文档,负责用户集中培训等)。
AA公司还将协助用户完成应用软件系统集成工作,协助用户部署、调试CAE、CFD、
MD、生物、气象海洋等多个学科的应用软件以及与作业调度系统的集成,真正发挥hpc系统的效能,更好的满足用户需求。
1.1项目团队
AA公司拥有丰富的大型项目实施经验。
AA公司将按照客户的需求,配合适当的资源,合理的安排,在有限的时间内,有效地把项目完成。
AA公司认为此高性能计算机系统项目是一个超大型而且复杂的项目,它需要有实施及
安装特大型高性能计算机的能力的同时,也需要有高性能计算相关应用专家的配合。
因此
AA公司针对该项目将组成一个项目团队,配合高性能计算相关的专家参与在这个重要项目里面。
参与在项目团队的专家都有丰富的高性能计算机,或相关项目实施的经验。
AA公司将派遣技术支持中心、产品技术中心和研发中心等相关部门的高层经理组成项目管理委员会,希望与用户方项目最高负责人一起组成该项目的最高管理团队。
该团队将定期听取项目汇报、检查项目进展或应急召开会议,负责做出项目重大决策。
AA公司任命经验丰富的项目经理,会同用户方的项目负责人负责整个项目的具体规划、进度管理、问题处理等工作,按阶段提交施工文档,定期向项目管理委员会汇报工作进展。
系统安装组由由多名具有丰富高性能计算机系统安装维护经验的工程师组成,负责系统软硬件的安装。
中科院计算所智能计算机研发中心赵晓芳主任负责对系统配置、安装方法等方面提供指导,并负责调动计算所相关解决可能遇到的棘手问题,以确保安装质量、进度并符合北京超算中心对系统的预期。
系统安装组负责系统测试和验收阶段的现场支持。
应用专家组人员协助系统设计和参加系统安装工作,以确保系统的设计、规划和成果确实符合应用需求。
应用专家组负责所有系统测试项目的实施,同时也是项目实施完成后与用户长期合作和提供技术支持的直接参与者。
系统架构专家组人员参加系统设计和安装工作,确保系统能够达到最大的性能和最高的
可用性。
同时参加测试阶段的工作,负责对系统配置进行优化。
组织
角色
姓名
职务
学历
常驻地
人数
项目监
督领导
组、项
目专家
项目总
监
曹振南
解决方案中心总经理
硕士
北京
1人
组副组
长
项目建
设领导组副组长、项
目实施
项目经理
马少杰
AA公司解决方案中心总经理助理、高性能计算方案部经理
博士
北京
1人
领导组
研发中心云计算部经
孙国忠
理、云安全领域专家、
博士
北京
高级培训师
项目专
家组
技术指
导专家
李斌
解决方案中心高性能
方案部经理
博士
北京
3人
解决方案中心安全方
张瑞(女)
案技术专家、安全方
硕士
北京
案部副总经理
总协调
项目实施协调组
人
协调组成员
顾乐平 北京平台销售总监 硕士 北京
2人
吴胜公 北京平台销售经理 硕士 北京
解决方案中心云计算
实施技术组
项目实施小组成员
范玉峰
张海忠
总经理
解决方案中心云计算部副经理
硕士 北京
硕士 北京 9人
高崎 解决方案中心云计算硕士 北京
部副经理
马庆怀
解决方案中心上海平台技术工程师
硕士
北京
解决方案中心云计算
姜海旺
首席工程师、实施交
硕士
北京
付组组长
张聪杰
解决方案中心云计算
部高级工程师
硕士
北京
高增
解决方案中心云计算
部实施工程师
硕士
北京
胡晓鑫
解决方案中心云计算
部实施工程师
硕士
杜夏威
解决方案中心实施工
程师
硕士
北京
解决方案中心高级咨
北京
李柳
询工程师、教育行业
硕士
首席工程师
卜景德
解决方案中心高级咨询工程师
硕士
北京
4人
蒋海京
解决方案中心CAE行
业首席工程师
硕士
北京
解决方案中心云计算
史经业
部首席工程师、业务
硕士
北京
三组组长
组织
角色
姓名
职务
学历 常驻地 人数
实施后
备组成员
项目经理联系方式:
侯雪峰houxf@
1.2项目系统集成
AA公司拥有丰富的大型高性能计算机项目实施经验。
针对本项目,AA公司项目经理将协调系统安装组、系统架构组以及应用专家组共同完成项目的软硬件集成,并帮助用户完
成超算中心相关应用软件以及硬件的集成,确保为用户提供完整高性能计算中心解决方案。
系统集成服务的主要目标有三点:
第一,帮助客户建设高性能计算中心环境。
第二,培训客户,有效使用该计算中心计算能力;
第三,和客户研究以及有效提高高性能计算中心的操作和使用能力。
针对这三个目标,系统集成服务主要内容包括系统集成与调试、运行环境设计、系统管理维护工具的部署、系统性能优化、系统管理与使用培训,提供系统日常管理和使用的培训,并在一定时间内承担系统维护的技术支持。
系统扩容成功后,具备以下特性:
Ø使用共同的高效的并行文件系统;
Ø使用统一的软件分发平台,解决节点的安装和恢复工作;
Ø使用统一的监控平台,对日常运行和维护进行支持。
Ø使用统一的作业调度软件,有效调度各科学运算作业;
Ø部署并行作业开发库,提供并行作业开发的能力。
AA公司可以协助用户对如下主要应用软件提供系统集成实施:
ØCAE领域:
Ansys、Nastran、Pam-Crash、LS-Dyna、Fastran、Fluent、Abaqus、FEKO、
CFX、Marc等;
1.3实施时间进度表
序号
1
开始
签订合同T1
结束
T1+30
阶段名称
备货、生产
目标/主要任务
完成部件采购和生产
2
T1+31
T1+40
内部集成
内部系统集成,性能测试
3
T1+41
T1+45
发货、到货
设备发到用户现场
3
T1+41
T1+45
实施准备
编写总体实施计划;
与用户确认实施环境准备;
硬件上架调试、布线
4
T1+46
T1+70
集群实施集成
系统标准环境实施
系统客户化功能定制
5
T1+71
T1+80
应用系统联调
定制系统软硬件联合调试
6
T1+81
T1+89
集群验收测试
验收测试
项目文档资料移交
7
T1+90
T1+90
系统移交、总结
项目内部总结
项目资料存档
1.4项目管理
项目管理在高性能计算系统的建设过程中,具有重要的意义。
高性能计算系统的建设涉及到硬件和软件的安装实施,集群系统的有效配置,以及包括网络环境、存储系统等的统一集成。
高质量的项目管理服务,保证了高性能计算系统的建设质量、建设速度以及建设的目标。
项目管理包含以下主要内容:
1.4.1项目计划
项目计划部分的内容包括:
与客户的项目经理讨论工作说明书和双方的合同责任;准备一个详细的集成项目计划来确定和划分工作层次,设立项目小组任务阶段性完成的主要标志,以及阶段性完成的预定时间和达成的主要途径;协调建立项目所需环境。
项目计划部分的内容还包括,制定变更控制计划;制定项目状态汇报计;为客户项目小
组做定向指导。
1.4.2项目跟踪和汇报
项目的跟踪和汇报,是指在项目实施过程中对项目的进度监管及问题跟踪和评估。
其内容包括,根据项目计划衡量、跟踪和评估项目的进展;与客户项目经理一起解决项目计划出现的例外情况;审查项目的任务进展、日程安排和资源调配,并根据情况作出适当的改变。
项目的跟踪和汇报,还包括与客户项目小组一起召开例会,以检查项目进展状况;在例
行项目状况检查会议上,与客户的项目经理一起共同审查项目进展状况;准备月度报告;实施项目变更控制程序;审查并分析项目变更需求;审查客户项目小组的工作成果等。
1.5项目实施
项目主要实施内容包括:
1.5.1硬件安装
主要包括基础设施、服务器、存储和网络等硬件设备的安装上架、布线、加电等,确保与用户现有设备的有效连接。
1.5.2操作系统
所有系统安装的软件包及其版本一致,均为RedHat企业版64位操作系统,为操作系统提供合理的补丁包,并给所有节点操作系统进行补丁工作。
1.5.3存储系统
该部分工作提供对统一存储系统的实施,该存储系统构成高性能计算中心的中央存储。
该部分工作包括存储系统的安装,存储系统的配置、存储系统的有效优化以及并行文件系统的部署和优化等。
1.5.4集群网络环境
安装优化的Infiniband和以太网驱动,进行网络性能测试满足要求指标。
1.5.5系统管理软件
安装集群管理软件,并做到:
能够监控系统内所有节点当前运行状态;
能够对系统当前的异常状态或时间给出告警;
能够对一段时间的系统性能状况给出统计报表和汇报。
1.5.6并行库软件
该部分工作将根据统一的设计,部署和实施并行库软件。
这包括提供统一的并行库软件实施,以及操作和演示基于并行库软件的并行应用。
1.5.7 资源调度软件
部署和实施作业调度软件。
这包括提供统一的作业调度软件实施,还包括作业调度软件的配置,以及操作和演示作业调度软件的作业调度能力,以及作业流功能的演示。
并提交范例作业,作业成功执行。
1.5.8应用软件集成
协助用户就用户的应用软件提供安装基础服务,并根据需要提供与作业调度系统的集成。
1.5.9系统备份
对安装的特殊功能的节点进行备份,对安装的共享存储下的软件进行备份。
1.5.10安装后验证
将所有节点按照顺序全部关机、并按照顺序重新开机。
进行如下确认。
1所有节点的配置是正常,包括hosts表,nfs的挂载,ssh/rsh无密码访问是否配同,用户信息是否同步。
2能否用作业调度系统进行一个全局作业的提交
3是否教会用户如何创建并同步用户。
4是否教会用户如何关机、并重新开机。
1.6IT系统验收方案
系统实施完毕后,AA公司和用户一起组织对项目进行验收。
验收测试内容包括功能性考核、性能考核和稳定性考核三类。
1.6.1 功能性考核
功能性考核主要包括系统规格检查、设备加电测试、网络连通测试、预装软件检查、存储系统测试以及管理软件测试等内容。
通过模拟用户实际运行环境,测试系统管理能力、作业调度能力以及资源非配的有效性和合理性。
基于运行模拟环境,随机制造系统故障,如计算节点故障、互联网络故障以及IO节点
故障等,测试系统容错能力。
1.6.2 性能考核
性能考核基于国际上通用的Linpack并行计算软件,测试过程中将产生大量的CPU、内存负载以及网络IO流量。
Linpack性能测试由实施工程师依据《AA服务器现场施工作业指导手册》中的相关操作规范完成。
此外,还将根据用户要求进行网络测试、IO测试以及HPCC基准测试等。
1.6.3 稳定性考核
方法1:
采用用户应用软件或Linpack软件连续加压运行24小时以上视为通过稳定性考核。
方法2:
系统试运行“约定时间”后未出现重大故障视为通过稳定性考核。
“约定时间”
依据《项目销售合同》或双方商议确定。
验收测试过程包括但不限于上述内容,可根据实际情况进行适当调整。
验收测试过程中,实施工程师应对过程及结果进行记录,并形成《项目验收测试报告》。
验收通过后,AA公司向用户移交全部设备和技术文档。
2高性能计算中心建设项目培训方案
AA公司是以研究开发、测试生产、技术服务为特色的高技术企业。
AA公司集多年的高端服务器研究设计、测试生产和技术服务的经验,培养了大批优秀的技术人才。
AA公司以国家智能计算机研究开发中心、国家高性能计算机工程中心和国家高性能计算中心为技术后盾,依靠国家科技部、中国科学院等外围技术环境,曾经先后对近千个用户单位的用户进行过培训,获得了用户的广泛好评。
AA公司具备完整的用户培训体系,拥有多名经验丰富的培训教师。
AA公司的技术培训教师全部具有高、中级技术职称或硕士以上学历,其中包含国内计算机、网络的专家学者和博士导师、硕士导师,技术上具有无以伦比的优势。
AA公司可以承接包括计算机硬件结构、各种操作系统、各种应用软件、系统集成、串并行软件开发等方面的用户培训。
AA公司进行培训的目的是不但要使用户会用机器,而且要让用户能够用好机器,得到了用户的普遍认可。
凭借这样一支技术培训队伍,AA公司能优质高效地完成培训任务。
AA公司先后承担过国家物资储备局、铁道部TMIS项目、机械部信息中心、化工部信息中心、农业部信息中心、全国人大信息中心、全国高校CIMS中心、教育信息网Cernet中心、国家粮油信息中心、国家气象局、上海超级计算中心、总后、空军、海军、全国政协、国务院信息中心等千余个用户单位的技术培训。
本项目的培训内容主要包括AA集群系统软硬件系统、操作系统和并行计算等培训。
对项目用户相关人员提供高性能计算机系统软硬件设备的安装、维护及系统管理培训;对项目用户相关人员进行有关软硬件设备安装、配置、诊断、管理、维护等方面现场集中培训。
2.1培训目标
针对本项目,AA公司对用户方的技术人员提供包括系统管理、并行编程等培训内容,使用户方的相关人员能掌握关系设备的使用、维护和管理,达到能独立进行管理、故障处理、日常测试维护等工作的目的,以保障AA公司所提供的设备能够正常、安全的运行。
Ø通过培训,使学员对系统有全面的了解;
Ø使学员进一步了解和掌握高性能集群相关技术知识,提高技能;
Ø使学员掌握相关技能,以保障系统的正常运行;
Ø熟悉本次系统建设中用到的所有服务器和网络设备;
Ø熟练使用各种系统操作和维护手册;
Ø掌握设备的安装与调试方法;
Ø熟练使用操作系统;
Ø掌握系统的初始化和主要参数的设定方法;
Ø对系统故障进行诊断、定位和排除;
Ø熟悉并行计算的概况;
Ø为将来的工作打好基础。
2.2培训方式、地点及人数
2.2.1培训方式
培训方式为集中培训,以课堂讲授为主,并辅以上机实习互动环节。
培训完成后,由
AA公司填写统一的培训记录和培训调查表。
AA天潮系列产品随机器提供免费的现场培训,由参与项目实施的技术工程师为用户介绍提供给用户的集群产品的架构、硬件配置以及具体实施情况,讲解正确的使用方法,重点强调在使用过程中的各个注意事项,以配合用户更好的完成日后的工作。
培训内容涵盖本次投标所提供的全部产品,用户可以根据不同的授课内容安排相应的技
术人员参加,以增强培训的针对性。
在培训过程中,学员可以在模拟环境下参加培训,通过理论课程与上机实习的有机结合加深理解。
培训完成后,学员可以掌握相关设备的操作,并通过现场演示、上机实习等环节了解AA集群系统的使用、管理与维护。
2.2.2培训地点
培训地点一般位于集群部署所在的单位;也可以根据用户情况协商指定地点。
2.2.3培训人数
系统管理培训人数≥6人,应用培训人数≥20人。
2.3高性能计算培训课程内容
编号
课程名称
课时 级别 课程内容
高性能计算机的分类
B1.01 高性能计算现状与发展 1小时 初级
高性能计算机的评价
集中培训安排在项目实施之后;AA公司将为此项目提供现场培训,可选的培训课程列表如下:
13
B1.02 本项目集群概况与管理 1小时 初级
B1.03 AA集群简明使用手册 2小时 初级
集群系统信息应用软件信息集群日常管理
AA集群的概念
AA集群系统整体架构
AA集群的使用
14
B1.04 Linux系统初级培训 2小时 中级
B1.05 Linux环境的程序编译 2小时 中级
Linux系统简介
Linux系统安装和基本配置
Linux系统的文件系统结构
Linux系统常用命令详解常用编译器的选择和使用常用编译选项
Makefile格式配置
B1.07 AA集群管理-作业调度 2小时 中级
B1.06 Linux系统管理和维护 4小时 中级
作业提交和管理队列、调度器管理
用户管理和调度策略
Linux用户权限管理
Linux进程管理
Linux网络配置
Linux常用服务配置
Linux编译内核
B1.08 LinuxShell编程 4小时 高级
并行编程—OpenMP程序
Shell程序概述
Shell编程基本原理
Shell正则表达式
OpenMP并行程序的函数及使用
B1.09
B1.10
设计 2小时 高级
并行编程—MPI程序设 4小时 高级计
方法
MPI基本函数
MPI点到点通讯
MPI集合通讯
B1.11 并行编程—CUDA程序设
计简介
2小时 高级 MPI并行程序的函数及使用方法高性能评价标准
B1.12 高性能集群性能评价 2小时 高级
高性能集群测试
系统优化
B1.13 高性能计算优化技术 2小时
高级
数学库优化
MPI优化
对于本项目提供的全部培训内容,AA公司承诺均提供相应的PDF或DOC格式的中文或
英文教材,并提供可打印的电子版文档(PDF、DOC或HTML格式)。
15
3高性能计算中心建设项目售后服务方案
3.1本项目售后服务
3.1.1售后服务承诺
AA公司承诺向用户提供全方位的、有效的、及时的维修服务和技术支持(7*24小时)。
AA对提供的设备提供5年的原厂有限质保服务、5年免费技术支持服务。
时间从试运行期结束之日开始计算。
在保修期内AA公司为用户提供技术援助电话,用于用户报告故障。
AA公司工程师在接到故障通知后4小时内做出响应,并在24小时内修复故障。
AA公司对其提供的软件提供长期技术支持。
在5年以内,如对软件有新的改进、增加新功能或者为适应最新标准所形成的最新版本,均及时提供给用户使用。
保修期满后的维修服务AA公司只收取部件费,免人工费。
AA公司承诺帮助用户进行相关程序移植、应用的引进和优化。
机器正式运行的前1个月内,在工作日安排一名技术人员现场解答用户的使用问题。
每季度提供原厂工程师设备现场巡检,协助用户解决问题。
5年内提供备品备件服务,超过保修期的部件更换以成本价格收费。
研制单位(公章):
AA信息产业(北京)有限公司日 期:
xx年xx月xx日
16
3.1.2保修服务内容
部件分类
现场服务
服务内容
人工 部件、材料
处理器(CPU)、内存(Memory)、以
太网卡、SCSI卡、SCSI终结器、显卡
A类 5年免费
5年免费
5年免费
(限非专业)、机箱内结构及附件模
组、机箱内线缆
主板、硬盘、电源、RAID控制器、CRT
B类 显示器、专业显卡、其他板卡、磁盘 5年免费 5年免费 3年免费阵列、交换机、风扇
光驱、软驱、磁带机、风扇、KVM、
C类
LCD显示器、控制台、监控结点、防火5年免费
墙
5年免费
1年免费
l本承诺仅限于AA天阔、天演、天潮系列服务器在保修期内正常使用时出现的硬件故障。
l天潮系列集群产品到货时的初次安装、调试属于免费服务范围,但是因为移机等原因需要再次进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高性能计算中心 性能 计算中心 建设项目 实施 验收 培训 售后服务 方案
![提示](https://static.bingdoc.com/images/bang_tan.gif)