省级政务云平台-两地三中心灾备建设方案xWord下载.docx
- 文档编号:1018514
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:148
- 大小:3.92MB
省级政务云平台-两地三中心灾备建设方案xWord下载.docx
《省级政务云平台-两地三中心灾备建设方案xWord下载.docx》由会员分享,可在线阅读,更多相关《省级政务云平台-两地三中心灾备建设方案xWord下载.docx(148页珍藏版)》请在冰点文库上搜索。
设计迁移策略,完成部分系统的迁移;
明确云平台建设、管理、运营模式,节约投资,提升服务质量。
1.3建设任务
充分考虑省级电子政务外网统一云平台计算、存储资源需求的阶段性和应用系统建设的复杂性,为了保证投资的有效使用,采用分期建设的原则。
(一)第一期——2016年
1.完成省电子政务外网的升级改造;
2.建设40%的计算、存储资源;
3.启动大数据中心建设;
4.启动N朵云建设。
(二)第二期——2017年
1.建设60%的计算、存储资源;
2.完成灾备中心建设;
3.完成大数据中心建设;
4.完成N朵应用云的部分建设。
(三)第三期——2018年-2020年
1.全面完成N应用朵云建设。
其中,本期云平台基础设施部分的建设任务具体包括以下:
完成省电子政务外网升级改造(含安全平台);
建设主数据中心、同城双活数据中心40%的计算、存储资源,数据交换和共享平台;
建设政府协同办公平台、政务安全邮箱;
提供省政府门户网站群五年的运维服务;
提供统一的运维管理服务(五年),确保本期建设的政务外网、安全体系、云计算中心安全稳定运行。
第2章 省级云计算中心方案
2.1整体架构
互联网
市-县网络
广域网
厅-局网络
城域网
异地灾备中心
核心交换机-1
裸光纤
防火墙
核心交换机-2
IPS
DWDM
波分设备
互联网出口区
防毒墙
WAF
核心交换机
全局、应用负载均衡
TOR交换机TOR交换机TOR交换机
物理机 数据库
资源池计算资源池
虚拟化计算资源池
Hadoop服务器 物理机 数据库
资源池 资源池计算资源池虚拟化计算资源池
资源池
计算资源池
FC存储网络
IP存储网络
FC存储网络 IP存储网络
FC存储资源池
分布式存储资源池
FC存储资源池分布式存储资源池
外部数据中心
内部数据中心
主数据中心机房
同城双活数据中机房
(图示:
数据中心架构设计)
湖南政务云数据中心采用标准化、开放和高扩展的云计算架构,支撑省政府各部门的政务外网、互联网等多种不同业务服务。
(1)网络资源设计:
网络采用扁平化二层架构,分为核心层和接入层,提高性能,减少时延;
网络大二层部署,保证虚拟机在资源池内部的热迁移能力;
核心交换机旁挂负载均衡器,提供负载均衡增值服务;
防火墙支持虚拟防火墙能力,实现业务系统之间的安全隔离。
外网服务区与互联网服务区之间网络通过部署数据交换平台实现不同业务域之间的安全隔离。
(2)计算资源设计:
采用标准化的X86物理服务器,构建计算资源池。
采用OpenStack开放架构,支持Xen、KVM等主流虚拟化平台。
X86服务器根据业务系统对资源的不同需求,配置不同的产品型号及物理配置,划分高性能计算区、通用性能计算区,分别作为虚拟化资源和物理机资源。
(3)存储资源设计:
多样化存储部署,满足不同业务系统的需求,降低存储的投资成本。
对于数据库、VM文件系统采用FC SAN进行承载;
对于非结构
化数据、虚拟化镜像等数据存储,建议采用分布式文件系统存储承载,保障存储性能和扩容能力。
(4)业务云化设计:
根据各政府部门业务对云资源的不同需求,以及业务云化的难度,分批逐步的将现网业务系统迁移至云服务商政务云,实现更多政务业务的云化。
(5)云管理平台设计:
构建统一云管理平台,通过对政务云基础资源的抽象和资源池化,提供自助式的IaaS、PaaS、SaaS服务。
政府客户可通过云管理平台统一门户自助申请云服务,并进行灵活的管理。
同时,云管理平台也负责对政务云所有基础资源进行统一的运维管理。
2.2容灾备份建设方案
2.2.1两地三中心容灾技术方案
2.2.1.1演进路线
基于目前的情况及省级电子政务外网的发展规划,我们为省级电子政务外网设计一个整体的备份中心解决方案。
租用电信运营商机房新建云计算中心,省政府机关二院省电子政务外网机房改建成为同城关键业务双活中心和数据备份中心,在异地(某市州)构建一个灾备数据中心。
备份中心全部建成后,在备份中心配置相应基础设施和容灾系统,能够防范各种硬件物理故障:
构建存储冗余系统防范存储单点故障,确保存储故障或局部灾难时业务不停顿,数据不丢失(RPO=0,RTO=0),地区性灾难发生时,异地有冗余数据(RPO≈0),可用于快速恢复业务;
构建高可用性的主机HA集群、虚拟化群集来防范主机单点故障和主数据中心灾难故障;
构建DNS系统、全局负载均衡、本地负载均衡群集来防范应用主机的单点故障和数据中心灾难,确保应用访问路径的双活;
构建冗余的网络出口链路;
确保当生产中心出现重大或灾难故障时,系统自动或
半自动切换到灾备中心继续运行,保证业务系统的高可用性运转,实现整个业务系统的业务连续性。
基于省级电子政务外网建设的总体建设目标,结合目前的实际环境与现状,我们按照”整体规划,逐步演进,分阶段实施”的建设原则,规划以下几个建设阶段:
一期工程建设:
完成主数据中心和同城双活数据中心建设,实现同城双活容灾备份系统。
在主数据中心和同城双活数据中心(省政府机关二院省电子政务外网机房改造)构建双活存储系统、数据库群集、虚拟化群集、负载均衡群集及必要的基础条件,通过数据级备份(容灾)系统,将主生产中心(新建主生产中心,租用电信运营商机房)的关键业务数据全部实时同步到备份中心,确保主生产中心重大故障或灾难情况下关键业务数据不丢失(RPO=0)。
在存储复制同步的基础上,在备份中心构建关键应用(业务)处理(主机)设备,在备份中心部署主生产中心的相同处理能力的应用(业务)系统,在ORACLE数据库RAC群集以及应用负载均衡系统的前提下,通过应用级备份(容灾)系统,实现主生产中心(新建主生产中心,租用电信运营商机房)和备份中心(省政府机关二院省电子政务外网机房改造)的双活双中心容灾架构,即两个中心运
行同一个业务系统,提高系统的负载能力,同时当两个中心任意一个故障或灾难时候,关键业务系统在应用架构能够支持的前提下能够完全不中断无缝切换到另一个中心继续运行(RPO=0,RTO=0)。
二期工程建设:
建立两地三中心容灾备份系统;
在第1阶段双活双中心备份系统建设基础上,建设异地备份中心,在异地备份中心构建备份存储系统及必要的基础条件,通过数据级备份(容灾)系统,将双活生产中心(新建云计算中心和省政府机关二院电子政务外网机房)的业务数据全部复制到备份中心,确保主生产中心重大故障或灾难情况下业务数据不丢失(RPO=0)。
上述两个不同设计阶段,按照建设的先后顺序,同城双活容灾可以平滑的过渡迁移到两地三中心阶段。
通过两地三中心的建设,省级电子政务外网数据中心的灾难恢复能力达到
“信息系统灾难恢复规范”国家标准GB/T20988-2007的6级,即RTO为数分钟,RPO为0,部分关键业务RTO可以达到0的水平。
2.2.1.2技术架构
2.2.1.2.1同城双活技术架构
双活数据中心解决方案是指两个数据中心同时处于运行状态,同时承担业务,提高数据中心的整体服务能力和系统资源利用率。
两个数据中心的数据实时保持一致,当单设备故障甚至一个数据中心故障时,业务自动切换,数据零丢失,业务零中断。
双活数据中心解决方案是端到端的4层双活方案,分别为:
存储层、数据库层、应用层、和网络层,消除单点故障,保证业务连续性。
²
存储双活:
双活中心采用冗余光纤互联,并采用DWDM进行环形保护,
实现FC SAN的互联。
存储虚拟化采用专用的虚拟化引擎或者主机卷管理软件对本地核心存储中的卷与远端核心存储中的卷实现卷级别上的RAID1,即双活分布虚拟卷,实现两个数据中心不同存储上的不同的物理卷的数据层面双活。
双活数据中心的数据复制采用同步复制技术,实现RPO=0、即数据零丢失。
数据库双活:
对于采用Active-Active群集部署的数据库系统,比如
Oracle RAC,在网络大二层技术和存储数据镜像共享技术的支持下,实现跨站点数据库节点双活和事务并行处理。
对于Active-Standby群集部署的数据库系统,跨站点数据库群集实现故障切换。
应用双活:
基于B/S三层架构的应用采用全局负载均衡及服务器负载
均衡,并结合中间件的软件集群技术实现应用双活及负载均衡;
基于
C/S架构的应用可采用云资源池的跨站点迁移并结合网络大二层技术,实现应用的在线冗余保护和快速切换。
网络双活:
主数据中心和同城双活中心采用双链路分别和电子政务网、
互联网连接,同时双活中心采用冗余光纤互联,并采用DWDM进行环形保护,实现链路级的双活。
INTERNET及内网终端接入采用全局负载均衡、链路负载均衡、本地服务器负载均衡,同时结合DNS域名解析技术实现终端接入的网络双活。
双活中心的网络通过大二层局域网延展的方式,在数据中心间扩展局域网(VLAN)的连接,支持应用集群跨地域部署和灵活迁移,支持双活数据中心部署,提供更大范围的资源整合和灵活调配。
2.2.1.2.2两地三中心技术架构
在同城双活的基础上,另外再异地建设一个容灾备份中心,通过存储远程复制技术和数据备份技术,实现双中心业务数据的异地备份,当双中心出现区域灾难,可确保业务数据不丢失。
2.2.1.3容灾设计与实施方法论
从整个计算机系统的发展来看,灾难备份经过了一个很长时间的发展过程,在上个世纪60年代,通常进行的都是集中式处理系统,每个系统具备一些简单的灾难恢复计划,通常恢复时间也很长,都以周为单位计算,进行的数据备份和恢复也都处于被动式的模式。
到了70年代,随着计算机系统的逐渐普及,应用逐渐有集中式系统转到分散式系统,这个时候,系统开始考虑一些简单的业务恢复计划,恢复的时间也开始以天为单位。
到了90年代,网络的飞速发展,系统有开始走向集中,这个时候,对业务的连续性要求就更高,要求恢复时间也小时为单位,系统需要考虑避免高可用的风险。
到了今天,企业应用系统进一步飞速发展,业务要求能够达到行业级别的业务连续计划,此时,要求实现业务系统的更高可用性,恢复时间甚至要求达到实时的水平。
业务的发展使得企业对业务连续性的要求也越来越高。
在业务连续性中,以下几个概念非常重要,它们也是衡量业务持续及灾难备份需求的指标。
n恢复时间目标(RTO)
恢复时间目标(RecoveryTimeObjective,简称RTO)是指灾难发生后,从I/T系统宕机导致业务停顿时刻开始,到IT系统恢复至可支持各部门运作、业务恢复运营之时,此两点之间的时间段称为RTO。
一般而言,RTO时间越短,即意味要求在更短的时间内恢复业务至可使用状态。
虽然从管理的角度而言,RTO时间越短越好,但是,这同时也意味着更多成本的投入。
对于不同行业的企业来说,其RTO目标一般是不相同的。
即使是在同一行业,各企业因业务发展规模的不同,其RTO目标也会不尽相同。
RTO目标的确定可以用下图来说明:
如上所说,RTO目标越短,成本投入也越大。
另一方面,各企业都有其在该发展阶段的单位时间赢利指数,该指数是通过业务影响分析(Business
ImpactAnalysis)咨询服务,以访谈、问答和咨询的方式得到确定的。
在确定了企业的单位时间赢利指数后,就可以计算出业务停顿随时间而造成的损失大小。
如上图,结合这两条曲线关系,我们将可以找到对该企业而言比较适合的
RTO目标,即在该目标定义下,用于灾难备援的投入应不大于对应的业务损失。
n恢复点目标(RPO)
恢复点目标(RecoveryPointObjective,简称RPO)是指对系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。
这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。
与RTO目标不同,RPO目标的确定不是依赖于企业业务规模,而是取决于企业业务的性质和业务操作对数据的依赖程度。
因此,RPO目标对相同行业的企业而言会有些接近,而对于不同行业的企业来说仍可能会有较大差距。
RPO目标的确立仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO目标。
通常可以用以下1到5的等级来衡量企业业务连续性的成熟度。
在长年灾难服务提供的过程中,中国电信在业务持续服务方面形成了一套完整的实施方法论,如下图所示,它包括分析、设计、和实施三个阶段的咨询和技术服务,中国电信又将该三个阶段工作划分为七个步骤,即“风险分析”、
“业务影响分析”、“可恢复性评估”、“恢复策略制定”、“灾难恢复方案设计”、
“业务持续计划设计”和“业务持续计划演练和维护”。
中国电信采用业务持续咨询方法论来规划和设计出企业的业务持续计划。
该广受验证的实施方法论的7个步骤由三个阶段串连而成:
分析阶段包含“风险评估”、“业务影响分析”、及可恢复性评估。
此阶段提供对灾害潜在损失、各种冲击、及现行恢复能力等方面的量化及质化的分析
评估,同时也根据需求来向客户建议必需的措施及迅速的解决方案来实现完全的恢复能力。
设计阶段包含“恢复策略制定”及企业“灾难恢复整体解决方案设计”。
此阶段根据分析阶段的结果来制定出企业的恢复策略,规划及设计出为实现企业业务持续所必需的行动与解决方案,以达到企业在组织、流程及技术层面的恢复需求。
实施阶段包含“业务持续计划设计”及“业务持续计划的演练和维护”。
此阶段将建立业务持续计划、实施业务持续计划的桌面演练、执行业务持续计划及灾难恢复的测试、设计业务持续计划的维护方案。
其中,业务持续计划中将包括企业的“业务恢复计划”和“技术恢复计划”。
建议,企业的业务持续计划的设计及拟定应该是一个持续并循环往复的过程,每一阶段都能持续不断的改进,并且在实际工作中体现有效性与高效性。
上述业务持续计划的分析、设计与执行三个阶段,正如上图所绘,可根据其特性分类,分为与企业业务相关及技术相关的不同步骤,共分为以下七个步骤:
1.风险分析
2.业务影响分析
3.可恢复性评估
4.恢复策略制定
5.灾难恢复方案设计
6.业务持续计划设计
7.业务持续计划的演练与维护以下将分别介绍这七个步骤。
风险分析
风险分析(RiskAnalysis)分析可能对企业业务系统和IT系统的安全性造成威胁的各种风险因素并提出相应的对策和改进方案。
因此,风险分析的工作将不仅仅只是提出补救措施,还将定义出对于风险的预防措施。
1.风险分析的目标是:
1)对企业可能面临的主要威胁性风险进行质与量化的评估;
2)按照各风险的严重性,分别定义其所处的风险层次和级别;
3)根据各风险发生的可能性,分别定义其所处的风险级别;
4)定义风险矩阵图(如上图所示),提出应对风险的建议(避免风险、转移风险、或接受风险)。
2.风险分析的进行方式为:
1)首先通过召开启动会议来说明风险分析的目的、参加人员需求与职责、设计及分发调查问卷、安排访谈与现场巡视的进度。
2)辨认现存风险:
搜集财务资料、实施人员访谈、巡视当地状况、检查物理设施、分析搜集到的数据、审核各设施和设备的操作程序(包括IT和非IT)。
3)评估风险冲击:
检视损失冲击、开发评估分析细节、记录评估结论、定义冲击的等级和层次。
4)确定合理的减低风险威胁的处理方法和优先次序。
5)记录风险分析工作中的发现与建议。
6)制作书面《风险分析报告》
7)向管理阶层汇报工作成果和最终交付项目。
3.实施风险分析给客户带来的效益是:
降低由于不安全、不可靠与不适宜的管理所造成的威胁和风险。
风险分析的对象通常为“基础设施与技术”、“人的因素”、和“不可抗力”三个层面,同时,又分为内部原因和外部原因,具体如下表所示:
基础设施
和技术
w
硬件故障
技术缺陷
电源故障电压波动电源接地不
良
电缆老化
空调损坏
消防设施毁
坏
w通讯线路中断
w…
外部原因
内部原因
地震
火灾塌方
飞行器撞击爆炸
火山爆发
…
水位过高
断
冰雪
恶劣气候崩塌
雷击龙卷风海啸
交通堵塞中
严寒
黑客攻击
误操作入室行窃蓄意破坏间谍活动示威活动消防灌水
病毒
误操作
盗窃
蓄意破坏粗心或无知辞职
情绪波动
自然灾害
气候
外部人员
内部员工
不可抗力
人的因素
2.2.1.3.2业务影响分析
业务影响分析(BusinessImpactAnalysis,简称BIA)收集、分析及汇
总及排序当信息系统一旦遭遇灾害对各项重要关键性业务的影响程度,并依据其优先级提出恢复策略建议。
通过业务影响分析可验证实施容灾解决方案的必要性及需求。
1.业务影响分析的目标是:
1)确定企业的关键业务流程;
2)定义各关键业务可容许中断的最大时间长度;
3)确认各关键业务数据丢失的可容许程度。
2.业务影响分析的进行方式为:
1)首先通过召开启动会议来说明业务影响分析的目的、参加人员需求与职责、设计及分发调查问卷、安排后续访谈行程;
2)执行后续访谈,收集问卷、与参加人员共同检查问卷内容以确定:
ü
重要业务项目;
恢复时间目标(RecoveryTimeObjectives)的需求;
业务中断的影响;
各部门执行恢复所需的资源。
3)开发初步总结;
4)举行复审会议来验证以下项目:
验证各业务项目恢复优先级;
验证恢复时间目标;
验证重要数据的完整。
5)制作书面《业务影响分析报告》。
6)向管理阶层作总结报告。
3.实施业务影响分析给客户带来的效益是:
了解不同中断时间对各业务造成的直接与间接损失及优先级,开发恢复策略目标。
2.2.1.3.3可恢复性评估
可恢复性评估(Recoverability Assessment)定义现行各业务流程的恢复能力及现行技术环境的特征,它将从架构、平台、技术、基础设施、组织结构、恢复流程等各层面来评估企业目前的恢复能力。
在可恢复性评估中将证实企业当前的业务恢复能力,而在业务影响分析之后,可确定企业需要的恢复能力,这样,将可发现当前恢复能力与需要的恢复能力之间的差距,从而在“恢复策略制定”工作中,根据此差距可规划出企业的恢复策略。
1.可恢复性评估的目标是:
评估使用现有处理流程与程序,IT作业目前是否能够恢复、需要多少时间恢复、以及可能的数据丢失数量。
2.可恢复性评估的进行方式为:
1)首先通过召开启动会议来说明项目目的、参加人员的需求与职责、设计及分发调查问卷、安排访谈与现场访视行程。
2)复审现有文件。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 省级 政务 平台 两地 中心 建设 方案