运维自动化操作管理平台解决方案(V1.1).ppt
- 文档编号:18763596
- 上传时间:2023-11-02
- 格式:PPT
- 页数:74
- 大小:9.36MB
运维自动化操作管理平台解决方案(V1.1).ppt
《运维自动化操作管理平台解决方案(V1.1).ppt》由会员分享,可在线阅读,更多相关《运维自动化操作管理平台解决方案(V1.1).ppt(74页珍藏版)》请在冰点文库上搜索。
运维自动化操作管理平台解决方案,2014年3月31日,目录,项目背景,系统目标,建设原则,运维现状,中国邮政储蓄银行依托邮政网络优势,按照公司治理架构和商业银行管理要求,不断丰富业务品种,不断拓宽营销渠道,不断完善服务功能,为广大群众提供更全面、更便捷的基础金融服务,成为一家资本充足、内控严密、营运安全、功能齐全、竞争力强的现代银行。
随着银行业务的迅猛发展,系统数量迅速增加,业务系统复杂多样,各个业务系统间关联关系复杂,运维压力越来越大。
中国邮政储蓄银行运维系统随着业务系统的不断发展,也在不断地优化升级,在系统升级应用发布等方面已经逐渐形成了一套完整的流程。
为了更好的适应业务发展,提高运维效率,实现运维自动化,建设一套独立运行、高度自动化的运维系统是运维管理发展的必然趋势。
运维面临的挑战,由于中国邮政储蓄银行运维管理的难度和复杂度,运维管理面临着以下挑战:
系统环境复杂庞大业务系统繁多人为手工操作风险高问题故障定位效率不高,运维面临的挑战
(一),系统环境复杂庞大:
多种操作系统,如:
hp-unix、linux、windows、AIX等。
多种主机设备,如:
应用服务器、数据库服务器、管理服务器、前置服务器等;,运维面临的挑战
(二),业务系统繁多:
系统关联关系复杂,业务处理环节众多,业务关联性强。
例如,中国邮政储蓄银行以储蓄逻辑集中系统和储蓄统版2.0系统为核心,连接着会计处理平台系统、中间业务系统、国际业务系统、汇兑业务系统、代理保险系统等多个外围业务系统;,运维面临的挑战(三),人为手工操作风险高:
在版本发布、巡检、配置管理、变更管理、联合排障等过程中多是手工操作执行,操作过程中缺乏透明度,标准化程度不高,应用发布时间长,误操作风险较大。
运维面临的挑战(四),问题故障定位效率不高:
在应用发布过程中,由于操作过程的复杂性和人为原因,容易发生误操作,却不能及时发现。
问题出现后重现操作过程困难,不能快速准确地定位问题根源,最终影响业务系统的正常运行。
目前应用发布流程,目前邮储银行运维系统升级应用发布使用95580运维故障管理系统,其基本流程如下:
(1)需求确认单(需求变更单)和升级申请单由相关领导签署后,版本管理员上传应用系统升级包到95580运维故障管理系统;,
(2)运维中心管理人员对95580运维故障管理系统中应用系统升级包审核批复后,下发到各省中心维护人员;,(3)各省中心系统维护人员从95580下载升级包,按步骤手工操作发布应用程序;,(4)项目组开发人员核查升级操作情况,各省中心维护人员记录升级报告单,提交相关领导。
目录,项目背景,系统目标,建设原则,项目目标,提高运维效率,降低误操作导致的风险,系统、应用和交易巡检的可视化,规范化标准化应用发布流程,实现发布应用及巡检的自动化,项目目标,项目目标-自动化,运维管理自动化操作平台需要实现应用发布和巡检的自动化改变传统的运维模式中手工应用发布的流程,在系统中实现应用发布及巡检的自动化管理流程,建立运维自动化操作平台;减少应用发布过程中人为操作步骤,降低人工操作风险;减轻运维人员负担,提升工作效率,降低运维成本。
例如:
目前逻辑集中系统每日日终前都须手动检查各节点文件系统使用率,对于使用率过高的节点需要运维人员手动清理日志。
该平台可以实现自动化巡检,可以灵活定制巡检任务,自动清理日志并生成巡检报告。
项目目标-规范化,运维自动化操作在纵向上涉及应用系统和底层技术细节,在横向上涉及各级角色及组织。
该体系的成功不仅依赖于平台自身的实施,还在于各管理部门、各管理人员的协同,并高效的进行推进,只有这样才能建设安全、高效、便捷的应用自动化系统。
因此,在相关的开发中心、测试中心、运维中心各层面建立统一的规范,具体规范包含如下:
应用发布管理规范应用发布操作规范发布脚本规范发布参数配置,项目目标-可视化,运维管理系统根据巡检内容,按照巡检模板生成巡检报告,便于各级管理者进行查看。
巡检内容系统类:
CPU、IO、内存、文件系统等数据库类:
表空间利用率、日志检查中间件类:
Tuxdeo、Weblogic等应用服务:
应用交易、应用服务巡检目标减少管理员直接系统登录巡检脚本统一管理发布系统故障快速诊断推进巡检的标准化和规范化巡检周期、频率灵活定制,项目目标-低风险,运维管理自动化操作目的是降低由手工操作带来的潜在风险,减少人为因素带来的影响传统的的运维管理采用手工操作,在版本发布、巡检、配置管理、变更管理、联合排障等过程中多是手工操作执行,操作过程中缺乏透明度,标准化程度不高,误操作风险较大建立透明的、高标准、高规范的自动化运维管理系统,降低由于手工操作带来的风险自动对各个业务系统进行巡检,及时发现并解决问题,降低由于其他故障问题带来的影响,项目目标-高效率,邮储银行业务系统繁多,工作内容涉及比较多,需要各管理部门、各管理人员的协同共同推进传统的的运维管理模式在各职能部门的协调和各级管理人员的调度上不灵活,在突发情况下无法快速的解决问题运维自动化操作制定不同的角色,不同的角色根据权限的不同而担任不同的工作,目录,项目背景,系统目标,主要功能,实施规范,风险应对,建设原则,系统架构,建设原则,规范性,易操作性,可扩展性,安全性,稳定性,建设原则,建设原则-稳定性,从外部来说,充分考虑邮政储蓄银行现有各系统间的关联关系和相互影响,设计阶段,尽量减少现有系统的改造;运行阶段,既不对其它业务系统的正常运行产生大的影响,又要保证自动化运维系统的正常运行;从内部分析,运维自动化系统应有充分的规范的异常处理机制,保证系统在出现错误,甚至严重错误时,没有人为因素的干预或较少干预下,仍能恢复正常运行状态。
建设原则-安全性,信息安全:
针对业务系统、子系统及节点等对象,用户根据不同的角色分配不同的操作权限,保证各业务系统的安全。
例如:
不同用户登录系统会显示不同的操作界面。
此外,对于某些重要的操作需要特定的角色授权;密钥安全:
运维自动化平台与各业务系统间数据的传输有安全认证的机制。
对于大数据量传输,可采用对称加密算法(如3DES),以提高数据加解密的速度;对于小数据,采用非对称加密(如RSA),提高数据安全性。
此外,支持公私钥对对双方身份的认证机制。
兼容多种加解密算法等。
建设原则-可扩展性,对于目前邮储银行日益复杂的各种业务系统,具备增加或减少业务系统、子系统或单个节点等功能;实现系统内不同角色及权限的增删改查,从横向和纵向上满足对业务系统的操作权限。
例如:
角色A对应的是业务系统B内某个子系统C,那么,角色A对子系统C内所有节点具有操作权限,而对业务系统B内其它子系统没有操作权限;灵活定制各种巡检目标及发布应用;支持与目前邮储银行各种主流操作系统平台对接,例如:
hp-unix、AIX、linux等;,建设原则-易操作性,系统的设计应满足操作简单,便于理解和良好的用户体验。
例如:
适当减少和屏蔽目前版本升级上线过程中复杂的命令操作方式,实现升级流程配置化。
用户与系统应有良好的交互性,每步的运行结果都应有实时的展现,并且方便事后查询。
建设原则-规范性,平台系统设计过程中应有尽可能多的定制规范性动作,例如:
命令、脚本及内部程序的规范;运维自动化管理平台与外部系统的交互尽量使用通用的接口规范。
对于系统使用到的命令、脚本程序及各类文件数据要满足定制的规范要求;,目录,项目背景,系统目标,建设原则,系统逻辑架构,系统逻辑架构,1.WEB接入层:
用户与运维自动化系统交互的门户,展示和操作的统一web入口。
包括应用发布和巡检两大部分功能;此外,还包括两大支撑功能模块角色用户权限管理和应用系统管理。
(1).应用发布:
主要子功能及流程有发布配置、发布审核、发布执行、发布监控和发布结果评估等
(2).巡检:
主要子功能有巡检检索、巡检配置、手工巡检及巡检报告等(3).角色用户权限管理:
主要包括角色管理、用户管理和权限管理等。
完成角色、用户和权限的增删改查等操作(4).应用系统管理:
主要包括应用系统管理、子系统管理和节点管理等。
节点是应用系统管理的最小单元,一般与系统中服务器一一对应,系统逻辑架构,2.发布流程层:
又名调度层,应用发布和巡检流程管控模块,是后台任务的核心,实现流程的配置,信息采集,权限管理维护,协助与步骤建模,环境建模,作业配置及资源管理等
(1)任务轮询调度:
后台实时不间断轮询自动任务的到来,等任务到来后,自动调度对应的任务执行模块进行处理3.自动操作层:
又名执行层,主要完成各种任务执行实施的功能;此外,在任务执行过程中,需要底层通讯和安全两大功能模块的支撑
(1).任务执行:
包括发布应用、巡检、权限、角色、应用系统等任务的执行
(2).安全认证:
本系统与应用系统之间的数据的加解密、签验章等(3).通讯协议:
平台部署,运维自动化操作管理平台系统分两套环境部署,准生产环境和生产环境。
上线前,首先在准生产环境进行应用发布及巡检的自动化测试,然后再导入生产环境,大大降低了上线操作的风险性,提高了运行效率。
并且,生产环境和准生产环境支持逆向操作。
平台准生产环境开发、测试中心进行自动化发布的测试平台生产环境运维中心实现对生产的应用系统的自动化发布,平台部署,目录,项目背景,系统目标,建设原则,功能概要,功能概要,主要功能介绍-自动巡检,具体巡检内容系统类:
CPU、IO、内存、文件系统等数据库类:
表空间利用率、日志检查中间件类:
tuxedo、weblogic等应用类:
应用交易量、应用服务,主要功能介绍-自动巡检,执行,设计,自动巡检-设计,巡检作业,巡检时间,巡检模板,巡检指标,巡检规则,1,n,n,n,1,n,巡检目标,n,自动巡检-设计,巡检指标,巡检规则,巡检模板,自动巡检-作业定义,自动巡检-模板,自动巡检-服务器,自动巡检-时间表,巡检报告分类,巡检,系统巡检,应用巡检,常规巡检,临时巡检,AIX巡检,常规巡检,临时巡检,交易巡检,CEMB,数据库,NEXCH,重保巡检,定期执行,手工执行,深度巡检,一日多次,中间件,巡检报告,工作流程-巡检,平台准生产环境,平台生产环境,制定巡检方案,二线管理员应用DB中间件.,变更审核,变更评审,审核结果,管理员通过审核报告,确定系统的运行状态,工作流程-巡检,目标:
减少管理员直接系统登录巡检脚本统一管理发布系统故障快速诊断推进巡检的标准化和规范化巡检周期、频率灵活定制,权限控制二线管理员:
根据SUMP权限,对相应的服务器OS用户下具有设计、执行的权限一线工程师:
根据专业类别进行区分,具有相应专业类别下的临时巡检执行权限,主要功能介绍-应用发布,主要功能介绍-应用发布,应用发布-模型,应用系统的分层架构,发布面对不同环境,多种形态的发布,1、建立应用组件模型,引入组件模型适用系统架构分层,2、建立应用环境模型,将环境模型与组件模型组合,将应用与环境的关联性解耦,3、建立应用发布模板,通过发布步骤原子化、规范化,实现发布步骤的复用,达到发布请求的重用,应用发布-设计,应用发布-执行,应用上线设定,原子化步骤脚本,应用发布-执行,发布步骤,应用发布-变更控制表变化,*,*,T-4,T,运行态,两个环境:
平台生产环境、平台准生产环境三个阶段:
模板构建、投产准备、投产发布四个角色:
开发中心-配置管理员、测试经理、应用管理员、变更经理,需项目组支持,应用发布-对比,*,执行,权限体系,WEB平台用户:
IAM认证接入操作权限从SUMP同步数据行级权限控制(应用系统),C/S设计用户:
设定用户的可操作范围通过作业限制用户可执行的操作针对读取类作业,设定只读用户,机器人帐号:
系统间的交互通过机器人帐号完成,WEB平台用户:
角色:
菜单、功能按钮的访问控制用户:
应用系统粒度的数据行级授权C/S设计客户:
建立应用系统为路径的权限控制单元应用+角色=角色的映射关系权限策略包AGENT:
以ROOT用户执行OS用户参数化,功能/数据权限矩阵,功能/数据权限矩阵,在平台对相应的人员赋予所属应用系统权限,根据同步的SUMP权限具有所属服务器的OS用户权限,按应用、操作系统、中间件、数据库等方向划分,外部接口,外部接口,运维自动化操作平台,SUMP,配置管理,IAM,动态口令,ITSM,监控系统,权限同步,服务器信息,统一登录,授权,变更同步,审批,结果更新,监控维护期,工具调用,系统自身监控,JEDA:
-CPU使用率-内存使用率-IO使用率-Weblogic的虚拟内存、线程、JDBC连接数-MessageQueue-监控日志文件,BRPM:
-CPU使用率-内存使用率-IO使用率-Tomcat的虚拟内存、线程、JDBC连接数-监控日志文件,数据库:
-Oracle日志文件-Server状态-表空间数据文件-索引空间数据文件-监控会话数-Listener是否存在,BSA:
-CPU使用率-内存使用率-IO使用率-文件系统空间-监控日志文件,目录,项目背景,实施方案
(一),目前,随着业务系统的升级,中国邮政储蓄银行运维整体流程管理也在不断完善。
针对目前邮政储蓄银行运维的实际情况,提出如下两种实施方案,供各位领导和运维管理人员参考:
方案1:
95580和MAOP系统同时上传升级包流程:
应用发布管理人员上传升级包到95580,并同时上传升级包到MAOP系统;,实施方案
(二),运维中心审查人员在MAOP系统对升级包进行审查批复,无需在95580系统审查批复升级包;,MAOP根据升级操作手册中配置的升级节点、升级时间、操作步骤等信息,在指定时间发布升级包,自动完成升级;,实施方案(三),MAOP根据审核手册自动完成升级审核并生成升级报告;,优点:
95580与MAOP系统无直接交互缺点:
须手工上传升级包到MAOP,实施方案(四),方案2:
自动化运维系统与95580系统对接流程:
应用发布管理人员上传升级包到95580系统;(与目前流程一致)运维中心审查人员对升级包进行审核批复;(与目前流程一致)运维自动化操作平台MAOP自动同步经过审核的升级包;,MAOP根据升级操作手册中配置的升级节点、升级时间、操作步骤等信息,在指定时间发布升级包,自动完成升级;(与方案一一致),实施方案(五),MAOP根据审核手册自动完成升级审核并生成升级报告;(与方案一一致)优点:
不需要审核批复流程缺点:
95580系统需提供对接接口,应用发布构建规范,自动化平台在纵向上涉及应用系统和底层技术细节,在横向上涉及各级角色及组织。
该体系的成功不仅依赖于平台自身的实施,还在于各管理部门、各管理人员的协同,并高效的进行的推进,只有这样才能建设安全、高效、便捷的应用自动化系统。
因此,在相关的开发中心、测试中心、运维中心在自动化平台各层面建立统一的规范,具体概述如下:
应用发布管理规范在邮储现有发布管理模式上进行梳理,在不影响现有的管理模式下,规范应用发布从开发中心制定到质量中心测试到运维中心的上线的各个环节的流程。
主要包括如下几个层次:
发布角色梳理规范:
统一梳理发布过程的各角色,明确各角色责任。
发布过程管理规范:
对发布过程进行管控,开发、测试、导出、导入、投产等过程。
应用发布操作规范对自动化平台的配置过程,如配置自动化发布环境模型、配置发布作业、配置发布请求等过程建立统一规范,在统一的标准和规范上进行构建,主要包括如下几个层次:
应用发布环境规范:
对发布环境的各项内容进行规范,如应用、组件、环境、服务器的构建配置规范;发布作业构建规范:
对发布作业构建的各项环境进行规范,如发布脚本、发布参数、发布作业构建配置规范;发布请求构建规范:
对发布请求的配置过程进行规范,包括发布请求、发布步骤的定义、命名、组件选择的方式等。
发布脚本构建规范,应用自动发布的调度的底层是发布作业,而发布作业的重点是落在发布脚本上,发布脚本的构建对应用发布的成功有着重要的作用,应通过参数化实现发布脚本和服务器的松耦合,因此应对发布脚本的构建做统一规范,开发中心、质量中心、运维中心在整个构建及运维过程中采用统一的标准进行编写、理解、和调整,主要包含如下几点:
发布脚本纳管应用系统发布脚本执行目录规范:
在被管服务器上采用统一的目录结构;应用系统发布脚本平台纳管规范:
在自动化平台上采用统一纳入方式和规范;发布脚本内容发布脚本的编写、梳理原则:
所有系统的脚本、梳理采用一致的原则和方式;发布脚本的内容规范:
所有系统的内容、输入输出、命名等采用统一规范;发布脚本的返回码规范:
所有系统的脚本的返回采用一致的规范。
发布参数配置参数化分类规范:
采用统一的梳理、分类、命名规范。
巡检规范构建过程与规范,构建阶段:
由超级管理员进行对象构建、巡检模板的构建、巡检作业的创建和维护等相关功能。
注:
在此阶段建议在系统初次构建好后,若今后若有新的对象构建、巡检模板的构建、巡检作业的创建等相关需求,建议必须经过公司的日常巡检变更控制,然后再由系统管理员进行构建。
任务管理:
二线在统一平台上进行相关的作业执行频率、邮件发送人等相关配置操作作业执行:
若有特殊情况,二线和一线均可在统一平台上进行相应的临时巡检巡检报告及处理:
二线管理员可以登录系统查看报表或由系统按一定频率自动将相应报表发送给响应的二线管理员。
工具箱构建过程与规范,构建及维护:
若有新脚本投产或修改原有的脚本,需要按行内的规定走相应的变更流程,然后,由二线在统一平台上进行工具的注册和维护等相关功能。
注:
此阶段在系统初次构建完成后,若今后若有新工具注册或修改等相关需求,必须经过行内的变更控制,然后由二线在统一平台注册或修改相应的工具。
工具使用:
二线和一线均可在统一平台上进行相应的工具箱使用查看运行结果:
在工具箱运行过程中,二线或一线均可以在各自终端的统一平台上进行实时查看工具的执行情况。
目录,项目背景,自动化平台自身风险及应对,断点处理,操作原子化内置stop-on-error机制特定步骤重跑,跳过,强制OK,取消,操作日志延时显示,脚本规范化减少判断结果对日志信息的依赖性通过工具箱对日志文件进行实时查看,运行消耗,自动化Agent平时处于休眠态,消耗=0运行作业时为人工执行+25%overhead,自动纠错,构建高可用构架完善平台自身状态监控,权限控制,细粒度授权,可圈定用户的可操作范围通过作业方式限制用户可执行的操作针对读取类作业,设定只读用户内置操作审计,自动化平台/Agent信任关系,指定可信任IP证书认证,感谢各位领导和专家!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自动化 操作 管理 平台 解决方案 V1