华为事件管理流程规范.ppt
- 文档编号:18743977
- 上传时间:2023-10-26
- 格式:PPT
- 页数:41
- 大小:1.04MB
华为事件管理流程规范.ppt
《华为事件管理流程规范.ppt》由会员分享,可在线阅读,更多相关《华为事件管理流程规范.ppt(41页珍藏版)》请在冰点文库上搜索。
信息技术工程部新员工培训公共课程课程提供:
系统运行管理部2005年7月1.0版,事件管理流程(INCIDENTMANAGEMENTPROCESS),目录,事件管理流程概念介绍华为公司事件管理流程TSD规范IT事件的升级及管理故障报告管理制度及注意事项故障公告管理规定案例库建设FAQ,事件管理流程概念介绍,IncidentActivities,Investigation&Diagnosis,Classification&InitialSupport,IncidentDetection&Recording,Resolution&Recovery,Ownership,Monitoring,TrackingandCommunication,IncidentClosure,ServiceDeskresponsibility,Source:
OGC(ServiceSupport),目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQ,TSD,监控系统,Timei,注:
timei(i=1,2,3,4)的值参阅SLA指标定义及测评方法,故障确认,B,公告发布人员,接收事件,是,否,设备故障其它故障,线路故障电源故障,A,接收报障单,恢复服务,监控信息,问题记录,问题记录,015,016,019,时间,系统,INCIDENT管理流程,用户,提出请求,否,IT热线人员,IT客户请求处理子流程,是,机房监控人员,技术支持人员,三级支持/供应商,记录问题,是否为突发事件?
事件分析、定位,是否有解决方案?
关闭事件,检验解决方案,是,信息请求,提供方案恢复服务,否,记录问题,是否有解决方案?
关闭事件,恢复服务,故障定位,IT问题根源分析流程,原因不明或重复出现的事件,001,002,003,004,005,006,007,008,009,010,011,012,013,014,INCIDENT管理流程,用户,B,IT热线人员,系统,时间,Timei,机房监控人员,技术支持人员,三级支持/供应商,公告发布人员,TSD,关闭问题,检验解决方案,复查问题记录信息,事件分析,是否有解决方案?
关闭问题,是,恢复服务,否,检验解决方案,注:
timei(i=1,2,3,4)的值参阅SLA指标定义及测评方法,A,接收问题记录单,复查问题记录信息,事件分析,恢复服务或提供解决计划,IT问题根源分析流程,是否有变更?
否,变更管理流程,是否要发公告,发布故障公告,是,是,否,017,018,020,021,022,023,024,025,026,027,028,028,030,031,032,原因不明或重复出现的事件,华为公司事件管理流程事件级别定义,按照IT问题升级与管理制度中的定义,判断问题级别的原则如下:
紧急程度1-对业务有至关重要的影响:
业务系统完全丧失了服务功能或丢失了所有的资源,工作无法再继续进行。
界定原则:
SLA协议中承诺的应用系统完全不可用,如:
ERP系统崩溃、NOTES/EMAIL服务器出现严重故障、ASMS、WMS、SAP、Proxy、HW-Card、条码、OSP、WEB、公共数据平台等系统不可用;或整个办公区网络主干中断,影响关键业务系统无法继续进行,如:
海外主干线路中断、国内研究所和重要办事处所有主、备线路同时中断、数据中心网络故障。
紧急程度2-对业务有严重的影响:
业务系统丧失了重要的服务功能或丢失了重要的资源。
例如:
ERP数据库表不能正常访问、单台NOTES服务器不可用或局部网络中断,导致主要的应用系统不能正常运行。
紧急程度3-对业务有较小的影响:
业务系统丧失了较少的服务功能或丢失了较少的资源,个别用户某些业务功能不能使用。
例如:
一些ERP的功能特性不能正常发挥,但不影响系统的正常运行。
紧急程度4-对业务没有影响:
用户工作正常,没有因为该问题的存在而妨碍其工作,可正常查询和报告信息。
例如:
查询技术信息和使用技巧、海外当地非工作时间的网络故障。
实例列举:
SO管理库操作指导IM“如何判断事件级别”,华为公司事件管理流程-及时处理和及时解决要求,发生突发事件后,要求各级技术支持必须在以下时间内处理并解决该突发事件:
(h:
小时、wd:
工作日),特别提醒:
1级问题和2级问题的解决时间在正常上班时间和非正常上班时间是有区别的。
正常上班时间内的解决时间是2小时;非正常上班时间的解决时间是4小时。
解决时间是在TSD中从登记事件记录时开始计算的。
目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQ,在TSD系统登记问题时,要求登记:
用户信息、问题状态、紧急程度、问题描述、解决方案、SCIM几方面信息,如图所示:
特别提醒:
机房监控、二/三级技术支持直接接到用户问题或主动发现系统问题时,都应在TSD中登记问题。
TSD规范,注:
给用户做了现场支持的DesktopSupportProvided要打勾,没有去现场支持的不能打勾,及时和详细填写WorkHistory,记录在TSD以外对问题的判断和解决过程WorkHistory的填写有利于:
固化各级技术支持的经验和问题解决方案知识库的扩充;为将来解决类似问题提供参考;方便其它支持人员了解对该问题已做的工作和加快问题的解决。
填写Status规范:
先概要说明再具体说明。
问题解决方案填写规范:
填入对问题的判断、已经针对该问题所做的工作和下一步准备做的工作。
不要只简单的写“已处理”、“已OK”。
在问题最终解决后,需要在Status中提供问题的最后的解决方案再将问题置为FIXED状态。
TSD规范,在问题传递给后一级技术支持后,后一级技术支持要及时接管问题。
为了保证技术支持及时接管问题,技术支持应养成经常查看邮件的习惯。
如果技术支持当天有事或有会议等原因,要事先通知相关技术支持,以免传递的问题无人接管。
在问题的解决过程中,根据对问题的进一步判断,需要不断更新和细化问题的SCIM。
即:
问题级别、问题类别、问题原因收到SLA问题报警通知后需要及时处理问题,如果无法及时解决问题,需要及时调度其它资源和升级问题。
TSD规范,在解决完问题后如果由于其它原因无法登录到TSD及时关闭问题时,可以通过发邮件或打电话等方式通知热线或其它人员帮忙及时关闭问题,需要同时提供问题的解决方案以更新问题的Status,以免由于无法更新问题而导致人为因素SLA超标。
二/三级支持解决完问题要关闭问题时,一定要用FIXED,以便用户收到解决方案邮件并进行确认,不能在TSD中直接CLOSED-SAT。
问题被关闭后,不能轻易重新打开,除非的确是问题没有解决。
对于没有解决的问题则需要重新打开并传递给相应的支持人员继续解决。
TSD规范,一级支持注意事项:
1、在TSD中记录问题时,记录信息要准确并尽可能详细;特别是龙岗地区办公地点要详细到园区,如:
华电科研楼、科研中心等。
2、提交1、2级重大问题后,为确保问题得到及时解决,要求热线人员必须打电话联系相应技术支持,若电话联系不上,直接联系其主管协调处理。
3、若发生影响范围广的紧急重大问题时,如:
吃饭时间卡系统故障,热线在第一时间电话通知技术支持处理后,还应电话通知到相应主管关注。
TSD规范,二级支持注意事项:
1、为确保热线问题的有效传递,二级支持公出、休假或工作重点转移时需做好工作交接并知会热线hotline群组;2、二级支持接到热线问题后,要尽快响应、及时处理;3、如果热线对问题级别、类别、原因的初步定位不准确时,二级支持可以做进一步修改,如果没有修改热线和技术支持共同承担责任;技术支持可以修改问题级别,例如一个二级问题,热线传递时定为三级了,可以将问题升级。
4、问题解决后,如果特殊无法登录到TSD及时关闭问题时,可以通过发邮件或打电话等方式通知热线或其它人员帮忙及时关闭问题(owner会修改了5、二/三级支持解决完问题要关闭问题时,一定要用FIXED,以便用户收到解决方案邮件并进行确认,不能在TSD中直接CLOSED-SAT,对传递问题时标记了请邮件或电话等方式联系用户,请按该方式联系用户,也要求fix问题(热线查看解决方案)。
6、二级支持直接接到的用户问题和主动发现的系统问题,都应在TSD中进行登记。
(无论是通过任何方式,发现的所有问题都需要在TSD进行登记。
),TSD规范,二级支持注意事项:
解决方案填写的要求:
注意需提供问题的解决方案(方法),不能简单地填写“已处理”、“已OK”,不能写联系供应商解答等非对问题的解决办法(要求热线进行检查的)对于问题较多时要及时请领导调派人员协助(如某地区上某策略或搬家,故障较多时),并知会热线,如果没有请他人协助,且没有及时处理的话,要承担相应责任对于被传递的自己不能处理的,3、4级及问题请于2小时内及时传递给相关责任人或热线,1、2级问题应该立即传递,否则问题打破SLA也要承担相应责任没有解决的问题不能关闭,不能因为联系不上用户,或问题要信息就将问题FIXED或关闭,这个需要给用户发邮件进行联系来获取相关信息,每个月会出打破SLA的数据,只有以下几个问题不算个人原因打破SLA的。
详细见下页,TSD规范,二级支持注意事项:
一些界定的原则:
下面这些不记入个人打破SLA的统计数据中:
1、对于3-4级问题,如果在打破SLA问题前四个小时热线还没有把问题传递给您,记为热线原因标记黄色2、对于要打破SLA前二小时或打破SLA后用户拒绝问题,算用户原因打破SLA标记为绿色3、对于热线传递给其他技术支持,该技术支持需要传递给您处理,打破SLA前四小时没有传递给您算其他技术支持原因导致打破SLA,做灰色标记因供应商原因打破SLA的也记入其他技术支持原因做灰色标记4、对于TSD系统故障原因导致打破SLA算TSD原因,标记为蓝色5、对于不记入SLA类的问题标记为紫色如facility,目前只有这一类问题6、对于技术支持发了休假或出差知会邮件给热线但热线还是传递了问题,记为热线原因记入SLA数据中的:
忘记处理了,处理后忘记fix问题,自己客观不能关闭但没有及时通知他人代关闭问题,自己负责维护的系统出现故障,因复制原因不能及时关闭等原因!
每个月初会发给打破SLA的责任人进行确认,并根据情况界定,TSD规范,目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQ,事件的跟踪和升级,管理制度:
参阅IT问题升级及管理制度操作指导:
参阅华为IT问题升级、跟踪操作指导注意事项:
请技术支持及时知会热线故障进展情况,最好是以邮件方式发送hotline,如果不方便请以电话方式知会热线28560160,事件的跟踪和升级操作指导,目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQ,故障报告管理制度及注意事项,管理制度:
参阅故障报告管理制度模板:
参阅故障报告模板,故障报告管理制度及注意事项,从五月十日起,故障报告必须采用WORD模板;故障报告文档的命名规范为:
日期(YYYYMMDD)+应用类别+系统故障报告,如:
20050314ERP系统故障报告;必须在故障发生3个工作日内完成故障报告的拟制并提交审核。
若发生不及时提交故障报告情况时,按每迟一天罚款200元的标准处罚。
所有的1级故障都要提交故障报告,2级故障超过30分钟的要提交故障报告。
个别超过30分钟的2级故障,如技术支持觉得不需要提交故障报告的,需邮件跟主管确认,并知会热线,同时在TSD中补充详细原因和处理过程。
个别30分钟内的2级故障,由主管决定是否提交故障报告。
热线对故障报告会进行后续处理,通常分四种情况:
a、不需要处理;b、原因不明,提交RCA,由万付成跟踪;c、原因已明,转到可用性和容量管理流程中;d、属于线路供应商管理问题的转给林冬发。
目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理制度及注意事项故障公告管理规定案例库建设FAQ,管理制度:
参阅故障公告管理规定模板:
参阅今日IT系统故障&变更通告,故障公告管理规定,故障公告定义故障公告是指因系统故障或恢复、需要向用户通报的信息。
故障公告的相关责任人故障公告拟制人:
总部工作时间,1级事件的责任人为热线中心IM,2级事件的责任人为:
总部工作时间为各系统技术支持人员。
总部非工作时间全部为热线值班人员;故障公告审核人:
各相应故障系统的主管;故障公告发布人:
总部工作时间为热线中心IM;总部非工作时间为热线值班人员。
故障公告管理规定,故障公告的发布方式华为公司:
华为电子公告牌上发布、邮件抄送相关业务部门接口人;华为三康:
华为电子公告牌上发布、在华为三康的NOTES平台上,将故障公告发送给华为三康的IT故障公告接口人。
1级事件引起的故障要电话与接口人确认,以保证在总部工作时间15分钟/总部非工作时间30分钟内在公告牌上发布;艾默生:
华为电子公告牌上发布、将故障公告发送给艾默生的IT故障公告接口人。
1级事件引起的故障要电话与接口人确认,以保证在总部工作时间15分钟/总部非工作时间30分钟内在公告牌上发布。
故障公告管理规定,故障公告的发布流程故障公告拟制人接到事件/故障报警后,确认故障情况,根据故障对用户的影响情况确认是否需要发布公告;注:
所有1级事件都必须确保在总部工作时间15分钟/总部非工作时间30分钟内在电子公告牌上发布故障公告;若需要发布公告,故障公告拟制人根据故障公告模板拟制故障公告,提交故障公告审核人审核;注:
1级事件故障报告责任人按模板拟制公告后,可通过电话请相应主管审核确认,以提高公告发布的效率。
故障公告审核人负责公告内容的准确性;故障公告拟制人将经审核后的故障公告提交给故障公告发布人发布;故障公告发布人根据故障公告发布方式,针对不同的客户群完成故障公告发布活动。
故障公告管理规定,发布故障公告的原则公告的目标对象首先是用户,其次才是其他相关人员,所以发公告需站在用户的角度,对用户有影响才发公告,若无影响,则不需要发公告。
故障的影响也需要让用户清楚(譬如:
不应该只告诉哪条线路中断,而应该说明线路中断对用户的具体影响,如华为广州办事处网络不可用、或华为三康杭州基地网络不可用等)。
所有的1级事件,都必须在总部工作时间15分钟/总部非工作时间30分钟内发布故障公告;对于2级事件,如果影响重大或故障时间超过1小时以上时,必须在故障发生后1小时前发布故障公告;所有1级/2级事件恢复后,都需发故障恢复公告。
故障公告管理规定,目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理规定及注意事项故障公告管理规定案例库建设FAQ,案例库是技术支持向用户提供有效IT支持、帮助用户提高自助式服务能力的知识库,及时总结、维护中英文案例是各级技术支持的责任和义务,具体要求如下:
1、技术支持总结案例时须遵照SO管理库中的“案例书写规范”(包括中英文案例)2、一级支持每人每月新增或更新中英文案例各2个;3、二级支持每人每月新增或更新中英文案例各1个。
案例库建设,案例库建设,较规范的案例:
SPES客户端升级时,提示“无法找到更新程序UpdateB.exe”,目录,事件管理流程概念介绍华为公司事件管理流程TSD规范事件的跟踪、升级故障报告管理规定及注意事项故障公告管理规定案例库建设FAQ,问:
当我接到热线或其他技术支持转给我的TSD问题时,我应该做哪些事情?
FAQ,答:
1、进一步的诊断、定位2、与用户沟通,以准确定位问题3、确定不能解决时,要尽快转给可以解决的技术支持、,问:
如果上午10:
00科研中心发生网络故障,11:
00故障恢复,到13:
00时科研中心又出现网络故障,这种情况在TSD中如何登记处理?
FAQ,答:
事件管理关注的是如何在尽量短的时间内,恢复已经中断的IT服务,提高服务的可用性。
不一定必须找到突发事件发生的根本原因,但若同一事件多次重复发生,应将该事件提交问题管理流程进行问题根源分析。
据此,该情况在TSD中恰当的处理方法是:
1、10:
00时,登记一个2级问题传给相关技术支持,技术支持在故障恢复后在TSD关闭该问题;2、13:
00时,应在TSD中重新登记一个2级问题再传给技术支持处理,技术支持应再次尽快恢复故障并在TSD中关闭问题;3、故障恢复后,技术支持根据故障处理情况,决定是否需要提交问题管理流程进行问题根源分析。
问:
二级支持可以在IT热线专栏中直接新增或修改案例吗?
FAQ,答:
所有的技术支持都有IT热线专栏案例库维护权限,他们都可以直接新增或修改案例。
特别提醒:
技术支持新增或更新案例后,一定要发邮件知会HOTLINE群组,以便热线员工指导用户时使用。
同时,热线已从03年10月份起由专人负责统计每月案例维护情况并在月度绩效报告中反映。
问:
热线传给二级支持的问题,二级支持解决后,关闭问题时将状态置为CLOSEDSAT对吗?
若不对,正确做法是什么?
FAQ,答:
不对。
因为用户收不到解决方案,不能确认问题是否已解决。
二级支持关闭问题的正确做法是:
将状态置为FIXED。
这样用户应可以收到TSD发出的解决方案,以确认问题是否最终解决。
问:
二级支持FIXEDJVCO用户问题时,用户是否可以收到TSD发出的解决方案?
FAQ,答:
JVCO用户不能收到TSD发出的解决方案。
JVCO用户接收解决方案的渠道是:
由热线在JVCO的NOTES系统中将解决方案转发给用户。
如果用户确认问题没有解决时,会向热线人员提出:
拒绝问题。
热线人员会将这个问题再次打开传给相关责任人。
特别提醒:
JVCO服务要求很高哟!
请所有技术支持注意填写解决方案要详尽,同时一定要注意遵守TSD规范,以减少被拒绝的数量。
问:
海外用户问题为何要得到用户确认后才能关闭?
如果用户不确认,我该怎么办?
FAQ,答:
因海外用户IT环境不如国内,困难多,公司要求IT要重点支持海外用户。
故要求所有技术支持在解决海外用户问题时,一定要在得到用户确认后才能在TSD中关闭问题。
如果用户不确认或不回复相关信息,技术支持应继续跟踪,每天发一次询问邮件,若连续三天仍得不到用户回复,才可在TSD中关闭问题。
特别提醒:
与海外用户沟通,最好用EMAIL邮件。
大部分用户都是不能收NOTES邮件的。
FAQ,Q&A,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华为 事件 管理 流程 规范
![提示](https://static.bingdoc.com/images/bang_tan.gif)