书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 工作范文 > 行政公文 > 容错产品.docx

容错产品.docx

文档编号：18411321
上传时间：2023-08-16
格式：DOCX
页数：21
大小：132.21KB

容错产品.docx

《容错产品.docx》由会员分享，可在线阅读，更多相关《容错产品.docx（21页珍藏版）》请在冰点文库上搜索。

容错产品.docx

容错产品

1容错、备份概述1

2．Escort系列磁盘阵列系统3

3．双机容错软件：

NCRLifekeeper5

4．网络备份方案9

5．部分成功案例12

★1．容错、备份概述

近年来,计算机和网络技术的普及大大提高了企业的工作效率，但同时也给我们的工作提出了更高的要求，无论是主管领导还是网络系统管理员都要面对一些非常严峻的问题，其中最值得我们关注的就是系统失效问题和数据安全。

造成计算机系统失效的因素归纳起来可分为两类:

一类是自然灾害（包括人为破坏）;另一类是系统缺陷,即计算机系统自身的不可靠因素,如:

误操作、软件缺陷、硬件老化、病毒等。

在计算机系统中最宝贵的财富是系统中的业务数据。

由于企业越来越依赖于计算机处理业务,系统失效将会是一场大灾难。

如果出现故障,企业将无法正常经营,甚至陷入瘫痪,这时,企业最关注的问题就在于如何尽快恢复计算机系统,使其能够正常运行。

一般地，我们将故障分为物理故障和逻辑故障。

物理故障是指造成系统无法正常运行的软硬件损坏。

这些故障通常会导致逻辑故障,如硬盘故障可能会导致数据丢失,网络故障可能会破坏数据一致性等。

常见的物理故障包括:

操作系统故障:

非法指令造成的系统崩溃,系统文件被破坏导致无法启动操作系统等。

应用程序损坏:

缺少文件或程序本身不完善导致程序无法运行。

整机损坏:

由掉电、火灾、地震等造成设备无法运行。

硬盘故障:

硬盘系精密设备,安装时的无意磕碰、掉电、电流突然波动等原因都有可能造成硬盘损坏。

网络设备故障:

传输距离过长、设备添加与移动、传输介质的质量问题和老化都有可能造成网络故障。

逻辑故障

逻辑故障包括两种,第一种是系统虽然能够正常运行,但实际已经有部分损坏,如数据文件丢失、程序丢失等。

第二种是系统本身虽然完好无损,可是系统中的部分数据是错误的,这类故障的隐蔽性很强,通常难以发现,更难以修复。

常见的几种逻辑故障包括:

数据不完整:

系统缺少完成业务所必须的数据。

数据不一致:

系统数据是完全的,但逻辑关系不正确。

数据错误:

系统数据是完全的,也符合逻辑关系,但数据是错误的,与实际不符。

逻辑故障隐蔽性强,往往带有巨大的破坏性,是造成损失的主要原因。

根据有关统计,恢复10MB（约2500页纸）的数据最少也要花费近20天时间,成本在万元以上。

目前服务器硬盘容量平均为4GB,我们不难算出恢复服务器数据的开支十分惊人。

系统的正常运转和数据的安全对我们如此重要，而不安全因素又不能回避。

那么怎样才能提高系统的可用性？

以及在遇到灾难时又如何尽快恢复系统，将损失减少到最小？

我们的答案是容错和备份，对服务器进行容错，对整个网络系统采取完善的备份措施。

常言道有备无患，只有这样我们的网络才会发挥它的效能，而不是包袱。

企业拥有好的备份系统和备份方案,可以将灾难的损失减小到最低程度。

一般地,在硬件一级有磁盘镜像、磁盘阵列、双机容错等备份方案;在软件一级有热修复、数据拷贝等措施。

磁盘镜像/硬盘双工:

可以防止单个硬盘的物理故障,但无法防止逻辑故障,而且当一个硬盘出现故障时,系统无法工作。

对普通网络应用这是最基本的容错手段，WindowsNT和Netware均支持软件硬盘镜像,但运行时系统资源被大量占用,且不稳定,系统盘的镜像往往不能正常启动。

磁盘阵列:

磁盘阵列（RAID）是一项非常优秀的容错技术，以Escort系列为例，它支持RAID0至RAID5，可以防止单个硬盘的物理故障。

不但满足了容错的要求，容量可以很大且性能得以极大提升。

磁盘阵列以SCSI与服务器相连，支持各种操作系统，磁盘阵列的应用解决了磁盘上的数据安全问题，对于系统级物理故障可以采取双机容错的方式。

双机容错:

可以防止单台计算机的物理故障,当一台计算机出现故障时,系统仍然可以工作。

数据不会丢失，备份服务器可以在很短时间内接替工作。

热修复:

可以防止硬盘的区域性损坏,但无法防止逻辑故障,当出现故障时,系统予以修复后,可以继续工作。

数据拷贝:

可以防止系统的物理故障,在一定程度上防止逻辑故障。

由上述可知,前四种措施可以防止一般的物理故障,在出现系统损坏（整个系统遭受灾难性打击）和逻辑故障的情况下，则需要采取第五种措施。

在有严格的备份方案和计划的前提下,数据备份能够在一定程度上防止逻辑故障。

然而,上述方案中没有一种措施能够使系统从大的灾难中迅速恢复出来。

当灾难发生时,即使所有5种措施都采用了,我们仍然需要按下列步骤进行恢复。

1恢复硬件;

2重新装入操作系统;

3设置操作系统（驱动程序设置、系统设置、用户设置等）;

4重新装入应用程序,进行系统设置;

5用最新的备份恢复系统数据。

6即使一切顺利,这一过程也至少需要1～3天时间。

这么漫长的恢复时间几乎是不可忍受的,也会严重损害企业声誉。

由此可见：

完善的安全的系统数据方案应有双机容错和严格的备份和灾难恢复计划。

目前最优的双机方案是Escort磁盘阵列+美国NCR公司的LifekeeperForNT软件，有了它可以在不到一分钟内将一个服务器的任务切换到另一台服务器，使服务永不停止；最优的网络备份管理方案是美国SeagateSoftWare的BackupExec软件+磁带机，它提供网络数据系统级的完整备份管理和智能灾难恢复。

有了它可以在不到一个小时内恢复系统，使企业永立不败之地。

2．Escort系列磁盘阵列系统

磁盘阵列子系统是针对任务关键性应用场合而设计，可适应多种容量配置的要求，具有极高的性能、高可用性、兼容性及稳定性。

高可靠性

ESCORT磁盘阵列系统同时支持0，1，3，5的RAID，通过背光前置式LCD液晶面板监看磁盘阵列的运行状态，并可使用面板上的按键来设定及建立RAID系统，并可重新安排配置已损坏的磁区，在终端操作模式下ESCORT磁盘阵列系统提供了全屏幕菜单操作界面，。

当发生故障时能在网络上以e-mail、Fax或寻呼方式通知系统管理员迅速处理。

ESCORT磁盘阵列系统提供环境监测电路（EMCU），当电源、硬盘损坏及温度过高时，会发出声音警告。

ESCORT磁盘阵列系统的电源采用平衡式热拔插双电源供电，且每一组机架均具有独立的电源供电系统和独立散热风扇，并可以提供再线抽换。

选用BatteryBack-up模块可保护高速缓存内的资料在停电时不会丢失，并在电源恢复后将缓存内的高速缓存资料写回硬盘组（最长可维持72小时）。

并跟椐需要可配置为双冗余热拔插阵列控制器.

可扩充性

ESCORTRAID系统支持UltraWideSCSI通道并可扩充到LVDUltra2WideSCSI。

ESCORT磁盘阵列系统可同时连接多部主机，使主机间能共享磁盘阵列系统。

并可根据未来需求扩充至75个硬盘抽屉。

ESCORT磁盘阵列系统同时提供多种扩充组件，可加装UltraWideForSingleEnded（单端卡）及UltraWideForDifferential（差分卡）使整体连接更具弹性。

高性能

ESCORT磁盘阵列系统使用32位RAID处理器，8-128MB高速缓存（可选择使用DRAM或EDORAM）,UltraWideSCSI界面传输率可达40MB/Sec,Ultra2WideSCSI界面传输率可达80MB/Sec,DifferentialSCSI扩充模块使ESCORT磁盘阵列系统可连接主机的数据电缆长达25米。

可大幅度提高系统DiskI/O的处理速度，特别适合大型资料库、声音、影象及图形处理。

主要产品系列有DA-300、DA-6000RC、DA-3500、DA-6015、DA-6030

◆DA-3500（DA-3500V）磁盘阵列系统

◆32位高速RAID处理器

◆提供UltraWideSCSI通道并可扩充到LVDUltra2WideSCSI通道

◆提供带有镀金接口的热插拔控制器

◆

8-128MB读写缓存（DRAM或EDORAM）

◆备用硬盘并自动重建

◆支持RAID0,1,3,5或0+1

◆硬盘出错蜂鸣，电源损坏报警

◆提供双冗余电源（2X300W）同时工作

◆提供8个热插拔硬盘抽屉和在线重建

◆智能SCA-II背板设计（DA-3500V）

◆提供热插拔硬盘驱动器，电源及冷却风扇风扇损坏/过热报警功能（LED显示灯改变颜色及蜂鸣）

◆支持本地备用硬盘和全局备用硬盘

◆支持损坏扇区重新分配

◆提供WindowsGUI-BasedRAID用于远程管理，监视器状态信息及错误信息通知（Fax&Pager）

◆支持双工冗余控制器（选件）

3．双机容错软件：

NCRLifekeeper

双机容错软件针对不同的操作系统有不同软件和版本，如Novell的FSTIII、Standby，WindowsNT中有Ncr的LifekeeperforNT、Neocluster、WindowsNTmscluster，Unix环境下的容错软件有DHBS、GDS、东方龙马等等。

目前操作系统中一般用Netware作文件服务器,由于SFTIII对双机硬件要求严格,运行不是很稳定，且实施起来有一定难度。

对Netware服务器可以采用磁盘阵列作数据容错，备份服务器的NDS和文件卷，对服务器作冷备份。

WindowsNT越来越多地用于企业级的关键事务，在所有基于NT的双机热备方案中美国NCR公司的Lifekeeper技术最成熟，应用最广尤其在我国的证券营业部。

我公司是西南地区唯一取得了Lifekeeper认证的公司，能为客户提供最优质的服务和技术支持。

UNIX下的双机热备与NT类似，都是基于磁盘阵列的双机系统。

（一）NCRLifekeeper原理

1.NCRLifekeeper定义、特性、保护资源

NCRLifekeeperFORWINDOWSNT提供了一个完全容错的软件解决方案，并提供数据、应用程序和通信资源的高度可用性。

你可以集合使用二到十六个NT结点工访问特定地点的配置数据。

然后，Lifekeeper会自动地提供错误检测和多层现场恢复。

在出现故障的情况下，Lifekeeper会将保护资源自动转换到一个根据优先权而设定的系统。

在实际进行切换用户时，会经历一个十分短暂的休眠，但是，当系统完成了切换操作后，Lifekeeper会在所选择的系统上自动地恢复操作。

✓可以被Lifekeeper保护起来的资源是：

✓卷（VOLUME）

✓IP地址

✓共享文件

✓LAN（局域网）管理器服务器名称

✓应用程序

✓定义的用户

✓MSCS应用程序

2.故障检测HEARTBEAT

Lifekeeper在集群节点间保持着间歇的通信信号，也叫做心跳信号，是错误检测的一个机制，即通过每一个通信路径，在两个对等系统之间进行周期性的握手，如果连续没有收到的心跳信号到了一定的数目，Lifekeeper就把这条路径标示为失效（红色）。

如果你只定义了一条通信路径，当Lifekeeper把这唯一的一条通信路径标为失效时，Lifekeeper便立即开始恢复过程。

然而，如果你有冗余路径，Lifekeeper能够通过第二条路每项确定是系统故障还是只是通信路径有问题。

如果Lifekeeper开启优先级第一条通信路径并收到了心跳信号，它就不开始FAILOVER恢复，只需要把第一条通信路径标成红色（失效），作为信号告诉你需要修理一下有故障的路径。

一般情况下Lifekeeper只在下列事件发生时，启动系统恢复功能：

✓所有的通信路径故障。

如果所有节点都没有收到心跳信号，把所有通信路径都标为失效，Lifekeeper开始安全检查。

✓安全检查失败。

当所有通信路径故障时，Lifekeeper向整个网络发出安全检查信号。

如果信号指出配对系统还“活”着的时候，Lifekeeper不启动FAILOVER。

如果安全检查没从配对节点返回信号，Lifekeeper就开始FAILOVER。

因而，为了减少由于潜在的通讯错误所引起的不必要的系统切换，建议您使用不同介质的多条通信路径。

3.通信路径

Lifekeeper支持在节点之间和心跳通讯中，使用如下的通讯路径：

（1）SOCKET，即套接字你使用任何的网络硬件接口，只要它能够支持TCP/IP的通讯协议。

这样的硬件包括：

以太网、快速以网、令牌环网以及FDDI或CDDI

（2）串行口在Lifekeeper配置中，你应当配置有一个串行口通信路径。

串口通信路径需要利用RS232的拟调解线路来与Lifekeeper系统相连接。

（3）共享磁盘你可以定义一个共享磁盘分区来作为Lifekeeper的通讯中介。

可以只使用小至IMB的分区，当然，也可以使用更大的空间。

LifeKeeper假定，当通过心跳信号检测其它服务器失败时，则认为此服务器是关闭的。

因此，为了避免不必要的失效切换，最好建立两种以上独立的物理路径，使用至少两种心跳。

例如，如果两个服务器被一个串口连接起来，并且，从属服务器来的心跳信号无法被主服务器所检测到，则下面之一是可能引起这一现象的原因：

✓服务器的RS-232卡或者端口失败

✓电缆失效

✓主服务器暂时挂起

✓主服务器失败

失效切换只可能在最后一种情况下才发生。

因此，节点间的多种通信路径可以帮助避免不必要性的失效切换。

（二）NCRLifekeeper配置示范

支持的数据库系统：

NTSQLServer、Sybase、Qrcale等；

支持的群件：

LotusNotes、ExchangeServer等；

其他：

SAPR/3。

除了提供以上的恢复工具包外，还提供了一个用户自定义接口，使您开发的应用也能处于Lifekeeper的保护之下

SCSI

软件、硬件配置

1、软件：

NCRLifekeeper

2、硬件：

服务器可以是任何INTEL基础上的平台，SERVER的型号、配置不必一致，只需硬件平台能保证NT运行；磁盘阵列正常使用。

NCRLifekeeper运行机制

1、共享的SCSI和Lifekeeper软件锁定

LifekeeperFORWINDDOWSNT软件锁定：

Lifekeeper管理共享磁盘上的数据，以防止多个服务器在同一时间访问数据。

LIEFKEEPER在逻辑设备级（卷）上控制对数据的访问，并让WINDOWSNT软件或硬件RAIDCONTROLLERS管理体制物理级。

有了LifekeeperFORWINDOWSNT来管理对共享数据的访问，用户就可以不必担心群中的其它服务器访问数据时，可能会带来的数据访问冲突。

Lifekeeper自动在被应用程序定义为共享资源的磁盘卷上设置锁定。

当被子保护的应用程序由一个服务器被子移动/转换到另一个服务器时，Lifekeeper控制这些锁定，以保证激活服务器对共享卷的访问。

在主系统发生故障的情况下，次节点系统将能够在磁盘上建立SCSI锁定，并在备分的系统上将资源投入使用。

1、LOCALRECOVERY（局部恢复）

Lifekeeper2.0在快速检查（QUICKCHECK）和深入检查（DEEPCHECK）的时间间隔执行预先定义的行为，以察看资源本身是否失效。

如果快速检查和深入检查均局部千失败，系统将尝试局部恢复资源。

如果尝试成功，资源将不会向下一优先级的节点进行失效切换（FAILOVER）。

如果局部恢复尝试失败，系统将向下一优先级的节点进行失效切换

例如，你可以在Lifekeeper服务器上配置多块NIC卡，当定义的NIC发生故障时，你就可以配置将IP资源切转到另一个NIC上，从而避免不必要性的失效切换。

2、FAILOVER（失效切换）

指定主要的节点或资源失败时，重新恢复资源的过程。

一个失效切换通常是没有事先计划的，它将发生在一个被子从属系统所检测到并确定为失败的情况下，

3、ACS（管理员可配置的迁回）

ADMINISTRATORCONFIGURABLESWITCHBACK（ACS）允许Lifekeeper管理员通过命令行或GUI界面来指定资源，基所在LK节点发生故障而后以又恢复正常，该资源将被自动地切换回到原来节点上。

可能的值是INTELLIGENT（智能的）和AUTOMATIC（自动的）。

如果选择AUTOMATIC那么，一旦发生故障的节点回到服务状态时，被配置失效切换的层次都将被切换回到该节点上。

如果策略是INTELLIGENT，即使当性故障的节点回到服务状态时，被配置失效切换的层次也会留在它们被失效切换到的节点上，等待由管理员决定合适的时间进行切换。

4、SWITCHOVER（切换）

指用一个有顺序的方式关闭资源，然后将它们恢复到一个备份系统的过程。

这通常发生在当你处于维护或者测试模式中的情况下。

这时，没有任何东西失败。

工作方式

1、ACTIVE/STANDBY

在一个激活/备用对中，主节点处于处理状态，从属节点处于备用状态，以防主节点上发生失败。

备用系统可以是一个小一点、性能低一点的系统，但是，当主节点失败时，它必须有保证资源可达性的处理能力。

2、ACTIVE/ACTIVE

在一个激活/激活对中，两个节点都是激活的处理器，但是它们也可分别作为其对应节点上的资源和资源层次的从属节点。

3、N-WAY（N=4……N=16）

N-WAY配置是激活/激活或激活/备用的一个有三到十六个服务器的扩展。

4．网络备份方案

为什么备份

无论是服务器双机，还是交换机的备份都是硬件级容错，这种方式可以保证系统在出现故障时能够连续运行，一个成熟而强健的网络系统还需要有完善软件备份,减少人工管理工作,最大限度地提高系统的可用性。

证券营业部每天生产的数据越来越多。

它的一切经营活动几乎都以这些数据为基础,如果这些数据因为没有保护好而遭到破坏的话,企业要承受的损失将十分巨大。

避免这种损失的唯一途径当然就是为系统进行可靠的备份。

然而在我国,并不是所有人都已经意识到了备份的重要性。

有相当一部分人至今仍然存在着一种侥幸心理,认为数据丢失的灾难不会那么巧合地发生在他们身上。

但是,灾难总在不断地发生,而且在绝大多数情况下都没有丝毫的预兆。

由于大规模的数据丢失灾难会对整个国民经济造成巨大的破坏作用,因此备份在一些西方发达国家已经被列入了公益宣传之列。

即便是在印度这样的发展中国家,备份也被写入了法律条文:

不采用备份措施的金融企业不准营业!

在我国,也许是因为媒体对这方面宣传的力度不足的原因,人们的备份意识总体来说还不是很强。

有人甚至至今还在怀疑数据丢失究竟能带来多大的损失。

根据统计丢失20MB数据的代价在销售/市场营销部门经济损失达17000元，恢复数据恢复数据所需工作日42天，在财务部门为19000元和21天，在工程部门为98000和42天，对于证券营业部门来说损失程度远大于这个数字。

如果遭受其它灾害导致整个系统数据丢失，对于没有备份的企业将是致命的打击，这样的事例举不胜举。

危害数据安全的因数很多，令人防不胜防，根据国际上一些著名数据公司的调查,严重威胁数据安全的因素大体上包括:

人为错误:

在所有数据丢失的案例中,80%是由于这种人为错误引起的。

困倦、劳累、疾病、经验不足等都有可能造成错误的操作并引起数据丢失,而在网络环境中,数据一旦丢失,恢复就十分困难。

所以从这个意义上说,人类自身的生理限制决定了无论我们如何"小心翼翼",都无法避免数据丢失灾难的发生。

而若想避免这种由人为错误而引起的灾难,我们就别无它法,只能采取有效的备份措施。

其它如自然灾害（包括地震，水灾，火灾），小偷，病毒，电源和系统故障等也威胁着数据的安全，只有备份能够将所有这些威胁拒之门外,为我们的数据提供百分之百的保护。

随着2000年的不断靠近,"世纪难题"也无可避免地摆到我国企业的面前。

虽然媒体对2000年问题做了大量的宣传,但国内企业界对此仍一直保持沉默。

2000年问题是一个令全球企业都感到棘手的问题,解决时稍有疏漏便会引起严重的灾难后果。

由于传统的计算机时钟采用两位数来表示年份,因此2000年与1900年在表达方法上没有任何区别。

如果这一问题不被及时纠正的话,证券营业系统将会出现难以估计的后果，甚至造成业务瘫痪。

解决2000年问题当然需要升级BIOS和修改应用程序,但为了安全起见,对现有系统进行彻底的完全备份是必不可少的一个环节。

因此,即便是从这个角度出发,对现有网络系统进行备份也到了刻不容缓的地步。

网络备份功能：

（1）实现文件备份和恢复

优秀的备份方案应在一台计算机上高速备份整个网络数据文件。

（2）数据库备份和恢复

证券网络离不开数据库的支持，数据库发展到今天已与普通文件相比要复杂和庞大得多，能否提供数据库的备份是网络先进性的标志。

（3）系统灾难恢复

网络备份的最终目的是保障系统顺利运行。

网络备份方案应备份系统关键数据，在网络出现故障甚至损坏时，能迅速恢复系统，从发现故障到到完全恢复系统，好的备份方案耗时不应超过半个工作日。

（4）备份任务管理

对于大多数机房管理人员来说，备份任务是一项繁重的任务，需要完成大量的数据操作，费时费力，如果网络备份能够定时，自动备份，将大大减轻管理员的压力。

.系统对备份的要求

（1）证券业属金融行业，业务涉及金额较大，出不得半点差错，所以历史数据要求保留相当长时间，以便有据可查。

（2）证券业计算机程度较高，对计算机依赖性强。

一旦出错，很难以手工方式恢复。

这就要求备份系统具有自动恢复机制，在系统出错时无需过多人工干预就能够恢复

（3）机房管理人员日常事务繁多，不可能派专人管理备份系统，这就要求备份系统能够自动备份，出错时提示管理员。

（4）要求能备份服务器上那些被打开的文件。

硬件容错无法防止逻辑错误，手工备份不能满足要求。

Seagate公司的网络备份软件---Backupexec为这个问题提供了完美的解决方案。

（5）从可升级性和可扩展性出发，系统备份要能保证用户、用户组及权限的完整性，防止人为差错，实现快速升级。

备份方案设计

一套完整的备份方案，包括备份软件的选择和备份介质的选择，日常备份制度和灾难应急措施

（1）备份软件

目前网络数据备份管理软件有SeagateSoft的BackupExec和CA公司的ARCserve，后者进入我国市场较早，占有一定份额，而Seagate的BackupExec以其技术优势与微软紧密结合，在全世界的整个备份软件市场占据了42%的份额，Microsoft2300台服务器采用Backupexec备份软件。

最近SeagateBackupexec登陆中国，必将以其独特的、可靠的、最易使用的优异性能成为越来越多网络系统的首选方案。

（2）备份介质

目前常用的存储介质有软盘，硬盘，光盘和磁带。

软盘容量较小，硬盘价格高昂它们对备份来说不易管理，所以不宜用作备份。

光盘技术发展很快，容量，速度和成本都具有一定的优势，但与磁带技术相比，用作备份存在严重不足：

没有任何一种应用程序支持它实现对网络系统的完全备份。

这是因为光盘主要是通过拷贝命令来获得系统中的数据,而我们知道,拷贝命令无法复制整个系统。

其次,光盘也不能备份正在使用中的文件，再次,它的介质容量虽然进步很快,但下一代DVD光盘的容量也仅为2.7GB,而目前服务器硬盘的平均容量已经超过4GB。

这就是说,用一张光盘根本无法实现对整台服务器的备份,必须得用两张以上的光盘才可以。

这就犯了备份中最大的忌讳,即在备份进行的过程中更换介质。

这样做的后果便是严重降低了备份数据的可靠性。

即便这一点我