书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 法律资料 > 小型机故障的基本定位方法.docx

小型机故障的基本定位方法.docx

文档编号：11967827
上传时间：2023-06-03
格式：DOCX
页数：21
大小：31.78KB

小型机故障的基本定位方法.docx

《小型机故障的基本定位方法.docx》由会员分享，可在线阅读，更多相关《小型机故障的基本定位方法.docx（21页珍藏版）》请在冰点文库上搜索。

小型机故障的基本定位方法.docx

小型机故障的基本定位方法

摘自IXPUB-疲惫的鱼

一故障的定义

弄清楚系统发生了什么问题

系统现在能做什么？

不能做什么？

故障什么时候发生的？

有没有做平时不同的操作？

故障有没有规律？

定时还是不定时？

发生的频率有多高？

是一台机器出现故障还是多台机器故障？

故障现象是否相同？

最近有没有做改动？

如安装了新的硬件、软件，改变了系统的一些设置。

二故障信息的收集

1）收集故障信息对于判断、诊断故障原因，修复系统非常重要。

2）系统故障记录（errorlog）

errdemon进程在系统启动时自动运行

记录包括硬件、软件及其他操作信息

故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析

errpt命令的使用（普通用户权限也可使用）

#errpt|more 列出简短出错信息

ERROR_ID TIMESTAMP TC RESOURCE_NAMEERROR_DESCRIPTION

192AC071 0723100300T0 errdemon Errorloggingturnedoff

0E017ED1 0720131000PH mem2 Memoryfailure

9DBCFDEE 0701000000T0 errdemon Errorloggingturnedon

038F2580 0624131000UH scdisk0 UNDETERMINEDERROR

AA8AB241 0405130900TO OPERATOR OPERATORNOTIFICATION

TIMESTAMP:

MMDDHHMMYY（月日时分年）

T（类型）:

P永久;T临时;U未知（永久性的错误应引起重视）

C（分类）:

H硬件;S软件;O用户;U未知

#errpt-dH 列出所有硬件出错信息

#errpt-dS 列出所有软件出错信息

#errpt-ajERROR_ID 列出详细出错信息

#errpt-aj0502f666

Date/Time:

Jun1922:

29:

51

SequenceNumber:

95

MachineID:

123456789012

NodeID:

host1

Class:

H

Type:

PERM

ResourceName:

scsi0

ResourceClass:

adapter

ResourceType:

hscsi

Location:

00-08

VPD:

ProbableCauses

ADAPTERHARDWARECABLE

CABLETERMINATORDEVICE

FailureCauses

ADAPTER

CABLELOOSEORDEFECTIVE

RecommendedActions

PERFORMPROBLEMDETERMINATIONPROCEDURES

CHECKCABLEANDITSCONNECTIONS

DetailData

SENSEDATA

000000000000000000000000000000000000000000000000

3）控制面板上的LED代码

.8位代码，通常系统故障灯会同时亮起。

某些机型还会同时显示故障设备位置代码。

.4位代码，通常是Exxx。

.3位代码，通常为0yyy，只看后3位。

.8位和4位代码可查看系统服务手册（ServiceGuide）。

3位代码可查看系统诊断手册（DiagnosticInformationforMultipleBusSystem）。

.闪动的888,系统崩溃，硬件或软件原因造成。

按reset键会显示更多内容。

888-102一般为软件故障（888-102-207例外）

系统会产生一个dump。

888-102-xxx-0C9系统正在做dump,请等待。

888-102-xxx-0C0系统dump完成，可关电重启。

888-103或105

硬件故障，一般有SRN代码及位置代码。

4）SMS（SystemManagementService）故障记录

如何进入SMS菜单

当主控台出现键盘图标后（LED显示E1F1时）按1键。

选择"Utilities"，选择"ErrorLog",抄下8位故障代码（在SMS中还可以更改系统启动顺序表）

5）MAIL

#mail

系统会向root用户发mail报告出错信息。

通常系统出现故障后没有进行检查修复，系统会定时提醒root。

6）运行故障诊断程序（Diagnostic），对系统硬件进行检查和诊断。

当发现有硬件故障时应立即使用diag

#diag

>选高级诊断（AdvanceDiagnostic）

>选问题诊断（ProblemDetermination）或选系统检查（SystemVerification）

（选PD会对系统错误记录进行分析）

diag运行后会给出SRN代码，故障设备名称及百分比，地址代码等。

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。

7）其他用于收集系统信息的命令

lsdev-C 系统设备信息

#lsdev-Ccdisk

hdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrive

hdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrive

hdisk2Defined 00-06-00-4,016BitSCSIDiskDrive

lspv 查看物理卷信息

#lspv

hdisk0 0007821160af3d76 rootvg

hdisk1 000782117f571294 rootvg

hdisk2 0000000045c45bde datavg

lsvg 查看卷组信息

#lsvgdatavg

VOLUMEGROUP:

datavg VGIDENTIFIER:

0000000055e2458b

VGSTATE:

active PPSIZE:

4megabyte（s）

VGPERMISSION:

read/write TOTALPPs:

2169（8676megabyt

MAXLVs:

256 FREEPPs:

1（4megabytes）

LVs:

3 USEDPPs:

2168（8672megabyt

OPENLVs:

2 QUORUM:

2

TOTALPVs:

1 VGDESCRIPTORS:

2

STALEPVs:

0 STALEPPs:

0

ACTIVEPVs:

1 AUTOON:

yes

MAXPPsperPV:

2032 MAXPVs:

16

#lsvg-lrootvg

rootvg:

LVNAME TYPE LPs PPs PVs LVSTATE MOUNTPOINT

hd5 boot 1 1 1 closed/syncd N/A

...

lv00 jfs 51 102 1 closed/stale /ibmcxx

lv01 jfs 1 1 1 open/syncd /cics_regions

lv02 jfs 4 4 1 open/syncd /var/mqm

lslpp 查看文件组信息

#lslpp-L|grep23100020

....

devices.pci.23100020.rte 4.3.2.7 C IBMPCI10/100EthernetAdapt

看某个文件组是否已安装，如以太网卡驱动。

也用于查询补丁程序的版本。

lsattr 查看设备参数设置

#lsattr-Elent2

busio 0x7fffc00 BusI/Oaddress False

busintr 9 Businterruptlevel False

intr_priority 3 Interruptpriority False

tx_que_size 512 TRANSMITqueuesize True

rx_que_size 256 RECEIVEqueuesize True

rxbuf_pool_size384 RECEIVEbufferpoolsize True

media_speed 10_Half_DuplexMediaSpeed True

use_alt_addr no EnableALTERNATEETHERNETaddressTrue

alt_addr 0x000000000000ALTERNATEETHERNETaddress True

ip_gap 96 Inter-PacketGap True

lscfg 查看VPD信息（VirtualProductData）

#lscfg-vlssa1

DEVICE LOCATION DESCRIPTION

ssa1 30-68 IBMSSAEnhancedRAIDAdapter

（14104500）

PartNumber.................097H0645

FRUNumber..................097H0645

不同的硬件设备有不同的VPD，所含的格式和信息都不一样。

通常备件号和微码

版本最有参考价值。

注：

FRU（FieldReplaceUnit）才是真正的备件号。

三硬件故障定位方法

IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息，ErrorCode和SRNs。

Checkpoints检查点是系统加电CMOS初始化程序（initialprogramload（IPL））运行后显示在I/O柜的显示面板上一系列信息。

1.IPL流程

当交流电源接到系统后，IPL流程就开始了，IPL流程包括四个步骤：

.Phase1:

ServiceProcessor的初始化

Phase1开始于交流电源接到系统后，直到OK显示在I/O柜上的显示面板上为止。

在这个步骤会显示8xxx或9xxxcheckpoints代码。

.Phase2:

由ServiceProcessor引导的硬件初始化

Phase2开始于按下I/O柜上的白色电源开关。

在这个步骤会显示9xxxcheckpoints。

91FF是最后的代码标志着第三步骤的开始

.Phase3:

系统固件的初始化

在Phase3,一个系统处理器接管控制并继续初始化系统资源，在这个步骤会显示Exxx。

E105是最后的代码标志着第四步骤AIX启动的开始。

在这个过程中还会显示各种位置码（位置码代表着系统的每一个部分）

.Phase4:

AIX启动

当AIX开始启动时，显示面板上的代码为0xxx，同时位置码会出现在第二行。

当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。

ErrorCode当系统运行有错误发现时，一个8位码会显示在显示面板上，同时在第二行显示相对应问题硬件的位置码。

SRNs（Servicerequestnumbers,服务请求码）当系统运行有错误发现时，SRNs码会以xxx-xxx的形式显示在显示面板上，同时在AIX的errorlog中也会有记载。

以上所有代码都会有相应的步骤解决。

由于代码繁多，请在出现问题后记录下代码，并致电IBM服务热线。

2.系统不能启动

系统停在Stage1，可能为电源、系统板、CPU、内存等硬件故障。

记录故障代码通知IBM工程师。

系统停在Stage2，可能是启动顺序表（bootlist）损坏或I/O子系统故障。

可尝试进入SMS菜单检查启动顺序表，并修改。

若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。

若根本没有SCSI设备可选则链路有问题。

系统停在Stage3，可能是硬盘数据损坏，系统设置文件出错，或I/O子系统故障。

系统停在551，555或557

发生在系统启动的第三阶段（Stage3），可能是：

文件系统损坏

文件系统日志（jfslog）损坏

rootvg中有坏硬盘

3.修复方法

用系统光盘或系统备份带启动（必须与硬盘中的操作系统版本一致）

启动后选择选项3

"StartMaintenanceModeforSystemRecovery"

> "AccessaRootVolumeGroup"

> "Accessthisvolumegroupandstartashell

beforemountingthefilesystems"

格式化文件系统日志（jfslog）

#/usr/sbin/logform/dev/hd8

检查修复文件系统

#fsck-y/dev/hd1 （/home文件系统）

#fsck-y/dev/hd2 （/usr文件系统）

#fsck-y/dev/hd3 （/tmp文件系统）

#fsck-y/dev/hd4 （/文件系统）

#fsck-y/dev/hd9var （/var文件系统）

......

用exit命令退出，文件系统会自动mount起来。

重建bootimage

#lslv-mhd5 找出bootimage所在的硬盘，如hdisk0

#bosboot-ad/dev/hdisk0

#bootlist-mnormal/dev/hdisk0重建启动顺序表。

重启动系统

#shutdown-Fr

如上述步骤不奏效

用系统备份带恢复系统。

如备份带不能恢复，用诊断光盘（DiagnosticCDROM）检查是否坏硬盘。

4.CDE图形界面挂死

CDE运行时不要更改网络参数（如：

主机名和IP地址）

更改网卡设置，请先退出CDE图形环境，选择命令行方式登录，在字符界面下更改。

如CDE已经挂死

远程telnet登录

找出所有dt有关的进程用kill命令杀掉

#ps-ef|grepdt

......

#killPID

检查当前主机名

#hostname

tscf50

查看主机名是否对应有效的IP地址

#netstat-i|greptscf50

tr0*15009.185.40 tscf50 506049 0 28247 0 0

更改主机名或IP地址，使主机名与当前有效的IP地址存在对应关系。

#smittytcpip

重新启动CDE界面

#/etc/rc.dt

HACMP环境下可把主机名alias到127.0.0.1上

#cat/etc/hosts

127.0.0.1loopbacklocalhosttscf50#loopback（lo0）name/addressbvg

5.系统dump

发生在系统崩溃时，AIX会做dump（系统内存的快照）。

此时机器会显示闪动的888102xxx0cx代码：

0c9 系统dump进行中。

0c9状态可能会维持超过2分钟，

不要关电和按reset,等待dump做完。

0c0 dump成功完成，这时可以断电重起。

0c2 手动启动dump功能

0c4 dump设备空间不足，只有部分信息保存下来

0c5 不明原因导致dump失败

一般dump是由于软件出错引起（888-102-207除外），机器通常可以重启。

重启时可能提示用户插入磁带拷贝dump文件，不要选择退出，这样会丢失重要的故障信息。

dump的有关设置

估算系统dump的大小，在系统最繁忙时（内存使用最多）

#sysdumpdev-e

0453-041Estimateddumpsizeinbytes:

53477376

#lsps-a

PageSpacePhysicalVolumeVolumeGroupSize %UsedActive

paging00 hdisk0 rootvg 480MB 1 yes

hd6 hdisk1 rootvg 544MB 1 yes

当前的设置

#sysdumpdev-l

primary /dev/hd6

四7133-D40SSA磁盘柜的故障定位

当SSA磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动，在AIX的errorlog中也会有记载错误信息，如：

DISK_ERR1，DISK_ERR4，SSA_ARRAY_ERROR等。

请在出现问题后记录下代码，并致电IBM服务热线。

五软件故障定位方法

软件故障情况错综复杂，下面列举几个常见案例的故障处理方法。

1）文件系统空间不够。

查看有没有“满”的文件系统。

特别是/、/var、/tmp，不要超过90%。

文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。

如/（根文件系统）满则会导致用户不能登录。

用df–k查看。

#df-k （查看AIX的基本文件系统）

Filesystem 1024-blocks Free%Used Iused%IusedMountedon

/dev/hd4 24576 1452 95% 2599 22%/

/dev/hd2 614400 28068 96% 22967 15%/usr

/dev/hd9var 8192 4540 45% 649 32%/var

/dev/hd3 167936 157968 6% 89 1%/tmp

/dev/hd1 16384 5332 68% 1402 35%/home

除/usr文件系统，其他文件系统都不应太满，一般不超过80%。

处理方法1：

删除垃圾文件

#du-sk*|sort-rn|head

查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件。

（要区分哪些目录是文件系统的mountpoint，哪些是文件系统的子目录）删除文件，释放空间。

有时删除文件后空间并不马上释放，这是由于你删除的文件正被某个程序打开。

只有当这个程序停止后空间才释放，有时甚至需要重起系统。

处理方法2：

增加文件系统大小

#smittychjfs

文件系统可以在任何时候加大，前提是卷组（VG）中有剩余空间。

2）检查文件系统的完整性

#umountfilesystem_name

#fsck-yfilesystem_name

注意：

文件系统必须先umount，再做检查和修复，否则可导致未

知的后果。

3）查看卷组信息（lsvg-lvg_name）：

有没有"stale"状态的逻辑卷。

若有，用syncvg命令修复"stale"逻辑卷。

4）检查内存交换区（pagings

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 小型机故障基本定位方法

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：小型机故障的基本定位方法.docx
链接地址：https://www.bingdoc.com/p-11967827.html

小型机故障的基本定位方法.docx

热门标签