小型机故障的基本定位方法.docx
- 文档编号:11967827
- 上传时间:2023-06-03
- 格式:DOCX
- 页数:21
- 大小:31.78KB
小型机故障的基本定位方法.docx
《小型机故障的基本定位方法.docx》由会员分享,可在线阅读,更多相关《小型机故障的基本定位方法.docx(21页珍藏版)》请在冰点文库上搜索。
小型机故障的基本定位方法
小型机故障的基本定位方法
摘自IXPUB-疲惫的鱼
一故障的定义
弄清楚系统发生了什么问题
系统现在能做什么?
不能做什么?
故障什么时候发生的?
有没有做平时不同的操作?
故障有没有规律?
定时还是不定时?
发生的频率有多高?
是一台机器出现故障还是多台机器故障?
故障现象是否相同?
最近有没有做改动?
如安装了新的硬件、软件,改变了系统的一些设置。
二故障信息的收集
1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
2)系统故障记录(errorlog)
errdemon进程在系统启动时自动运行
记录包括硬件、软件及其他操作信息
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
errpt命令的使用(普通用户权限也可使用)
#errpt|more 列出简短出错信息
ERROR_ID TIMESTAMP TC RESOURCE_NAMEERROR_DESCRIPTION
192AC071 0723100300T0 errdemon Errorloggingturnedoff
0E017ED1 0720131000PH mem2 Memoryfailure
9DBCFDEE 0701000000T0 errdemon Errorloggingturnedon
038F2580 0624131000UH scdisk0 UNDETERMINEDERROR
AA8AB241 0405130900TO OPERATOR OPERATORNOTIFICATION
TIMESTAMP:
MMDDHHMMYY(月日时分年)
T(类型):
P永久;T临时;U未知 (永久性的错误应引起重视)
C(分类):
H硬件;S软件;O用户;U未知
#errpt-dH 列出所有硬件出错信息
#errpt-dS 列出所有软件出错信息
#errpt-ajERROR_ID 列出详细出错信息
#errpt-aj0502f666
Date/Time:
Jun1922:
29:
51
SequenceNumber:
95
MachineID:
123456789012
NodeID:
host1
Class:
H
Type:
PERM
ResourceName:
scsi0
ResourceClass:
adapter
ResourceType:
hscsi
Location:
00-08
VPD:
ProbableCauses
ADAPTERHARDWARECABLE
CABLETERMINATORDEVICE
FailureCauses
ADAPTER
CABLELOOSEORDEFECTIVE
RecommendedActions
PERFORMPROBLEMDETERMINATIONPROCEDURES
CHECKCABLEANDITSCONNECTIONS
DetailData
SENSEDATA
000000000000000000000000000000000000000000000000
3)控制面板上的LED代码
.8位代码,通常系统故障灯会同时亮起。
某些机型还会同时显示故障设备位置代码。
.4位代码,通常是Exxx。
.3位代码,通常为0yyy,只看后3位。
.8位和4位代码可查看系统服务手册(ServiceGuide)。
3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。
.闪动的888,系统崩溃,硬件或软件原因造成。
按reset键会显示更多内容。
888-102一般为软件故障(888-102-207例外)
系统会产生一个dump。
888-102-xxx-0C9系统正在做dump,请等待。
888-102-xxx-0C0系统dump完成,可关电重启。
888-103或105
硬件故障,一般有SRN代码及位置代码。
4)SMS(SystemManagementService)故障记录
如何进入SMS菜单
当主控台出现键盘图标后(LED显示E1F1时)按1键。
选择"Utilities",选择"ErrorLog",抄下8位故障代码(在SMS中还可以更改系统启动顺序表)
5)MAIL
系统会向root用户发mail报告出错信息。
通常系统出现故障后没有进行检查修复,系统会定时提醒root。
6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag
#diag
>选高级诊断(AdvanceDiagnostic)
>选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)
(选PD会对系统错误记录进行分析)
diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
7)其他用于收集系统信息的命令
lsdev-C 系统设备信息
#lsdev-Ccdisk
hdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrive
hdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrive
hdisk2Defined 00-06-00-4,016BitSCSIDiskDrive
lspv 查看物理卷信息
#lspv
hdisk0 0007821160af3d76 rootvg
hdisk1 000782117f571294 rootvg
hdisk2 0000000045c45bde datavg
lsvg 查看卷组信息
#lsvgdatavg
VOLUMEGROUP:
datavg VGIDENTIFIER:
0000000055e2458b
VGSTATE:
active PPSIZE:
4megabyte(s)
VGPERMISSION:
read/write TOTALPPs:
2169(8676megabyt
MAXLVs:
256 FREEPPs:
1(4megabytes)
LVs:
3 USEDPPs:
2168(8672megabyt
OPENLVs:
2 QUORUM:
2
TOTALPVs:
1 VGDESCRIPTORS:
2
STALEPVs:
0 STALEPPs:
0
ACTIVEPVs:
1 AUTOON:
yes
MAXPPsperPV:
2032 MAXPVs:
16
#lsvg-lrootvg
rootvg:
LVNAME TYPE LPs PPs PVs LVSTATE MOUNTPOINT
hd5 boot 1 1 1 closed/syncd N/A
...
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查看文件组信息
#lslpp-L|grep23100020
....
devices.pci.23100020.rte 4.3.2.7 C IBMPCI10/100EthernetAdapt
看某个文件组是否已安装,如以太网卡驱动。
也用于查询补丁程序的版本。
lsattr 查看设备参数设置
#lsattr-Elent2
busio 0x7fffc00 BusI/Oaddress False
busintr 9 Businterruptlevel False
intr_priority 3 Interruptpriority False
tx_que_size 512 TRANSMITqueuesize True
rx_que_size 256 RECEIVEqueuesize True
rxbuf_pool_size384 RECEIVEbufferpoolsize True
media_speed 10_Half_DuplexMediaSpeed True
use_alt_addr no EnableALTERNATEETHERNETaddressTrue
alt_addr 0x000000000000ALTERNATEETHERNETaddress True
ip_gap 96 Inter-PacketGap True
lscfg 查看VPD信息(VirtualProductData)
#lscfg-vlssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBMSSAEnhancedRAIDAdapter
(14104500)
PartNumber.................097H0645
FRUNumber..................097H0645
不同的硬件设备有不同的VPD,所含的格式和信息都不一样。
通常备件号和微码
版本最有参考价值。
注:
FRU(FieldReplaceUnit)才是真正的备件号。
三硬件故障定位方法
IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,ErrorCode和SRNs。
Checkpoints检查点是系统加电CMOS初始化程序(initialprogramload(IPL))运行后显示在I/O柜的显示面板上一系列信息。
1.IPL流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase1:
ServiceProcessor的初始化
Phase1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。
在这个步骤会显示8xxx或9xxxcheckpoints代码。
.Phase2:
由ServiceProcessor引导的硬件初始化
Phase2开始于按下I/O柜上的白色电源开关。
在这个步骤会显示9xxxcheckpoints。
91FF是最后的代码标志着第三步骤的开始
.Phase3:
系统固件的初始化
在Phase3,一个系统处理器接管控制并继续初始化系统资源,在这个步骤会显示Exxx。
E105是最后的代码标志着第四步骤AIX启动的开始。
在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)
.Phase4:
AIX启动
当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。
当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
ErrorCode当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。
SRNs(Servicerequestnumbers,服务请求码)当系统运行有错误发现时,SRNs码会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会有记载。
以上所有代码都会有相应的步骤解决。
由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线。
2.系统不能启动
系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。
记录故障代码通知IBM工程师。
系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。
可尝试进入SMS菜单检查启动顺序表,并修改。
若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。
若根本没有SCSI设备可选则链路有问题。
系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。
系统停在551,555或557
发生在系统启动的第三阶段(Stage3),可能是:
文件系统损坏
文件系统日志(jfslog)损坏
rootvg中有坏硬盘
3.修复方法
用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)
启动后选择选项3
"StartMaintenanceModeforSystemRecovery"
> "AccessaRootVolumeGroup"
> "Accessthisvolumegroupandstartashell
beforemountingthefilesystems"
格式化文件系统日志(jfslog)
#/usr/sbin/logform/dev/hd8
检查修复文件系统
#fsck-y/dev/hd1 (/home文件系统)
#fsck-y/dev/hd2 (/usr文件系统)
#fsck-y/dev/hd3 (/tmp文件系统)
#fsck-y/dev/hd4 (/文件系统)
#fsck-y/dev/hd9var (/var文件系统)
......
用exit命令退出,文件系统会自动mount起来。
重建bootimage
#lslv-mhd5 找出bootimage所在的硬盘,如hdisk0
#bosboot-ad/dev/hdisk0
#bootlist-mnormal/dev/hdisk0重建启动顺序表。
重启动系统
#shutdown-Fr
如上述步骤不奏效
用系统备份带恢复系统。
如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。
4.CDE图形界面挂死
CDE运行时不要更改网络参数(如:
主机名和IP地址)
更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。
如CDE已经挂死
远程telnet登录
找出所有dt有关的进程用kill命令杀掉
#ps-ef|grepdt
......
#killPID
检查当前主机名
#hostname
tscf50
查看主机名是否对应有效的IP地址
#netstat-i|greptscf50
tr0*15009.185.40 tscf50 506049 0 28247 0 0
更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。
#smittytcpip
重新启动CDE界面
#/etc/rc.dt
HACMP环境下可把主机名alias到127.0.0.1上
#cat/etc/hosts
127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg
5.系统dump
发生在系统崩溃时,AIX会做dump(系统内存的快照)。
此时机器会显示闪动的888102xxx0cx代码:
0c9 系统dump进行中。
0c9状态可能会维持超过2分钟,
不要关电和按reset,等待dump做完。
0c0 dump成功完成,这时可以断电重起。
0c2 手动启动dump功能
0c4 dump设备空间不足,只有部分信息保存下来
0c5 不明原因导致dump失败
一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。
重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。
dump的有关设置
估算系统dump的大小,在系统最繁忙时(内存使用最多)
#sysdumpdev-e
0453-041Estimateddumpsizeinbytes:
53477376
#lsps-a
PageSpacePhysicalVolumeVolumeGroupSize %UsedActive
paging00 hdisk0 rootvg 480MB 1 yes
hd6 hdisk1 rootvg 544MB 1 yes
当前的设置
#sysdumpdev-l
primary /dev/hd6
四7133-D40SSA磁盘柜的故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中也会有记载错误信息,如:
DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。
请在出现问题后记录下代码,并致电IBM服务热线。
五软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1)文件系统空间不够。
查看有没有“满”的文件系统。
特别是/、/var、/tmp,不要超过90%。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/(根文件系统)满则会导致用户不能登录。
用df–k查看。
#df-k (查看AIX的基本文件系统)
Filesystem 1024-blocks Free%Used Iused%IusedMountedon
/dev/hd4 24576 1452 95% 2599 22%/
/dev/hd2 614400 28068 96% 22967 15%/usr
/dev/hd9var 8192 4540 45% 649 32%/var
/dev/hd3 167936 157968 6% 89 1%/tmp
/dev/hd1 16384 5332 68% 1402 35%/home
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:
删除垃圾文件
#du-sk*|sort-rn|head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。
(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。
有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。
只有当这个程序停止后空间才释放,有时甚至需要重起系统。
处理方法2:
增加文件系统大小
#smittychjfs
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
2)检查文件系统的完整性
#umountfilesystem_name
#fsck-yfilesystem_name
注意:
文件系统必须先umount,再做检查和修复,否则可导致未
知的后果。
3)查看卷组信息(lsvg-lvg_name):
有没有"stale"状态的逻辑卷。
若有,用syncvg命令修复"stale"逻辑卷。
4)检查内存交换区(pagings
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 小型机 故障 基本 定位 方法
![提示](https://static.bingdoc.com/images/bang_tan.gif)