Contact Us
Technical Guide
Your current position:Home > Technical Guide
【十大靠谱网赌软件】IBM DS5100控制器故障处理报告



一、背景描述



客户一台IBM DS5100工作期间出现故障,设备A控亮黄灯,IP和光纤不通;B控IP和光纤通,但控制器的代码不正常,不能正常访问。

对B控采取后端处理后,可以管理DS5100存储。工程师为确认故障根源,收集了存储的support日志进行分析。

*设备信息

存储环境:

测试系统

设备型号/序列号:

IBM   DS5100/ 78K0XTR

IP地址:

x.x.22.219/x.x.22.220

微码版本:

07.60.52.00

应用:

虚拟化、审计



二、日志分析



通过分析support日志,得到2个主要信息点:

a.控制器故障始发于T-2日;

b.存储不可用始发于T日;

1、日志信息:

DS5100存储于7:04:33开始发生Reset,然后中间控制器A、B中间自动发生过多次reset、offline、online操作。每个操作前都有相关报错:

时间点

控制器

控制器发生操作

控制器发生操作前报错信息

Date/Time: 18-4-5 7:03:37

Controller   in slot B

Controller   reset

Stable storage drive unusable

Date/Time: 18-4-5   7:17:00 

Controller   in slot A

Controller   placed offline

Controller cache not enabled or was   internally disabled

Date/Time: 18-4-5 7:20:50

Controller   in slot A

Controller   reset

Stable storage drive unusable

Date/Time: 18-4-5   7:29:20 

Controller   in slot B

Controller   placed offline

Controller cache not enabled or was   internally disabled

Date/Time: 18-4-5   7:42:06 

Controller   in slot A

Controller   placed offline

Controller cache not enabled or was   internally disabled

Date/Time: 18-4-5 7:46:31

Controller in slot A

Controller reset

Stable   storage drive unusable

Date/Time: 18-4-5 8:00:45

Controller   in slot B

Controller   placed offline

Drive returned CHECK CONDITION

Date/Time: 18-4-5 8:00:55

Controller   in slot B

Controller   placed offline

Controller cache not enabled or was   internally disabled

Date/Time: 18-4-5 8:05:34

Controller in slot B

Controller reset

Drive   returned CHECK CONDITION

Date/Time: 18-4-5 8:33:09  

Controller in slot A

Controller placed offline

Controller   cache not enabled or was internally disabled

Date/Time: 18-4-5 8:37:22 

Controller in slot A

Controller reset

Stable   storage drive unusable

Date/Time: 18-4-7 18:42:40

Controller in slot A

This controller's

alternate was failed

Controller   reset by its alternate

Date/Time: 18-4-7 18:43:36

Controller in slot B

Controller placed offline

Cache   mirroring on controllers not synchronized

Date/Time: 18-4-7 18:49:16    

Two   Controller no Response

Date/Time: 18-4-7 18:49:16    

Two   Controller no Response


2、相关截图

001-1.jpg

002.jpg

003.jpg

004.jpg


3、微码信息

Version

April 29, 2013 - Version 07.84.46.00

Fix

LSIP200354424 Controller stuck in Start-of-Day (SOD) after reboot (B-ctlr is offline) during 3x fault test

July 20, 2010 - Version 07.70.23.00

Fix 174889 (cXB0300399) Controller A   reboots controller B before A is online.

- Fix 172093 (cXB018621) Cache mirroring   becomes disabled repeatedly during normal production and requires a reboot to   clear.

Version

Dec 18, 2013 - Version 07.84.53.00

Fix

LSIP200415239 (CL LSIP200394663) Cache   devices internally disabled during mid cache restore reboot on primary.

Version

February 22, 2011 - Version 07.75.11.00

Fix

Fix 186655 SM MEL receives excessive   "Drive returned CHECK CONDITION" Event specific code: 2/4/2 during   3x.



三、处理过程




时间点

处理步骤

10:00

虚拟化平台人员无法进入测试VC。

10:20

进入操作室查看存储状态:DS5100界面已无法管理;A控IP不通;B控IP通,但无法管理。

11:00

进入机房检查存储状态:A控已宕机,B控IP和光纤无异常,没有亮灯显示故障,但代码在05-5d之间循环(正常应为85)。

11:10

笔记本连接存储查看状态,但无法管理。

11:20

更换A控制器,但控制器无法正常启动,代码在05-5L循环。

12:00

直接拿串口线连接,查看控制器起动的状态,连上去但没有输出。

12:30

申请二线协助处理,并换另外新控制器。

13:30

二线到达现发现,A控无状态灯,处于损坏状态;B控处于不可操作状态,建议重启。

14:30

因担心客户数据丢失,国内外专家经过讨论后执行下一步操作。

15:00

申请国内二线和三线工程师支持。

15:30

一线在现场用串口尝试接B控,并搭建远程环境。

17:00

三线远程处理故障。

18:00

三线通过一系列的检查和后端操作,重启B控,重启之后B控状态正常。

19:00

主机可以识别存储盘,重新启动应用。

19:30

A控制器经过更换后仍不能启动,A控被锁。进行后端相关处理及部件更换。

21:00

CX700分配23T空间到虚拟化平台,将重要的虚拟机迁到CX700.

23:30

通过对控制器的解锁和一系列的操作,A控处理完成并恢复正常。

23:40

完成所有LUN回切最优路径。



四、经验总结



1、本次故障与微码版本太低(当前微码:7.60.52.00;相关问题微码版本:07.70.23.00\07.84.46.00\07.84.53.00)有较大关系。同时,在故障期的控制器自动重启过程中A控发生了部件故障,导致B控在重启时无法同步,最终处于LOCK状态。通过解锁及手工干预处理,B控成功拉起并正常工作。检查A控有问题后进行控制器更换,同时解决B、A控内部同步问题,最终成功解决,业务恢复。

2、此次故障设备是测试环境的存储,出现的问题并未对业务造成影响。考虑到数据的安全,与公司专家讨论过后进行操作,加上更换A控制器时发现控制器被锁,导致处理故障的时间较长(已经不是简单的控制器更换操作)。

3、DS5100存储在2016年提示微码风险时,建议将虚拟机全部迁移走,升级DS5100微码。出于某些原因,一直未能执行操作,隐患保留了下来。因此,对老化严重和微码老旧的存储,建议做好预防故障的应急计划。


如欲了解更多,请登录十大靠谱网赌软件官方网站:cr93.wakatter.com

版权所有 十大棋牌网赌软件 Filing No:京ICP备17074963号-1
Technical Support:Genesis Network