两块XCM同时故障引发存储power vault

  • A+
所属分类:存储
  • 设备情况

            1、硬件信息:

                    机器型号:EMC DMX4

            2、微码信息:

                    Code:5773.184.130

    • 故障情况
      工程师告知,客户怀疑存储链路有故障,导致到主机的链路有中断,在排查链路的过程中发现存储状态异常。Inlines界面无法执行命令,脚本也无法使用。

     
     

    日志查看

     
     

    01

     Inlines界面输入命令无法执行

    反复出现以下信息

    两块XCM同时故障引发存储power vault

     
     

    02

    Key to success脚本执行报错

    两块XCM同时故障引发存储power vault

     
     

    03

    Environmental检查脚本报错

    两块XCM同时故障引发存储power vault

     
     

    两块XCM同时故障引发存储power vault

     
     

    分析

    两块XCM同时故障引发存储power vault

    根据报错情况看,所有Director都处于准备power vault的状态,但vault又无法正常进行,经过检查物理硬件,未发现明显故障,所有Power Subsystem条件均满足正常运行需求,疑为XCM与Director通信异常导致。不过2个XCM同一时间故障的概率极低,我们不太可能这么背,初步怀疑是XCM bug

     
     

    XCM作用如下:

    两块XCM同时故障引发存储power vault

    询问工程师在到达现场的时候控制台有无异常,得知工程师在到达现场之后发现控制台处于宕机状态,重启后恢复。基本确认XCM与控制台通讯异常触发BUG。EMC在 5773.198 code修改了XCM算法,在此之前的code会因为Ethernet与XCM长期无通讯导致XCM hung。

     
     

    1、通过reset XCM来解决XCM通信异常的问题:

    • 用探针reset一下其中一块XCM卡
    • 等待XCM上状态指示灯均恢复正常

    2、再次进入Inlines界面,通过inline命令reset 另外一块XCM;

    3、确认XCM恢复正常后,检查存储状态确认无故障。所有部件状态都为ok。

    两块XCM同时故障引发存储power vault

     
     

     
     

    小结

    两块XCM同时故障引发存储power vault

    1、 该故障最终根源在于XCM通信异常,导致Director无法读取到Power Subsystem的信息,从而使Director误认为达到系统vault 的条件,触发vault,但是由于XCM异常,无法正常执行vault流程,因此存储一直处于准备vault->vault无法继续->恢复正常Online的循环之中。

     
     

    2、 EMC官方Release Notes中对此bug的解释如下:

    两块XCM同时故障引发存储power vault

    3、想要彻底解决此问题,建议升级微码到最新版本5773.198.142。

     
     

     
     

    作者简介

     
     

    ★焦永升★

    EMC Symmetrix/HPUX/openstack认证专家,精通EMC symmetrix、datadomain、vplex等产品线。对分布式、云计算等产品亦有所了解。主要负责金融、运营商、政府等客户。工作之余喜欢泡茶、打游戏

avatar

发表评论

您必须才能发表评论!