两块XCM同时故障引发存储power vault

  • 设备情况

            1、硬件信息:

                    机器型号:EMC DMX4

            2、微码信息:

                    Code:5773.184.130

    • 故障情况
      工程师告知,客户怀疑存储链路有故障,导致到主机的链路有中断,在排查链路的过程中发现存储状态异常。Inlines界面无法执行命令,脚本也无法使用。

     
     

    日志查看

     
     

    01

     Inlines界面输入命令无法执行

    反复出现以下信息


     
     

    02

    Key to success脚本执行报错


     
     

    03

    Environmental检查脚本报错


     
     


     
     

    分析


    根据报错情况看,所有Director都处于准备power vault的状态,但vault又无法正常进行,经过检查物理硬件,未发现明显故障,所有Power Subsystem条件均满足正常运行需求,疑为XCM与Director通信异常导致。不过2个XCM同一时间故障的概率极低,我们不太可能这么背,初步怀疑是XCM bug

     
     

    XCM作用如下:


    询问工程师在到达现场的时候控制台有无异常,得知工程师在到达现场之后发现控制台处于宕机状态,重启后恢复。基本确认XCM与控制台通讯异常触发BUG。EMC在 5773.198 code修改了XCM算法,在此之前的code会因为Ethernet与XCM长期无通讯导致XCM hung。

     
     

    1、通过reset XCM来解决XCM通信异常的问题:

    • 用探针reset一下其中一块XCM卡
    • 等待XCM上状态指示灯均恢复正常

    2、再次进入Inlines界面,通过inline命令reset 另外一块XCM;

    3、确认XCM恢复正常后,检查存储状态确认无故障。所有部件状态都为ok。


     
     

     
     

    小结


    1、 该故障最终根源在于XCM通信异常,导致Director无法读取到Power Subsystem的信息,从而使Director误认为达到系统vault 的条件,触发vault,但是由于XCM异常,无法正常执行vault流程,因此存储一直处于准备vault->vault无法继续->恢复正常Online的循环之中。

     
     

    2、 EMC官方Release Notes中对此bug的解释如下:


    3、想要彻底解决此问题,建议升级微码到最新版本5773.198.142。

     
     

     
     

    作者简介

     
     

    ★焦永升★

    EMC Symmetrix/HPUX/openstack认证专家,精通EMC symmetrix、datadomain、vplex等产品线。对分布式、云计算等产品亦有所了解。主要负责金融、运营商、政府等客户。工作之余喜欢泡茶、打游戏

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
免责声明: IT学馆所发布的一切资源及文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。admin@itxueguan.com
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论