求助!DELL R710服务器System OpenManage server反复发出Alert message ID:2350错误!

PowerEdge服务器

PowerEdge服务器
加入对PowerEdge服务器和系统管理实践的讨论

求助!DELL R710服务器System OpenManage server反复发出Alert message ID:2350错误!

此问题未回答

反复收到2号盘错误的信息,当时也提示阵列卡固件过时;后来升级到了最新版本,但依旧收到上图报警。

升级后同时也报阵列卡电池状态失败,更换阵列卡电池后电池状态正常,目前所做的动作有:1.更换2号硬盘(更换了两次),2.更换硬盘背板;3.更换阵列卡电池(更换后状态正常);4.更换阵列卡。5.升级阵列卡固件.其它方面,服务器面板没有任何报警,2号盘也没有亮灯报警,开机进入阵列卡查看2号盘S.M.A.R.T提示"No Error",另外进入远程控制卡查看硬盘状态也是正常的。请教我该怎么做。

所有回复
  • DSET Report for [CNAPGZHOBAK02 SvcTag-BDJHR2X-PE R710] on 09-14-2017 at 08.50 AM.zip

    工程师你好,昨天我测试好了两个硬盘依次更换了0号和2号盘,但还是会收到报警。我又重新收集了日志,能否帮忙看一下有没有什么不同的情况出现。更换的两个硬盘我确定是ok的,您认为是不是只有把硬盘打乱重做阵列了呢?有没有可能是主板方面的问题呢?谢谢!

  • Hi, 查看了您新发过来的日志,看到9.13的时候的确更换了0和2号盘,现在硬盘和VD的状态都已正常。但这都是表面的情况,我们更多的会分析一些潜在的问题。通过这个日志,我查看到VD在rebuild的过程中出现了Puncturing, 也就是俗称的“穿孔”。关于穿孔的原理,您可以网上找资料了解更多,但是解决方法简单来说就是我之前建议您的:把所有硬盘的顺序打乱,然后重新做阵列,否则穿孔会有传染的效果,慢慢的把其他硬盘都感染。 下面图三就很好的说明了这一点,9.13号更换0号和2号盘后又出现了很多media error, 等这些error到达一定的数量,硬盘状态会由online变成predictive failed, 再变成failed. 

    所以我的建议是:尽快备份资料,把所有硬盘的顺序打乱,重新做阵列,然后做一致性校验。

  • 好的,谢谢你!

  • 工程师你好,请问是否有必要将服务器的两个RAID全部打乱硬盘重做阵列,还是只要将有问题的第一个RAID打乱硬盘再重做RAID就行了呢?谢谢!

  • Hi, 另外那个VD目前没有发现有问题,您把有问题的VD硬盘打乱顺序再重做阵列就可以了。