R710 服务器,内存拔插后服务器不能稳定运行,总是自动重启。

PowerEdge服务器

PowerEdge服务器
加入对PowerEdge服务器和系统管理实践的讨论

R710 服务器,内存拔插后服务器不能稳定运行,总是自动重启。

此问题未回答

服务器配置:双CPU、四根8G 1333 ECC 内存。

故障原因及现象:停机后拔插内存。服务器长时间停止在TEST  MEMORY ,PLEASE WAITING界面 。反复重启后有时能进操作系统,但几分钟后系统就蓝屏重启。

调整过CPU和内存。

双CPU。4根内存时:A1\A2\B1\B2和A1\A4\B1\B4组合。2根内存时:A1\B1

单CPU、2根内存时:A1\A2和A1\A4  。1根内存:A1

并交替内存进程测试。故障依旧。

求解决办法。

所有回复
  • 仔细看看内存及CPU的槽位是否干净,然后再试试

    保留CPU1 及DIMMA1的内存测试一下,情况一样,把CPU1换成另一个CPU及内存也换一个。

    如果可以正常启动,慢慢把内存及CPU加回去测试

    如果情况一样,把所有的CPU及内存插回去,启动服务器的时候看看能不能按F10,里面有Diagnostic的选择,看看能不能进去,跑一下硬盘诊断。

    另注意一下,报错是否有PCIE之类的报错

  • 拔除阵列、1CPU、DIMMA1 的情况下:

    Diagnostic内诊断有如下报错:

    1、Error Code 2900:0221    Msg: IPMI - Oct 11 08:05:014 2016; processor :: Processor (status) "CPU1"

    2、Error Code 2900:0221    Msg: IPM1- Oct  20 10:21:37 2016 : Uncorrectable ECC error .  DIMM_A2

    3、Error Code 2900:0221    Msg: IPM1- Oct  20 10:21:53 2016 : System Firmware :: Processor sensor (cpu Machine Chk) transition to non-recoverable.

     memory test 中提示:Evlog: Fail    需要清除记录。

    这些会有影响么?

  • 1CPU、DIMMA1 的情况下可以启动吗?更换CPU及多内存交换单条试一下。

    报错看上去像之前的报错记录,先清除掉,如果以上情况不能启动再跑诊断。

  • 1cpu、DIMMA1的情况下可以启动,但2小时后报一下错。

    e2010 memory not detected .Inspect DIMMs
    e1410 system fatal error detected.
    e1422 Cpu1 machine check error. Power cycle AC.
    e2110 Multibit error on DIMM A1. Reseat DIMM.

  • 另外F10里的测试磁盘等全部通过测试。

  • 好吧!~这种情况我估计是主板的问题了。

  • 这就没什么救了!

  • 后期测试出现如下报错:

    E171F   Pcle  Fatal Error On Bus 0 Device 0 Function 0, Review & clear SEL

    E1715   Fatal I/O Error, Review & clear SEL

    这是不是就能确定主板故障了?有办法修复么?

  • 只能更换了!