一台R410 服务器不定时宕机,系统日志只有“上一次系统是意外关闭”

PowerEdge服务器

PowerEdge服务器
加入对PowerEdge服务器和系统管理实践的讨论

一台R410 服务器不定时宕机,系统日志只有“上一次系统是意外关闭”

这个问题已经回答Monica(Dell Technology)

R410环境

操作系统 windows server 2008 r2 (一开始是windows server 2003)

两个CPU:E5504

内存:64G (4条16GB)

故障现象:一开始运行windows server 2003也是不定时宕机,后由于业务需要更换为windows server 2008 r2还是不定时宕机,经过观察,每次宕机都是停留在登陆界面鼠标键盘无法操作(瞬间死机),重启恢复正常,时间不定,有时一个月,有时几个月,性能监视器抽样检测,宕机之前,各资源没有明显波动,性能监视器有一小段没有收集到任何数据,就在今年(2017年9月底开始)突然运行三四天就宕机一次,宕机时间很随机,最近一次宕机是10.24下午,拆机检查手感CPU温度,CPU1特别烫,CPU2温度正常,两个CPU更换硅脂(还调换了颗CPU的位置,为了测试CPU是否有问题),更换后运行到今天都没有出现宕机,

之前有用软件检测CPU温度,两个CPU(CPU1和CPU2)温度相差10几20度左右

CPU1和CPU2更换硅脂对换位置后,温度还是相差10几20度,温度高的还是换到CPU2位置的原CPU1的那颗CPU,但是目前没出现宕机情况

疑问:1、对换位置之前的CPU1温度比CPU2高十几二十度,不定时宕机,涂新硅脂后和对换两个CPU后就暂时不会三四天宕机一次,但是CPU2(现在是原CPU1那个CPU)的温度要高出十几二十度

2、其中一个CPU是否有问题?系统运算过程,优先选择CPU1通道?导致如果CPU有问题,承受不住负荷?

没办法上传图片,不知道描述是否清楚?!

对调前:CPU1温度:最高温度(四个核心)60-63

                                      当前温度(四个核心)55-60

CPU2温度 :最高温度(四个核心)45-51

                          当前温度(四个核心)40-47

对调后:温度反转

验证的回答
  • Hi,BIOS比较新的版本会修复CPU的一些问题,所以关于CPU的故障,修复BIOS是会有一定的作用的。假如情况允许,建议最好更新一下,当然,您直接更换另外一个良好的CPU来测试也是OK的,假如换了另外一个CPU运行一直很正常,也就间接判断到之前的CPU有问题。

所有回复
  • Hi,双CPU的运算是同时的,其中一个CPU有故障,都会导致服务器运作异常。您的服务器宕机不排除是由于其中一个CPU温度比较高导致,一般来说超过60度,温度就算有点高了,长时间在这样的高温下运作,就有可能导致服务器宕机。重新涂硅脂后对于CPU散热会有一定的帮助,建议您同时也可以更新BIOS、iDRAC固件、主板芯片组驱动测试一下。方便的话您可以收集一份日志过来,我再通过日志分析一下硬件层面是否还有其他问题。

    Windows收集DSET日志的方法-V3.7

    www.dell.com/support/article/sln304629/zh

  • 这台R410没有安装远控卡,这里能发附件吗?dell.zip

    一个问题就是原本放在CPU1的CPU换到CPU2位置后,CPU还是60-63度最高

    CPU1和CPU2调换位置之前性能监视器的监测

    目前的性能监视器监测结果

    目前为止没有发生宕机

  • Hi, 您交换了CPU测试,温度跟着CPU走,所以可以确定的是槽位是没有问题的,问题出现在CPU上。

    日志我这边看到了,目前硬件没有什么问题,也没有相关的报错信息,CPU状态是良好的。

    BIOS版本比较旧,建议您更新一下,另外主板芯片组驱动、BMC固件也更新一下吧。

  • 谢谢您的建议,这台机器是WEB服务器、大量网站不能随意更新,怕不稳定,这跟驱动版本和BIOS版本有多大关系呢?必须得更新吗?按照您说的,CPU温度持续在60度以上CPU就会不稳定(而且服务器并不运行在高负荷状态下),所以应该是CPU本身有问题吧?出问题时并不是自动关机,系统直接就死掉了,没有反应,鼠标键盘都没反应

    CPU对调位置也更换了硅脂

  • Hi,BIOS比较新的版本会修复CPU的一些问题,所以关于CPU的故障,修复BIOS是会有一定的作用的。假如情况允许,建议最好更新一下,当然,您直接更换另外一个良好的CPU来测试也是OK的,假如换了另外一个CPU运行一直很正常,也就间接判断到之前的CPU有问题。

  • 好的,谢谢

  • 不客气哦,祝周末愉快~~Smile