DELL R910死机2次,面板提示E171F错误提示!请求确定故障点。

PowerEdge服务器

PowerEdge服务器
加入对PowerEdge服务器和系统管理实践的讨论

DELL R910死机2次,面板提示E171F错误提示!请求确定故障点。

此问题未回答

我们有一台R910服务器是用于虚拟化的主机,以前安装的是ESXi5.5,于国庆期升级到6.5

升级前曾经机死机一次,升级后又死机过一次。下图是其中一次的死机画面。

两次死机液晶面板分别提示了错误:

E171F PCIe fatal error on Bus 0 Device 5 Function 0 . Review & clear SEL

E171F PCIe fatal error on Bus 2 Device 0 Function 0 . Review & clear SEL

昨天我们重启了服务器进入F10进行了硬件诊断,有两个错误:

所有回复
  • LifeCycleLog.zip

    昨天没编辑完就不小心点发布了,我这台服务器后面有接很多PCIe卡,想请教如何确定是哪个卡错误呢?下图是服务器后视图;

  • Hi,这个报错是服务器中的PCIe总线上设备出现故障,您说了服务器接有很多的PCIe卡,bus#device#function#是PCI总线上设备位置的地址, 通过这个地址,我们可以找到对应的PCIe设备。您提供的日志里面找不到这个地址的相关信息哦。麻烦收集一份DSET日志过来,我这边查一下。

    ESXi5.0通过DSET远程收集日志-V3.7

    www.dell.com/support/article/sln272599/zh

  • ESX01_dset.zip

    Hi,Monica;DSET已收集,有劳帮忙分析下,谢谢!

  • Hi, 查到Bus2 Device 0 Function0是网卡。另外Bus0 Device 5 Function0查不到,怀疑是主板的问题。

    所以您可以先从网卡开始排查,或者移除可以移除的PCIe设备一步步排查。另外也可以释放静电测试(移除电源线后按着开机按钮大概30秒不放手)。可以的话升级一下BIOS、iDRAC, 并BIOS禁用CSATE.C1E。您之前有提到过是升级系统后才出现的问题,所以可以到VMWare网站检查一下阵列卡驱动、固件和系统的兼容性(点击链接(http://www.vmware.com/resources/compatibility/search.php) 打开VMware兼容指南,选择“Use the Guided Search Wizard”).

  • Hi,Monice; 并不是升级后死机的,是升级前死过一次机,升级后又死过一次机,就是因为死机并不频繁,所以靠移除单个PCIe设备难以确定故障点,还有一个疑问请教,我看到收集的日志里提示PERC H700状态为Degraded,但RAID一切都正常,阵列卡电源也状态正常,为什么会降级呢?谢谢!

  • Hi, 假如只是死机一两次,又不方便移除PCIe设备去测试,那只有建议您继续观察服务器了。另外阵列卡我这边看了一下,也没有什么大问题,不排除误报、或者是固件版本太旧的原因。可以升级阵列卡固件试一下。

  • Hi,Monice,好的,非常感谢!