前言

我们知道,戴尔的OpenManage Server Administrator(OMSA)是一款非常优秀的一对一的系统管理解决方案。它能够让管理员从服务器控制台,或是远端的管理控制台查看服务器的设备状态,找到故障的部件,并进行相应的维护管理。

OMSA对于单台服务器的管理是非常有效的,但是对于一个大型的数据中心,成千上万台的服务器,管理员如何发现其中的某条内存,或是某块硬盘存在故障,这会是个非常严峻的挑战。这里,我们就需要结合戴尔OME一对多的管理功能了,快速定位存在故障告警的服务器。

演示

老规矩,演示前,说说我们的演示环境

我们已经按戴尔OpenManage Essentials安装部署+配置的详解演示所介绍的步骤,部署好了一台OME的管理服务器。同时,机房里的其他服务器已经按戴尔OpenManage Essentials安装部署+配置的详解演示的要求,安装并配置好了客户端,并被OME正常发现和管理。

下面开始我们的演示

1. 打开OME的控制台

OME服务器的IP地址是10.102.17.101,我们可以直接打开IE,输入网址https://10.102.17.101:2607/,并输入管理员用户名+密码,进入OME管理控制台。如下

2. 请注意右上角的黄色告警标志,伴有数字“2”,这表明有两台设备出现黄色告警。这里的颜色代表告警的级别,如果是红色,则是紧急故障了。我们点击右上的黄色告警,先大致查看一下出现告警的设备是哪些。如图,了解到两台告警的服务器的服务器名

3. 关闭前面的查看窗口,点击菜单里的“管理--》设备”,来查看所有设备的列表,在这里我们可以非常方便地从目录树的角度,层层向下找到告警的设备。

首先“All Devices”显示黄色告警,说明数据中心出现故障设备了。向下追踪,可以发现告警来自“Server”组,因为它也显示黄色告警了。

4. 打开“Server”组,定位到故障的服务器,比如“xmnrhel64srv01”,点击服务器名,查看“详细信息”,查找告警的来源。我们看到该服务器的告警来自Server Administrator,即OMSA代理程序,如下

5. 点击“Server Administror”文字上的超链接,网页会自动调出该服务器的OMSA控制台。这样我们就可以输入服务器的管理员用户名+密码,切换到OMSA的管理控制台,来详细检查该服务器的故障部件了。

本例,进入OMSA控制台,我们可以非常方便地在首页看到,是Storage出现了黄色告警

6. 然后,顺着“Storage --》 PERC 5/i”层层向下进入,我们可以非常方便的发现,这台服务器的PERC 5阵列卡的电池故障了,需要更换

7 是不是很简单?要确保数据中心的硬件设备都处于健康状态,只要在OME的控制台里,及时发现和处理所有的告警就行了。