poweredge 2900服务器

系统管理

系统管理
系统管理讨论组

poweredge 2900服务器

  • poweredge 2900 服务器开机出现 “ 1 logical drives degraded "的提示,要怎么将降级的硬盘驱动变成正常的状态同

    时又不丢失数据?

  • 服务器磁盘阵列出现问题的意思,阵列出现故障了。因为做了阵列,所以数据还在,没有丢失,状态变成了degraded,这是个告警。需要马上确认故障原因,处理故障。

    一般要么是阵列里的某个硬盘坏了,需要替换掉。要么是阵列卡的电池坏了,需要替换掉。

    如果你的服务器有安装戴尔OpenManage Server Administrator(OMSA),你可以在服务器不宕机的情况下,直接查看硬件故障是什么。如果你没有安装,就可能有些风险了,因为你有可能需要重启服务器,在阵列卡的BIOS控制界面里查看硬件故障是什么。因为需要重启服务器,最大的风险就是万一在处理过程中,出现第二块硬盘故障,呵呵。

    如果是硬盘故障,请根据阵列卡使用手册,设置热备硬盘,替换出故障的硬盘。如果是电池故障,请联系我们的工程师

    这里,查找各种型号阵列卡的使用手册

    http://zh.community.dell.com/support_forums/poweredge/f/278.aspx

    另外,建议抽空完整看看这篇阵列卡的演示,了解一下平时管理员都可以做什么

    戴尔PowerEdge RAID控制卡使用示例(PERC H710P为例)

    也学习一下OMSA的安装使用,以备不时之需

    OpenManage Server Administrator(OMSA)

  •         你好!服务器安装了server administrator。我重新热插拔了一下disk0硬盘,现在服务器已经不出现" degrded

    "了。但是出现了另外一个现象:我用server administrator 查看服务器的硬件属性时,6个硬盘中有两个disk0和

    disk1的状态(status)是online,其他4个的硬盘状态是foreign(服务器中disk0和disk1是一个组,为RAID 1;其

    余的硬盘组成另一组,为RAID5),foreign这种状态是否是对的?  

            还有一种现象是这样的:用dell poweredge diagnostic 2.9诊断时,服务器的6个硬盘状态都是好的,但是在

    阵列卡的BIOS里的foreign view的左侧controller 0树形目录中只有5个硬盘(disk2没有显示),右侧的foreign

    config preview controller prop下的PDCount也为6 。这种情况是不是表明disk2没有找的呢?

            还有个问题也没明白,我在网上看到降级的硬盘通道可以用rebuild恢复,网上的方法是用CTRL+M打开

    LSI RAID BIOS,但是poweredge 2900没有ctrl+m的开机自检提示? 

  • 阵列卡的BIOS版本是1.04-019A

  • 先说CTRL+M。早期的阵列卡是CTRL+M进入菜单的,后期的应该是CTRL+A,具体的要看阵列卡的型号,还是以屏幕上提示的为准吧。不过,如果你有安装OMSA,还是使用OMSA,在服务器在线的情况下rebuild比较安全一点。

    对于Foreign state,我不知道你做了什么操作,但是,明显这几块硬盘上的阵列信息和阵列卡不符了,所以被阵列卡认为是Foreign。很可能是插拔硬盘的方法不对,所以阵列信息不同步了。是不是你在做RAID1的rebuild的时候,RAID5的硬盘不在线?

    阵列卡和磁盘上的信息只能保留一个,你需要确认一下那个是对的。如果阵列卡是对的,就清foreign,如果硬盘上foreign config是对的,你就需要导入foreign config。

  • 你好,采取了你的建议,我在阵列卡的BIOS里清了foreign config。用server administrator 查看时硬盘的状态由原来的foreign, 变为了ready。谢谢你!

    但是昨天下午又出了新的问题,阵列卡处的电池出现了故障,server administrator中显示的各行状态为:state为charging;predicted capacity status为ready;learn state是ldle; next learn time 是58 days 0 hours;maximum learn delay为 7 days 0 hours;battery tasks是 available task。请问这是不是意味着电池没电了呢(因为8年没换过了)?learn time是什么意思呢?如果要更换电池的话,如何换才能保证数据安全,断电会危险吗?(比较悲催,故障接二连三的来),还有当LCD显示有1191 err>3时如何用SEL查看呢?谢谢!

  • 很好,很高兴新年第一天看到搞定了你的服务器,哈哈。

    关于第二个问题,我也正好有时间给你介绍一下电池方面的一些知识。顺便附上一幅电池故障的截屏,这是我前阵子做的,正好可以对比:

    我设计几个问题,帮你了解前面的一系列问题

    阵列卡的电池是做什么用的呢?

    我们知道,阵列卡里是有缓存的,这些缓存帮助服务器快速读写硬盘上的数据。因为硬盘的速度比较慢,有了缓存,阵列卡的性能大为提升。缓存分读缓存和写缓存,电池的作用主要是保护写缓存的,因为,服务器写数据的时候,只有写入缓存就可以了,阵列卡抽空再把缓存写入硬盘。如果数据还在缓存里,来不及写入硬盘的时候,万一服务器掉电,缓存里的数据可能会丢失。但是如果有电池,电池可以在意外掉电的情况下,保持缓存加电,在服务器下次开机的时候,恢复缓存里的数据。

    所以,只有意外断电的情况下,电池是必需的。如果正常关机,写缓存会在关机前写入硬盘,这样去换电池是没问题的

    另外,如果我们在创建阵列的时候,如果缓存策略是“write through”,这时也没有启用写缓存,电池的作用就没有了。但是服务器写性能会下降。

    什么是Learn Cycle

    既然电池对写缓存的保护这么重要,而大多用户都希望使用“write back”的策略启用来提高写性能,那么服务器就需要定期检查电池的状态,确保它工作正常了。Learn cycle就是服务器定期给电池充放电,检查电池的蓄电能力,保证电池的充电电量能够给缓存加电。如果电池已经无法充电,或者蓄电能力下降,那电池就故障,需要更换了。

    Learn state:idle就是检查工作结束了,Next learn time就是下次检查的时间。如果有故障,请看我上的图。

    另外需要说明一下,Learn cycle充放电期间,阵列的写缓存会被禁用,服务器性能会下降。所以许多用户会挑服务器空闲时间做learn cycle,避过业务高峰期。

    你的电池8年没换过,的确有点老了,想想自己用过的充电电池,有超过8年的吗?呵呵。那些错误号,我手上没有对照表,联系我们的技术支持工程师咨询吧

  • 谢谢你!今天早上用server administrator看在时侯,电池状态又OK了,Disk Group 0 的VD0 的read policy 是no read ahead,write policy是write through。

    前天还没清foreign state的时候,foreign view下有个灰色状态的Disk Group 1(foreign),该硬盘组下的VD是VD1,RAID 级别为5;清完后在VD Mgmt下看不

    到Disk Group 1了,只有Disk Group 0(没清之前也存在),Disk Group 0 下的Virtual Disk 0只有两个硬盘,VD0的RAID级别为1 。是不是需要重新建立

    Disk Group 1呢?还有在VD Mgmt下检查数据的一致性是不是应该在每次硬盘状态从foreign变为ready时执行一次啊?

  • Disk Group 0 的VD0 的read policy 是no read ahead,write policy是write through” 这个说明,你的Disk Group 0没有打开缓存。

    Disk Group 1就是原来硬盘上存的foreign config,不知道什么原因,和阵列卡不匹配了,所以前面的操作清除了Disk Group 1的配置,这样原来Disk Group 1的成员状态变成ready,意思是它们现在是空闲状态,没有任何RAID。

    如果你原来Disk Group 1是有数据的,想保留,那就是说原来foreign config的阵列配置是对的,原先的操作可以选择导入foreign config而不需要清除。

    如果你还想恢复原来Disk Group 1 上的数据,请按照原先的配置,使用一样的成员硬盘,重新建立阵列,不过,记得建立后,不要选择初始化的选项。这样DISK group 1 就回来了。

    如果原来Diskgroup 1上的数据没有用,那你就当那几块硬盘是空白盘吧。

    VD的一致性检查是对VD来说的,不是硬盘。如果硬盘是阵列的成员,它的状态应该是online而不是ready

  • 我天,我好像做了一件很危险在事情,Disk Group 1数据有用的。。。Crying

    用Reset Config可以恢复之前的Disk Group 1吗?如果重新配,我不知道VD1中存储元在大小、读写的方式等方面的数值,如果重新建,这些值不一样在

    话,对数据应该有破坏吧。假如可以重建,建立好后需要检查数据一致性吗?

  • 一致性只有在VD出问题的时候才检查。你忽略这个吧。

    默认我相信没人会设置储元什么的。如果你原来是4个硬盘做的RAID5,你还照样选那4个硬盘做回来。记得不要初始化,应该就可以。

    所以,一定要记得,到底那个阵列信息是正确的。如果Foreign的是正确的,你需要import。