电源是数据中心的基础要素之一,通常由服务器管理员负责管理。而且,断电或低质量电源是造成数据中心服务器停机的一大主要因素。这里,我指的不是公用电源故障,而是电源分布系统的操作和管理的通病。
在数据中心,有如下几个关键的基本电源组成部分:
公用电源和主电源板
备用发电机和自动转换开关(ATS)
不间断电源(UPS)和支路维护板(maintenancebypasspanel)
电源分配单元(PDU)
机架级PDU
服务器的内部电源
在大多数情况下,服务器管理员都不会涉及到前四项的设计或操作。不过,他们会直接掌管着机架级PDU和服务器电源。大多数电源故障都发生在这里。
双电源服务器的实际情况
在关键任务环境下,双电源服务器是比较普遍的做法,它可以提高数据中心的可靠性。然而,尽管服务器管理员想尽可能地充分利用双电源提高冗余,但有时这些双电源服务器并未得到合理地部署。有时,不合理的操作实际上反而会降低电源的冗余。在 完美 的安装执行中(如,Tier4数据中心),应该有两条完全独立的电源线路,每条线路分别由上述6个部分组成。而且,每条线路必须能够独立承载整个数据中心的负载。这就是我们所说的2N冗余。
2N冗余意味着电源故障绝不会中断数据中心设备的运行。当然,并不是每个人都那么走运能操作一个Tier4数据中心。尽管我们谁都想拥有完全的电源冗余,但鉴于成本因素,我们通常不得不采取一些折中的做法。由于受到成本预算的限制,所以通常尽管服务器有双电源,但其它5项却没有两条完全独立的线路。
服务器管理员对冗余的理解通常有偏差
在本文前面已提到,管理员直接负责服务器和机架级PDU的安装和管理。通常,每个机架只有一个PDU。因此,双电源服务器的冗余度就仅限于服务器电源本身的故障。
然而,更普遍的情况是有两个机架级PDU,服务器的两条电源线分别插到不同的PDU上。这让大多数管理员有了一种冗余的错觉,实际上其中也隐藏着电源故障的威胁。
通常,服务器安装和操作环境的两个机架级PDU都是可用的。当两个电源都正常时,双电源会分担服务器负载,大概各占50%。当其中一个发生故障或失去电源输入时,剩下的一个电源必须承担100%的负载。因此,最佳的做法应该是PDU的负载不要超过短路开关的跳闸值。
即使每个PDU的负载只占它最大额定负载的60%,也可能会出现问题。实际上,即使PDU有测流计显示负载达到额定功率的60%,大多数管理员也会以为机架级PDU还可以承载更多的服务器,因为现在 才使用了60%的功率 。实际上这已经超载了,但很多管理员没有意识到这一点。
为什么呢?如果服务器的电源发生故障,那么剩下的电源和PDU就要承担服务器的全部负载。这意味着120%的PDU功率负载会落到剩下的那个PDU身上,短路开关会跳闸,关闭机架内所有设备。这是一个典型的串联故障。同样,如果添加服务器或其它设备使负载超过其中任何一个PDU的跳闸负载值,也会出现这样的问题。
正确地执行双电源服务器
要确保双电源服务器和双PDU机架的安全,唯一的办法是不要超过机架PDU额定值的40%。PDU和它的供电电路必须总是受到断电开关的保护。根据UL和NEMA的规范要求,只有不超过PDU额定值的80%才是安全的。
例如,一个额定值为20安的PDU,负载不能超过16安。这就是说,在一个双PDU机架里,所有设备负载不应该超过16安。因此,每个PDU应该只有8安的负载,以免出现超负荷。
现在,很多机架的PDU都没有测流计,有时是因为它们太老式,有时是因为预算不足。不过,即便是有测流计,有些管理员也不会意识到如果它们负载超过了40%,就会有串联电源故障的危险。另外,由于服务器随时都有可能更新和添加,所以危险会不知不觉地越来越高,直到问题出现时已为时已晚。从这一点来看,很多人都误以为它们是 完全冗余的 。
如果你有幸能避免这个错误的观点,我建议你检查一下每个机架级PDU的使用情况。如果没有PDU测流计,可以考虑一下升级。如果你的机架数量较多,那么可以考虑远程监测(通过SNMP或网络)PDU。这可以减轻你手动监测成百上千PDU的沉重负担。实际上,上述方法适用于电路中的所有部分。
总之,在执行冗余时如果要确定当其中一条线路发生故障时另一条线路是否能承担全部的负载,就审查一下负载结构,主动监测和管理所有PDU的负载程度和电路中其它所有要素。更改PDU布置可能会需要一些停机时间。不过,和其它任何电路维护一样,如果要实现真正的2N冗余,一定的停机时间可能是必要的。要么是一些计划内停机时间,要么是意外的断电停机风险,你可以任选一种。
责任编辑:kelly