导致数据中心停机的人为错误可以通过一些简单的步骤来回避,这时候数据中心机房的结构图就尤为重要

数据中心的机房经常碰到这样的事,数据中心大约70%的问题都是人为错误引起的

为什么要掌握数据中心结构图?

数据中心的机房经常碰到这样的事:服务器蓝屏或者死机的时候,因为服务器通常没有设置重启的按钮,厂商人员经常无法直接重启服务器,这时候数据中心机房的结构图就尤为重要。

绘制数据中心机房的结构图通常是一个费力不讨好的任务。在日常情况下,管理员其实很少看结构图,所以经常导致的后果就是结构图在需要的时候就重新绘制一份,但这样会导致效率低下和结构图的信息缺失。

数据中心机房的结构图结合配线和机架和各种硬件,有结构图甚至包括制冷设备,进出风口等等。学习如何正确地创建结构图耗时甚巨,但它是一个有价值的技能。

要制作机房结构图,首先要了解自己所涉及的机房的基础设施,数量多少,分布位置等等。下面简单说一下制作结构图需要注意的地方。

数据中心的结构图都包含了什么?

最基本的结构图是基于数据中心的机架和内部设备的图示。这里面包括物理服务器,所有的通信设备,如交换机和路由器,UPS电源装置,备份设备(磁带机)和任何其他数据中心的硬件设备。(如下图)

图片 1

进一步的结构图有着更多的细节,这些细节更体现了结构图的价值。包括通信线路,和各个网络段的设备连接,还有多路径冗余、不同级的交换机连接线路。如果需要重新规划服务器的路径,这样一份详细的结构图将帮助方便的去规划。如果没有一个清晰的结构图,你可能会在升级网络端口的时候不小心将多个网络接口配置在同一个交换机组,这样导致的后果就是网络风暴和网络回路。


图片 2


数据中心的机房经常碰到这样的事:服务器蓝屏或者死机的时候,因为服务器通常没有设置重启的按钮,厂…

书接上文,之前我们BKJIA带给大家一篇《看这些数据中心错误有多蠢!》的外电,本期我们针对以上错误找到了相应的预防措施。一攻一守,同样是一篇外电,我们看看这些错误该如何化解。

数据中心停机通常是由设备故障,或突发事件的连锁反应引起的,但引起数据中心停机的主要原因是人为失误,据Uptime协会发起的一项研究显示,数据中心大约70%的问题都是人为错误引起的,可见人对于数据中心来说是多么的可怕。

那该如何缓解这个问题呢?电力技术支持主管Ahmad
Moshiri说:“毫无疑问,导致数据中心停机的人为错误可以通过一些简单的步骤来回避”。下面就是其总结出来的避免数据中心人为错误导致故障的最佳实践。

1、屏蔽紧急关闭按钮

紧急关机Emergency Power
Off,EPO)按钮一般都位于数据中心门口附近,通常,这些按钮没有盖子或做上标记,在紧急情况下很容易错误地关闭整个数据中心的电力供应,给EPO按钮帖上标签或加装一个盖子,可以避免按钮被意外按下。

2、根据文档指定的方法操作

按照厂商给定的文档一步一步操作,可以减少或消除执行维护任务时的误操作,除此之外,还应该在备份计划中包括突发事件时的应对办法。

3、正确的组件标签

要正确和安全地操作电源系统,所有开关设备必须正确标识,还需要数据中心的单线电路图,确保正确的操作顺序,每执行一个操作前,都应该仔细检查设备的标签有无不妥。

4、一致的操作方式

有时,数据中心管理人员疏于职守,不按照标准操作程序执行,忘记或直接跳过某些步骤,或是凭自己的记忆操作,可能无意中就错误地关闭了某个设备,因此,保持所有操作说明文档不断更新,并严格按照说明进行操作是至关重要的。