IT和设施人员越来越依赖彼此来为数据中心客户提供高可用性的服务。你的公司是否有效地处理了这个关键关系中最重要的部分?要自信地回答这个问题,了解一下这两类人员共同承当的哪些责任导致了最常见的可用性故障是有帮助的。
之后,我们就可以采用这些通过验证的方法来将可用性风险减少至最小。行业数据显示,在由设备导致的计算机运营故障当中,大多数是发生在机房而非基础设施建筑中。
背后的原因很简单:人们通常是在机房而非放置支持设备的建筑物里出现。风险通常是复杂的,一方面是因为机房由多个部门管理,一方面是因为支持机房的多个系统的运营需要各种各样的技能。
鉴于这些因素,发生混乱及失误的机率非常高。要避免这种情况,就需要各个部门通力合作,清晰定义关键任务的具体流程及责任人。
布线和连接流程
这是一个最需要优先考虑的事项。一个成功的IT/设施团队需要清晰地界定哪些部门及个人可安装及移除机房中的电源、网络电缆及连接。各个部门需要就各自负责的工作划分清晰的界线,并达成一致性意见。他们需要定义设施部门应将电源线连在服务器机柜的哪一边;
哪个部门将负责将配电单元(PDU)whip连接到一个独立的计算机设备上;
哪个部门有权移除网络连接器等。图表或相片需要配上职责界限的书面说明,以进一步明晰各自的职责。每个部门只能允许2~3个人来负责这些关键布线任务:其中一个人负主要责任,而其他人则负责支持工作。这些角色的连续性是非常重要的,因为连续性可以保证一致性,并将发生误差的可能性最小化。
硬件总体规划
从IT及设施部门各自分派一个人来负责计算机硬件总体规划的准备和管理工作是下一个最重要的目标。这两个人需要每周碰头,决定新购进的电脑应安装在楼面及机柜中的哪个地方。
需要准备一张计算机机房平面图,并根据环境的变化而定期更新。这张平面图需要展示指定区域(为特定类别计算机硬件提前预留的空间占到3/4)中所部署的所有机柜、机架及独立设备。机架的正视图应显示从底部到顶部需要安装的硬件及其具体安装位置。IT代表人员需要确保总体规划会考虑到各项特殊要求,包括连接、与其他硬件或网络设备的通信需求及距离限制等。
设备团队成员需要确保总体规划考虑专门的制冷及电力需求,例如,如果制冷功能从活动地板提供,就在机柜底部放置一个高热能的服务器。IT及设施管理人员都需要委派一名后备人员。没有IT及设施管理总体规划负责人的允许,不可安装或拆装计算机硬件。
更少的人力——更少的问题
第三个减小风险的方法就是减少可以访问机房的人员数量。如果将访问机房的人数最小化,发生失误的风险性也可大大减少。这需要高级管理人员强有力的支持。只有每周至少需要在机房工作一天的人员才可在没有人陪同的情况下独自进入机房。其他人员在进入机房时都需要有他人在场。入选的某些工作人员,如果对机房工作程序有一个透彻的了解,可使用临时工作卡进入机房。每个季度,需要由管理人员审阅这个访问清单,以确定个人再次访问机房的要求。
保证程序上的清晰性
设施和IT人员还可采用另外一种方式大幅度减少机房环境的风险性:每个将要进入机房的个人需要阅读整套数据中心机房工作程序指南。这个文件应该描述工作活动中的所有注意事项,通常是10~15页长。各个部门的经理需要与允许进入机房工作的员工及供应商(不管是否有人陪伴)一同阅读这份文件。签名的复印件需要归档并且每年更新。对于这些有人陪伴参观机房(非工作)的人员,需要阅读该文件的简缩版。
通过针对性地处理这些常见的导致运营障碍的干扰性因素,并采用以上提及的清晰界定的流程,数据中心公司可大大提高数据中心运营的连续性。此外,应用的连续运营也将大大提高数据中心正常运行时间的长度。
转载请注明:IT运维空间 » 运维技术 » 避免数据中心停机 基础设施人员如何合作
发表评论