德胜网络工程师大大实在忙,这期小编就科普一篇机房运维人员如何着手运维工作。 一来让入行的小白们了解运维主要干什么,二来希望有志成为运维工程师的小伙伴吸收相关的技术经验,做好入行准备。
闲话不说,让我们潇潇洒洒的长知识吧:
数据中心运维的工作主要是对数据中心各项管理对象进行系统的计划、组织、协调与控制, 是信息系统服务有关各项管理工作的总称,具体包括对机房环境基础设施部分的维护,系统与数据维护,管理工具的使用,人员的管理等方面。
数据中心的主机安装,配置优化、组建网络、设备互联等都需要通过文档的形式进行记录, 以便出现故障能够快速排查。同时以记录文档的形式进行工作交接更谨慎。还有通过日积月累的文档记录对于工作经验来说也是一种沉淀, 对优化数据中心的运维能力也有了数据支撑。文档主要分四类:一是数据中心内部架构文档,比如:组网介绍、设备互连关系、IP分配情况、 空调系统、机电系统、布线系统等的基本状况;二是数据中心管理文档,比如:机房管理制度、机房值班和交接制度、机房巡检制度、设备操作规范制度, 安全防护制度等等。三是数据中心改造,优化工程文档。比如:升级指导书、网络变更计划书、应急措施指导、软件回退方案等等。四是数据中心运维的经验文档。 比如:网络中断问题分析、现有机房环境评估、如果进行业务不丢包切换等等。这些文档可以给初入行业的新人一个可靠的参考指南,迅速上手。
数据中心需要24小时连续运行,除了一些外力因素,譬如恶意攻击等行为导致的服务器故障外, 还有数据中心内部的一些不可抗因素,对数据业务的备份水平不仅是对企业用户的一个保障,也是一个数据中心实力的体现。 小到服务器、网络到存储,大到数据中心,都需要有备份,包含软件的备份和硬件的备份。通过备份,可以在数据中心运行出问题时, 及时做业务调整,确保业务无中断或者短时中断。如今的数据中心可以做到多数据中心相互备份,以防以数据中心为单位的整体故障出现时业务中断。 一般这种情况是基本不可能出现的。当然,数据的备份要消耗相当的储存空间和增加管理难度。所以如何对业务备份进行判断,使备份行为更加有序是每个运维工程师需要思考和提升的。
机房内的各个关键设备和关键设备所需要的环境因素共同构成了机房的整个生态系统, 各个系统的协同工作才能保障整个生态系统的稳定、有序运转。而传统的数据中心会为各个设备配备专人进行值守, 通过定期巡查和手抄记录来对数据中心各设备的运转情况进行监控。如此的管理方式,一是加重了数据中心的管理成本。 二是技术人员并不能做到百分百的精准管控,对出现故障的排查及时性没有太大用处。同时机房重地,人员的频繁流动, 对机房生态环境的维护有害而无利。把UPS、配电柜、散热空调、烟感、恒湿度、门禁系统通过数据可视化来实现集中监控。 在线监测是确保数据中心无故障运行的保证,有效的在线监测可以减少数据中心故障发生对业务造成影响。
运维人员还需要进行周期巡检,包括对各种设备的检查,环境的检查,电源、空调设备的检查, 填写日常巡检记录表,检修记录,作业操作表等等。通过以往记录的数据进行综合分析,一旦某些数据有波动或者异常, 应该及时采取有效措施,避免隐患引发故障。通过周期巡检也可以对整个数据中心有个全面的了解, 一旦要进行系统改造或者扩容等工作,有了前期这些巡检数据参考,制定的改造或扩容方案才更有针对性。 千万不要以为周期巡检只是记录一些设备运行的基本参数,通过这些参数可以看到整个数据中心的运行状态。 对于一个刚从事运维的新手来说,通过周期巡检可以迅速了解到数据中心的各个环节,独立展开维护工作。
总的来说,以上四个方面是运维人员主要的工作内容, 一个数据中心长期稳定运行也有赖于这四部分工作完成的水平。当然,数据中心运维好了,数据中心有了良性的收益成果。小编打赌,年终奖你最多。