管好十万台服务器?必须靠智能!

日期: 2018-11-28
浏览次数: 707


管好十万台服务器?必须靠智能!


机房服务器太多了,没法管!


当你只有一台服务器时,可能觉得服务器管理太简单了,不就跟PC机一样吗?轻轻松松就搞定了;


当你有10台服务器时,还是觉得没啥难的,吃个饭的功夫,就能上架上电了,再睡个觉的功夫,就能把操作系统装完了,平时有点啥故障,一眼就知道是哪个坏了,直接下电换了就是;


当你拥有100台服务器时,开始有点吃力了,有些是老机子,有些是新机子;有些要带外管理,有些要带内管理;有些配置要手动操作,有些需要编点小脚本……不过沉下一口气,顺便写几个小脚本,花个三五天,痛苦还是会过去的,慢慢就觉得还是能管的嘛,不过如此嘛;


可是当你面对的是10000台甚至100000台服务器时,对,你没看错,是十万台,是不是有一种绝望的感觉?这就是不吃不喝,奋斗终生,也搞不定啊!据相关数据统计,随着企业规模越来越大,超过十万台服务器的数据中心也已经越来越多了,如何管理如此众多的服务器设备,让业务不受影响,并且不增加运维人员和运维费用,已经成为各大企业在IT采购和规划时优先考虑的问题。


服务器管理为什么变得

越来越复杂了?

有时候量变会引起质变,当服务器数量增多的同时,随之而来的问题就会逐渐增多。


比如由于业务类型的不同采购的机型就会不同,有刀片服务器、有机架服务器、有GPU服务器甚至是关键业务的多路服务器,每种服务器都会有自己的一套管理系统和管理思路,部署和后续维护时,就得分别采用每种机型的管理系统进行配置和升级,管理复杂,学习成本高;


再比如随着时间推移,数据中心会存在多代服务器共存的情况,升级换代后,很多管理系统也会相应的进行升级换代,操作界面和方法相比之前就会有很大的变化,导致可能有些老机型无法再被有效的管理;


再比如有些RAID卡,PCIE标卡等是转售第三方的部件,厂家有对应的升级和维护工具,有些部件只能在带内进行管理,有些部件呢,则只能通过带外管理。带内管理在不同的操作系统下,又有不同的插件版本,真是让人晕头转向啊!就拿最简单的固件和驱动升级来说,往往就会用到多达四五种不同的工具和方法,机房运维人员焉能不大呼头痛?


是什么导致了这种结果?我认为是欲望以及面对欲望来临时的仓促应战。我们总是希望采用最新的技术,最新的设备,最新的软件,当出现一种新东西来临时,控制不住内心的冲动想拿来用用。这种人类根深蒂固的冲动才刺激了IT技术的日新月异,但是转回头想想,我们在不停增加新技术,不断将数据中心变复杂繁琐的同时,是否考虑过身处其中的底层运维人员的感受?


华罗庚说过,“神奇化易是坦途,易化神奇不足提”,我们现在做的很多看似高大上的新技术实际上就是一种易化神奇的过程,那么我们能否思考一下,如何才能神奇化易呢?


大道至简

华为服务器智能管理演进的思路

以华为最近发布的刀片服务器E9000内置集群管理模块为例,我们尝试说明一下何为极简管理?此次发布的MM920管理模块宣称可实现数据中心服务器的智能部署、智能版本管理、智能故障诊断、智能能耗管理 、智能资产管理等五个智能服务,实现数据中心管理界面的统一,所谓一机在手,天下我有!那么具体这个牛到不行的管理系统有啥特别之处呢?让我们一一道来。


亮点一

全新的软件架构



管好十万台服务器?必须靠智能!


FusionDirector是一个集中管理调度核心,除了可以批量部署、配置、升级设备外,还增加了智能运维的一些特性,所以这是一个全生命周期管理系统,从“生”管到“死”。



亮点二

高度集成的融合管理系统

管好十万台服务器?必须靠智能!

▲E9000机箱及内置管理模块MM920


此次的设计与其他厂家有所不同,华为E9000此次将服务器集群管理模块MM920集成在刀片机框内部,这样带来的最大好处就是无需在外部再配置一个管理节点,更经济环保,管理网络也更为简洁。另外管理节点默认就是1+1冗余备份,可靠性更高。


这个内置的管理单元集成了X86模块,集成了华为独创的服务器管理软件FusionDirector软件,不仅能支持前插服务器、后插交换板、机电系统的融合管理,还具备所FusionDirector的优点,可实现生命周期内的“五个智能”,极大提升数据中心的可管理性

▲华为智能服务器的“五个智能”服务

01

智能版本管理

无缝对接琥珀软件仓库,实现固件版本的检测、下载、升级等全流程自动化管理。可自动下载,自动检测固件、驱动和OS版本,全面管理所有固件版本;无需运维工程师手动下载固件、手动上传固件、手动升级固件,实现自动化;独立的带外通道升级,不占用业务带宽。


02

智能自动部署

FusionDirector支持将一台设备的所有配置形成一个Profile配置管理文件,支持批量配置,同时配置文件可导入、导出,可以快速复制到其它设备,实现硬件配置的灵活变更,提高故障设备更换、服务器扩容的效率。


大批量服务器的项目规划变成了可视化的界面,并可自动生成规划文档,这些规划文档可提供硬件配置,网络配置,固件管理等功能,并可快速生成配置规划任务,结合华为研发的U位识别模块,自动发现设备并自动完成部署。


03

智能故障预测

集成了华为的FDM(Fault Diagnosis & Management)技术,FDM是一系列诊断技术和工具的总称,通过打通服务器上的主要关键部件的数据收集通路,当部件产生故障时,BMC可以收集到故障相关的数据,作为诊断和预告警的输入数据,即使系统处于宕机状态,也不影响BMC带外链路搜集数据。


收集回来的数据经过华为多年积累的X86故障诊断专家库和自研芯片Hi1710的解析和诊断,精确输出故障部件位置并给出合理的处理建议,目前故障诊断成功率达到93%。


另外FDM能够针对各个部件进行健康监控分析,部件如果属于亚健康状态,则FDM会给出预警,提醒客户尽快更换,避免宕机事故的发生。


最后,针对已发生故障的部件,FDM能够根据不同的部件进行隔离,防止错误进一步影响业务。


04

智能能耗管理

智能服务器将动态CPU调频、风扇调速以及电源休眠等功能进行整合。当夜间业务负载较低时,用户将能耗模型设置成节能模式,智能服务器动态地调节CPU频率,限制功率数值,同时让部分电源进入休眠模式,进一步节约能耗。当日间业务负载较高时,用户将能耗模式设置成高性能模式,智能服务器解除CPU调频限制和电源休眠配置,同时让风扇散热使用高性能的散热规格,节能策略的智能联动,单柜服务器有望节能10%以上


智能化的能耗管理平台还提供了机柜级能耗的智能控制,根据历史功率推荐合适的功率封顶值数值,在典型业务场景下,单柜服务器的部署密度可以提升15%以上,带来实实在在的客户收益。


05

智能资产管理

目前数据中心资产管理基本都是人工的方式进行,大型数据中心需要提前2个月进行盘点审核,单次盘点需要耗费3人月以上,而且人工盘点无法避免错误的产生,而核对一个错误资产又需要耗费2个小时,丢失的资产通常都在0.25%以上。还有个更严重的问题,CMDB数据和现网数据同步不及时,存在较大差异,导致很多“冤假错案”。


华为智能资产管理通过引入U位管理模块,可实现免人工干预,资产盘点效率提升95%以上,另外部件级的资产都可以管理,实现100%的资产管理准确率,还能实时同步到CMDB库,拒绝“冤假错案”。华为的资产管理系统还可以导出全面资产信息报表,实时跟踪资产变更情况,防止资产丢失。


以1万台服务器为例,采用华为智能资产管理,每年的收益预计在30万人民币以上。


亮点三

支持弹性扩展

内置FusionDirector后,统一的管理平台可支持大于5000个节点的管理,除了能管理现网所有的刀片服务器节点和交换板,还支持管理数据中心的机架服务器、高密服务器等其他形态的华为服务器,真正实现统一管理。


另外FusionDirector可支持1到8的集群平滑功能,这个比1+1的普通冗余更加可靠。


亮点四

智能网络配置

管好十万台服务器?必须靠智能!

管好十万台服务器?必须靠智能!

▲可视化的网络配置界面


全可视化的网络管理功能,可视化的网络拓扑信息,以及可视化的配置管理功能,让“数通小白”也能轻松配置刀片服务器的网络交换机和网卡参数。


另外为了减少出错,网卡配置与交换配置统一管理,自动关联,无需用户手动配置。


亮点五

移动APP配置

管好十万台服务器?必须靠智能!

▲手持设备管理界面


智能服务器支持维护人员在近端通过蓝牙、WiFi接入服务器运维系统,在服务器部署和故障定位排查提供了极大的便利性。


以部署和维护场景为例,智能服务器提供一键式WiFi热点按钮,维护人员到达现场后,按下服务器上的WiFi热点按钮,并使用移动App扫描服务器上的条码接入服务器运维网络,快速维护服务器的框位信息及下发配置操作,或者根据移动App提供的装配和故障排查指导进行装配和维修等。


后记

老子《道德经》曰:“万物之始,大道至简,衍化至繁”。服务器管理系统也是沿着从简单到复杂的路径在演变,华为服务器选择在复杂的管理系统内,返璞归真,重新回归极简化设计,将方便和快捷留给客户,让服务器的管理不再繁琐,让运维人员也拥有轻松愉悦的生活。这是时代的福音,也是信息化爆炸后回归本源的历史必然。






相关推荐 / 热点新闻
2020 - 09 - 23
点击次数: 505
金九银十,九月是一个分别的季节,也是一个丰收的季节,九月我们告别了炎炎的夏日,迎来了凉爽的秋季,社会秩序在新冠疫情过后正在有条不紊的恢复,各个行业也逐渐复工复产。迎国庆,庆中秋2020年9月18日(星期五)全码特携手华为存储成都站正式拉开帷幕。全码特作为华为在川藏地区的金牌分销商之一,此次华为存储成都站选中我们,全码特倍感荣幸!全码特作为四川ICT建设的元老,在企业自身发展的道路上也助力各个行业乃...
2020 - 09 - 01
点击次数: 513
两情若是长久时,又岂在朝朝暮暮”,这是众人熟知的诗句,出自宋代大诗人秦观的《鹊桥仙·纤云弄巧》,古时候七夕只能望月寄相思,书信是表达爱意的方式,车马是传递信息的唯一途径。而在我们飞速发展的时代,相思,相见,想诉,却是那么的触手可及。你不用每早快马加鞭前往朝廷议政,你不用研磨执笔书写您的未来,所有的一切全在你的指尖。    8月24日,农历七月七日七夕节前一天全码特的小...
2020 - 08 - 19
点击次数: 504
时隔十八个月,计算与存储再次携手,于8月16-20日在云南大理共同举办“华为分销合作伙伴峰会”,本次大会旨在答谢合作伙伴过去对华为的贡献,同时向伙伴们传达最新的渠道政策及规划,为2020年分销业务铺平前进的道路。会议分为两大部分:         8月17日(周一):计算日(2020华为-intel分销合作伙伴峰会)  8月18日(周二)...


Copyright ©2018 - 2019 成都全码特时代科技有限公司
犀牛云提供企业云服务