king

技术专题·智能化运维

king 运维技术 2022-11-20 577浏览 0

  一、曲显平

技术专题·智能化运维

  曲显平,百度智能运维监控负责人,在运维监控、大数据处理与分析方向有着丰富的经验。

  点评内容:

  2015年是中国互联网智能化运维发展的元年,BAT等相继提出这一思路,在这一领域进行了一些卓有成效的尝试。随着互联网产品的蓬勃发展,和PAAS、APM、智能异常检测、大数据分析、机器学习等技术的兴起和逐渐成熟,运维技术也开启了一个新的篇章,不难看出,这些技术都是希望解放人的大脑和双手,而智能化便是大势所趋,众望所归的结果。

  智能化运维,顾名思义,与平台化运维和自动化运维有着明显的不同。平台化运维注重的是入口的统一,运维服务或能力的复用,减少重复劳动,规范化操作;自动化运维注重的是大规模、批量化操作,一个程序一次性部署在成千上万的服务器上,或者针对某些特定场景,能够进行简单的逻辑执行,把繁杂的运维工作组织为一个有机的过程,一次性执行。而智能化运维,是更大跨度的向前一步,这个标志应该是运维工作从依靠人工决策,逐步转为依靠机器决策。举几个例子,故障的发现,以前多靠人工经验来设定监控阈值,而机器可以通过历史监控数据规律的学习,自动生成更加准确的阈值或通过异常模式识别去主动判断异常的发生。这不仅能够大量简化人的工作,而且比人更精准;故障的定位,以前多靠人翻阅大量的监控数据、服务器日志,甚至联络各相关团队工程师,分析线上所有变更事件等才能定位一个问题,而机器可以根据系统中的网络、机房、程序上下游调用关系等,综合所有监控数据和采集日志,来综合分析和定位,这比人的效率更高且更全面;扩缩容、止损和预案操作等也是类似,还有很多其它的例子。智能化运维是希望终有一天,机器决策能够大幅超越人工决策,那也就是运维人性解放的时刻。

  2016年将是智能化运维全面铺开,得到大力发展的一年。APM、智能异常检测等技术将更加普及,逐渐取代运维工程师手工配置监控和实施策略。而智能化的故障定位技术也将覆盖更广泛,数据中心、网络、程序、业务等各个层面的故障定位能力将得到全面提升,极大解放oncall工程师的大脑和双手。而在故障恢复决策方面,智能化的监控系统将能够和PAAS或预案管理等系统结合起来,由监控系统给出判断决策,通知PAAS或预案执行系统来进行相应的降级或者止损操作。在不久的将来,相信运维工程师的双手会得到极大解放,逐渐告别繁复的基础运维工作,让他们在发展DevOps的道路上走得更加深入,每个人都成为领域专家。

#p#

  二、王津银

技术专题·智能化运维

  王津银,自称老王(非隔壁那位)。2007年进入腾讯公司接触运维,经历服务器从百到万的运维历程,先后在YY和UC参与不同业务形态的运维,期间带过前端运维、数据存储运维、YY语音、游戏运维、运维研发等多种运维团队,对运维有着全面的理解。极力倡导互联网价值运维理念,即面向用户的价值是由自动化平台交付传递,同时由数据化来提炼和衡量。

  点评内容:

  智能运维有着更强的技术驱动因素,因此,从运维的技术发展进程来看,我们可以看到几个阶段:

  1.脚本时代

  用ssh+exp代替了手工登录服务器维护的模式。

2.工具时代

  以chef/puppet配置工具为代表,把运维的能力变成一个个的工具能力。

3.平台时代

  随着IT敏捷性要求越来越高,需要把运维工具能力平台化,进一步固化运维的常见场景。

4.智能时代

  运维的精细化要求越来越高,从运维走向了IT运营,智能可以让运维更简单。

  智能时代的确需要更多、更综合的运维能力沉淀,需要更全面的自动化能力和数据分析能力,具体的实现需要考虑如下因素:

  1.多边系统集成

  基于IaaS/PaaS的运维模式,引申出运维平台的几种模型,但该模型还远远不够,他们存在边界的割接,因此需要一个运维平台来统一集成多方

  的平台能力。

2.多运维平台的闭环对接

  资源管理、业务信息管理平台、自动化平台、监控平台、IT数据运营平台等多个平台要闭环对接,才能提供一站式的运维服务能力。

3.场景化的智能模式抽象

  基于变更/故障/异常分析/预测等各个运维场景,都可以找到智能化的模型/具体实现。

  4.IT大数据分析提供智能决策

  需要更强的大数据实时分析能力,提供实时的变更和调度智能决策能力。

  5.技术架构的智能化

  无论是微服务还是Cloud Native的实现,其实都是从更高的技术架构要求上提供了自治能力,智能化的技术架构让智能运维真正有了可能。

#p#

  三、韩晓光

技术专题·智能化运维

  韩晓光,专业运维、兼职开发、干过商务,从事系统运维工作近10年。现就职于新华网(http://www.xinhuanet.com/),带领运维开发团队,承担社交互动媒体几十套业务系统、技术平台运维。曾就职于中航信旗下航空结算公司,承担国内外几十家民航业务系统运维。具有“信息系统项目管理师”、“IBM CATE”、“ITIL Foundation”、“RHCE”专业资格认证。

  点评内容:

  2016年以及未来一段时间,“智能”将会更加普遍的应用到现实中,使我们的体验更加丰富多元与深刻入微。比如人工智能、虚拟现实、物联网、大数据、图文识别等各种技术、产品将会深刻融入我们日常生活的方方面面。

  与此同时,运维工作也将更加体现在智能化。运维智能化背后则是各种运维理念、技术、产品的升级优化,以及创新。运维智能化将更多体现在对各种技术创新的融合方面。

  以往简单的运维监控,仅仅依靠几个互相独立监控网管软件来做。而运维智能化将更多体现在对各种运维信息的采集、分析、汇总、收敛、智能预警与智能自愈方面。

  以往简单的运维操作,通常写几个脚本、用几个运维工具就是运维的主要工作了。而运维智能化则更多体现在DevOps敏捷运营上,快速有效规范地开发与部署,不断地持续交付迭代。

  以往简单的运维规范,通常是没有太多规范的。开发、业务有需要,运维则被动执行一些运维工作。人员职责不清,设备资产管理混乱,运维工作随意没有规矩。而运维智能化则更多体现在标准规范上,大体量高规格,以及良好的应急机制。

  综上可见,由于运维智能化,运维工作不会是越来越清闲了,相反承担的企业发展战略的责任越来越大了。运维部门将由传统的IT成本中心更多地转向IT服务中心、价值输出中心、利润输出中心转变。

#p#

  四、编辑

技术专题·智能化运维

系统频道编辑 孙淑娟

  虚拟化、容器、移动化、Hadoop、Docker……层出不穷,令人眼花缭乱,云计算、大数据、移动通信等互联网新技术不断演进,运维的技术含量越来越大,相应对运维人员的综合素质及能力要求也越来越高,运维也不再是部署系统、写管理脚本那么简单了。

  而且,随着业务应用越来越复杂,设备数量越来越多,管理难度越来越高,运维人员必须高屋建瓴,全面谋划,有能力提供一个全局性、高效健壮、标准规范、自动化乃至智能化的解决方案并加以实现。

  智能化运维是用机器来代替运维人员,在最少人工干预下,结合运用脚本与第三方工具,保证业务7*24小时高效稳定运行,这也是运维工作的***目标。智能化运维要做到事前预警、事中恢复和事后存档,实际上有大量的工作要完成。智能化运维不仅可以将运维人员从繁琐的工作中解放出来,而且还大大提升了运维工作的效率,是2016年运维发展的主要方向。

  相关技术点推荐:

  ◆ PAAS平台

  ◆ SaaS平台

  ◆ 运维产品化

  ◆ 全栈运维平台

  ◆ 自动化运维

  ◆ DevOps

  ◆ 持续交付

  ◆ 分布式名字服务

  ◆ Docker

  ◆ Python

继续浏览有关 系统 的文章
发表评论