当前位置: 代写一篇论文多少钱 > 工程师论文 > IT智能运维发展现状与趋势

IT智能运维发展现状与趋势

时间:2019-11-07 10:43作者:王盼
本文导读:这是一篇关于IT智能运维发展现状与趋势的文章,AI自动化运维绝不是一个单纯的维护过程,更是一个IT管理的提升过程,是目前IT运维的最高层次,也是未来自动化运维的发展趋势。除了能自动化完成IT运维中大量重复的人工运维作业外,AI工程师还能自动识别、优化系统缺陷,

  摘    要: 本文旨在研究和展望AI自动化运维(智能运维)的应用现状和前景,探索基于人工智能与系统运维相结合,通过机器算法和AI学习能力来提升IT运维效率的方式、方法。传统IT自动化运维体系中重复性运维工作的人力成本和效率问题已基本解决,但在混合云等复杂场景中的故障处理、变更管理、容量管理、资源服务等过程仍需要人来掌控决策,从而阻碍了运维效率的进一步提升。随着人工智能的引入,逐步实现机器替代人来做出特定的决策,进而真正实现完整意义上的自动化运维。

  关键词: AI; AIOps; 自动化; 人工智能; 智能运维; 混合云; 虚拟; 工程师;

  1、 引言

  近年来,移动互联网、云计算、大数据等高新技术的应用正在不断成熟演进,区块链、物联网、人工智能等新兴技术也如雨后春笋般地不断涌现。谁能紧追时代浪潮、率先完成数字化转型,谁就能成为这个时代的“领导者”,反之,只能沦为“追随者”,甚至是“淘汰者”。

  企业进行数字化转型将为自身带来重大的发展机遇,同时也将面临更大的挑战,IT环境和故障处理将会变得史无前例的错综复杂。为此,企业通常需要IT部门提供更高效快速的应急服务能力,而这通常又将导致IT部门疲于奔波、分身乏术。为解决以上问题,越来越多的企业开始部署IT自动化运维系统。理想的IT自动化运维系统可以利用大数据分析技术,在复杂的混合云环境中自动执行服务请求、问题诊断、故障处理、预防性维护、变更管理等一系列作业。据Gartner统计,截至2017年,虽然75%的企业已在其IT管理中应用了4种以上不同的自动化技术组合产品,而在2014年,这一比例还不到20%。然而,目前大多数企业仍以分散、孤立的方式来部署自动化运维系统,这是自动运维的初级阶段。该阶段的显着特性就是人工为主、事后应急,对于企业来说收效甚微。迈向成熟的自动化运维的第一步,就是从这种应急式状态发展到结构化的自动化运维阶段,再利用AI机器人仿真故障问题解决过程,帮助企业实现高效的IT自动化运维——AI自动化运维。

  2、 IT架构和运维现状

  据研究表明,目前超过90%的领先企业都处于混合云的IT架构状态,并且混合云正在加速企业的数字化转型。毫无疑问,混合云成为了企业IT的新常态。

  尽管混合云技术可以为创新提供强劲驱动力,但也带来了额外的挑战:复杂性和风险性。典型的混合云环境通常包含私有云、公有云、云下物理机、云下虚拟化等多种平台、不同供应商产品的组合,云上云下、内外网、跨平台的系统交互和集成都加剧了IT环境的复杂性和关联度。如果企业的混合云整体架构设计不够健壮,系统中的任何一个小故障都可能导致整体IT系统性能下降、宕机,甚至业务中断。
 

IT智能运维发展现状与趋势
 

  Ponemon研究结果显示,2013年,单个数据中心宕机的平均成本为690,204美元,到2016年,该成本已经上升至740,357美元,5年内宕机平均成本增长率达到了38%,而最高的宕机成本增加更快,从2010年到2016年,该数值上升了81%。由于混合云自身的复杂性,通常来说,混合云环境下的宕机成本将比单个数据中心更高,这对于任何企业来说都是无法承受的。

  3、 混合云管理的挑战

  显然,高效的混合云管理已然成为数据中心预防宕机和业务中断的关键所在。然而,大部分企业目前尚未具备正确的流程和技术来有效地管理混合云的IT环境。此外,由于新技术和IT消费化的双重作用下,企业IT部门所扮演的角色也在发生根本性的变化。以往业务发展需要技术跟进提供支持,而今,技术将驱动并决定业务的发展水平。

  可见,混合云管理至少包含如下几方面挑战:优化企业IT系统和业务流程,为业务发展提供更多的创新支持和扩展能力;提升企业IT运维水平和能力,加快业务中断和系统故障的处理能力,降低事故造成的经济损失;降低企业IT运维的开销,实现IT运维的标准化、自动化、高效化。

  市场竞争变幻莫测,机遇转瞬即逝。企业若要稳步可持续发展,必须建立一套灵敏的IT混合云管理机制。企业IT只有紧跟业务发展,快速部署产品和服务,方能超越对手、永立潮头。因此,IT在混合云下的AI自动化运维水平将在很大程度上决定企业的竞争力。

  据Gartner等报告称,到2020年,近50%的企业将在他们的业务和IT运维方面采用AI自动化运维,这个数据远高于2017年的5%。

  4、 混合云下的AI自动化运维

  即使是灾备能力最强的IT环境,也必然会在某个时刻遇到问题。当这些问题发生的时候,解决问题的速度往往是决定企业综合实力的关键,更不用说对企业的声誉影响。

  举一个很多电商企业都不愿遇到但可能都经历过的尴尬场景:一家规模相当的电商企业A正在进行假日大促活动,此时网站或APP应用发生了一个软件错误导致订单系统出现了故障。数分钟后,客服坐席可能才接到顾客的抱怨,经过评估和层层上报,客服主管将故障信息传达至技术部门,技术主管立刻组织团队进行故障排查。由于流程传递、故障排查和处理,整个业务恢复可能耗费了两个小时。而在这短短的两个小时里,可能有几十位甚至数百位顾客从竞争对手那里购买了产品,对企业造成了巨大的经营损失。雪上加霜的是,此事件还引发了一些顾客的不满。于是,关于A企业出现系统宕机的消息在社交媒体和同行中传播开来。

  图1 AI自动化运维模型图
图1 AI自动化运维模型图

  现在想象同样的业务中断场景,不同的是企业A实施了基于AI的自动化的IT运维技术。当问题发生时,AI虚拟工程师会自动解决问题,完全不需要人为干预。仅在几分钟之内,故障解决,业务恢复正常运营,用户体验并未受到重大影响。这正是AI自动化运维所能带来的可能。

  AI自动化运维系统的基础是ITSM(IT服务管理),通过建立一套标准化的IT运维体系,人类工程师的日常运维经验和历史数据都将作为虚拟工程师(AI工程师)的知识储备,AI工程师通过不断的学习和应用得以进一步提升算法精度和效率。AI自动化运维系统下,常见系统故障将被快速自动化处理,AI工程师甚至可以预见一些故障隐患,提前进行优化处理,避免故障发生。而针对那些无法直接解决的更为复杂的问题,系统会自动生成服务请求并发送给人类工程师进行更高级处理或决策。

  AI自动化运维解决方案,可以为业务提供强有力的全程支持,覆盖从事件捕获和自动化到评估优化运维的各个环节,可以应用于服务器、数据库、中间件、集群系统、存储、网络,以及安全等各类业务。当然,为满足优化和敏捷性,AI自动化运维还应支持灵活的内部和云端部署选项。AI自动化运维模型如图1所示。

  5 、AI自动化运维的优势

  5.1、 实现IT故障7×24小时自动修复,提升系统高可用

  人工智能能够自动检测并修复问题,持续监控IT环境,自动识别并解决潜在问题,这是防止宕机事件的法宝。人工诊断和操作难免会出现错误,而人工智能却能始终保持高度准确性,并可以一次性修复问题。此外,由于企业IT自动化运维全天候工作,所以它可以极大地提高运营效率和速度,并且防止小问题演变为重大问题。

  图2 AI自动化运维的优势
图2 AI自动化运维的优势

  IBM在北美地区的一家客户企业在实施了IBM企业IT自动化解决方案之后,实现一级严重性宕机事件减少90%。这正是由于自动化技术能够在早期解决较低严重性级别的事件,防止其引发更加重大的系统故障。

  如若发生宕机,IT自动化运维也可以显着缩短解决故障的平均时间。毕竟,自动化技术可以省去故障解决流程中许多耗时的环节,比如寻找合适的技术人员来解决问题,电话联系或在现场接触技术人员,向专家解释问题、诊断问题,以及实际解决问题等即使当虚拟工程师无法解决这个问题时,自动化技术也可以支持技术人员实时捕获诊断数据,帮助他们更快地解决问题,节省运营成本,提升运营效率。

  5.2、 优化IT资源调配,大幅提高企业生产力

  企业的IT精英可以专注于解决复杂的更高级别的严重性问题,而不是被指派去管理三级或四级严重性“应急工作”。IT部门应该也愿意将他们的技能应用到更具战略性的工作上,从而为企业带来更多价值和创新成果。

  5.3、 提供数据捕获和日志记录能力,简化合规管理

  在合规管理方面,数据是企业最宝贵的资产。IT自动化运维可以通过广泛的日志记录审计功能来帮助简化合规管理。例如,该技术可以捕获并记录所有已执行的操作和活动。这一层次的细腻程度将胜过目前任何用于跟踪和监控人类工程师行为的技术。在合规审计期间,它可以帮助企业更轻松地收集所需要的数据,从而持续进行合规管理。

  5.4 、集成企业ITSM,提升自动化运维的精准性

  人工智能与ITSM工具进行交互,通过学习历史运维数据和系统监测数据,可以模拟IT工程师的故障处理操作,最终达到识别、执行自动化用例,甚至对已部署的自动化用例评估出改进方案。

  AI自动化运维的优势如图2所示。

  6 、结束语

  总之,AI自动化运维绝不是一个单纯的维护过程,更是一个IT管理的提升过程,是目前IT运维的最高层次,也是未来自动化运维的发展趋势。除了能自动化完成IT运维中大量重复的人工运维作业外,AI工程师还能自动识别、优化系统缺陷,解决故障、避免系统隐患和风险。

  在可见的将来,AI工程师必将取代大部分的IT运维人员,但高级运维工程师并不会被轻易取代,他们反而将从基础性维护工作中彻底解放出来,得以实现更高的技术价值。当然,这个过程不会一蹴而就,需要不断应用实践和业务落地,在历经循序渐进的价值普及之后,AI自动化运维最终将实现无人参与的IT故障自动化修复,风险自我预测规避,以及系统健康性的自我升级维护。

  参考文献

  [1]赵晏.IT基础架构:系统运维实践[M].北京:机械工业出版社,2018.
  [2]云技术社区.运维前线:一线运维专家的运维方法、技巧与实践[M].北京:机械工业出版社,2017.
  [3]彭冬,朱伟,刘俊.智能运维:从0搭建大规模分布式AIOps系统[M].北京:电子工业出版社,2018.

联系我们
  • 写作QQ:79211969
  • 发表QQ:78303642
  • 服务电话:18930620780
  • 售后电话:18930493766
  • 邮箱:lunwen021@163.com
范文范例