大数据定义智能运维(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-22 23:52:17

点击下载

作者:汤滨

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据定义智能运维

大数据定义智能运维试读:

前言

我国著名的科幻小说《三体》中有一个来自理工男作者极为天才、大胆且具有颠覆性的设想,叫作“降维攻击”。

我们可以通过学习这种思维方式来对今天的运维成本中心予以升维定位。可以认为,未来的运维中心将会成为企业的基础资源管理中心、基础能力中心和基础创新中心。

之所以有这样的定位,是因为未来企业的所有数据资源都将集中在业务数据平台和基础数据平台这两大核心平台之上,企业所有的能力、所有的创新,都需要这两大平台的支撑。而这样的升维定位也为企业运维数据资产化和运维数字化转型明确了方向。

有了这样的定位,读者就会明白未来的AIOps一定是平台化的,是具有科学方法论的,更是在全局基础数据资源统一管理基础上的创新和发展。这其实与近期提出的DataOps概念异曲同工。同时,读者也就一定能够理解本书所定义的AIOps与目前业界各运维工具类厂商所定义的根本不同。工具类的运维软件厂商会就某些业务场景开展数据分析,而这其实是算法IT运维(Algorithmic IT Operations)的范畴,AIOps应该具有体系化的理论依据与平台化的整体构思。

只有平台才能发挥数据整合的威力与能量,而数据的整合当然需要治理先行。在传统业务数据平台领域有太多由于没有开展数据治理而造成种种问题的前车之鉴,而这些教训值得运维数据平台的建设者借鉴。

然而,在构思运维数据治理体系的时候我们也曾经有很多困惑。传统的比较成熟的数据治理方法或最佳实践在运维领域很难照搬套用。比如,运维数据领域无法直接从结构化数据库中获取全量元数据,因为在套用业务数据治理理论时总是有很多不同之处。一直到我们提出了广义元数据管理、广义数据标准和广义数据模型后这些问题才迎刃而解。由此顺藤摸瓜,我们总结出运维数据治理的差异化需求和特点。这是我写这本书过程中的最大收获。所以,本书提出了业界第一版的运维概念模型,也分析出数据湖技术更为符合运维数据平台的特点和需求。

本书力求通过创新的思考帮助用户厘清思路,发现问题,确立方向,找到那条数字化转型可行的路。在书中有三大预言,我们希望与读者一起去见证未来。

本书最后一章对工业运维略作延展,因为今天方兴未艾的智能制造、工业4.0同样也需要智能工业运维的保驾护航。工业运维与IT运维具有明显的差异性,所以书中对包括数字孪生技术和时空数据技术在内的物理融合模型做了介绍和说明。我们认为,工业运维不是简单地搭建一个云平台,通过数据接口接通很多生产线的实时物联网数据,然后开展若干统计与可视化,这样的过程还不足以称为工业运维。智慧的工业运维需要在数据融合的基础上通过治理实现数据资源体系化的梳理,然后结合实际环境、具体业务场景和业务需求开展AI分析并支撑快速决策。

我们认为,工业运维可以借鉴AIOps的理论与方法,结合工业运维需求予以分析和开展。今天信息技术(Information Technology, IT)、通信技术(Communication Technology,CT)和运营技术(Operational Technology, OT)的融合已经没有技术障碍,这为在工业运维领域通过AI技术实现自动化和智能化奠定了坚实的技术基础。相信在不远的将来,智能工业运维一定会蓬勃发展。

最后,感谢在本书的完成过程中给予指导和建议的所有朋友和老师,感谢大家的支持,本书的成果离不开你们的帮助,这里一并致谢!由于是全新领域的构思,相信书中一定会有纰漏之处,我希望得到业界同行的批评指正,与大家共同创新,共同探讨运维发展之路!汤滨第1章 总论Chapter One1.1 运维管理的现状

当今时代正在经历由于新技术而引发的颠覆性变革。5G、物联网、云计算与大数据、人工智能和区块链等新技术的诞生或发展,都为人类对这个世界的认知和运转带来了新的角度和新的模式。

但对于系统运维的从业者来说,新技术的降临却是富有挑战的。从前十年的虚拟化,到今天的混合云,容器技术、微服务架构,还有就是如火如荼的数据中台、技术中台、业务中台等超前的技术理念所带来的架构变化,不断发展的技术引领着业务应用创新和业务创新,为系统运维的工作带来了空前的现实挑战和压力。

传统的运维技术手段已经不能满足今天超大集群环境的要求,而系统故障带来的损失也是灾难性的,成为运维发展史上一个又一个血的教训。这种灾难的成本也由于对于IT系统依赖程度的加深而成几何级数的增长。

图1-1列举了历史上重大运维事故的惨痛教训。图1-1 运维历史大事故时间轴

试想从UNIX小型机时代到今天基于云架构的hadoop超大服务器集群,系统运维的目标也正在从支撑稳定运行发展到支撑每秒超过30万笔交易的高效运行,这必将呼唤新一代运维技术的诞生和发展。从早期的网管软件,到IT基础架构库(Information Technology Infrastructure Library,ITIL)理论体系的形成,再到日志管理、NPM、APM等监控工具的广泛应用,运维管理已经从原始数据层级发展到了满足管理人员洞察秋毫的需求。随之也产生了ITIL、ITSS、ITOM、ITOA、ITSM、DevOps以及2017年由权威机构Gartner总结的AIOps等运维理论。运维管理的关注点也从最早的对设备状态的监控发展到对事件的系统化认知,进而提升到高效服务的高度。

技术与理论的发展从来都伴随着市场的需求。ITIL理论从业务管理、服务管理、ICT基础架构管理、IT服务管理规划与实施、应用管理和安全管理六个模块对运维的标准化管理体系进行了概括和总结,并明确指出服务管理是其中最核心的模块。信息技术服务标准(Information Technology Service Standards,ITSS)是一套成体系和综合配套的信息技术服务标准库,它全面规范了IT服务产品及其组成要素,可用于指导实施标准化和可信赖的IT服务。ITSS将信息化服务的组成要素分为IT服务人员(People)、流程(Process)、技术(Technology)和资源(Resource),并由此形成了PPTR理论体系。从ITOM到ITOA是IT运维从管理到分析的渐变过程,它从实际需求的角度证明了由传统的简单监控管理到应用数据分析来开展运维业务洞察的技术方向。

当今主流的IT运维管理工具可以概括为如下三大类:

1)监控IT环境运行状况的监控工具,包括网络监控、应用监控、流量监控等。这类系统相当于运维管理人员的眼睛,可以帮助他们掌握运行状况。

2)自动化工具,包括自动执行系统的安装、发布和配置等。这类工具以提高效率为主,相当于运维人员的智能机械手。

3)流程类工具,用于确保各类事务流程化、规范化以及对服务质量的管理。

那么,什么才是运维管理的“大脑”呢?

这就好比人体是由大脑、神经、骨骼和血液等共同组成的有机整体,大脑就是总指挥。如果把血液比作数据,那么神经网络就是对整体躯干的监控,大脑就是所有数据和信息反映汇总与决策的平台。要发挥大脑的价值,首先运维系统必须是一个有机躯体。

孤立的系统就是信息孤岛,烟囱式的系统建设结果是数据碎片化、监控单一化和分析手段的局限化。这样的运维管理在整体效果上必然会导致人工运维费用居高不下,系统处理与问题判断非常复杂且效率低下,后台维护成本高昂,由于知识积累与传承困难而造成的培训成本趋高等现象的发生。因此,运维数据价值没有被挖掘也无法成为资产管理的基础。

例如,传统的ITIL运维管理流程已经在许多组织中得以推广应用,然而当DevOps团队开始使用Jira(一种项目与事务跟踪的工具)来记录缺陷和功能性的改进时,ITIL就受到了一定的挑战。因为在使用APM时,IT运营与安全团队是无法通过各种本地或远程事件来捕获或识别多种威胁的。因此,就需要在应用程序、服务或业务的价值链中确定所有有效的结果性指标,并制订出一个方案来汇集这些数据,以便通过这些数据来掌控全局。

这就是数据的力量与价值所在。1.2 AIOps为什么会成为公认的运维管理的方向

现实的问题就是创新的原动力!

Gartner在2016年就提出了AIOps的概念。在2018年的一项调查中发现有超过50%的客户已经采用或是计划开展AIOps的工作,预测到2020年将有56%的基础设施和运营管理的负责人会在AIOps技术方面实现投入。而AIOps在Gartner的技术发展曲线中也正处于起步上升的阶段。

对用户而言,运维技能的不足或短缺,由于正在持续扩张的基础设施规模而造成的复杂的管理流程,以及紧张的运维成本预算和持续变化增长的各种管理需求,都是具体而实际的运维业务的挑战,也是用户开展AIOps的原动力所在。

具体展开就可以完全弄清楚为什么AIOps是运维未来的必然方向。

运维管理人员素质的良莠不齐将为运维管理知识的沉淀与迭代带来成本;复杂的管理流程将为运维效率的提升带来障碍;不断引进的新技术应用与规模不断增长的基础架构造成了实际管理需求的不断变化与挑战,而愈发吃紧的运维预算成本又再三强调要在效率与保障之间艰难地找寻平衡点。

所以AIOps才是所有这些问题的解决之道。如图1-2所示,AIOps的威力在于,通过贯通融合的数据流转,实现了对于基础设施或系统应用的状态洞察与风险分析,改变了传统运维关注点与事后处理的被动模式;而数据流转又改变了数据供应链和数据供给的模式,为流程的优化和效率的提升提供了实际依据的基础资料。效率的提升必然会带来效益的提高或成本的降低,所以AIOps是传统运维工具无法达到的高度,也是企业运维管理保障体系建设的必然选择。图1-2 传统运维与AIOps关注点的差异

AIOps(Artificial Intelligence for IT Operations)其实是整合IT服务管理(ITSM)、IT运营管理(ITOM)和数据层面上的IT运维的一种基于智能化的自动化处理与管理能力。AIOps使得数据能够驻留在支持实时应用分析和深度历史查询的大数据平台之中,而这些分析可以由那些支持对数据流进行无人值守式处理的机器学习来实现。这意味着传统的IT工具仍然发挥效用,例如服务管理仍然处理各种请求和事件;性能管理仍然监视各种指标、事件和日志。而AIOps则可以对所有基础数据进行梳理并发现关联,进而借助机器学习的分析,为运维管理与决策提供更好、更快的数据支撑,实现运维的服务任务过程的智能化和自动化。

由此我们可以设想一些具体的场景来描绘未来AIOps的最终状态。首先,要保证数据能够顺畅地从多个数据源汇入到一个统一且完整的数据平台中。该平台能够对来自其他来源和类型的数据予以吸收、分析和后期处理;通过机器学习来管理和修改分析算法。平台具备自动触发工作流的机制,其输出结果会作为二次数据源被再次反馈到系统之中,使得系统实现自适应,并且通过响应各种数据卷、数据类型和数据源的变化,进而自动调整和按需通知相应的管理员。

就实际情况而言,对于今天集团级企业复杂的IT环境,基于AIOps的智能运维是企业管理的必要措施之一。一个真实的案例:某国内大型银行,几乎部署了所有主流运维软件系统并覆盖了整个数据中心,由此触发了每天超过20000条告警,整个团队变成救火队员,应接不暇、疲惫不堪。为此,他们专门开展了人工智能的算法研究,通过机器学习技术将报警压缩合并到每天150条之内,且有明确等级分类与责任归属,让报警处理工作变得井然有序,“救火队员”也减少了三分之一,这就是人工智能在运维工作中的实际价值。1.3 AIOps对于运维数据管理提出的需求与挑战

是时候来为AIOps正名了!

国内很多厂商在原有产品的基础上通过引入一两位算法工程师或是基于某个具体业务场景开展了预测分析就摇身一变成为了AIOps。这是对AIOps的以偏概全,其本质上尚处于算法运维(Algorithmic IT Operations)的范畴。业界普遍将关注点一下子集中到AI场景中,多少有些急功近利。国内所有对于AIOps的介绍与讲解几乎都没有涉及基础数据管理的层面。如图1-3所示,业界将AIOps根据能力层级划分成五个阶段。图1-3 AIOps的五个能力阶段注:摘自《企业级AIOps实施建议》白皮书。

如图1-4所示,也有人认为AIOps可以划分为四个发展阶段。图1-4 业界总结的AIOps的四个发展阶段

开发运维一体化(DevOps),一方面要带着运维的思想开发,开发过程中除了注重需求功能外,还要(从代码质量、规范、安全性出发)考虑如何降低运维工作量,以及运维便利性,要使功能和运维二者兼得;另一方面运维要考虑如何在运维中发现解决问题的方法,并且通过程序变更或使用工具的方式(非重复的人力劳动来完成)来解决运维中的问题,从而使应用程序从开发到运维的流程顺畅,投入的人力成本总和最低。所以,DevOps应该是思想流程的融合,而非简单的自动化,也不完全是AIOps的必经阶段。

上述层级的划分为AIOps从点的应用到面的推广,再到最终形成智能运维的能力绘制了路线图。然而这些理论没有提及数据层面的问题,这是明显的不足。

AIOps平台的重要组成如图1-5所示。

近期,Dataops理论的提出完善了AIOps的成长轨迹,图1-6中予以了说明。图1-5 Dataops在AIOps阶段中处于重要位置图1-6 支撑AIOps的三大要素

如图1-7所示,AIOps的核心应该是通过对数据的分析挖掘来实现具有业务价值的结果,从而减轻运维工作人员的工作量,提升效率。AIOps的成功在于三点,一是基于明确的业务场景的算法分析模型以及持续优化的能力;二是有覆盖全部基础数据的具有高可靠性且统一管理的基础数据平台的支撑;三是有运维数据治理保障与基于运维数据资产管理的数据中台建设的支撑。图1-7 支撑AIOps的三大要素

这里可以总结出数据是AI分析的重要基础,AIOps是继算法运维(Algorithmic IT Operations)后的智能运维能力的集大成者。如图1-8所示,通过数据完整描绘的运维画像将对AI形成强大的支撑能力。

所以,没有高质量的全量数据的保证,AIOps也是巧妇难为无米之炊,而离开了数据平台的AIOps又是局限的,无法发挥数据应用的效率和效能。图1-8 AIOps的实现思路

例如,国内某银行开展容量预测,希望能较准确地预判特定高发交易时段对计算资源的需求。然而,服务商本身就是银行业务系统的开发商,所能得到的仅仅是业务系统中的历史交易记录数据,分析的结果误差始终达不到业务要求也无法实现业务价值。经过交流我们发现,包括新开卡的用户数据、新下载App的记录数据都无法获得,且历史交易数据不能满足一个完整的计算分析周期,这当然无计可施了。

数据缺失造成因变量输入不足,结果可想而知。这样的问题,不是AIOps能解决的。这也就体现出完整的运维画像的重要性。

AIOps首先依靠的是人工智能的分析应用能力,然后才是将人工智能应用到运维管理的运行领域形成AIOps理论体系,而人工智能则是将数据通过机器学习的手段以类人工的智能手段与方法实现的应用。由此可以得出的结论,对数据的管理和应用是走向AIOps的必由之路。图1-9给出了一个运维全维度视图并加以说明。图1-9 IT运维的全维度总览

第一层级是工具层,就是通过各种监控、流程管控和自动化工具实现运维的基础管理,掌握整体的IT环境状态。

第二层级是平台层,通过运维数据的模型建设实现运维数据平台的统一管理并形成资产化,以此来支撑能够满足未来极大丰富业务场景AI分析的数据中台,并形成完整的数据供应链。

第三层级是能力层,通过AI分析实现资源优化、态势感知、业务洞察等各种能力的培养,实现智慧运营。

数据的支撑是AIOps最主要的基础。然而,要基于复杂的海量实时异构数据来开展类人工智能的机器学习训练也是一项挑战。各种监控工具、自动化工具和流程工具都在实时产生数据,将这些数据整合是困难和复杂的,其挑战在于:

● 能否实现清晰的数据架构和数据目录体系。

● 能否实现统一的数据标准和高可靠性的数据质量保障。

● 能否构建准确统一的数据标签(数据业务语义识别)。

● 能否实现无障碍的、高效共享的数据供应链。

● 能否建立完整统一的基础数据支撑平台。

这样的需求,为运维数据治理工作提供了方向,并且企业完成了这样的工作,也就实现了运维数据的资产化管理。

通过数据治理实现运维基础数据平台建设,是AIOps的必由之路。可以预见的是,随着分析能力的增强与提升,未来AIOps的业务场景将是极大丰富且非常多元化的,数据平台坚如磐石般地支持前端的分析创新,正是企业运维管理的重要保障。

基于AIOps的智能运维,体现的是多种运维技术的融合,融合的重点在于数据、策略、流程、执行和可视化的联动,其中:

● 数据是智能运维的源泉和基石。

● 策略是分析大脑。

● 流程是联动整个平台的中枢。

● 执行是以自动化手段为抓手。

● 可视化将整个平台予以聚集并统一直观展示。

数据平台就是智慧运维的大脑!这是某大型银行运维负责人员给出的关于运维数据平台的定位。

那么,应该如何构建一个高效的、可以支撑未来多变的AIOps应用的数据平台?

本书试图通过对于运维数据治理的差异化分析提炼出运维数据管理的特点和方法,并通过对运维管理数据开展治理的最佳实践介绍来构建一个统一的运维数据管理平台,从而为AIOps提供数据支撑,希望能为客户的智慧运维管理带来全新的理念和思路!第2章 需求分析Chapter Two2.1 企业数据治理概论

在介绍运维数据治理之前,我们首先需要对企业面向业务的数据治理有一定的理解。

应该承认,国内企业在大数据技术成熟并得到广泛应用之前并不是很重视数据治理。国内有太多企业匆忙之间建设了数据平台然后又发现报表不准、数据质量不高或是业务场景模糊,从而造成项目失败或是没有达到预期效果的案例。在付出了高昂的学费代价后,数据治理工作的意义与作用才逐渐被企业理解并接受。

数据治理工作在今天已经被企业认为是一项必要的基础工作,数据资产化也已经在广大客户中得到共识,并被提升到企业实现数字化转型的重要基础与保障的高度。即使是对正在铺天盖地广泛宣讲的数据中台技术而言,数据资产管理也是其核心组件。

如图2-1所示,企业在开展数据平台建设的过程中,必须首先通过数据治理摸清“家底”,梳理清楚企业数据架构和数据目录体系,并通过数据标准管理和数据质量管理来保证进入平台数据的高可靠性。然后,构建企业核心的数据主题域建设和业务数据模型,由此完成企业的数据资产管理,并通过数据模型实现全局的数据标准的统一。最后,构建数据集市或通过数据中台封装后以DATA API的方式共享给业务部门并开展自助式分析,形成快速决策和业务创新的能力。图2-1 数据治理支撑数据平台建设

企业数据治理并不是崭新的技术,相反,由于长时间的历史积累,在传统企业数据治理领域,除数据资产价值评估尚处于探索阶段外,企业数据治理从理论到最佳实践,从系统平台到组织架构设计,以及岗位职责的制定和制度管理都是趋于成熟且比较清晰完善的。

早在1988年成立的国际数据管理协会(The Global Data Management Community,DAMA)对企业数据治理理论的研究已经持续了超过30年。DAMA致力于企业信息和数据管理的研究、实践及

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载