大数据、数据挖掘与智慧运营(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-23 20:47:05

点击下载

作者:梁栋,张兆静,彭木根

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据、数据挖掘与智慧运营

大数据、数据挖掘与智慧运营试读:

前言

数据挖掘(Data Mining),是指从数据中发现知识的过程(Knowledge Discovery in Databases, KDD)。狭义的数据挖掘一般指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用知识的过程。自从计算机发明之后,科学家们先后提出了许多优秀的数据挖掘算法。2006年12月,在数据挖掘领域的权威学术会议the IEEE International Conference on Data Mining(ICDM)上,科学家们评选出了该领域的十大经典算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes和CART。这是数据挖掘学科的一个重要里程碑,从此数据挖掘在理论研究和实际应用两方面均进入飞速发展时期,并得到广泛关注。

在实际生产活动中,许多问题都可以用数据挖掘方法来建模,从而提升运营效率。例如,某企业在其移动终端应用(App)上售卖各种商品,它希望向不同的客户群体精准推送差异化的产品和服务,从而提升销售业绩。在这个案例中,如何将千万量级的客户划分为不同的客户群体,可以由数据挖掘中的聚类分析算法来完成;针对某个客户群体,如何判断某个产品是否是他们感兴趣的,可以由数据挖掘中的分类分析算法来完成;如何发现某个客户群体感兴趣的各种产品之间的关联性,应该把哪些产品打包为套餐,可以由数据挖掘中的关联分析算法来完成;如何发现某个客户群体的兴趣爱好的长期趋势,可以由数据挖掘中的回归算法来完成;如何综合考虑公司的KPI指标、营销政策和App页面限制等条件,制订最终的落地营销方案,可以基于数据挖掘中的ROC曲线建立数学模型求得最优解来解决。

当前,许多企业正面临前所未有的竞争压力。以运营商企业为例,从政策层面看,国家提出了“提速降费”的战略指示:一方面要提高网络连接速度、提供更好的服务,这意味着公司成本的提高;另一方面要降低资费标准,这意味着单个产品收入的下降,运营商该如何化解这对矛盾?从运营商内部数据统计看,传统的语音和短信、彩信业务收入占比正不断下降,传统的利润点已经风光不再;流量收入目前已占据主要位置并保持上涨趋势,但单纯的流量经营又将面临“管道化”压力;未来的利润增长点要让位于被称为“第三条曲线”的数字化服务。运营商该如何经营这一新鲜事物?从外部环境看,互联网和电子商务企业借助其在各方面的优势,已经对运营商形成了巨大的压力,特别是在数字化服务营销领域,传统运营商企业已经不再具备优势,又该如何应对互联网企业的全面竞争?

随着移动互联网和物联网时代的来临,人和万事万物被广泛地联系在一起。人们在联系的过程产生了大量的数据,例如用户基础信息、网页浏览记录、历史消费记录、视频监控影像,等等。据此,以Google为首的互联网公司提出了“大数据”(Big Data)的概念,并声称人类已经脱离了信息时代(Information Time, IT),进入了大数据时代(Data Time,DT)。显然,海量数据包含了非常丰富的浅层次信息和深层次知识。对于同一竞争领域的企业,谁能获取最大量的数据,展开最精准的数据挖掘与建模分析,并加以精细化的落地实施,谁便能在行业竞争中取得优势。对于运营商企业而言,其具备的一个显著优势便是手握海量数据资源。如果能运用先进的数据挖掘技术找出客户的行为规律,从传统的经验式、粗放式、“一刀切”式的运营决策向数据化、精细化、个性化的运营决策转型,运营商将迎来新的腾飞。上述运营模式转型的目标,便是所谓的“智慧运营”。

目前,人类对大数据尚没有统一的、公认的定义,但几乎所有学者和企业都认同大数据具备四大特征(四大挑战):体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、需要实时处理(Velocity)。这其中最重要的一点是类型繁多,即过去人类的数据储备以结构化数据为主,而未来将以非结构化数据为主。回到之前提到的App营销案例,企业基于用户的基础信息、历史消费信息、简单的网络行为信息等结构化数据展开挖掘建模,被认为是传统的“基于数据挖掘的智慧运营”。随着时代的发展,企业还掌握了用户观看在线视频的内容数据、在营业网点接受营业员推荐的表情信息和语言交流数据、用户在客服热线中的语音咨询数据等。这些数据被统称为非结构化数据,随着语音识别、人脸识别、语义识别等新技术的发展成熟,对非结构化数据的分析挖掘已成为可能,并将获得广阔的商业应用空间。基于非结构化数据的挖掘建模又被称为“基于人工智能的智慧运营”。考虑当前大部分企业的实际运营现状,本书将主要围绕“基于数据挖掘的智慧运营”展开讨论,“基于人工智能的智慧运营”将在后续书籍中展开讨论。

本书共分为九章:第1章大数据、数据挖掘与智慧运营综述,讲述数据挖掘的基本概念和发展史、大数据的时代特征、当前结构化数据挖掘进展、非结构化数据挖掘与人工技能进展、数据挖掘的主流软件等;第2章数据统计与数据预处理,讲述在数据挖掘之前的数据集成、数据清洗、数据衍生、数据统计等;第3章聚类分析,重点讲述K-means、BIRCH、DBSCAN、CLIQUE等几种主流经典聚类算法;第4章分类分析,重点讲述决策树、KNN、贝叶斯、神经网络、SVM等几种主流分类算法;第5章回归分析,重点讲述线性回归、非线性回归、逻辑回归等几种主流回归算法;第6章关联分析,重点讲述Apriori、FP-tree等几种主流关联算法;第7章增强型数据挖掘算法,重点讲述随机森林、Bagging、Boosting等几种主流增强算法;第8章数据挖掘在运营商智慧运营中的应用,展开讲述数据挖掘方法在外呼营销、精准推送、套餐适配、客户保有、投诉预警、网络质量监控、室内定位中的应用;第9章面向未来大数据的数据挖掘与机器学习发展趋势,简要讲述数据挖掘领域的前沿研究进展。

全书以运用大数据挖掘方法提升企业运营业绩与效率为主线。第3章至第7章组成本书的理论知识部分,在讲述理论知识的同时,这部分每章都配套列举了大量实际应用案例,及其在SPSS等分析软件中的具体操作流程。此外,第8章从运营商实际工作中选取了大量运营和销售案例,详细讲述了数据采集、挖掘建模、模型落地与精准营销的全部过程。书中大部分案例的代码、软件操作流程和微课视频可以通过扫描本书封底的二维码下载。

本书基于作者所带领的研究团队多年研究积累和在运营商企业广泛落地应用的基础上提炼而成。全书由曾丽丽博士组织并统稿,梁栋、张兆静和彭木根撰写了主要章节,研究团队中的谢花花、柯联兴、张笑凯、鲁晨、李子凡等在读研究生参与了部分章节的写作,胡林、唐糖等团队外专家参与了部分章节的写作并给出了宝贵的意见。在本书写作过程中,中国移动及许多省市分公司(特别是广西分公司)给予了大力支持。在本书出版前,许多素材被中国移动广西分公司选为教材并展开了广泛落地应用,获得了2016年中国移动集团公司颁发的“培训案例最佳实践奖”。在本书出版过程中,得到了深圳市傲举企业管理顾问有限公司的大力支持。在此对有关人员一并表示诚挚的感谢!

由于作者能力所限,疏漏之处在所难免,希望各位读者海涵,并批评指正。作者2017年9月于北京邮电大学第1章大数据、数据挖掘与智慧运营综述

近年来,大数据、数据挖掘、机器学习、云计算和人工智能等词语日渐为人们所熟悉。本章将围绕上述基本概念和话题展开讨论。本章1.1节介绍数据挖掘的概念和发展史,1.2节介绍数据挖掘的主要流程和金字塔模型,1.3节介绍数据挖掘对企业智慧运营的重要意义,1.4节介绍大数据的基本概念、特征和挑战,1.5节介绍非结构化数据挖掘的概念和研究进展,1.6节介绍结构化数据挖掘与机器学习、深度学习和人工智能之间的关联关系,1.7节介绍常见的数据挖掘分析软件与系统。1.1数据挖掘的发展史1.1.1 数据挖掘的定义与起源

什么是数据挖掘,数据挖掘包括哪些范畴?迄今为止不同的学者和公司仍有着不同的理解和定义。例如有的学者认为:数据挖掘即指摆脱传统的经验式、规律式的分析方法,转变为纯粹从数据出发来探索问题的本质。又例如有的公司认为:数据挖掘是一种从数据中榨取价值,提升公司运营效率的重要手段。然而,绝大部分学者和公司都认同数据挖掘的最基本定义:从数据中获取知识。

数据挖掘具体起源于什么年代现在已无从考证。自从有了数据,人类就开始尝试对数据进行分析。随着时代的发展,特别是计算机技术的诞生和发展,人类拥有的数据越来越多,种类越来越复杂,之前传统的浅层次的、以经验式、观察式为主的数据分析方法已不再适用,人类急需一整套深层次的、科学的数据分析方法,这些方法的总和被称为“数据挖掘”。

随着移动互联网时代的来临,我们每天都生活在数据中,时时刻刻都接触着来自生活各个方面的各种数据:早高峰各个十字路口的车流量,各个公司的股市行情、销售票务、产品描述、用户反馈,科学实验记录着的种种信息……数据的产生无时不在,无处不在。爆炸式增长、广泛可用的巨量数据急需功能强大和通用的工具,以便发现它们潜在的巨大价值。交警部门需要通过对车流量数据的观察来决定警力支配;公司需要通过对方方面面商业数据的分析来制订合理的发展计划;科学研究工作者需要对来自实验的种种数据研究来实现实验目的……人们越来越关注如何把海量的数据变为直观、有用的信息。人类的需求是发明之母,人们对数据所蕴含的潜在知识的需求促使了数据挖掘的诞生。

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以被广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。

数据挖掘利用了来自如下领域的思想:(1)来自统计学的抽样、估计和假设检验。(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。

数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别的,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。1.1.2 数据挖掘的早期发展

数据挖掘起始于20世纪下半叶,是在多个学科发展的基础上逐步发展起来的。随着大数据与数据库技术的发展应用,数据量不断积累与膨胀,这导致基础的查询和统计操作已经无法满足企业的商业需求。如何挖掘出数据隐含的信息是当前亟须解决的难题。与此同时,计算机领域的人工智能(Artificial Intelligence)方向也取得了巨大进展,进入了机器学习的阶段。因此,人们将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases, KDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了“知识发现”这个术语,到目前为止,知识发现的重点已经从发现方法转向了实践应用。

数据挖掘(Data Mining)则是KDD的核心部分,它指的是从数据集合中自动抽取隐藏在数据中那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来。总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对人类产生重大影响的十大新兴技术之一。1.1.3 数据挖掘的算法前传

如果把数据比作海洋,数据挖掘是在数据大海中航行,那么算法就是航行中指明方向的指南针。从广义来说,任何定义明确的计算步骤都可称为算法,接受一个或一组值为输入,输出一个或一组值。可以这样理解,算法是用来解决特定问题的一系列步骤(不仅计算机需要算法,我们在日常生活中也在使用算法)。算法必须具备如下3个重要特性:(1)有穷性,有限的步骤后就必须结束。(2)确切性,算法的每个步骤都必须确切定义。(3)可行性,特定算法须可以在特定的时间内解决特定问题。

其实,算法虽然广泛应用在计算机领域,但却完全源自数学。据称,人类已知最早的算法可追溯到公元前1600年巴比伦人(Babylonians)有关求因式分解和平方根的算法。

20世纪末以来,随着科学技术的发展、通信技术的改进和计算机性能的提升,如何快速处理数据,提高解决问题的效率,显得尤为重要。各类算法的提出与优化为一系列难题的解决提供了切实可行的方案。早前影响较为广泛的十大算法如下。

1.归并排序(Merge Sort)、快速排序(Quick Sort)和堆积排序(Heap Sort)

归并排序算法,是目前为止最重要的算法之一,是分治法的一个典型应用,由数学家冯·诺依曼(John von Neumann)于1945年发明。

快速排序算法,结合了集合划分算法和分治算法,不是很稳定,但在处理随机列阵(AM-based arrays)时效率相当高。

堆积排序,采用优先伫列机制,减少排序时的搜索时间,同样不是很稳定。

与早期的排序算法相比(如冒泡算法),这些算法将排序算法提上了一个大台阶。也多亏了这些算法,才有今天的数据发掘、人工智能、链接分析,以及大部分网页计算工具。各种排序算法的性能对比分析如表1-1所示。表1-1 排序算法性能对比

2.傅里叶变换和快速傅里叶变换

这两种算法简单,但却相当强大,整个数字世界都离不开它们,其功能是实现时间域函数与频率域函数之间的相互转化。傅里叶变换不仅仅是一个数学工具,更是一种新的思维模式。图1-1 法国数学家、物理学家傅里叶

互联网、Wi-Fi、智能机、座机、计算机、路由器、卫星等几乎所有与计算机相关的设备都或多或少与这两种算法有关。不会这两种算法,你根本不可能拿到电子、计算机或者通信工程学位。能看到这本书,也是托这些算法的福。

3.迪杰斯特拉算法(Dijkstra's Algorithm)

可以这样说,如果没有这种算法,互联网肯定没有现在的高效率。只要能以“图”模型表示的问题,都能用这个算法找到“图”中两个结点间的最短距离。

虽然如今有很多更好的方法来解决最短路径问题,但迪杰斯特拉算法的稳定性仍无法被取代。

4.RSA非对称加密算法

毫不夸张地说,如果没有这种算法对密钥学和网络安全的贡献,如今互联网的地位可能就不会如此之高。现在的网络毫无安全感,但遇到与钱相关的问题时我们必须保证有足够的安全感,如果觉得网络不安全,你肯定不会傻乎乎地在网页上输入自己的银行卡信息。

RSA算法(以发明者的名字命名:Ron Rivest, Adi Shamir和Leonard Adleman,如图1-2所示)是密钥学领域最厉害的算法之一,由RSA公司的三位创始人提出,是当今密钥研究领域的基石算法。用这种算法解决的问题简单又复杂,在保证安全的情况下,可在独立平台和用户之间分享密钥。

5.哈希安全算法(Secure Hash Algorithm)

确切地说,这不是一种算法,而是一组加密哈希函数,由美国国家标准技术研究所率先提出。无论在你的应用商店、电子邮件、杀毒软件,还是浏览器等,都可使用这种算法来保证正常下载,避免被“中间人攻击”或者“网络钓鱼”。图1-2 RSA算法发明者

6.整数质因子分解算法(Integer Factorization)

这其实是一种数学算法,不过已经广泛应用于计算机领域。如果没有这种算法,加密信息也不会如此安全。通过一系列步骤,它可以将一个合成数分解成不可再分的数因子。目前,很多加密协议都采用这个算法,比如上面提到的RSA算法。

7.链接分析算法(Link Analysis)

在互联网时代,对不同网络入口间关系的分析尤其重要。从搜索引擎和社交网站,到市场分析工具,都在全力地挖掘互联网的真正构造。链接分析算法一直是这个领域最让人费解的算法之一,虽然实现方式各有不同,而且其本身的特性让每种实现方式的算法发生各种异化,不过基本原理却很类似。链接分析算法的原理其实很简单:用矩阵表示一幅“图”,形成本征值问题,如图1-3所示。本征值问题可以帮助你分析这个“图”的基础结构,以及每个结点的权重。这个算法于1976年由宾斯基(Gabriel Pinski)和纳林(Francis Narin)提出。

谁会用这个算法呢?Google的网页排名,Facebook向你发送信息流时(所以信息流不是算法,而是算法的结果),Google+和Facebook的好友推荐功能,LinkedIn的工作推荐,Youtube的视频推荐,等等。普遍认为Google是率先使用这类算法的机构,不过其实早在1996年(Google问世前2年)李彦宏创建的“RankDex”小型搜索引擎就使用了这个思路。而Hyper Search搜索算法建立者马西莫·马奇奥里也曾使用过类似的算法。这两个人后来分别成了百度和Google历史上的传奇人物。图1-3 链接分析算法

8.比例微积分算法(Proportional Integral Derivative Algorithm)

飞机、汽车、电视、手机、卫星、工厂和机器人等事物中都有这个算法的身影。简单来讲,这个算法主要是通过“控制回路反馈机制”,减小预设输出信号与真实输出信号间的误差。只要需要信号处理或电子系统来控制自动化机械、液压和加热系统,都需要用到这个算法。可以说,没有它,就没有现代文明。比例微积分算法流程如图1-4所示。图1-4 比例微积分算法流程

9.数据压缩算法

数据压缩算法有很多种,哪种最好?这取决于应用方向。压缩MP3、JPEG和MPEG-2文件都是不一样的。但哪里能见到数据压缩?它可不仅仅是文件夹中的压缩文件。要知道,你正在看的计算机网页就是使用数据压缩算法将信息下载到你的电脑上的。除文字外、游戏、视频、音乐、数据存储、云计算等都是。它让各种系统更轻松,效率更高。

10.随机数生成算法

到如今,计算机还没有办法生成“真正的”随机数,但伪随机数生成算法就已足够满足当前需求。这些算法在许多领域都有应用,如网络连接、加密技术、安全哈希算法、网络游戏、人工智能,以及数据挖掘等问题分析中的条件初始化。1.1.4 数据挖掘的第一个里程碑

数据挖掘的飞速发展,不仅产生了大量不同类型的数据挖掘算法,而且也表现出与机器学习等学科深度融合的态势。国际权威的学术组织the IEEE International Conference on Data Mining (ICDM)2006年12月评出了数据挖掘领域的十大经典算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive Bayes和CART,它们在数据挖掘领域都产生了极为深远的影响。

1.C4.5算法

C4.5是一种用在机器学习和数据挖掘领域的分类问题中的算法。它基于以下假设:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

C4.5是由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部结点(非树叶结点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条由根结点到叶结点的路径,该叶结点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现。

C4.5算法的核心算法是ID3算法。C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:(1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性不足;(2)在决策树构造过程中进行剪枝;(3)能够完成对连续属性的离散化处理;(4)能够对不完整数据进行处理。

而且C4.5算法产生的分类规则易于理解,准确率较高。但在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

2.The K-Means Algorithm (K-Means算法)

K-MeansAlgorithm是一种聚类算法,它把n个对象根据他们的属性分为k个分割,k

3.Support Vector Machines(支持向量机)

支持向量机,英文为Support Vector Machine,简称SV机或SVM。它是一种监督式学习方法,广泛应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立一个有最大间隔的超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。Van Der Walt和Barnard将支持向量机和其他分类器进行了比较。

4.The Apriori Algorithm(Apriori算法)

Apriori算法是一种最有影响力的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。在频集的基础上,所有置信度大于最小置信度的规则为强关联规则。

5.最大期望(EM)算法

在统计计算中,最大期望(Expectation–Maximization, EM)算法是在概率(Probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。

6.PageRank算法

PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的Page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接得越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量有多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般就判断这篇论文的权威性越高。

7.AdaBoost增强型算法

AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最终决策分类器。

8.KNN: K-Nearest Neighbor Classification(K最近邻算法)

K最近邻(K-Nearest Neighbor, KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

9.Naive Bayes算法(朴素贝叶斯)

在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model, NBM)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBM模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBM模型与其他分类方法相比具有最小的误差率。但实际上也并非总是如此,因为NBM模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBM模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBM模型的分类效率比不上决策树模型。而在属性相关性较小时,NBM模型的性能最为良好。

10.CART:分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个关键的思想:第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。最先由Breiman等提出。分类回归树是一棵二叉树,且每个非叶子结点都有两个孩子,所以对于第一棵子树的叶子结点数比非叶子结点数多1。CART树既可以做分类算法,也可以做回归。其优势是可以生成易于理解的规则,时间复杂度较低,可以处理连续变量和种类字段,可以明确显示数据字段的重要性。不足是对连续性的字段比较难预测;对有时间顺序的数据,需要较为复杂的预处理工作;当类别太多时,错误可能增加得比较快。1.1.5 最近十年的发展与应用

作为一个新兴的研究领域,自20世纪80年代开始,数据挖掘已经取得显著进展并且涵盖了广泛的应用领域,但仍然存在许多问题和挑战。本节将介绍近十年来数据挖掘算法的主要发展、改进和应用。

1.数据挖掘算法的改进

下面以K-Means算法和KNN算法为例进行介绍

K-Means算法是数据挖掘聚类领域中的重要算法。大体上说,K-Means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于剩下的其他对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。K-Means算法中急需解决的问题包括如下内容。(1)在K-Means算法中,k是事先给定的,但这个k值的选定是很难估计的。很多时候,我们事先并不知道给定的数据集应分成多少类最合适,这也是K-Means算法的一个不足。(2)K-Means算法属于无监督算法,这就容易陷入局部极小值从而无法获取全局最优解,在大矢量空间搜索中性能下降。

除此之外,K-Means算法对孤立和异常数据敏感,容易导致中心偏移,而且对非球形簇可能会失效。针对以上缺点,近些年数据挖掘领域的研究人员进行许多改进。有的算法是通过类的自动合并和分裂,得到较为合理的类型数目k,例如,ISODALA算法。关于K-Means算法中聚类数目k值的确定,有些根据方差分析理论,应用混合F统计量来确定最佳分类数,并应用了模糊划分墒来验证最佳分类数的正确性。除此之外,还有谱聚类、基于模糊特征选择等。

传统的KNN算法有两大不足:一是计算开销大,分类效率低;二是等同对待各个特征项和样本,影响分类准确度。针对第一种不足大体有三种改进办法,分别是:基于特征降维的改进,基于训练集的改进,基于近邻搜索方法的改进。针对第二种不足,大体有两种改进策略分别为:基于特征加权的改进和基于判别策略的改进。特征降维可以采用信息增益、卡方值、互信息等标准筛选特征,还可以采用主成分分析或小波变换的办法降低特征值的维度。对训练集改进时主要是对训练集进行剪裁。一种思想认为训练集中靠近各类别中心的样本对分类的意义不大,仅保留各类别边界样本。另一种思想与决策树结合使用,生成的决策树对自身进行检测,除去判对概率小于0.5的样本,压缩后的样本集再用于做KNN。还可以基于分类器结果、相似性、距离对样本进行加权。

2.数据挖掘算法的应用

数据挖掘算法可以挖掘出很多意想不到的规律,不仅有助于推进很多理论技术的发展,还可以帮助商家赚取利润。

数据挖掘应用中,有一个很经典的“啤酒+尿布”案例。某著名超市在对消费者购物行为进行关联分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。

2009年,Google通过分析5000万条美国人最频繁检索的词语,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终Google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

数据挖掘的结果还曾让英国撤军。2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标单击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起英国朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

数据挖掘对医学领域的影响也十分重要。举一个比较著名的人物——乔布斯。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

另外,当前的互联网金融与电子商务领域,数据挖掘的身影也频繁出现。如,支付中的交易欺诈侦测,采用支付宝支付时,或者刷信用卡支付时,系统会实时判断这笔刷卡行为是否属于盗刷。通过刷卡的时间、地点、商户名称、金额、频率等要素进行判断。这里面基本的原理就是寻找异常值。如果您的刷卡被判定为异常,这笔交易可能会被终止。异常值的判断,应该是基于一个欺诈规则库的。可能包含两类规则,即事件类规则和模型类规则。第一,事件类规则,例如刷卡的时间是否异常(凌晨刷卡)、刷卡的地点是否异常(非经常所在地刷卡)、刷卡的商户是否异常(被列入黑名单的套现商户)、刷卡金额是否异常(是否偏离正常均值的三倍标准差)、刷卡频次是否异常(高频密集刷卡)。第二,模型类规则,则是通过算法判定交易是否属于欺诈。一般通过支付数据、卖家数据、结算数据,构建模型进行分类问题的判断。比如,电商“猜你喜欢”和“推荐引擎”。电商中的“猜你喜欢”,应该是大家最为熟悉的。在京东商城或者亚马逊购物,总会有“猜你喜欢”“根据您的浏览历史记录精心为您推荐”“购买此商品的顾客同时也购买了**商品”“浏览了该商品的顾客最终购买了**商品”,这些都是推荐引擎运算的结果。这里面,有些人确实很喜欢亚马逊的推荐,通过“购买该商品的人同时购买了**商品”,常常会发现一些质量比较高、较为受认可的书。一般来说,电商的“猜你喜欢”(即推荐引擎)都是在协同过滤算法(Collaborative Filter)的基础上,搭建一套符合自身特点的规则库。即该算法会同时考虑其他顾客的选择和行为,在此基础上搭建产品相似性矩阵和用户相似性矩阵,找出最相似的顾客或最关联的产品,从而完成产品的推荐。

电信中的种子客户和社会网络。即,通过人们的通话记录,就可以勾勒出人们的关系网络。电信领域的网络,一般会分析客户的影响力和客户流失、产品扩散的关系。基于通话记录,可以构建客户影响力指标体系。采用的指标,大概包括:一度人脉、二度人脉、三度人脉、平均通话频次、平均通话量等。基于社会影响力,分析的结果表明,高影响力客户的流失会导致关联客户的流失。在产品的扩散上,选择高影响力客户作为传播的起点,很容易推动新套餐的扩散和渗透。1.2数据挖掘的主要流程与金字塔模型

数据挖掘的主要意义在于(包括但不限于):(1)充分挖掘、利用了数据的全部或尽量多的价值。(2)从数据中获取的信息比别人更全面、更快、更准确。(3)从信息中获取的知识比别人更丰富、更准确、更及时。(4)帮助企业实时掌握市场变化、经营的变化。(5)帮助企业较为正确地预判未来的发展趋势。(6)帮助企业做出较为正确的判断和决策。

……1.2.1 数据挖掘的任务

通常,数据挖掘的任务分为下面两大类。(1)预测任务。这些任务的目标是根据其他的属性的值,预测特定属性的值。被预测的属性一般称目标变量(Target Variable)或因变量(Dependent Variable),而用来做预测的属性称说明变量(Explanatory Variable)或自变量(Independent Variable)。

预测建模(Predictive Modeling)涉及以说明变量函数的方式为目标变量建立模型。有两大类预测建模任务:分类(Classification),用于预测离散的目标变量;回归(Regression),用于预测连续的目标变量。例如,预测一个移动用户是否会更换4G手机是分类任务,因为该目标变量是二值的,而预测某客户的每月DOU(Dataflow of Usage,每用户上网流量)则是回归任务,因为每月上网流量DOU具有连续值属性。两项任务的目标都是训练一个模型,使目标变量预测值与实际值之间的误差最小。预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。【例1.1】预测客户的信用等级考虑如下任务:根据客户的特征预测客户的信用等级。本例假设客户可以分为三级:一星级、二星级、三星级。并根据信用等级将客户分为三类。为进行这一任务,我们需要一个数据集,包含这三类客户的特性。本例提供通用测试数据集合,除客户的信用等级之外,该数据集还包括客户当月ARPU、客户当月DOU、客户当月MOU和网龄等其他属性。(通用测试数据集和它的属性将在本书3.1节进一步介绍。)网龄分成低等、中等、高等三类,分别对应区间[0,80)、[80,170)、[170,+∞)。客户当月ARPU也分成低等、中等、高等三类,分别对应区间[0,124.9)、[124.9,1045.7)、[1045.7,+∞)。根据网龄和客户当月ARPU的这些类别,可以推出如下规则:网龄和客户当月ARPU均为低时,客户信用等级预测为一星级。网龄和客户当月ARPU均为中时,客户信用等级预测为二星级。网龄和客户当月ARPU均为高时,客户信用等级预测为三星级。

尽管这些规则不能对所有的客户进行分类,但已经可以对大多数客户进行很好的分类(尽管不完善)。(2)描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

聚类分析(Cluster Analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。

关联分析通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、理解地球气候系统不同元素之间的联系等。【例1.2】购物篮分析表1-2给出的事务是在一家杂货店收银台的销售数据。关联分析可以用来发现顾客经常同时购买的商品。例如,我们可能发现规则{尿布}→{牛奶}。该规则暗示购买尿布的顾客多半会购买牛奶。这种类型的规则可以用来发现各类商品中可能存在的交叉销售“买尿布的顾客多半会购买牛奶”。这种类型的规则可以用来发现各类商品中可能存在的交叉销售的商机。表1-2 购物篮数据

异常检测(Anomaly Detection)的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(Anomaly)或离群点(Outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。【例1.3】手机欠费预警运营商记录每位客户通信记录与其他交易,同时记录信用等级、年龄和地址等个人信息。由于与正常通信相比,手机欠费行为的数目相对较少,因此欠费预警技术可以用来构造用户的正常通信轮廓。当一个新的客户到达时就与之比较。如果该客户的特性与先前所构造的轮廓很不相同,就把该客户标记为潜在欠费客户。1.2.2 数据挖掘的基本步骤

从数据本身来考虑,广义的数据挖掘通常包括信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施、模式评估和知识表示8个步骤,如图1-5所示。图1-5 数据挖掘基本流程与步骤

步骤1——信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。

步骤2——数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

步骤3——数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

步骤4——数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),甚至是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会不尽如人意。

步骤5——数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

步骤6——数据挖掘实施过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法等方法处理信息,得出有用的分析信息。

步骤7——模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。

步骤8——知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。

数据挖掘过程是一个反复循环的过程,任何一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。不是每件数据挖掘的工作都需要经历这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤2便可以省略。

步骤3数据规约、步骤4数据清理、步骤5数据变换又合称数据预处理。在数据挖掘中,数据预处理及其相关工作往往占用了90%以上的时间。1.2.3 数据挖掘的架构——云计算

随着云时代的到来和移动互联网的快速发展,数据规模从MB级发展到TB、PB级甚至EB、ZB级,并且面临着TB级的增长速度,数据挖掘的要求和环境也变得越来越复杂,从而形成“数据量的急剧膨胀”和“数据深度分析需求的增长”这两大趋势,使得40年来一直适用的数据库系统架构在海量数据挖掘方面显得力不从心。

传统的数据挖掘技术及其体系架构在云时代的海量数据中已经暴露了不少问题,其中首先是挖掘效率的问题,传统的基于单机的挖掘算法或基于数据库、数据仓库的挖掘技术及并行挖掘已经很难高效地完成海量数据的分析;其次高昂的软硬件成本也阻止了云时代数据挖掘系统的发展;最后传统的体系架构不能完成挖掘算法能力的提供,基本是以单个算法为整体模块,用户只能使用已有的算法或重新编写算法完成自己独特的业务。

云计算是一种商业计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。同时云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算科学概念的商业实现。通常认为云计算包括以下3个层次的服务:基础设施服务(IaaS)、平台服务(PaaS)、应用服务(SaaS);其中IaaS提供以硬件设备为基础的计算、存储和网络服务,实现了对硬件资源的抽象化提供,使得分布式计算和分布式存储成为现实。

云计算具有如下特点。(1)虚拟化。云计算支持用户在任意位置使用各种终端以获取应用服务,所请求的资源来自云而不是固定的、有形的实体,并且对于用户来说只需要使用云提供的服务即可。(2)通用性。云计算不针对特定的应用,而是可以在云的支撑下构造出千变万化的应用,同一个云可以同时支撑不同的应用运行。(3)高可扩展性及超大规模。云的规模可以动态扩展,并且这种动态扩展对用户是透明的,并且不影响用户的业务和应用。同时这种扩展是超大规模的,如Google云计算已经拥有上百万台服务器,Amazon、IBM、微软等也拥有几十万台服务器。(4)可靠性高。云计算使用多副本容错、多计算结点同构可互换等措施来保障服务的高可靠性。(5)经济性好。云的特殊容错机制导致可以采用廉价的结点来构成云,而云的自动化集中式管理使得大量企业无须负担日益高昂的数据中心管理成本。云的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受云的低成本优势。

数据挖掘云化策略:云计算的出现既给数据挖掘带来了问题和挑战,也给数据挖掘带来了新的机遇——数据挖掘技术将会出现基于云计算的新模式。如何构建基于云计算的数据挖掘平台也将是业界面临的主要问题之一,创建一个用户参与、开发技术要求不高的、快速响应的数据挖掘平台也是迫切需要解决的问题。

从业界对云计算的理解来看,云计算动态的、可伸缩的计算能力使得高效的海量数据挖掘成为可能。云计算SaaS功能的理解和标准化,使得基于的数据挖掘SaaS化有了技术和理论的支持,也将使得数据挖掘面向大众化和企业化。下面主要从基于云计算平台的数据挖掘服务化、挖掘算法并行化、挖掘算法组件化角度进行构建数据挖掘SaaS平台。

如图1-6所示,移动大云平台基于云计算的数据挖掘平台架构采用分层的思想:首先底层支撑采用云计算平台,并使用云计算平台提供的分布存储以及分布式计算能力完成数据挖掘计算能力的并行实现;其次数据挖掘平台在设计上采用分布式、可插拔组件化思路,支持多算法部署、调度等;最后数据挖掘平台提供的算法能力采用服务的方式对外暴露,并支持不同业务系统的调用,从而较方便地实现业务系统的推荐、挖掘等相关功能需求。图1-6 基于云计算的数据挖掘平台

数据挖掘平台云架构:云计算的分布式存储和分布式计算促使了新一代数据挖掘平台的变革。图1-7是基于云的数据挖掘平台架构。考虑挖掘算法和推荐算法的并行化和分布化是一个专门的、大的课题,因此本书暂不包含具体算法的并行化和云化的内容。

如图1-7所示,该平台是基于云计算平台实现的数据挖掘云服务平台,采用分层设计的思想以及面向组件的设计思路,总体上分为3层,自下向上依次为:云计算支撑平台层、数据挖掘能力层、数据挖掘云服务层。

1.云计算支撑平台层

云计算支撑平台层主要是提供分布式文件存储、数据库存储以及计算能力。自主研发的云计算平台,该架构可以基于企业自主研发的云计算平台,也可以基于第三方提供的云计算平台。

2.数据挖掘能力层

数据挖掘能力层主要是提供挖掘的基础能力,包含算法服务管理、调度引起、数据并行处理框架,并提供对数据挖掘云服务层的能力支撑。该层可以支持第三方挖掘算法工具的接入,例如Weka、Mathout等分布式算法库,同时也可以提供内部的数据挖掘算法和推荐算法库。图1-7 基于云计算的数据挖掘平台架构

3.数据挖掘云服务层

云服务层主要是对外提供数据挖掘云服务,服务能力封装的接口形式可以是多样的,包括基于简单对象访问协议(SOAP)的Webservice、HTTP、XML或本地应用程序编程接口(API)等多种形式。云服务层也可以支持基于结构化查询语言语句的访问,并提供解析引擎,以自动调用云服务。各个业务系统可以根据数据和业务的需要调用、组装数据挖掘云服务。

基于云计算的数据挖掘平台与传统的数据挖掘系统架构相比有高可扩展性、海量数据处理能力、面向服务、硬件成本低廉等优越性,可以支持大范围分布式数据挖掘的设计和应用。1.2.4 “金字塔”模型

如图1-8所示,问题、数据、信息、知识、智慧构成了数据挖掘中的“金字塔”模型,其中数据、信息、知识与智慧之间既有联系,又有区别。数据是记录下来可以被鉴别的符号。它是最原始的素材,未被加工解释,没有回答特定的问题,没有任何意义;信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义。知识是从相关信息中过滤、提炼及加工而得到的有用资料。特殊背景/语境下,知识将数据与信息、信息与信息在行动中的应用之间建立有意义的联系,它体现了信息的本质、原则和经验。此外,知识基于推理和分析,还可能产生新的知识。最后来看智慧。智慧,是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。在知识的基础之上,通过经验、阅历、见识的累积而形成的对事物的深刻认识、远见,体现为一种卓越的判断力。图1-8 “问题—数据—信息—知识—智慧”的“金字塔”模型

整体来看,知识的演进层次,可以双向演进。从噪声中分拣出数据,转化为信息,升级为知识,升华为智慧。这样一个过程,是信息的管理和分类过程,让信息从庞大无序到分类有序,各取所需。这就是一个知识管理的过程。反过来,随着信息生产与传播手段的极大丰富,知识生产的过程其实也是一个不断衰退的过程,从智慧传播为知识,从知识普及为信息,从信息变为记录的数据。

综上,在当今海量数据、信息爆炸时代下,知识起到去伪存真、去粗存精的作用。知识使信息变得有用,可以在具体工作环境中,对于特定接收者解决“如何”开展工作的问题,提高工作的效率和质量。同时,知识的积累和应用,对于启迪智慧、引领未来起到了非常重要的作用。1.3数据挖掘对智慧运营的意义1.3.1 “互联网+”时代的来临及其对运营商的冲击和挑战

2015年3月,政府工作报告中首次提出制订“互联网+”行动计划,如图1-9所示。“互联网+”引起了全社会的广泛关注,“互联网+”行动计划上升为国家战略。面对“互联网+”带来的机遇,基础电信业作为推动“互联网+”行动实现的基础力量,对准确把握“互联网+”时代的机遇和挑战至关重要的。未来,基础运营商将在新一代互联网基础设施建设、云计算、大数据、物联网等为代表的新型信息技术和服务方面继续扮演重要角色。“互联网+”是把互联网的创新成果与经济社会各领域深度融合,从全球新一轮信息技术革命和产业融合来看,互联网技术和应用已经由服务领域向生产领域渗透,在社会生产和销售环节中大量采用云计算、大数据、物联网等互联网新技术,明显缩短了消费者与消费产品的距离,甚至能挖掘出消费者尚未觉察到的潜在需求。图1-9 “互联网+”“互联网+”的发展初期,基础电信运营商首先从宽带融合、移动数据流量、互联网数据中心和大数据服务等方面挖掘到新的发展机会。(1)宽带融合性业务快速增长。随着“宽带中国”战略的实施和“提速降费”专项行动的推进,我国互联网宽带设施建设成效显著。“宽带中国”战略目标是到2020年,中国宽带网络将基本覆盖所有农村,打通网络基础设施“最后一公里”,让更多人用上互联网。2015年,互联网宽带接入端口数达到4.7亿个,同比增长18.3%。互联网宽带接入端口“光进铜退”趋势更加明显,xDSL端口占比下降至20.8%,光纤接入(FTTH/O)端口占比达到56.7%。固定宽带的发展带动IPTV业务的加速增长,2015年,IPTV用户达4589.5万户,同比增长36.4%。从收入来看,2015年,我国互联网宽带接入业务收入增长3.0%,IPTV业务收入增长31.3%,成为拉动基础电信业务收入的重要增长点。(2)移动数据流量的需求爆发。随着4G网络的普及和移动应用市场的迅速发展,移动数据流量需求高速增长。2015年,我国新增移动通信基站127.1万个,是上年净增数的1.3倍,总数达466.8万个。其中4G基站新增92.2万个,总数达到177.1万个。移动互联网接入流量同比增长103.0%,比上年提高40.1个百分点,月户均移动互联网接入流量达到389.3M,同比增长89.9%。移动数据流量的爆发式增长带动移动数据及互联网业务收入持续高速增长。2015年,我国移动数据及互联网业务收入增长30.9%,占基础电信业务收入的比例达到27.6%,拉动基础电信业务收入增长6.6个百分点。(3)运营商收获互联网数据中心(IDC)千亿市场规模。随着社会信息化水平的不断提高,数据成为一种资产,企业用于数据中心维护的成本和管理难度逐渐加大,互联网数据中心(IDC)能够为企业节省成本、降低企业进入互联网的门槛,使企业专注于核心业务。未来企业和用户对互联网数据中心的需求将持续增加,预计到2020年,我国IDC市场规模将达到2500亿元,平均复合增长率达30%,它与基础电信业务万亿元级别的收入相比虽然较小,但它的增速远高于基础电信业务。从IDC服务市场的竞争来看,基础电信运营商凭借网

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载