R语言预测实战(txt+pdf+epub+mobi电子书下载)

作者:游皓麟

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

R语言预测实战

R语言预测实战试读:

前言

为什么要写这本书

2014年对我来说具有特别的意义,这一年我含莘如苦地恶补了R语言、数据挖掘的进阶算法及应用,同年还多次参加了大数据、R语言的会议,收获良多,认识了不少志同道合的朋友。也是在这一年,我成为了小象学院的兼职讲师,并录制了《数据挖掘之R语言实践》的课程,让我对数据挖掘的理解又上了一个台阶。这年的10月,我回四川老家参加了小妹的婚礼,了却了一桩心愿,从此小妹不再一个人奋斗了,衷心祝愿他们能够一生幸福。时值国庆,我带着全家去了趟九寨沟,虽然路途疲备,但是号称童话世界的九寨沟给我留下了深刻的印象,水是从来没有见过的圣洁,风景更是美不胜收。也就是在这一年,因为工作需要,我开始接触实实在在的预测。起初我便觉得这事不好做,因为当时做的是短期日负荷曲线预测,并不像收入预测、景区人流量预测等情况只需要预测一个值,而是要预测一条曲线。我当时基本把国内关于负荷预测的书籍、博士硕士论文、期刊看了个遍,每天下班回去看,周末也看,该用的时间都用上了,这样我对负荷预测业务及算法的理解很快地提升了一个档次。但是这还不能让我满意,因为最终要拿数据来说话。我用业余时间写了一套R语言并行计算框架,可以同时支持成千上万台变压器数据的建模和预测。可是真正影响效果的不是平台,而是预测背后的那一整套逻辑。当时我就想有没有一套通用的预测方法论,可以直接拿过来使用。这个问题一直在我心底装了很久,后来通过与团队的沟通我们确立了自己的预测体系,虽然不能通用,但是可以解决目前的问题。接着我花了大量时间调测优化模型,期望以统一的框架搞定所有问题,那段时间我研究了很多的预测算法,这些算法包括高斯过程回归、神经网络、卡尔曼滤波等,为了提高预测精度,我使用了很多模型,并使用组合预测的方法来提升效果,甚至考虑通过预测误差来学习优化参数。就是这样的反复折腾,使我在模型调优上的水平很快提升,并且效果也达到了预期的预测目标。这个经历更让我意识到,现在不只是电力行业,其实在其他很多行业,包括电商、物流、金融等都对预测有着天生的依赖性。我们可以通过预测了解到各区域用户的需求趋势,为战略布局提供决策依据;我们也可以通过预测提前预知,使其按正常方式进行下去,我们所关注的指标的变化,并通过有效的途径,牵引向好的方向发展。预测的魅力在于控制、在于引导、在于把握未来。基于以上思考,我觉得很有必要做一个总结,将长期以来混乱的知识体系进行有条理的整理,以供大家学习、交流、讨论,一起成长。

阅读对象● 对数据挖掘、机器学习、预测算法及商业预测应用感兴趣的大专

院校师生● 数据挖掘工程师或从事数据挖掘相关工作● 各行各业的数据分析师● 对数据挖掘、预测专题感兴趣的读者

勘误和支持

由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可以把意见或建议直接发至我的邮箱cador@sina.com。我会定期发布Bug勘误表,并统一回复。同时,如果你有什么问题,也可以发邮件来提问,我将尽力为读者提供最满意的解答,期待你们的反馈。

如何阅读这本书

本书包括三个部分,共有12章。

第1章介绍预测的基本概念,以及大数据时代预测的特点,并结合案例进行讲解,最后基于R语言讲解一个预测案例。本章适合初学者入门。

第2章介绍预测的方法论,其中预测流程是基础,它说明了预测实施的各个阶段。然后介绍了预测的指导原则,它是预测工作者必知必会的。另外,还介绍了预测工作的团队要求。本章内容适合长期实践,活学活用。

第3章介绍分析方法,本章内容是数据分析、数据挖掘常见的分析方法,出现在这里,主要是为预测技术的数据处理做铺垫。如果预测工作者没有掌握有效的分析思路和方法,去提炼有用的指标和特征,那么预测工作是很难进行下去的。本章提供了规律发现的常用方法和技巧。

第4章介绍特征构建技术,不仅介绍了常见的特征变换方法,还介绍了特征组合的方法,特别值得一提的是,本章包含了自动生成特征的方法,它是基于遗传编程实现的。从事数据挖掘的朋友都很清楚,好的特征在建模时是非常重要的,然而,有时我们拿到的基础数据直接拿去建模效果不见得好,如果进行规律挖掘,也比较费时费力,比较好的做法就是特征自动生成。感兴趣的朋友,可以认真学习这个章节。

第5章介绍特征选择的方法,特征选择适合用于特征很多(成千上万个,甚至千百万个)的情况。本章介绍了使用单变量和多变量特征选择技术,读者可根据需要选择性阅读。

第6章介绍模型参数的优化。我们在建立数据挖掘和预测模型时,参数的确定通常不是一步到位的,往往需要做一些优化或改进,以提升最终的效果。本章介绍的遗传算法、粒子群优化、模拟退火等问题求解算法,有助于找到模型的最优或接近最优的参数。

第7章介绍预测模型效果评估的方法,主要包括分类预测模型评估方法和数值预测模型评估方法。本章的内容包含了评估指标和评估图表,读者要活学活用,正确地选择和使用。

从第1章到第7章为本书的第一部分,主要介绍预测的入门知识,如果读者对预测有一定的功底,可以跳过本部分,直接进入第二部分,了解预测算法的基本原理和实现。

第8章介绍线性回归技术,主要包括多元线性回归、Ridge回归、Lasso回归、分位数回归、稳健回归的内容。在实际工作或实践中,读者应该有选择地使用对应的回归方法,以确保应对回归问题的有效性。

第9章介绍复杂回归技术,主要包括梯度提升回归树(GBRT)、神经网络、支持向量机、高斯过程回归的内容。这是回归技术的进阶部分,涉及统计学习以及机器学习的内容,想挑战难度的朋友,一定要好好读一读这部分。

第10章介绍时间序列分析技术,主要包括Box-Jenkins方法、门限自回归模型、GARCH模型族、向量自回归模型、卡尔曼滤波器算法的内容。本章不仅介绍了常见的Box-Jenkins方法,还介绍了门限自回归等高阶时序分析技术。

从第8章到第10章为本书的第二部分,主要介绍预测算法,本部分的算法选择有一定的难度,基本包含了常见的以及部分高阶的预测回归算法,读者仔细阅读。

第11章介绍短期日负荷曲线预测技术,首先介绍电力行业负荷预测的行业知识,接着从预测的基本要求出发,经过预测的建模准备,进入预测建模的环节。本章使用了RBF神经网络和LS-SVMR两种算法来建立预测模型,并对预测效果进行了评估。

第12章介绍股票价格预测技术,首先从股票市场的简介开始,接着介绍股票数据的获取,然后基于VAR算法对预测模型进行了实现,最后检验了预测的准确性。

最后两章为本书的第三部分,主要介绍预测案例,由于写书太过仓促,案例部分略显单薄。另外,由于商业关系,有些案例分析细节内容不便在书中全面展开介绍,有兴趣的读者,可以邮件联系笔者。

致谢

首先,感谢电子工业出版社的编辑石倩,没有你的主动联系,我也不会这么快写这本书,也同时感谢电子工业出版社给我这次出版的机会!

其次,要感谢长期以来一直鼓励我、支持我的刘爱松,如果没有和你的长期分享交流,我也不会成长得这么快。在此,也衷心感谢所有关心、支持、帮助过我的良师益友。

最后,感谢造物主给我一颗孜孜不倦的心,让我在学习的道路上不至于因工作忙碌而有所懈怠,也不至于因有所成就而不思进取。

青山不改,绿水长流。谨以此书,献给我最亲爱的家人和朋友,以及热爱R语言和从事数据分析、数据挖掘、预测相关工作的朋友们。游皓麟中国 成都第一部分预测入门篇第1章预测入门

早在2012年,大数据就被炒得如火如荼。经过几年的发展,很多企业逐步认识到大数据的价值,并着手建立大数据的价值链。2015年4月14日,贵阳大数据交易所的成立,意味着大数据在中国已经跨出重要一步。同时,作为大数据时代最核心的预测,也在近两年被很多公司尝试落地。大数据预测的价值正逐步受到重视。1.1 什么是预测

预测,天然带着一种神秘感,或是要预言某件事情将会发生,或是运用计算机推算出下一次地震发生的准确时间和位置,诸如此类。本节从预测的定义、预测的特点、预测的分类,以及进行预测时需要注意的基本原则出发,逐步揭开预测的神秘面纱。1.1.1 预测的定义“预”就是预先、事先,“测”就是度量、推测。预测通常被理解为对某些事物进行事先推测的过程。由于预测具有提前预知事物发展动向的能力,因此科学的预测是很多决策、计划的前提和保证。预测涉及很多行业和领域,并衍生出很多预测专题,除了常见的经济预测、股票市场预测、气象预测,还有人口预测、上网流量预测、产品销量预测、市场需求预测、流行病预测、价格预测等。

预测的定义有很多种,一般认为,预测是从事物发展的历史和现状着手,使用事物的基础信息和统计数据,在严格的理论基础上,对事物历史发展过程进行深刻的定性分析和严密的定量计算,以了解和认识事物的发展变化规律,进一步对事物未来的发展做出科学推测的过程。

一万个读者就有一万个哈姆雷特,同样,对于预测的定义,不同的专家学者也各持己见。概括来讲,主要有六类,如图1-1-1所示。图1-1-1 关于预测的六类主要观点

综合上述观点,本书给出预测的定义为:所谓预测,是指基于对事物历史发展规律的了解和当前状态的把握,进一步使用科学的理论、方法和技术,对事物未来发展的走势或状态做出估计、判断的过程。1.1.2 预测的特点(1)短期可预测

预测是通过事物的过去及现在推测未来,未来的时间可长可短。如果太长,由于存在很多不确定因素的干扰,预测结果可信度较低,短期预测的结果往往更加可信。(2)预测随机事物

随机事物具有不确定性,这才决定了预测的价值。实现预测,要从随机的变化规律中,找出相对固定的模式,或局部,或整体。(3)预测需要数据

实现预测,要通过各种方法采取与预测对象相关的数据,包括历史的、当前的及未来的信息(比如日期、季节、天气预报、业务数据等)。将这些信息进行融合、清洗和加工。(4)结果仅供参考

由于预测的是随机事物,其发展包含很多不确定性,因此预测结果本来就是不确定的,预测值与真实结果多少会存在误差。1.1.3 预测的分类

预测可以按不同的维度进行分类,下面阐述常见的预测分类方法。

· 按范围分类

分为宏观预测和微观预测两类。宏观预测是指为整体的未来发展进行的各种预测。主要考虑预测对象相关指标之间的关系及变化规律。如国民经济预测、教育发展预测、生态破坏预测等。微观预测是指对具体单位或业务的发展前景进行的各种预测。也是研究预测对象相关指标之间的关系及变化规律,如对某产品的产量、销量、利润、费用、价格等的预测。

· 按时间长短分类

预测按时间长短不同,可分为短期预测、中期预测和长期预测。

因预测对象性质的不同,对短期、中期、长期的划分也不同。对于国民经济预测、技术预测,5年以下为短期预测,5~15年为中期预测,15年以上为长期预测。对于工业经营预测,3年以下为短期预测,3~8年为中期预测,8年以上为长期预测。对于市场预测,半年以下为短期预测,0.5~1年为中期预测,1年以上为长期预测。总体来讲,对短期预测结果的精度要求比较高,而对长期预测结果的精度要求比较低,如图1-1-2所示。图1-1-2 预测按时间长短分类与不同预测对象的对应关系

· 按有无假设条件分类

按预测对象有无假设条件,预测可分为条件预测和无条件预测。条件预测一般以一定的决策方案或其他假设条件为前提。无条件预测则不附带任何条件。

· 按预测结果的要求分类

预测按照其对结果的要求不同,可分为定性预测、定量预测和定时预测。

定性预测是指预测者根据一定的理论方法和经验,在调查研究的基础上,进一步对其发展趋势做出判断,用于预测事物的发展趋势或可能性,如通过研究最新政策和分析某基金的历史资料,判断该基金未来半年将呈增长趋势发展,即属于定性预测的范围。通常可使用的数据很少使用定性预测,一般应用于新产品、新科技的预测,它涉及直觉和经验层面。定量预测是指在收集了预测对象的基础资料和统计数据的基础上,通过运用统计学方法或建立数学模型来求出预测值的过程,如根据某款游戏两年的统计数据,建立时间序列模型,对未来三个月的收入进行预测,即属于定量预测的范围。定时预测是预测对象未来到达的时间,比如预测地震的发生等。

· 按趋势是否确定分类

如果事物的发展趋势是确定的,那么预测就是确定性预测,一般为短期预测;如果事物的发展趋势是不确定的,那么预测就是随机性预测,一般为长期预测。

· 按预测依据分类

如果使用事物前后时期的资料进行预测,那么这种预测叫作动态预测;如果使用相关关系进行间接预测,那么这种预测叫作静态预测。1.1.4 预测的基本原则

科学的预测是在一定原则的指导下,按一定步骤有组织地进行的。预测一般应遵循以下原则。(1)目的性原则

目的性原则就是在进行预测时,要关注预测功能的受用者及其对预测结果的要求,只有在充分了解受用者的需求及要求的情况下,正确地开展预测,才能避免产生盲目性。比如开展短期负荷预测,就要提前与用户进行沟通,了解当前现状及其要达到的目标(如每天上午8点钟之前发布预测结果,要求精度不低于90%),保证预测工作有明确的目的性。(2)连贯性原则

连贯性表示连续的情况或状态,连贯性原则主要包括两点:一是指时间上的连贯性,也就是说预测对象较长一段时间内所表现出来的规律特征相对稳定;二是指结构上的连贯性,即预测系统的结构在较长一段时间内相对稳定,预测模型涉及的对象及相互关系相对稳定,模型中各变量的相互关系在历史资料中表现得相对稳定。连贯性原则在进行预测时非常重要,它保证了预测对象规律在预测时间内仍然适用,这很关键。如果在样本期内,预测对象的变化规律发生巨大变化,那么必然会破坏这种连贯性,对有效预测造成困难。(3)关联性原则

关联性原则强调在预测的时候从相关事物出发去分析影响因素,主要包括中心化关联和类比性关联。以预测对象为中心,去寻找与预测对象相互影响的事物,可能涉及政治、社会、技术、经济等多个方面,这就是中心化关联。比如对旅游景点的人流量进行预测,以景点的人流量为中心,从此出发,可以找到很多影响景点人流量的事物,比如天气情况、节假日情况、交通情况等,基于此考虑,可从诸多的影响因素中找出合适的因素用于预测建模。如果考虑与预测对象相似的事物,从其发展规律中找出有助于预测对象进行预测的因素或信息,这就是类比性关联。比如对某产品用户流失情况进行预测,从用户生命周期分析中可知,凡是使用该产品的用户大致都经过导入期、成长期、成熟期、衰退期。这一过程对所有用户而言都是相似的。分析以前成熟期的用户流失的因素,有助于预测未来用户流失情况。不管是中心化关联还是类比性关联,都需要预测人员具有丰富的知识和经验,进行多向性思考和分析。(4)近大远小原则

近大远小指的是离预测时间越近信息就越重要,离预测时间越远信息就越不重要。这也很好理解,我们知道预测对象的规律越接近预测时间,可信度越高,以前的旧规律不见得合适拿过来用于预测。所以在进行预测时,不能太关注于模型的拟合程度,模型的拟合度越高,越不一定适合用于做预测;反之,我们更应该关注,模型是否在近期的历史数据上表现良好,这种方法可以用来选择合适的预测模型。同样,在我们建模求解参数时,也应该加大近期样本的权重,对离预测时间较远的样本,可以适当减少建模的权重,这样得到的模型,更能体现预测模型在近期数据变化规律上表现的优势。模型的评价亦是如此,预测模型在接近预测日的样本表现得好,预测模型才算有效,如果有预测模型在历史数据上表现良好,在近期的样本上表现不好,这样的模型只能说在历史数据中拟合得很好,不能说是用于预测的较好模型。总之,近大远小的原则,有助于我们在预测时选择样本、选取模型、求解参数和评价预测效果。(5)概率性原则

概率是对随机事件发生的可能性的度量。由于绝大多数预测是针对随机事物,所以预测得准与不准,也会以概率的形式体现出来。需要注意的是,概率只是一种可能性,一般用0~1之间的实数表示。概率为0为不可能发生的事情,概率为1为确定性事件,一定会发生。概率为0~1的,值越大可能性越大,值越小可能性越小。即便是概率为0.9,事件也可能不发生,因为只是概率,不是确定性事件,所以是正常的;但如果持续100次有50次都没有发生,那就是概率计算有问题。如果概率为0.001的事件发生了,也叫作小概率事件,是很难遇见的,应该特别引起重视。所以,认清预测的结果带有概率性是很关键的。若预测结果是类别(结果只有几个选项,如是与否、命中与不命中等),那概率表示预测到正确选项的可能性程度;若预测结果是连续的实值,那概率可以表示预测到实值所在区间的可能性程度。(6)反馈性原则

反馈指返回到起始位置并产生影响。反馈的作用在于发现问题,对问题进行修正,对系统进行优化等。在预测的过程中,如果预测偏差很大,超出了之前设定的范围,那么需要反馈回来做一些调整,简单一点就是调整一些参数,复杂一点可能要更新整个模型。预测反馈的最大作用在于它实现了整个预测过程的不断优化与动态化,保证了预测工作的可持续进行。(7)及时性原则

预测是与时间紧密关联的一项工作。预测的结果应该快速地被用于决策,不然,时机一过,就失去了预测的价值。这点在地震预测中就能明显地看出来。所以能够迅速、及时地提供预测结果是预测工作的基本要求。(8)经济性原则

开展预测工作,需要一定的硬件、人力、时间、财力等资源,所以预测本来是讲求投资回报率的。经济性原则就是要在保证预测结果精度的前提下,合理地安排、布置,选择合适的建模方法和工具,以最低的费用和最短的时间,获得预期的预测结果。一定不要过度追求精确性而无故地耗费成本。

以上八条基本原则,刻画了预测工作的全过程。首先要明确预测的目的,接着采用关联性原则来建立好的分析方法和预测思路,在保持一定连贯性的前提下应用远大近小的原则,建立起预测模型。然后,对预测的结果做出概率性预测,对预测偏差较大地,动态地反馈回来,并结合模型的实际情况做出调整和修正,使模型更优。当然,提供预测结果必须是及时的,预测工作的开展也必须控制在一定的成本之内。这样,整个预测便建立在坚实的理论基础之上了。1.2 大数据与预测

在大数据理念逐步深入到应用的今天,其概念已不再陌生。然而,预测在大数据的影响下,其意义是否也在慢慢地发生改变。本节从大数据的基本概念讲起,依次介绍大数据预测的优势及特征,最后通过几个典型的大数据预测案例,简述大数据时代预测的机遇与挑战。1.2.1 什么是大数据

何为“大”?其大无外,横向关联各个领域;其小无内,纵深分割每处细节。

何为“数”?数可以表示数量、数目,是划分或计算出来的量,也可以表示学术。

何为“据”?据通常表示可以用作证明的事物,依据、证据即是这个意思。

简而言之,大数据即是指在充斥着海量维度与量级的资料上,通过理论方法、计算技术等手段,进一步深化认识、理解研究对象的过程。在此基础上,可以提升服务质量、改善环境生态、提高生活品质等。而此过程又包含在大数据的过程里面,因为对事物的了解认识本来就是个循环往复的过程,如图1-2-1所示。图1-2-1 大数据认识示意图

可以看到,种类多、体量大、价值密度低、速度快就是大数据的显著特征,或者说,只有具备这些特点的过程,才算是大数据。这四个主要特征,又叫大数据的4V特征,分别对应四个英文单词:Volume(体量大)、Variety(种类多)、Value(价值密度低)、Velocity(速度快)。大数据4V特征的主要内容如图1-2-2所示。图1-2-2 大数据的4V特征

由图可知,大数据的体量已经不是简单的量级的增加,并且非结构化数据增势迅猛。数据充满异构性和多样性,文本、图像、视频、机器数据大行其道。从如此繁杂的数据中,找出有利用价值的点来,难度较大。而在一些典型的推荐场景中,特别强调实时,用户刚到一个地方甚至将要到达时,推荐信息就完成推送,达到立竿见影的效果。

在数据量与日俱增的今天,对数据的快速存储、实时计算提出了更高的要求。随着“互联网+”的观念深入人心,很多传统企业正在为转型寻找出路,更多维度的数据将被打通,同时,语音、视频、图片等非结构化数据也包含着太多需要去进一步提炼的信息。因此,当前许多公司都开始在大数据领域试水,已经进入持续深入大数据的尝试、落地、创造价值的进程中。而速度将成为许多大数据应用的瓶颈,数据的处理速度必须快,很多数据都来不及存储就要参与分析,这是一个挑战。1.2.2 大数据预测的优势

大数据具有体量大、种类多、速度快的特点,为有效预测提供了坚实基础。预测的准确性很大程度上依赖于特征的数量,而特征数量的多少又直接取于可以获得的数据种类。大数据数据种类多的特点,为预测的准确性奠定了可靠基础。为了更好地预测,只有多的数据种类还不够。大数据的体量,保证了预测时具有充足的数据分析源,进一步保证预测模型的稳定性。在足够的数据量的情况下,才能确保预测的结论是有效可靠的。另外,很多的预测问题,都要求在未来时间到来之前就要给出一个合理可行的计划,这要求预测实现要快,过期的预测毫无价值。大数据速度快的特点,足以满足预测实现的时间要求。

总的来讲,大数据预测的优势依赖于大数据的体量大、种类多、速度快的特点。它们的关系如图1-2-3所示。图1-2-3 大数据优势间的关系

可见,种类多可以尽可能多地提高预测的精度;体量大为预测模型的稳定性奠定了基础;速度快真正地决定了预测的价值。因此,概括一下,大数据预测的优势体现在更准确、更稳定、更有价值。1.2.3 大数据预测的特征

预测需要数据,同时预测的结果服务于决策、计划。因此,大数据预测的特征也由数据的特征和决策、计划的特征来综合决定。由于大数据体量大的特点保证了在预测时具有足够的数据源,这与传统统计在数据有限的情况下釆用抽样的方法有所不同,可以不用抽样而直接使用全体样品进行分析。此外,精准预测难以实现,在海量的数据下更需要投入很大成本,包括基本的硬件投入和运行时间。因此,快速地从数据中提取有价值的信息并加以有效利用比单纯地关注精准度更有意义,甚至允许损失一些精准度来换取效率的提升。传统的计划、决策特别强调因果关系,当业务出现问题时往往需要回溯到问题源头去考虑更为合适的解决方案。但是,在大数据时代,业务环节繁杂,需要分析的工作量巨大,甚至会不断出现之前没有研究过的新问题,此时,解决问题的速度显得特别重要,快速地得到相对可行的方案比花很多时间制订完美的方案更为可取。因此,因果关系的重要性降低,很多问题只有在充足的条件下才能研究其因果关系。取而代之的是相关关系。虽然相关关系并没有那么强的因果关系基础,但是可以在短时间内得到解决方案。虽然有时方案并不一定可行,但是制订方案的成本低,并可成为后续制订有效方案的基础。但若是有效,岂不是达到了事半功倍的效果,后续再投入资源研究,也有可能取得更大突破。

· 全样而非抽样

抽样又叫取样,是指从研究的全部样品中抽取一部分样品单位,要求其对全部样品具有充分的代表性。抽样而不用全部样品的目的是减少分析和研究成本、提高效率。而全样是指用全部样品进行分析和研究。相对于抽样而言,全样使用了所有的样品,因此结论更为可信。抽样的结论还需进一步推断以得出可以代表全部样品的结论,由于不知道全部样品的分析结果,这种方法的可信度相对不高。从数据来源的层面来看,抽样只是对样品进行抽取,尚没有得到所有样品的详细数据。一般的做法是根据抽取样本的基础信息再进一步获得其详细信息,这样就降低了数据获取的成本。而全样是在已经获取所有样品的详细信息之后进行分析、研究的方法。由于大数据的体量大、种类多,可以保证全样的可行性。而传统的分析方法由于没法拥有全量的详细信息,只能通过抽样的方法在保证获取有限样品的详细信息的情况下,推断全部样品下的结论。可以看到在全样的条件下,已经不需要P值了,但是传统统计学的很多算法在大数据条件下仍然适用。图1-2-4为全样与抽样的示意图,可以明显地看出全样的数据基数较多,抽样的数据基数较少,因此,对于最终结论,全样的分析结果更有说服力。图1-2-4 全样与抽样的关系

· 效率而非精确

所谓精确可以理解为非常准确,是比准确更能体现符合实际情况程度的表达。对大数据预测而言,由于具有体量大、种类多、价值密度低的特征,要实现精确的预测需要的时间成本和硬件成本非常高,通常在有限的资源条件下达到相对准确就可以接受了。此外,并不是投入的资源越多,预测结果也会更精确。实际上要达到预测准确是很难实现的,对于非线性的复杂系统要达到精确更是不可能的。比如,放飞一个气球,要对气球的飞行轨迹进行预测。在气球的飞行过程当中,牛顿第二定律支配着气球,但是,一些推动力、空气的作用会造成运动轨迹的不可预测性。这正是混沌的一种经典表现,气球在起飞时的微小变化,也可以造成飞行方向的巨大改变。如果用方程来解决气球那不稳定的运动,你会发现它的轨迹是非线性的,对应方程几乎不可解,所以是不可预测的。然而,情况也没有那么糟糕。虽然对于气球长期的轨迹不可预测,但是对于某一个时刻向前的短期时间内气球的移动轨迹还是可以比较准确地进行推测的。由于时间较短,气球受其他或将受其他外力的累积影响较小。只要根据某时刻气球的状态参量,就可以进行有效推测,但也会存在误差。正是因为获得很高的预测精度难以实现,所以大数据预测更强调效率,强调在有限的资源条件下获得相对准确的预测结果,以快速地转化为价值。图1-2-5为气球放飞示意图。图1-2-5 气球放飞与预测

· 相关而非因果

因果指的是原因和结果,有什么样的原因必然会导致什么样的结果,同样,有什么样的结果也必然是由什么原因造成。俗话说:“种瓜得瓜,种豆得豆”,“老鼠的儿子会打洞”,就是这样的道理。从时间层面来讲,原因在结果前面,在先知道原因的情况下就可以了解之后会发生什么事情,这就是预测。其实预测的绝大部分工作就是在挖掘所有可能的因果模式。当因果模式确定后,预测就会变得很简单。因果模式越多越可靠对预测效果越好。然而,为了达到足够的精度而花大量时间和硬件成本,多数情况下会入不敷出。特别是在大数据的条件下,体量大、种类多、价值密度低,一味地追求高的精度,一味地挖掘因果模式,不见得是明智之举。而相关关系可以弥补这种不足,所谓相关是指变量之间相随变动的关系。可以看到相关所谓的两者之间没有时间先后顺序,甚至可以是毫不相关的事物,比如冰淇淋与犯罪。可见,相关关系是比因果关系更广,要求更为宽松的关系。对于大数据预测,相关关系提供了比因果关系更加切实可行的选择。有两点主要原因:(1)相关关系分析比因果关系分析成本低、效率高。(2)对于具有因果关系的事物必然存在相关关系,但存在相关关系的事物未必存在因果关系,因此,从有相关关系且有明显效果的案例入手,既能事半功倍,又能深入研究因果关系,进一步巩固成果。何乐而不为呢?图1-2-6为因果关系与相关关系的概念图解,可以看到如果a能直接得出b就是因果关系,如果不能确定是a得出b还是b得出a(有可能是其中一种,也有可能哪一种都不是),在发生相随变化时就是相关关系。图1-2-6 相关关系与因果关系示意图1.2.4 大数据预测案例

自从大数据概念被炒得风生水起之后,很多领域都出现了大数据的应用案例,特别是大数据预测方向。在2014年世界杯预测中,大数据预测表现出了强大的威力,《纸牌屋》也是使用大数据的方法分析观众的口味来定制的一部电视剧,同时,谷歌在流行病预测方面,通过用户在流行病普遍发生前的搜索关键词对流行病进行有效预测。还有气象预测、犯罪预测等,大数据预测已经在各个人们关注的领域进行尝试。

· 世界杯预测

2010年南非世界杯中,章鱼保罗以8场预测全中(100%准确率)的纪录引发世界广泛关注。在2014年的世界杯中,各科技巨头们也纷纷推出了自己的世界杯预测结果。其中关注度比较高的包括百度、谷歌、微软和高盛。根据IT之家的报道,在四分之一决赛前,百度、谷歌、微软和高盛分别对四强结果进行了预测,结果显示:百度、微软预测结果完全正确,而谷歌则预测正确三支晋级球队。此前,在小组赛阶段的预测,谷歌缺席,微软、高盛的准确率也低于百度。而在德国与巴西的半决赛中,百度也准确地预测了德国的晋级。总体来看,无论是小组赛还是淘汰赛,百度的世界杯结果预测均领先于其他公司。示意图请参见图1-2-7。图1-2-7 世界杯各公司预测准确率对比

据百度大数据实验室主任张潼教授介绍:“预测准确度主要依靠数据、预测模型,百度世界杯预测选择了多源异构数据,进行综合分析。我们选择了5个维度的数据集,其中包含:球队实力、近期状态、主场效应、博彩数据和大赛能力,最终,我们使用由大数据实验室的研究科学家们设计的机器学习模型来实现准确预测。”

百度针对2014年世界杯专门开设了一个预测页面,支持英语和中文,如图1-2-8所示。图1-2-8 百度世界杯预测网页

根据现有的公布资料,整理出一张关于百度、谷歌、微软和高盛四家公司的预测技术的对比表,如表1-2-1所示。表1-2-1 预测技术对比表数据来源影响因素预测模型过去五年来正式国际足球比赛数据;球队实力、近期状469家欧赔公司的赔态、主场效应、博基于赔率的换算和百度率数据;彩数据、大赛能力多源数据的融合赛事预测市场的数等据Betfair博彩交易市场交易所价格(类似“赔率-胜率”换算方微软数据赔率)法队伍的Elo排名差、主要来自1960年以最近的平均进球来的正式国际足球高盛数、失球数、是否回归分析比赛数据(不包含参加世界杯、是否友谊赛)主场等基于球队实力的排球员粒度级别的各序模型,以及一些Opt Sports海量赛事方面数据(包括跑用球迷热情度和到谷歌数据动、传球、射门、巴西的球迷人数来犯规等)衡量主场优势等方法

从上表可以看到,各家公司推出的世界杯预测技术的最大区别在于数据源种类和赛事影响因素维度的选择上。

7月7日谷歌官方博客公开承认,在德国对法国的1/4淘汰赛中之所以预测失败,最重要的原因是赛事数据量过大,以及在球员跑动射门等影响因素上判断有误。

从此案例可以看出,大数据预测并不是数据越多预测效果越好,关键是真正有价值的数据有多少,当面对海量数据时,对预测有用的特征选取才是关键。本次世界杯各大科技巨头纷纷尝试大数据预测的手段与方法来实现预测,可见大数据预测有望进一步在各大领域生根发芽,最终为社会、科技进步带来福音。

· 电影票房预测

2013年Google在一份名为Quantifying Movie Magic with Google Search的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、广告点击数据及影院排片来预测票房,Google宣布其模型预测票房与真实票房的吻合程度达到了94%。这表示大数据在电影行业的应用已经开始并将一直深入而持续着。

那么,谷歌的票房预测模型为何精度如此之高?在此藏有何玄机呢?首先,我们很容易想到谷歌拥有大量的搜索数据,分析电影相关的搜索量与票房收入的关联性,可以让我们进一步了解谷歌票房预测模型的可行性。图1-2-9显示了2012年电影票房收入(虚线)和电影的搜索量(实线)的曲线(注:本文的所有图片均引用自谷歌的白皮书:Quantifying Movie Magic with Google Search)。可以看到,两条曲线的起伏变化有着很强的相似性。图1-2-9 2012年票房收入与搜索量的曲线

于是,可以进一步尝试用搜索量直接预测票房。通过对2012年上映的99部电影的研究,谷歌构建了一个简单线性模型,拟合优度只有70%,如图1-2-10所示。

对于有效预测而言,70%的拟合优度是不够的。为了进一步提高准确率,谷歌考虑了电影放映前一周的电影搜索量及电影广告的点击量、上映影院数量、同系列电影前几部的票房表现这几大类指标。对预测的电影,收集对应的这四类指标之后,谷歌构建了一个线性回归模型,以此来建立这些指标和票房收入的关系,预测的结果与实际的结果差异很小,如图1-2-11所示。图1-2-10 搜索量与首周票房收入之间的关系图1-2-11 提前一周预测票房的效果

尽管提前一周预测其拟合优度可以达到92%,但是对于电影营销而言,时间太短,很难调整营销策略,改善营销效果,因此价值并不大。于是,谷歌又进一步研究,使模型可以提前一个月预测首周票房。

谷歌采用了一项新的指标——电影预告片的搜索量。谷歌发现,预告片的搜索量比起电影的直接搜索量而言,可以更好地预测首周票房表现。这一点不难理解,因为在电影放映前一个月的时候,人们往往更多地搜索预告片。为了更好地提高预测效果,谷歌重新构建了指标体系,考虑了电影预告片的搜索量、同系列电影前几部的票房表现、档期的季节性特征三大类指标。对预测的电影,收集对应的这三类指标之后,谷歌构建了一个线性回归模型,来建立这些指标和票房收入的关系,预测的结果与实际的结果非常接近,如图1-2-12所示。图1-2-12 提前一个月预测票房的效果

谷歌的票房预测模型的公布,让业内人士再次见证了大数据的成功应用。近年来,大数据在电影行业的应用越来越引起关注,比如此前谷歌利用搜索数据预测了奥斯卡获奖者,Netflix通过大数据分析深度挖掘了用户的喜好,捧红了《纸牌屋》等。其实对于票房预测,谷歌的模型基于的只是宏观的搜索量的统计,对用户需求的挖掘相对表面。除了单纯从搜索量、广告点击量及影院排片来预测票房,还使用社交媒体的信息,比如微博、Twitter的数据来分析用户的情感,特别是明星粉丝团状态的分析。另外,基于垂直媒体的宣传数据也可以用来预测票房。

从此案例可以看出,大数据在电影行业已经开始发力,谷歌票房预测基于简单的搜索量、广告点击等数据就可以实现高准确率的预测。那么后继,可以从用户的真实需要进一步挖掘用户的口味、社交、情感及个性需求,到时大数据在电影行业的影响就会更广,不止是预测票房,还有可能改变整个行业。

· 流行病预测

早在2008年,谷歌就推出“谷歌流感趋势”,根据用户输入的与流感相关的搜索关键词,跟踪分析,创建地区流感图表和流感地图。为验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制和预防中心(CDC)的报告做比对,证实两者结论存在很大相关性。他们把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,最终通过数学模型的搭建,构成了预测系统,在2009年发布了冬季流行感冒预测结果,与官方数据的相关性高达97%。

但是,2013年2月,《自然》杂志发文指出,谷歌流感趋势预测的流感样病例门诊数超过了美国疾病控制和预防中心根据全美各实验室监测报告得出的预测结果的两倍。主要原因是谷歌流感趋势预测在它的模型中使用相对流行的关键词,所以搜索引擎算法对谷歌流感趋势预测的结果会产生不利影响。在预测时,基于这样一种假设:特定关键词的相对搜索量和特定事件之间存在相关性,问题是用户的搜索行为并不仅仅受外部事件影响,它还受服务提供商影响。

谷歌流感趋势预测(GFT)在2012—2013年的流感流行季节里过高地估计了流感疫情;在2011—2012年则有超过一半的时间过高地估计了流感疫情,如图1-2-13所示。从2011年8月21日到2013年9月1日,谷歌流感趋势预测在为期108周的时间里有100周的预测结果都偏高,如图1-2-14所示。图1-2-13 对流感样病例门诊数的预测结果图1-2-14 偏差%=(非CDC预测值预CDC预测结值)/CDC预测值,GFT的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT与CDC相结合的平均绝对偏差为0.232(图片来源:The Parable of Google Flu: Traps in Big Data)

随着对模型更新的减少及其他干扰搜索数据因素的存在,使得其预测准确率连续三年呈下滑态势。

在中国,政府相关部门也在2010年开始尝试与百度等互联网科技公司合作,尝试通过大数据的挖掘管理,分析实现流行疾病预警管理。中国疾病预防控制中心副主任、中科院院士高福也认同大数据在公共卫生预防控制上的作用。他公开表示,通过大数据可以在流感到来之前为人们提供一些解释性信息,为流感的预防提供缓冲时间。

如今,中国已经不仅仅预测流感,还开始预测肝炎、肺结核、性病等4种主要疾病。提供这项大数据预测服务的是百度,数据源除了Query数据,还用到了Google没有用到的微博数据,以及百度知道中与疾病相关提问的趋势。借助其在移动互联网的14多亿个用户入口,移动数据也将为预测提供下一步更加意义深远的支持,如:各地疾病人群迁徙的数据特征,各地天气变化等。据说,未来的预测将从现在的4种扩展到30多种主要疾病。

在具体的数据分析与挖掘方面,百度疾病预测将地区差异作为重要变量,针对每个城市分别建模,光是基于数据输出模型就达到300余个。加之后台数据的精心准备,让百度的疾病预测在最终的产品端可以提供全国331个地级市,2870个区县的疾病态势预测。

目前,百度已经构建了一套疾病预测平台,用户可以根据需要了解全国各地疾病分布及走势。例如用户选择“高血压”、地域(默认全国),就会得到一张全国地图,上面会根据不同城市人口的搜索数据显示大小和颜色不一的圆点,代表高血压的活跃度指数。圆点颜色越红越大,则表明该城市的高血压活跃度越高。沿地图下方时间轴拖动鼠标或点击播放按钮,还可以查看过去30天和未来7天这个地区高血压活跃度的动态展示,观看病情的传播路径。具体如图1-2-15所示。图1-2-15 百度疾病预测网页

从此案例可以看出,大数据落地中国公共卫生管理只是一个美好的开始,我们可以做的还有更多,这个数据库的模型可以更加丰富,例如:在数据收集端,通过智能移动健康设备实现个人健康数据实时监测,数据即可输送至公共卫生管理大数据库,也可以建立个人健康管理电子档案。在数据利用端,通过个人电子健康档案,可实现家族疾病及慢性疾病的实时监控,并对此实现长期对症治疗。

· 气象预测

20世纪90年代以前,气象资料大部分局限于地面及高空观测。两千多个地面站以小时为单位收集气象信息;120多个高空站每天观测最多不超过4次。从数据量上看不算太多,即便考虑到卫星和雷达资料,其总体年增量局限在GB量级。目前,地面观测站超过4万个,达到分钟级别(甚至秒级)观测;在空间密度上,至少增加20倍,频度将增加60倍,地面及高空观测信息总量增加了1200倍。而这些只是整个气象数据的30%,雷达、卫星及数值预测数据占到了70%。每年的气象数据已经接近PB量级。中国已经进入气象大数据时代。

气象预测是气象大数据的主要应用之一。目前主要使用收集大量的气象、湿度、风向和风速、气压等数据,结合有关气象资料、地形和季节特点、经验等综合因素来研究确定未来的天气情况。由于大气过程的混乱及今天科学并没有最终透彻地了解大气过程,因此气象预测总是有一定误差的。目前,我们一般降水的预报准确率在80%左右,暴雨24小时预报的准确率大概是19%~20%,使用相同算法,美国的暴雨预报准确率是22%。如果数据足够多,建立的数学模型足够精确,是可以接近自然真实情况的。

EarthRisk是一家利用大数据对未来天气情况做出预报的技术公司,它采用的预测模型项源自加州大学斯克利普斯海洋研究所。该模型不同于以往的数值预报模式,可基于 820 亿次计算及 60 年的气象历史数据来识别天气模式,然后将这些模式与当前的气候条件进行比较,再运用预测性分析进行天气预测,其预测时间更长、预测准度更高,最长可提前 40 天生成冷热天气概率,而传统主观预测的模型超过一星期以上,准度就下降。图1-2-16为EarthRisk公司的产品首页,可通过http://www.earthrisktech.com/products访问。图1-2-16 EarthRisk公司的产品首页

全球影响天气的成千上万个变量时刻都在不停地变化,而传统的模型没有办法将所有的因素考虑在内。因此,传统模型总需要一些基本的假设,一旦这些假设的初始条件有误,那么整个分析预测也会谬之千里。而 EarthRisk 则是利用了统计关系来预测最终结果,该技术不会受到上述限制。EarthRisk的数据来源于美英政府及数千气象科研人员的观测数据,还有每天更新的数据库。其引擎会搜索“统计显著性”的相关性及模式,然后在此基础上生成预报概率。即通过过去来预测未来。TempRisk 是这项技术的首款商业应用。对于受天气变化影响很大的公用事业、能源交易及生产等行业来说,预报的时长和准度提高会对商业决策起到很大的作用。EarthRisk 已经对这项技术的开发、完善及测试进行了好几年,现在正打算进行大规模的商业扩张。面向消费者型的应用也在开发中,未来消费者计划到台风地带去旅游时,也许就可以用上它们的应用来查查天气了。

从此案例可以看出,在大数据时代,气象数据量级猛增,也给气象预测带来了便利,因为数据维度的增多,模型也变得复杂,是否能够精确地对气象进行预测,正是某些公司的核心竞争力。气象预测的趋势,是朝精细化、精准化发展。同时在这个过程中消耗的大量人力物力可以通过数据的共享和同其他行业的交叉应用来弥补,这方面,大数据的预测意义才越发显得重要。

· 犯罪预测

如今越来越多的案例表明犯罪预防领域的预测型分析能够显著降低犯罪率,例如洛杉矶警察局已经能够利用大数据分析软件成功地把辖区里的盗窃犯罪降低了33%,暴力犯罪降低了21%,财产类犯罪降低了12%。

有趣的是,关于犯罪预测起因却是源于对地震的预测。洛杉矶警察局采用了一套用于预测地震后余震的数学模型,把犯罪数据输入进去。对于地震的预测非常困难。不过,对于余震的预测则要容易得多。在地震发生后,随后在附近地区发生余震的概率很大。这个由圣克拉拉大学的助理教授George Mohler开发的数学模型用来对余震发生的模式进行识别,从而能够预测新的余震。 而犯罪数据也符合类似的模式,因此,能够输入模型进行分析。洛杉矶警察局把过去80年内的130万个犯罪记录输入了模型。如此大量的数据帮助警察们更好地了解犯罪的特点和性质。 从数据显示, 当某地发生犯罪案件后,不久之后附近发生犯罪案件的概率也很大。这一点很像地震后余震发生的模式。当警察们把一部分过去的数据输入模型后,模型对犯罪的预测与历史数据吻合得很好。

洛杉矶警察局已经采用了数据分析来标明洛杉矶的犯罪高发地区。然而,这些信息只能对已经发生的犯罪案件进行记录。现在有了大数据,警察们可以预测犯罪了。洛杉矶警局利用Mohler教授的模型进行了一些试点来预测犯罪多发的地点。通过与加州大学和PredPol公司的合作,他们改善了软件和算法。如今,他们可以通过软件来预测犯罪高发地区。这已经成为警察们的日常工作之一。不过,让警察们能够相信并且使用这个软件可不是件容易的事。

起初,警察们对这个软件并不感冒。在测试期间,根据算法预测,

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?