信号与噪声:大数据时代预测的科学与艺术(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-12 10:14:12

点击下载

作者:(美)西尔弗

出版社:中信出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

信号与噪声:大数据时代预测的科学与艺术

信号与噪声:大数据时代预测的科学与艺术试读:

引言

本书的内容涵盖了信息技术和科学进步,也包括了自由市场、商业竞争以及观念革新。本书罗列了许多事物,这些事物使得人类比计算机更聪明,书中同样列举了人类所犯的错误。本书还描述了我们如何一步一步地学习认识客观世界,也解释了为什么有时会出现历史倒退的情况。

这是一本有关预测学方面的书,这一学科是涉及上述所有内容的交叉学科,旨在研究为什么有些预测很准确,而另外一些预测却失败了。我真诚地希望这本书能使你在规划未来时更有远见,而避免目光短浅。信息越多,问题越多

人类最初的信息技术革命并非始于微型芯片的发明,而是以印刷机的诞生为开端的。1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火,也促成了人类文明的迅猛发展——由从前那种科学和经济几乎止步不前的状态迅速跨越到呈指数型增长的状态,还带来了我们今天所熟悉的变化。除此之外,这一发明促成了一些历史事件,这些事件开启了欧洲启蒙运动,也加速了美利坚合众国的建立。

但是,印刷机发明之初并没有引发上述各种巨变,倒是可能催生了另外的事件,如持续了几百年的“圣战”。当人类开始相信他们可以预知和选择自己的命运时,人类历史上最血腥的时代也就开始了。

早在古腾堡发明印刷机之前,书籍就已经存在了,但当时书的数量和读书的人都很少,书籍只是贵族阶层的奢侈品。因为抄写员每次只能抄写一份副本,复制一份原稿的费用大约是每5页1弗洛林(一种金币,1弗洛林约合200美元),因此像你现在读的这本书,在当时可能要花费20 000美元才能得到。而且,经过无数次的抄写,书中难免有大量的抄写错误,这些错误代代相传,成倍增加,甚至还会演变成与原意相反的错误。

这就使得知识的积累变得极其困难。要想阻止以文字记录的知识的不断减少,就需要付出巨大的努力,因为书籍腐烂的速度远远大于其生成的速度。只有几个版本的《圣经》和少量的哲学论述——比如柏拉图和亚里士多德的文章——被保留了下来,其他那些数不清的智慧,由于缺乏记载动机,都遗失在那个年代了。

过去,也许人们觉得对于知识的追求即使不全是无用功,似乎也没什么实际价值。如今世事瞬息万变,我们总会有一种“世事无常”的感觉,而对于我们的前辈来说,这种“无常的世事”则更受关注。《圣经·传道书》中有一句唯美的诗句:“日光之下无新事”,可事实却并非如此,之所以说“无新事”,并不是因为每件事都已经被发掘出来了,而是因为所有事情都将被遗忘。

印刷机永久而深刻地改变了这一状况。几乎是一夜之间,一本书的成本就骤降近300倍,书的售价从相当于今天20 000美元的价格剧降至70美元。印刷机迅速在欧洲普及,到1470年,印刷机已从德国传播到罗马、西班牙塞维利亚、法国巴黎和瑞士巴塞尔,随后的10年里,几乎所有的欧洲主要城市里都有了印刷机的影子。印刷机问世的第一个世纪里,书籍的生产规模呈指数型增长,数量增长了近30倍。人类知识旋即进入快速积累期。图0–1 欧洲图书产量

然而,正如万维网建立初期那样,印刷机使用之初的信息质量也是参差不齐的。当时,人们只顾追逐眼前利益,印刷机几乎都用来印制那些质量较高的地图了,异端的宗教文章和一些伪科学文章也很快就占据了畅销书单的主要位置。印刷错误大量出现,那本被叫作《邪恶圣经》的书便是如此,这本书犯了史上最严重的印刷错误——《十诫》中的“不可奸淫”误印成“应当奸淫”。与此同时,人们一下子接触到大量的新思想,这难免会产生诸多混淆。信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程,其速度之快不禁让人瞠目结舌。面对“过量的信息”时,我们会本能地进行筛选,选出喜欢的,忽略其他的,与同道中人为友,与意见相左之人为敌。

印刷机的早期使用者中,最狂热的要数那些传播福音的人了。马丁·路德的《九十五条论纲》还不是那么激进,而对其中类似情绪的争论已然不绝于耳了。正如《现代欧洲早期印刷革命》一书的作者伊丽莎白·爱森斯坦所写的那样,马丁·路德这些论纲的革命之处就在于,它们“没有一直钉在教堂的门上” 。而是被古腾堡的印刷机复印了30多万次,即使按照今天的标准来看,这个印刷量也可算作巨大的成功了。

路德的新教改革所导致的教会分裂,很快使欧洲陷入了战争。1524~1648年间,欧洲爆发了德国农民战争、施马尔卡尔登战争、八十年战争、三十年战争、法国宗教战争、爱尔兰南联邦战争、苏格兰内战和英国内战,其中许多战争几乎是同时爆发的。当然,1480年出现的西班牙宗教法庭和1508~1516年出现的康布雷同盟也值得一提,尽管两者与新教思想的传播关系不大。单单一个三十年战争,德国人口就减少了1/3,即使是与20世纪早期的第一次世界大战相比,17世纪也称得上是史上最血腥的时代。

但就是在这样一个充满战乱的时代,印刷机却悄然推动着科学与文学的进步,所以人们才得以分享伽利略的科学思想,品味莎士比亚的舞台剧。

莎士比亚舞台剧的主题通常关乎人的命运,这一点与戏剧如出一辙。剧中人物的理想和命运之间的差距增添了这些舞台剧的悲剧色彩。莎士比亚时期,掌控自身命运看似已成为人们思想意识的一部分,但要做到这一点却很难,所以那些挑战命运的人总是遍体鳞伤,直至死去。

这一主题在莎士比亚的著名悲剧《朱利叶斯·恺撒》中得到了最生动的诠释。在这部戏的前半部分,恺撒接收到各种各样明显的警示,他称之为预言(比如“留心3月15日”),这些预言预示了他的加冕礼可能会演变为一场屠杀。恺撒当然不会在意那些预言,他始终自信地认为,这些预言只是预示着别人的死亡,否则,他当时就会留意。结果,恺撒遇刺了。

莎士比亚借西塞罗的话警示我们,“(可是)人们照着自己的意思解释一切事物的原因,实际上却和这些事物本身的目的完全相反” 。这句话对于所有正在对自己新发现的大量信息进行选择的人,都不失为一条好的建议。人们很难从干扰他们的噪声中分辨出有用的信号。数据展示给我们的通常都是我们想要的结果,而且我们通常也能确保这些数据令我们皆大欢喜。

然而,如果说《朱利叶斯·恺撒》这部戏剧中含有的宿命论、占卜术和迷信思想,是古代预言思想的开端,它同时也介绍了一种较为现代且较为激进的思想:我们可以对这些迹象进行解释,从中获益。在戏中,卡修斯说,“有时,人们可以掌控自己的命运”,他希望能劝服勃鲁托斯参与谋害恺撒的阴谋中。

于是,“人们可以掌控自己的命运”这一思想便广泛传播开来。“预言”和“预测”这两个词在今天大多数的情况下可以互换使用,然而在莎士比亚时代,它们却有着不同的含义。“预言”是指占卜者告诉你的话,而“预测”则更像是卡修斯的想法。“预测”一词源于日耳曼语,而“预言”一词源自拉丁语。“预测”反映的是新教世俗思想,而不是神圣罗马帝国的理想世界。“预测”是指在不确定的条件下进行计划,这一行为需要谨慎、智慧和勤奋,更像我们今天所说的“预见”一词。

预言思想的神学含义是十分复杂的,但对于凡尘俗世中那些追逐利益的人来说,这些含义就不那么复杂了。预言思想的这些特质与那些新教徒的职业道德是密不可分的,马克斯·韦伯认为,资本主义的诞生和工业革命的开始与预言思想不无关联。“预测”与“进步”两个概念紧密相关。所有相关书籍中的所有信息都应有助于我们规划生活,都应成功地预见整个世界的发展历程。

几个世纪以来,引领“圣战”的新教徒们都在学习如何用自身积累的知识改变社会。工业革命主要始于新教国家,而且多半发生在那些言论自由的国家,因为在这些国家,宗教思想和科学思想可以自由传播,人们也不必对审查制度心存顾虑。

工业革命的重大意义难以尽数。纵观人类社会的历史进程,经济增长的速度曾经为年均0.1%,这个增速足以匹配当时人口数量平缓增长的状况,但人均生活水平却没有得到任何显著提高。然后,经济形势突然出现了前所未有的进展,经济增速急剧超越了人口数量增长的速度,尽管偶尔也会出现全球金融危机,但这种高速增长的态势时至今日仍未改变。

历史证明,印刷机引发的信息大爆炸为我们创造了一个好的世界,因为它仅用了330年的时间就为我们带来了不可尽数的好处,而与此同时有几百万人在欧洲战场上丧命。图0–2 1000~2010年间全球人均国民生产总值生产力悖论

一旦信息增长的速度过快,而我们处理信息的能力尚且不足,情况就很危险。过去40年的人类历史表明,把信息转变为有用的知识可能还需要很长时间,一不小心,我们就有可能倒退回去。“信息时代”并不是特别新的术语,自20世纪70年代后期开始,这个术语便得到越来越广泛的使用。而与之相关的术语“计算机时代”使用得还要早一些,1970年就有人用了。也就是在那个时候,计算机虽然没有在家庭中普及,但在许多实验室和学术机构中却越来越普及了。这一次,没有经过300年的时间,信息技术的增长就已经开始为人类社会创造实实在在的利益了,但是人们也等了15~20年才享受到这些利益。

正如美国经济学家、诺贝尔经济学奖得主保罗·克鲁格曼曾经对我讲的那样,20世纪70年代是典型的“大量理论堆积如山,验证数据少得可怜”的时期。当时,人们已经开始用计算机制作地球模型,但是一段时间以后,人们发现这些模型太过粗劣,而且与实际不符,计算机可达到的精确度根本无法替代预测的准确度。这一时期,人们作过很多大胆的预测,涉及范围从经济学到流行病等各个领域,但是这些预测通常都不准确。比如,1971年,人们声称可以预测出未来10年内的地震次数,而实际上,这在40年后的今天仍实现不了。

20世纪七八十年代的计算机热非但未能推动经济和科学的发展,反而造成了两个领域生产力水平的短暂下降。经济学家将这种现象称为“生产力悖论”。罗伯特·索洛曾经在1987年写道:“计算机无处不在,可生产统计中却不见其身影。”1969~1982年,美国经历了4次经济大衰退,直到20世纪80年代后期,美国经济才开始好转,而世界其他国家的经济状况则鲜有起色。图0–3 每项专利申请的研发经费

科学发展比经济发展更难判定,但科技进步有一大标志,即专利的数量,尤其是与研发投资相关的专利数量。如果一项发明的成本降低了,这就表明我们善于利用信息,并将其转变为知识。而如果发明的成本增加了,那就说明我们正在噪声中寻找信号,这无疑是在错误的方向上浪费时间。

20世纪60年代,美国在每个发明者的每项专利上的耗资都接近150万美元(通货膨胀因素考虑在内)。这一数字在信息时代初期有增无减,1986年更是成倍增长,最高达到300万美元。

因为越来越注重新技术带给我们的实惠,20世纪90年代我们又一次提升了科学研究的生产力。各项研究不再硬钻“牛角尖”,计算机开始被用于改善人们的日常生活,促进经济发展。通常情况下,许多预言从长远角度看算作进步,而从短期角度看则成了倒退;而许多从长远来看似乎可以预知的事情,同时也会妨碍我们进行完美的计划。“大数据”的承诺与陷阱

时下最流行的术语要数“大数据”了。根据国际商业机器公司(IBM)估计的数据来看,现在我们每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。

信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”

本书着重介绍了前沿科学和高端技术,我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。这就好比对恺撒密码解码一样,我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。要提高数据分析的质量,首先要对我们自身提出更高的要求。如果对我的情况不甚了解,你可能就会对前面的提法颇感意外。我在数据和统计学领域还算小有建树,曾经据此做出不少成功的预测。2003年,由于厌倦了咨询工作,我设计了一个名为“PECOTA”的系统,主要用来预测美国职业棒球联盟球员的各项数据。这个系统有很多创新点——其预测是概率性的,比方说其中为每位球员都列出了一系列可能出现的结果——当我们将这些预测结果与比赛系统给出的结果进行比较时,发现这套系统的性能更加优越。2008年,我建立了“FiveThirtyEight”(538网站,因538张选举人总票数得名)网站,试图对即将举行的美国总统大选进行预测。该网站对两位美国总统候选人在美国50个州中的竞选结果进行了预测,结果命中49次竞选,只有1次失手。另外,我的网站还预测出美国参议院选举的35个席位归属。

美国总统大选过后,很多出版商找到我,希望我能为《点球成金》和《魔鬼经济学》这类关于小人物征服大世界的书籍估个价。本书涵盖很多行业和领域,从金融领域,到国家安全,对这些行业和领域中的数据驱动预测机制进行了调查。

在4年时间里,我曾与十几个领域中的100多位专家交流过,读过数百篇期刊文章和论文,为了实地调查,我跑遍了从拉斯韦加斯到哥本哈根的许多地方,却发现“大数据”时代的预测活动发展得并不顺利。我的成功也只是因为我在某种程度上比较幸运,一是尽管出现了本书中提到的一些错误,但还是取得了成功;二是选对了调查案例。

本书提到了几个值得研究的例子,集人类判断与计算机功能为一体的天气预报就是其中之一。虽然气象学家的名声不好,可是他们也取得过显著的进步,比如他们预测飓风着陆位置的准确度比25年前提高了3倍。与此同时,我还拜访过一些在赌城拉斯韦加斯轰动一时的扑克牌玩家和(体育赛事)赌徒。

但是,这些预测成功的案例必然是建立在一系列失败案例的基础之上的。

如果让我们用一个特点来定义美国人——一个令其与众不同的特质——那就是美国人对卡修斯精神的信仰:我们的命运由我们自己主宰。一些宗教叛逆者迎着工业革命的曙光建立了美国,他们认为自由流动的思想不仅有助于传播其宗教信仰,也有助于传播科学和商业贸易,“作为一个民族,我们的智慧、我们的勤劳、我们的傲慢和急躁、我们所有的强项和弱项,都源自我们那不可动摇的信念,那就是我们要为自己做主”。

新千年给美国人带来的是噩梦般的开始。我们没有预测到“9·11”恐怖袭击事件,而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的“珍珠港事件”一样,其实所有的信号都在那里,只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解,所以我们对那些数据视而不见,不知道大难将至。

近期,对全球金融危机的预测也总是失败。我们天真地相信各种(预测)模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。幸好在控制通胀方面,我们已经取得长足进步,否则那些经济决策者就只能“盲目飞行”了。

与20世纪70年代一样,近来人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。福岛核反应堆的设计可以抵抗8.6级地震,因为一些地震学家称不可能发生更高级别的地震。但是,2011年3月日本却发生了9.1级的特大地震。

错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年,一位土生土长的雅典人,医学研究者约翰·P·埃尼迪斯,发表了一篇颇具争议性的论文,题为“为什么大多数发表的研究成果都是骗人的”。该文对那些行业期刊中刊载的积极的研究成果进行了研究(这些成果认为那些在实验室实验中得到验证的医学假设堪称成功预测),认为大多数成果在实际生活中很可能是毫无用处的。德国拜耳制药公司最近证实了埃尼迪斯的这个推断,他们通过实验亲自对那些医学期刊中提到的积极研究成果进行验证,但发现其中近2/3的医学假设根本不能成立。

这些大数据终将推动社会进步,至于这种进步的速度有多快,或者进步的同时是否还会倒退,这些都取决于我们自己。为何未来使我们震惊?

人类并没有多少天生的防御能力,人类的速度没有多么快,身体也没有多么强壮;人类没有利爪和尖牙,也没有护身的硬壳;人类不能喷出毒液,不能伪装自己,也不能飞翔。我们之所以能生存下来,是因为我们运用了智慧。我们的思维很敏捷,我们能够敏锐地感知事物的模式,对机遇与威胁迅速地做出反应。“人类比其他动物更需要发现模式”,麻省理工学院的神经系统学家托马索·波吉奥对我说,他的研究领域是人脑对信息的处理模式。“在复杂情境中识别物体的能力是一种概括能力。一个新生儿就能识别人脸的基本模式,这种能力是进化而来的,是人类生来就有的,并非后天习得的。”

但波吉奥认为,问题在于这些进化来的本能有时会让我们去寻找原本不存在的模式,“人们一直都在努力从随机噪声(即无规律的状况)中发现模式”。

人脑能力非凡,其信息存储量或高达3千兆字节。然而,据IBM公司称,人脑的存储量不过是全球每天所产生信息量的百万分之一而已。因此,我们对自己记忆的信息一定要精心挑选才行。

在1970年出版的《未来的冲击》一书中,未来学大师阿尔文·托夫勒对他所说的“信息超负荷”的一些后果进行了预测。他认为,尽管世界本身正走向分化,变得更加复杂,但人类仍会以坚持自身看法的方式使这个世界变得简单,这便是我们的防御机制。

我们的生物本能有时会对这个信息丰富的世界难以适从。所以,我们需要积极努力,坚持自己所持有的看法,这样才有可能将重返信息负荷状态的可能性降到最低,甚至消除这种可能性。

印刷机诞生后,信息超负荷催生了更深层的宗教主义。现在,那些不同的宗教思想可以通过更多的信息、信念和“证据”得到证明,而且更难以容忍反对意见。同样的情况似乎到今天都一直存在。在托夫勒刚刚开始写《未来的冲击》这本书时,美国的党派政见分歧开始加剧,这种分歧也许会随着互联网的出现愈演愈烈。

不同的党派政见颠覆了“信息越多,就越靠近真相”这一信条。《自然》杂志上最近刊登的一项研究发现,几大政党对全球变暖的问题了解得越多,他们之间达成共识的可能性就越小。

同时,如果信息的数量以每天250兆亿字节的速度增长,其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。有太多假设需要验证,有太多数据需要发掘,但客观事实的数量却是个相对恒量。

印刷机改变了我们犯错误的方式,从前经常出现的抄写错误越来越少。然而一旦出现错误,这个错误就会被多次复制,《邪恶圣经》里出现的错误就是这种情况。

像万维网这类复杂的系统有这样一个特点,它们不像那些相对简单的系统那么容易出错,但一旦出错,必定是要命的大错。在信息宣传方面,资本主义和互联网都非常高效,这就使得好坏两种消息的广泛传播成为可能,而且坏消息也许会造成更大的影响。金融危机爆发之前,这一体系正处于高度负债经营的状态,那些信誉评级机构的预测模式一旦做出错误的假设,哪怕只是一个错误的假设,都极有可能摧毁全球的金融系统。

制定规章制度是解决这些问题的途径之一,但是我怀疑这种制度会成为我们逃避自身问题的借口。我们要停止对事物进行预测的做法,并且承认我们的预言有问题。我们喜欢对事物做出预测,而我们的预言却总是出错。预测与贝叶斯定理

如果说预测是本书的中心问题,那么它同时也是这一问题的解决方案。

预测在我们的生活中必不可少。每次我们选择工作方法、决定是否要与对方展开恋情或是未雨绸缪地将钱存起来,都是在对未来将要发生的事情进行预测,也是在对我们计划的成功概率进行预测。

不是所有的日常问题都需要费心思量,我们作每个决定的时间是极为有限的。尽管如此,我们每天还是要进行许多预测,只是有时没有意识到而已。

正是出于这个原因,本书将预测视为人们共同的事业,而不仅仅是一些顶级专家或相关从业者的职责。取笑那些专家的预测失误总是乐趣无穷,而在幸灾乐祸的同时,我们自己也要多加小心。如果说我们的预测不会比那些专家更糟,只不过是欲贬先颂罢了。

然而不可否认,预测在科学领域中的确扮演着重要角色。你们中有些人也许对我此前提到的一个前提感觉不舒服,现在我来澄清一下这个前提:我们永远都不可能做出完全客观的预测,因为这些预测总会带有主观色彩。

但是,本书对“根本不存在客观真理”这一虚无缥缈的说法完全不赞同。相反的,本书认为要做出准确的预测,首要的前提就是坚信客观真理的存在,并且执着地追寻它。而预测者的另一个承诺,就是要认识到他无法穷尽对客观真理的认知。

预测之所以重要,是因为它连接着主观世界与客观现实。科学哲学大师卡尔·波普尔早就意识到了这一点。对他来说,假设并不科学,可证伪的假设才是科学的。这就意味着在真实世界里,假设可以通过预测得到检验。

令我们裹足不前的是,经过验证的那些为数不多的想法的实际作用并不大,而且许多想法未经过检验,或者根本就无法检验。在经济领域中,验证失业率预测的准确性要比验证刺激消费政策的效果的论断容易得多。

我不会像波普尔那样,断言这样的理论不够科学或者没有价值。事实是,少数几个可以检验的理论得出的结果很糟糕,这就表明我们没有检验的那些想法中有很大一部分是大错特错的。毫无疑问,我们生活在幻想中却不自知。

但解决方法还是有的,这种方法不依靠不成熟的政策—尤其是当我意识到出现这个问题在很大程度上是因为美国的政体有问题时—它需要的是态度上的转变。

这一态度会通过贝叶斯定理得到体现,我在第八章中会讲到这一定理。贝叶斯定理名义上是一个数学公式,但其内涵却远远超出公式的范畴。这一定理表明,我们必须从不同角度去思考我们的想法,以不同的方式检验我们的想法。我们要坦然面对各种可能性和不确定性,更加周详地考虑我们对一个问题的假设和看法。

本书可以粗略地分为两部分。前7章的内容分析预测的问题,后6章的内容对贝叶斯定理进行了探讨和应用。

每一章都围绕着一个特定的主题展开,并且对其进行深入分析。不可否认,这是一本复杂详尽的书,一方面因为细节通常可以揭示关键问题;另一方面,在我看来,专注于某一问题的研究总会得到比概括研究更深刻、更独到的见解。

我选择的话题通常是公众共享的信息,预测的案例很少依据私人信息选择(公司利用客户记录预测新产品的需求量)。我更倾向于那些大家可以一起挖掘真相的话题,你不需要只听我的一面之词。本书的阅读路径

本书涵盖了自然科学、社会科学以及体育运动等各个领域的诸多实例。书中将许多相对通俗易懂的案例改造成需要稍微加以巧妙处理的案例。这些案例对成功的预测与失败的预测进行了清楚的划分。

第一章至第三章讨论了近期出现的金融危机大背景下的失败的预测,预测中有的很准确,有的则很离谱。预测会让你想到关于预测的最基本的问题:在应用数据时,我们怎样才能做出客观的判断呢?关于市场竞争,什么时候可以做出更准确的预测呢?当我们意识到未来与过去不一样时,又如何在两者之间进行协调呢?

第四章至第七章重点讲述动态系统:地球大气层的动态会带来天气的变化,构造板块的运动会引发地震,复杂的人类活动会影响美国经济,还有传染病的传播、扩散。最优秀的科学家正在研究这一系列的因果关系,然而各类动态系统使得预测变得更加困难,这些领域的预测活动总是不尽如人意。

第八章至第十章主要探讨解决方案。首先介绍了一个体育赌徒,他在运用贝叶斯定理时比许多经济学家或科学家还专业,之后讲到扑克牌。体育和游戏都遵守规则,这一点是检验预测技巧的实验所必需的。这几章帮助我们更好地理解什么是不可测性和不确定性,让我们深刻理解如何把信息转变为知识。

然而,贝叶斯定理也可以被用来解决更多现存的问题。第十一章至第十三章讲到了3个问题:金融市场泡沫、全球变暖和恐怖主义。这3个问题对那些预言家和美国社会而言,都很棘手,但如果接受挑战,我们就能使我们的国家、我们的经济和我们的星球更加安全。

自从有了印刷机,我们的世界已经经历了太多。信息不再那么稀有,我们拥有的信息太多,甚至多到无从下手,但有用的信息却寥寥无几。我们主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。

信号是真相,噪声却使我们离真相越来越远。本书为你呈现的就是信号和噪声的故事。

第一章 预测失败的灾难性后果

2008年10月23日,股票价格较前5周暴跌了约30%,美国股市崩盘。许多如雷曼兄弟公司一样曾备受推崇的公司纷纷宣布破产。在拉斯韦加斯,多家公司市值缩水40%。失业率飙升。金融机构破产,数千亿美元流失。民意测验显示,当时美国民众对美国政府的信心已降至最低点。此时距美国的总统大选还有不到两周的时间。

美国总统大选前通常很平静的国会,这次却为救市法案站在了风口浪尖上。这项刚刚通过的法案注定不受欢迎,所以它需要尽力地给公众留下维护正义的印象。美国众议院监督委员会已经约见了标准普尔、穆迪以及惠誉国际这三大信用评级机构的高管。这些评级机构受到指控,因为它们评估数万亿住房抵押贷款支持证券存在拖欠的可能性。说得婉转些,这些评级机构的判断出现了失误。

一场错误预测引发的悲剧

2007年爆发的危机常被视为政治体制和金融机构的失败。这次危机显然是一次大规模的经济衰退。直到2011年,也就是这次经济大萧条正式开始的4年之后,美国的经济增长仍然低于其生产潜力8 000亿美元之多。

然而,我十分确信,我们更应该将这次金融危机视为决策失败的结果和预测严重失准的结果。这些失败的预测影响面之广,贯穿了这次金融危机的全过程;涉及人数之多——从抵押贷款经纪人到美国白宫的官员,几乎所有人的预测都是错误的。

最失败的预测通常有很多共同点,即我们只关注那些符合我们对这个世界的期许的信息,而不在乎其真实性。对于那些最难测定的风险,即使它们严重威胁到我们的幸福生活,我们也会对其视而不见。我们所作的各种预估和假设要比现实状况简单得多。即使在解决问题时绕不开不确定性,我们也会刻意地回避它。要想了解此次金融危机的关键点,我们首先得找出所有失败的预测中错得最离谱的那个,因为所有的错误都因这个预测而起。

正常来讲,评级机构会将3A评级给予全球范围内少数偿还能力高的政府和运营状况极佳的公司。而实际上,数以千计的住房抵押贷款支持证券和金融工具居然也都拥有3A评级,于是便滋生了投资者靠别人的住房贷款违约生财的情况,他们赌的是他人违约的概率。这些评级机构给出的评级结果在很大程度上会被人们视为预测:对一项贷款拖欠的可能性作出预估。例如,标准普尔评级机构公布某个担保债务凭证为3A级,这便意味着这项债务在未来5年被拖欠的可能性只有0.12%——概率只有1/850——与其他3A级企业的债券一样安全,甚至比美国国债还要安全。这些评级机构从来不进行曲线评级。

但事实上,根据标准普尔评级机构的内部数据来看,3A级担保债务凭证的违约率约为28%(一些独立统计机构得到更高的比例),这就意味着这些担保债务凭证的实际违约率比标准普尔评级机构先前预估的高出200多倍。这简直可以算作最失败的预测了:原本被认定为绝对可信的数千亿美元的投资,事实上却是毫无安全性可言。这就好比天气预报预测某天是一个温度高达30摄氏度(华氏86度)的大晴天,结果那天却袭来了暴风雪。

如果仅仅进行了一次错误的预测,还可以就此进行解释。其中一条途径就是将这次错误归因于外部环境,也就是我们所说的“运气不佳”,有时这种解释显得名正言顺,甚至让人觉得它就是实际情况。美国国家气象局预报明天天高气爽的概率为90%,结果却下雨了,害得你打高尔夫的计划泡汤了,而你却不可能对国家气象局动怒。几十年来的历史数据显示,当天气服务信息预测降雨概率为10%,当天下雨的可能性的确占到很长一段时期以来的10%。图1–1 3A级担保债务凭证的预测违约率与实际违约率的5年数据比较

然而,如果预测者从未有过成功的预测,或犯下严重的错误,“运气不佳”这个理由就站不住脚了。因为失败的预测和客观世界无关,而往往取决于预测者的主观方法。

先前提到的担保债务凭证的例子,那些评级机构的预测根本就无据可依:这些证券是全新的证券,关于它们的记录几乎为零;标准普尔评级机构给出的违约率并非由历史数据推导而来,而是在错误的统计模型基础上做出的假设。这一错误评级带来了严重的后果——所谓3A级,违约率竟比理论中高出了200多倍。

评级机构应该做出的补救是,承认那些模型是有缺陷的,承认自己犯了错误。但在美国国会听证会上,评级机构的负责人都以“运气不佳”为托词意图逃避责任,谴责房地产泡沫带来了此次意外。

标准普尔公司总裁德文·夏尔马于2008年10月曾对美国国会说过:“对房地产市场和抵押信贷市场的急速衰退感到吃惊的不只是标准普尔公司,实际上,无论房主、投资者、金融机构、评级公司还是监管人,谁都没有预料到会出现这种情况。”

谁都没有想到会出现这种情况。无法证明自己的清白,那就承认自己的无知:一旦预测失败,人们通常会将这种手段作为自己的第一道防线。但是,夏尔马的上述说法其实是在撒谎,这种说法就和“我和那个女人根本没有发生性关系”或“我从没有服用过类固醇”之类的说法一样,不过是美国国会听证会上的惯用伎俩。

然而,这次房地产泡沫真正令人瞩目的地方就在于,很多人此前已经想到会出现这种情况,并且很笃定地将这种情况提前告知给人们。早在2000年的时候,耶鲁大学经济学教授罗伯特·希勒在其著作《非理性繁荣》中就注意到了房地产泡沫的苗头。英国经济政策研究中心的经济学家迪安·贝克于2002年8月也提到房地产泡沫问题。一向以文风保守著称的《经济学人》杂志,在2005年6月刊发了一位通讯记者的相关文章,这位记者在文中也提到了这次“史上最大的泡沫”。诺贝尔经济学奖获得者保罗·克鲁格曼在2005年8月也撰文记述了这次房地产泡沫及其必然后果。后来,克鲁格曼告诉我:“房地产泡沫是内置在经济系统中的。房市崩盘并非黑天鹅,而是房间里的大象,看上去显而易见却总是被人们忽略。”

其实,普通的美国民众对这个问题也很关切。2004年1月至2005年夏天,在短短一年半的时间里,“房地产泡沫”这一词条的谷歌搜索量迅速增加了近10倍。在房价飙升速度最快的那些州,比如加利福尼亚州,人们对该词条的关注度最高。而这些州的房价也将经历最大幅度的降价风暴。事实上,关于“房地产泡沫”这一话题的讨论当时迅速展开,引起了人们的广泛关注。2001年的新闻报道中出现“房地产泡沫”这一词条的只有8条新闻,而到了2005年,相关新闻的数量已经跃升至3 447条,这一词条在知名的报纸期刊上出现的频率也高达日均10次。

然而,这些负责预测金融市场风险的评级机构竟然说它们没有注意到金融市场存在风险。这下你该明白,这些机构似乎已经把这种说辞当作它们的最佳防线了。它们对自己所作预测中存在的问题,可谓讳莫如深。

他们只是不想让“音乐”停下来罢了

我曾就本章内容与多位经济学家和投资者交流过,他们对那些评级机构的工作全都不满意,但是他们认为导致这些机构预测错误的原因可以分为两类,即因贪婪而犯错和因无知而犯错。可问题是,他们真的那么无知吗?

对于这个问题,朱尔斯·克罗尔也许有资格做出评判,因为他本人就经营着一家评级机构——“克罗尔债券评级公司”。这家公司成立于2009年,我是2011年在克罗尔位于纽约的办公室里见到他的,当时他的公司刚刚发布了一个项目的初评结果——对弗吉尼亚州阿灵顿一家大型购物中心的建筑商的抵押贷款进行评级。

克罗尔指责大多数评级机构缺乏“监管”。“监管”这个词从克罗尔嘴里说出来颇具讽刺意味,因为在涉足评级行业之前,他就已经因为创建“克罗尔风险顾问公司”而小有名气了(虽然为人低调,赚钱却很高调,且赚得盆满钵满)。这家风险顾问公司相当于一家侦探公司,专门侦查各类公司的欺骗行径。这家公司知道如何识破骗局——比方说,一群绑架者劫持了身价过亿的对冲基金巨头,但这群绑匪用被绑架者的信用卡买了比萨,这就相当于把自己暴露了。我见到克罗尔时,他已经69岁高龄,但他的侦探直觉仍十分敏锐,在他着手调查那些评级机构的运营情况时,这些直觉便被充分地调动起来了。

克罗尔告诉我,“监管”是评级行业的专业术语,指评级公司有义务将所了解的信息如实告知广大投资人。评级机构每月都会收到一份新的数据记录,里面记录着大量数据,比方说抵押贷款的拖欠与支付情况等。这些数据可以提供早期预警——情况正朝着好的方向发展,还是越来越糟?全世界都等着那些评级公司发布这些信息。

换句话说,那些评级公司本该最先察觉到房地产市场的问题,因为它们比别人掌握了更多的有效信息——数以千计的借款人是否及时还款的第一手资料。但这些评级机构一直都没有大批量地下调住房抵押贷款证券的信用级别,直到2007年这些问题凸显出来,房屋止赎率也已经上涨了1倍,此时评级机构才不得不着手处理这些问题。

克罗尔对我说:“评级机构的人并不傻,他们对后果一清二楚。我想他们只是不想让音乐停止罢了。”“克罗尔证券评级公司”是十大“美国认可的统计评级机构”之一,由美国证券交易管理委员会许可,为负债性有价证券进行评级。但前10名中的另外3家评级机构穆迪、标准普尔和惠誉几乎瓜分了全部市场份额;其中标普和穆迪曾分别为金融危机前发行的97%的担保债务凭证进行过评级。

标准普尔和穆迪评级公司能占据如此大的市场份额,其中一个原因就是两大巨头长期以来一直是利益集团的一分子。两者皆为合法寡头垄断链条的一环,政府在这一行业中实施准入限制。与此同时,标准普尔和穆迪的积极评价往往是在大额养老金的各项相关法规的允准下做出的——在购买债券之前,其中2/3的养老金法规规定债券销售前,必须有标准普尔或穆迪两者同时对债券进行评级。

尽管标准普尔和穆迪的员工收入与华尔街那些公司的员工不可同日而语,但两大公司利用其优势地位获得的特别收益还是相当可观的。1997~2007年这10年间,穆迪公司来自所谓结构性融资评估的收入就增加了800多倍。此类评估也是公司在泡沫经济时期的主要业务,这些业务使得穆迪在房地产泡沫期内连续5年占据着标准普尔500家上市公司的利润榜首位。(2010年,即便当时房地产泡沫已经破碎,各大评级机构的问题已经凸显,穆迪仍旧保持着25%的盈利率。)

只要新的担保债务凭证源源不断地发行,大笔利润就唾手可得。投资者事发前无从知晓评级的准确性,评级公司因此没有比拼服务质量的热情。穆迪的总裁麦克丹尼尔就曾明确地告知董事会,评级质量是对公司利润影响最小的因素。

评级机构的利润方程很简单。每完成一次评级任务,评级公司就会从证券发行人那里得到一份报酬,债权抵押证券发行得越多,来自证券发行人的利润也就越大。通过融合不同类型的抵押证券,或由原类型衍生出新类型,债权抵押证券其实可以无限量发行,而这些评级机构又不会错过任何评估的机会。后来,政府的一次调查公开了穆迪两名老员工的即时信息交流记录,其中一位员工说,即使一种证券是“一群牛设计的”,穆迪也愿意评估它。在有些情况下,一些评级机构甚至还会协助证券发行者操控评估结果。在所谓的透明机制下,标准普尔评级机构为证券发行者提供评级软件的副本,这既方便了他们了解不良贷款的具体数额,确定再投放量,同时还能维持评级结果。

房地产泡沫的出现及其破灭,将会断送评级机构唾手可得的财路。对威胁自己的风险,人类拥有一种超凡的能力,那就是对其视而不见,好像这么做,风险就会自动消失。如此看来,德文·夏尔马在听证会上的陈述似乎是合乎情理的,即便其他评级公司注意到房地产泡沫现象,但标准普尔公司却很可能真的忽略了这一信息。

然而事实上,标准普尔公司十分清楚可能会出现房地产泡沫问题,但它们给出的结论却是,这次泡沫没什么大不了的。标准普尔评级机构的发言人凯瑟琳·马茜斯曾向我提供过一份备忘录,其中详细地记录了该公司在2005年做的一次模拟测评,这次测评预测出,两年内美国的房价将下降20%,这个降幅与2006~2008年间房价的实际降幅——30%——已经相当接近了。这份备忘录认为,标准普尔现有的各种预测模式可以有效地“捕捉到发生经济低迷风险的信号”,由这些模式评定出的高级别证券可以“经受住房价下跌,且不会发生信用降级”。

从某些方面来讲,上述情况比评级公司完全忽略“房地产泡沫”这一因素更令人担忧。我将会在本书后面的章节中探讨那些“未知的秘密”——那些我们从未意识到的风险的危险性。我们以为自己可以控制很多风险,但结果并非如此,也许这才是更大的威胁。在这些情况下,评级机构的盲目自信不仅是在愚弄自己,还会殃及他人。标准普尔公司的案例表明,这种自以为是的做法会伤害整个金融体系。道格拉斯·亚当斯在其著作《银河系漫游指南》一书中写道:“可能会出错的事情和完全不可能出错的事情之间的主要差别在于,一旦这件完全不可能出错的事情最终出了错,这个错误往往无法挽回或者根本无法补救。”

既然拥有科学、精确的预警信息,评级机构的预测模式为何还会错误百出,预测水准如此低下呢?

评级机构为什么会犯下致命的错误?

只有深入挖掘,我们才能发现问题的根源。要找到这个答案,我们需要对类似担保债务凭证这类金融工具的构成作进一步了解,还要对不确定性与风险之间的差别有所了解。

担保债务凭证是抵押债务的集合,会被分配到不同的资产池,或划分为不同的“等级”。有些资产池风险很大,有些资产池则很安全。我的朋友阿尼尔·卡什在芝加哥大学教授金融危机这门课,他想出一个简化了的担保债务凭证的案例,我在这里就用他的案例来解释这个问题。

假设你有一组抵押贷款,由5项贷款组成,假设其中每一项都存在5%的违约率。依据抵押贷款的不同级别,你可以设置风险渐次增加的多个赌注。其中最安全的赌注,我们姑且称为α池,在这里当5项抵押贷款全都违约时才会输掉赌局。风险最大的赌注为ε池,这里任何一项贷款违约都会被套牢。其他资产池的风险以此类推。

然而,投资者更愿意将赌注押在ε池,而不是α池,这是为什么呢?原因很简单,ε池可以以较低的价格抑制较高的风险。如果你是一个不愿意承担风险的投资人,比如用养老金来购买证券,你的投资原则就不允许你投资评级很低的证券。如果要购买证券,你一定会从评级为3A级的α池中购买。

α池中的证券由5项违约率只有5%的抵押贷款组成。只有5项贷款全都违约你才会赔本。这种情况下还会有风险吗?

实际上,这个问题并不简单,而问题也正在于此。不同的假设或估算会产生完全不同的结果。如果假设错误,整个数据模式都会谬以千里。

一种假设将每一项抵押贷款都视为独立的,在这种情况下风险是多元化的:如果克利夫兰的某位木匠拖欠贷款,这件事与丹佛的某位牙医是否拖欠贷款没有任何关系,那么在这种情况下,你赔本的风险就格外低,如同连续5次掷骰子都掷出两点的概率一样低。确切地说,这种情况出现的可能性是5%的五次方,概率低到320万分之一。评级机构会宣称一组平均信用等级为B+的次级抵押贷款属于这种假设的多元化奇迹——这种等级的贷款通常情况下意味着违约率会超过20%,但放在一个资产池中,其违约率则趋近于零。

与上述假设截然相反的另一种假设是,5项贷款之间并非完全独立,而是彼此休戚相关,要么5项同时违约,要么都不违约。这时就用不着再分别掷5次骰子,你其实是把赌注押在了一局上。你有5%的概率押中两点,一旦押中,则5项贷款全部违约,这个概率比你最初设想的风险高出160 000倍。表1–1 简化的担保债务凭证结构

上述两种假设哪一种更行之有效,要看经济发展的状况。如果经济和房地产市场运转良好,则第一种假设(即5项贷款之间各自独立、互不相干)更合理。之所以会不时地发生违约情况,只是因为运气不佳:有人花了一大笔医疗费,或者有人失业了。但某一个人的违约行为与其他人的违约行为没有多少关系。

假设情况并非如此,而是存在某种共同的因素将这些房屋所有者的命运紧紧地联系在一起。例如,严重的房地产泡沫导致房价暴涨80%,基本住房条件却没有任何的实际改善。现在你的麻烦来了:如果一个借款人违约了,剩下的几位借款人很可能也会出现同样的问题,那么你输掉赌局的可能性就会渐次提高。

美国在2007年年初经历了第二种假设中提到的状况(本章后半部分将会对房地产泡沫进行一个简短分析),但评级机构却将赌注押在了第一种假设中提到的那些基本上没有什么关联的风险上。尽管在房地产泡沫破灭之前的很长一段时间里,很多专家、学者已经意识到第一种假设的缺陷,有些评级公司的内部人士也对这些缺陷进行了揭秘,但那些评级公司却没有对这些缺陷做出充分解释。

举个例子来说,穆迪国际曾专门拿出一段时间对其预测模式进行临时调整,将3A级证券的潜在违约率提高了50%。这一改变似乎十分谨慎,但提高的50%真能弥补这一假设本身的漏洞吗?

若评级机构预测中发生的错误本身是线性的、可运算的,事情也许就好办得多了。但举债经营(即贷款投资)常常会使预测中的错误的复杂性增加很多倍,也存在引发呈几何倍数增长的非线性错误的可能性。穆迪公司对违约率所做出的50%的调整,就好比是只涂了层防晒霜就告诉大家这样可以防核辐射一样,根本不足以应对这一严重的问题。这不仅意味着评级机构对违约风险的估计可能比实际违约率低很多,误差远不止50%,而且极有可能是500%乃至5 000%。实际上,抵押贷款的违约率要比评级公司宣称的高出近200倍,这就意味着它们的预测模式偏离实际数据的概率高达20 000%。

从更广泛的意义上讲,评级公司的问题在于,它们无法区分风险和不确定性的不同,或者它们对两者间的差别根本就不关心。“风险”一词由经济学家弗兰克·H·奈特于1921年第一次明确提出,我们可以为其定价。举个例子来说,玩德州扑克时,若对方“顺子”中缺一张牌,你就赢了,出现这种情况的精确概率为1/11,这就叫风险。打牌时碰到邪门的“愤输牌”会很不愉快,但至少知道这种冤枉牌出现的概率,可以提前想好应对策略。从长远来看,当你的对手对差牌出现的概率的估计严重不足时,你就可以大赢特赢了。

不确定性是指难以度量的风险。也许你能隐约感受到暗藏的危险,甚至有时对这种危险的感觉很强烈,但究竟危险有多少,什么时候会爆发,这些问题你都不确定。粗略估计的误差可能是100%,也可能是1 000%。真实值究竟是多少,我们无从而知。这就是不确定性。风险是自由市场经济发展的助力,而不确定性则是阻力。

评级公司有这样一种魔力,能将捉摸不定的不确定性转变成看似可以感知的风险。那些刚刚发行的证券会受到系统不确定性的巨大影响,而评级公司却选择评估这些证券,并宣称它们可以对其风险进行量化。不仅如此,评级机构做出的所有评估结果几乎都令人瞠目:这些证券无投资风险。

有太多投资者将这些言之凿凿的结论误当作准确的论断了,而极少有人为意外情况未雨绸缪。

然而,尽管那些评级公司确实需要对金融危机承担很大的责任,但它们绝对不是酿成这些错误的唯一罪魁祸首。整场金融危机的悲剧可以分为3幕。

第一幕:房地产泡沫

在美国,房地产的投资获利历来就算不上丰厚。事实上,根据罗伯特·希勒及其同事卡尔·凯斯建立的凯斯–希勒函数来看,长期以来,美国房产的市场价格几乎没有任何上扬。因为通货膨胀,1896年价值10 000美元的房产到1996年的价值仅为10 600美元。长达一个世纪的房地产投资,其收益率仅相当于股市一年的收益率。

尽管房地产投资的收益不高,但至少还算是一项比较稳妥的投资。进入21世纪前后,美国房价经历了史上最大的一次上涨,房产的涨价幅度可与第二次世界大战期间的房价增速相媲美,以1942年的房价最低点为参照点,当时的涨幅高达60%。图1–2 凯斯–希勒函数,1890~2006年美国房价

20世纪50年代的房地产繁荣与21世纪初的房地产泡沫几乎没有任何共同之处,对比来看,我们就会明白为何21世纪初的房地产业如此混乱。

第二次世界大战后的几年,美国人的居住格局发生了巨大变化。美国人的生活从第二次世界大战前的过度储蓄转变为战后的消费激增,人们纷纷要求拓展居住空间。1940~1960年这20年间,美国的自有住宅率从44%猛增至62%,主要集中在城郊地区。房地产繁荣的同时,也迎来了婴儿潮:战后,美国人口以每10年20%的速度增长,这个增长率是21世纪初人口增速的两倍。这便意味着当时美国的房屋业主数量在10年内增加了80%,这个增幅与房价的增速相吻合甚至超过了房价的增速。

相比之下,21世纪初的几年,美国的自有房屋率增速缓慢,增幅最大的是2005年,这个增长率也只是从10年前的65%增加到69%,增幅不过4%而已。从前没能力买房子的那些美国人当时还是没有几个能买得起房的。2000~2006年的6年间,有40%的房地产投资的收益名义上增长了15%,但这个增幅连通货膨胀都抵消不了,更不用说再买一套新房子了。

然而,通过投机商炒房,以及有史以来最可疑的贷款和信誉度最差的消费者,美国房地产市场被人为地制造出虚假繁荣的景象。21世纪初的几年内,全美存款率降至历史最低点,某些年份甚至低到只有1%多一点。但是,得到抵押贷款却比从前任何时候都容易。房价不再受供需关系的制约,因为借贷者、股民以及评级机构等所有能从房屋买卖中获利的人,都在努力维持着繁荣的假象。

美国从未有过这样的房地产泡沫,但其他国家出现过这样的情况,当然结果都是同样惨烈。希勒对荷兰与挪威等几个国家几百年来的数据进行了研究,结果发现,一旦房地产行业的发展超出人们的负担能力,房地产市场必将崩盘。例如,20世纪90年代日本臭名昭著的房地产泡沫,就是美国新近出现的房地产市场泡沫梦魇般的前车之鉴。1981~1991年短短10年时间里,日本商业地产的价格飙升了76%,但接下来的5年里又骤降31%,这与美国房地产泡沫产生前后的房价走势如出一辙(图1–3)。图1–3 日本商业地产泡沫(1981~2001年)和美国房价泡沫(1996~2011年)

希勒还发现另一个导致房地产泡沫的重要证据:民众购买房屋时对这项投资可能带来的回报,总会怀着不切实际的期望。2003年,凯斯和希勒负责的一项调查发现,许多业主希望他们的房产每年能增值13%。实际上,将通货膨胀因素考虑在内,1896~1996年这100年内房价只增长了6%,每年房价的增长率不过区区0.06%。

这些业主对房市的过分自信也许是情有可原的,因为房地产泡沫已经渗透文化层面。2005年,美国在10天内就先后开播了两档家装房地产真人秀电视节目:一档名为“玩转此屋”,另一档名为“玩转彼屋”。连那些本来无意从房地产投资中获取巨大利益的房屋购买者也开始行动起来。长期与希勒共事的经济学者乔治·阿克尔洛夫(2001年诺贝尔经济学奖得主)的办公室位于加利福尼亚大学伯克利分校,那里的房价跌得最惨。阿克尔洛夫告诉我说:“我记得20年前,去萨克拉曼多一路通畅,但现在常常交通堵塞,于是人们就想,如果我现在还不出手买房,5年后同样的价钱就只能买离公路16公里远的房子了。”

不管那些房主认为他们买房不可能赔本还是不可以延迟购买,房地产市场的风险依旧那么自顾自地逐月提升。2007年年末,问题浮出了水面:美国综合实力排位100=泡沫初始阶段(通胀因素包含在内)前20位的房地产公司中有17家房价当年出现下跌情况。更糟的是,反映房地产需求的主要指标——住宅营建批准数急剧下降,比高峰时减少了50%。与此同时,债权人终于看清次贷市场标准松懈带来的后果,不愿再放贷。到2007年年底,全美房产止赎率翻了一番。

决策制定者的第一反应却是让泡沫再膨胀。佛罗里达州是受冲击最严重的州之一,但州长查利·克里斯特仍计划给新购房者发放10 000美元的贷款。2008年2月,美国国会通过一项法案,希望通过大幅度增强房利美和房地美的放贷能力来刺激住房销量。但事与愿违,房价下跌的趋势无法逆转,2008年住房销量下跌20%。

第二幕:负债经营

尽管房地产泡沫刚产生时,就有很多经济学家意识到这个问题,但能够预见到房价崩盘会影响到整体经济的人为数不多。2007年12月,《华尔街日报》预测版面的几位经济学家预测,2008年经济衰退的可能性只有38%。这一预测之所以令人印象深刻,是因为随后的数据显示,当时经济已经开始衰退了。而专业预测调查版面的那些经济学家更离谱,他们认为经济危机发生的概率还不到500分之一,但实际上早已危机深重了。

上述经济学家之所以做出了错误预测,是因为他们漏掉了两个主要因素。第一是房价下跌对普通美国民众资产的影响。截至2007年,美国的中产阶层家庭的财产中有超过65%都花在自家的房子上了。然而,他们的生活却每况愈下——他们一直把房产权视为自动取款机。2001~2007年这6年的时间,美国中产阶层家庭的非房产资产,即存款、股票、养老金、现金以及其他小生意的收入总和下降了14%。所以,当房地产泡沫破裂使他们丧失了房产权时,这些中产阶层家庭发现,他们的经济状况与几年前相比可以说是极度恶化。

消费者更加现实的理财观使得消费性支出大幅下滑——经济学家称之为“财富效应”——下滑幅度大概相当于年国内生产总值的1.5%~3.5%,这种状况很有可能使经济从慢速增长变为衰退。但是,普通的衰退是一回事,全球性金融危机则是另外一回事,两者不可同日而语。“财富效应”并不足以解释房地产泡沫是如何触发这样一场危机的。

事实上,房地产市场只是金融体系中相当小的一部分。2007年,美国房屋销售总额约为1.7万亿美元,与股市每年创造的40万亿美元的交易额相比,可谓“小巫见大巫”。但与普通百姓的保守投资形成鲜明对照的是,华尔街金融大亨在房地产市场中的投资活动却是如火如荼。2007年,住房抵押贷款支持证券交易总额约达80万亿美元,这就意味着只要有人自愿地将资金投放到抵押贷款中,每投入1美元,华尔街私下里就会押下价值50美元的赌注。

现在清楚金融危机的成因了吧:购房者的赌注被放大了50倍。这个问题可以概括为一个词:负债经营。

如果你从别人那里借来20美元,赌印第安人能打败西部牛仔,这就是负债打赌。同样的,你借钱获得贷款,或你将借来的钱投在一只抵押贷款支持的证券,也算是一次负债打赌行为。

2007年,雷曼兄弟的负债率约为33∶1,即1美元的资本要执行33美元承担的财政职能。这就意味着,如果雷曼兄弟的证券投资组合的价值只下降3%~4%,公司拥有的资产净值就会变成负数,濒临破产。

高负债经营的不只是雷曼兄弟一家,另外几家主要的美国银行的负债率也都为30%,并且在金融危机突然爆发之前这个数字还在持续上升。尽管美国银行负债率的历史数据参差不齐,但英格兰银行对英国的各大银行进行过一项分析,这项分析表明,现在金融系统的整体负债程度要么达到了2007年史上最高值,要么就是一个前所未有的新高度。图1–4 房地产市场抵押贷款支持证券

然而,与其他银行相比,雷曼兄弟的明显不同之处在于,这家投资银行对抵押贷款支持证券的“胃口”太大了。2007年,雷曼所持有的850亿美元抵押贷款支持证券已经是公司资本基础值的4倍多,这就意味着,只要证券价值下降25%就足以让公司破产。

正常情况下,广大投资者最不愿购买这样的资产了,至少他们会很谨慎地避免赌局失手。

乔治·阿克尔洛夫告诉我说:“如果有人在市场上竭力向你推销一款你完全不了解的产品,你就该想到他们在向你推销柠檬(没用的东西或者质次价高的产品)。”

阿克尔洛夫曾就这个问题写过一篇名为“柠檬市场”的著名论文,并且凭借这篇文章获得了2001年度的诺贝尔经济学奖。那篇论文指出,信息不对称将导致市场瘟疫,商品质量会下降,市场将充斥着非法的卖家和急切且轻信的买家。

假设大街上有个陌生人走上前问你有没有兴趣购买他的二手汽车,他一味地向你展示产品目录中的标价,却不愿让你试驾。对此,你难道不心存疑虑吗?这种情况的核心问题就在于,卖家比买家更熟悉这辆车的车况——返修率、行车里程等。不管对方出价多少,明智的买家不会做这笔交易,因为此时的不确定性要大过风险。你知道对方会给你很大的折扣,但却不知道这个折扣究竟该有多大。对方出价越低,你就越怀疑这笔交易的可信度,觉得这么好的事情不可能是真的。这世上也许根本就没有什么合理的价值可言。

但是,现在假设那个向你推销汽车的人有一位担保人,担保人看上去诚实可靠、值得信赖——这人可能是你的至交好友,也可能是你之前的生意伙伴,在这种情况下你就很可能会考虑做这笔交易了。评级机构就扮演着这样的角色,它们给那些抵押贷款支持证券做了很多3A评级作为担保,帮助它们赢得了原本不存在的商机。债券市场本来期望评级机构是《周六夜现场》中的戴比·唐纳,能多带来点“负面”消息,但评级机构俨然成了受人欢迎的美国演员小罗伯特·唐尼,左右逢源。

尤其是对雷曼兄弟公司,评级机构本该任用专业的驾驶员指引道路。在2007年3月的一次电话会议中,雷曼兄弟公司的首席财务官克里斯托弗·欧米告诉投资者,他对近期市场的停滞并不担心,别人急于清算之时正是抄底大赚一笔的好时机。他解释道,贷款市场的信誉度是很可靠的,但这一结论只能从那些证券的3A评级中得出,而不是从作为次级附属担保物的次级抵押贷款的质量中体现出来的。这一次,雷曼兄弟公司算是买了一个烫手的“柠檬”。

一年之后,房地产泡沫开始破灭,雷曼公司迫切希望转手卖掉这些“柠檬”,但那些投资者要求用作信用违约掉期的保险费数额激增——一旦违约,这笔费用便会派上用场,也可以作为一种基本的保障手段,防止违约情况的发生——这些费用只能弥补雷曼兄弟公司20%的资金缺口。所有努力都化作枉然,也为时过晚,2008年9月14日,雷曼兄弟公司宣布破产。

幕间休息:从贪婪到恐惧

雷曼兄弟公司破产之后的种种真实经历,足可以写成一本书了(也确实被写进了《大而不倒》等优秀著作中)。这次事件也足以让人们谨记,一个金融公司倒下后,留下的大笔债务会一直困扰着经济发展。雷曼兄弟公司无力填补证券投资失败的漏洞,就需要由他人埋单,这又进一步波及了其他公司,从而对整个金融系统造成冲击。投资者和债券发行者眼看着危机发生,却不知道究竟谁欠了谁的钱,更无从分辨哪些公司还有偿还能力,于是,不管利息多高,他们都不愿意再借出一分钱,连经营状况良好的各大公司的运转也由此受到了影响。

正是出于这个原因,很多政府有时会拯救那些难以自保的金融公司,虽然这样做会使纳税人背上巨大的负担,还会损害政府自身的形象,但它们还是会出手。美联储就曾挽救过贝尔斯登公司和美国国际集团两大金融服务公司,然而这次却没有向雷曼兄弟伸出援手,广大投资者的期待都落了空,于是第二天道·琼斯指数一开市就暴跌500点。

为什么美国政府出手帮助贝尔斯登公司和美国国际集团,却对雷曼兄弟公司不闻不问呢?个中缘由我们无从得知。一种解释说,因为雷曼兄弟公司长期以来都不负责任,金融状况每况愈下,因此政府不确定要付出多大的代价才能挽救它,于是就不想做费力不讨好的事了。

2009年12月,我在白宫遇见了时任美国国家经济委员会主席的劳伦斯·萨默斯,他告诉我说如果政府在危机发生时保住了雷曼兄弟公司,可能美国的状况就会好不少,但当时金融系统的负债经营率实在太高了,不得已只能忍痛割爱。

提到金融危机时,萨默斯说:“这是献身克己的预言。过去大家基本上都在负债经营,而一旦所有人都在负债经营,经济体系就必然是脆弱的,事实证明,他们的自满情绪根本就是毫无根据的。雷曼兄弟公司就是丢在干燥森林里的一根点燃的香烟,成了金融危机的导火索。即便倒下的不是雷曼兄弟,也很可能是别的公司。”

萨默斯认为美国经济由一系列反馈回路组成,供需关系就是其中简单的一环。假设你正在经营一家卖柠檬汽水的小店,若降低价格,销量就会增加;提高价格,销量就会下降。如果你赚得盆满钵满只是因为户外的温度快达到38摄氏度,而附近卖柠檬汽水的店铺只有你一家,这就有风险了。若某个恼人的家伙在街对面也开了一家汽水店卖柠檬水,你就得降价了。

供需关系的例子属于一种负反馈:价格走高,销量就会下降。尽管称为“负”反馈,这种反馈对市场经济来说却是积极有益的。假设情况相反,供需关系总是正反馈,即价格提高时,销量也会提高。你将柠檬汽水的价格从25美分涨到2.5美元,销量非但没有下降,反倒增加了一倍。好了,现在你又涨价了,将柠檬汽水的价格从2.5美元涨到25美元,销量又翻倍了。最终结果就是,你将一杯柠檬汽水卖到了46 000美元——这是美国的人均年收入——3亿美国人全都排大队来买你的汽水。

这是一个正反馈的例子。这种情况乍一看觉得很开心,但很快你就会发现全美国人民要倾尽所有才能买得起一杯柠檬汽水,你本想用卖柠檬汽水的钱去买自己一直十分钟情的电子游戏,可是却没有人愿意离开队伍为你生产这些游戏。

萨默斯认为,通常负反馈在美国经济中占据主导地位,如同恒温器一般防止经济衰退或过热。他还认为,恐惧与贪婪也是最重要的反馈之一。有些投资者谨慎小心,有些则敢于冒险,这样市场才能平衡:如果股价因为公司的财政状况恶化出现下跌,胆小的投资者就会纷纷抛售,而贪婪的股民则会乘机抄底。

然而,贪婪和恐惧是两个非常不稳定的因素,只有两者保持平衡,经济才能顺利发展。若贪婪在经济体系中占上风,就会产生经济泡沫;若恐惧因素压过贪婪,经济又会陷入恐慌。

一般来讲,我们作决定前咨询一下亲朋好友的意见是有益处的,但问题是,若他们的判断是无奈之选,那我们自己的判断肯定也好不到哪里去。人们评估自己房子的价格时常与他人的房子相比,如果一套位于城市新区的三居室房屋售价为400 000美元,那附近的一座殖民时期的房子若要价350 000美元,就会让人觉得天上突然掉了一个大“馅饼”,捡了大便宜。依此来看,如果一套房子的价格上涨了,就极有可能拉动周边其他房屋的价格。

或者假设你正在考虑投资另外一种资产,比如抵押贷款支持证券。这类商品也许更难估值,但购买这种资产的投资人越多(并且为其担保的评级公司越多),你就越有可能相信这些资产是安全的,是值得投资的。因此,你得到一个正反馈,但同时也有可能遭遇经济泡沫。

但是,最终主导房地产市场的还是负反馈:根据现有价格,没有哪个美国人能买得起房。这样看来,很多已经买了房子的美国人一开始根本就不可能买得起房子,但很快他们就靠抵押贷款买了房子。人们都在假设所有买进这些资产的人不可能出错,最终这些资产吸引了数十亿美元的贷款,但这种高负债的局面必然会对经济造成严重破坏。直至泡沫破灭时,人们才如梦方醒。

萨默斯曾在2009年告诉我说:“过去我们不算恐惧,但是太贪婪;而今我们不算贪婪,但是太恐惧了。”

第三幕:这次还是犯了同样的错误

一旦房地产泡沫破灭,那些贪婪的投资者将会发现到处都潜藏着不确定性,他们的贪婪就会转为恐惧。摆脱金融危机的过程——所有人都竭力想弄清楚到底是谁欠了谁——会带来一些遗留问题,而且这些问题会持续相当长的时间。美国经济学家卡门·莱因哈特和肯尼斯·罗格夫为了撰写《这次不一样:800年金融危机史》一书,研读了大量金融史资料,他们发现,数次金融危机导致的失业问题通常都会持续4~6年。莱因哈特还进行过另外一项研究,关注了距离现在比较近的几次金融危机,他发现,经历这些危机的15个国家中,有10个国家的就业率始终都无法恢复到危机前的水平。这样一来,金融危机与正常的经济衰退的区别便一目了然了。正常的经济衰退发生后,随着经济元气的不断恢复,通常在下一年,经济增长就会超过一般水平,就业率也会迅速赶超衰退前的水平。尽管将金融体系和经济体系的其他部分区分开来很重要,但是很多经济模式并未对此作过区分。

美国政府本该好好地从莱因哈特和罗格夫的书中吸取教训,然而他们并没有这样做。很快,美国政府就尝到了自己糟糕预测带来的苦果。

2009年1月,巴拉克·奥巴马即将宣誓就职,由美国经济顾问委员会主席克莉丝汀·罗默和萨默斯领衔的新的白宫经济团队也开始就位。新团队奉命制定一系列的经济刺激计划,以刺激企业及个人的消费需求。罗默认为政府需要为此投入1.2万亿美元。但白宫政治团队提出异议,他们认为很难说服国会接受上万亿美元的价码,于是这个数字最终被修改为8 000亿美元。

为了向美国国会和普通民众推销这一计划,罗默和她的同事准备了一份备忘录,上面记录着危机的严重程度以及这份刺激计划将采取何种措施来缓解这次危机。这份备忘录的显著特点就是,其中配有很多预测图,明确地呈现出在有刺激计划和没有刺激计划这两种情况下的失业率走势。备忘录中写着,如果没有经济刺激计划,2008年12月发布的7.3%的全美失业率,到2010年年初将达到约9%的最高点;但如果有了刺激计划,失业率就永远不会超过8%,而且最快会在2009年7月开始降低。

2009年2月,在按政党画线的投票中,美国国会通过了这一刺激计划,但是美国的失业率仍持续上升,到2009年7月失业率升至9.5%,同年10月更是达到令人咋舌的10.1%,这比白宫之前预测的“没有刺激计划”的后果还要严重。保守党的博主们每月都会对罗默的预测图进行厚颜无耻的更新,当然是将实际失业率叠加在原来那些过于乐观的预测图上进行修改。图1–5 2009年1月白宫制定的经济刺激计划资料来源:(美国)劳动统计局

然而,普通民众看到这幅预测图后,得出的结论与罗默的说法有所不同,事实上,两者的结论根本就是截然相反的。但经济学家保罗·克鲁格曼一开始就认为这项刺激计划的投资明显不足,他认为此次刺激计划的失败证明,白宫过分低估了个人及企业需求的降低幅度。克鲁格曼说:“尽管采取了特别的经济刺激手段,失业率却并没有明显降低,这一事实让我们明白,我们面对的是金融危机的致命冲击。”当然,其他经济学家都没有看到这一点,他们认为这些图只是证明刺激计划彻底失败了。

白宫可以像标准普尔评级机构一样为自己辩护:“出错的不单是我们,别人也都犯了同样的错。”的确,白宫的预测与当时很多独立经济学家发布的预测结果如出一辙。另外,最初的经济统计数据明显严重低估了此次危机的严重程度。在实施经济刺激计划期间,罗默和萨默斯得到的第一份政府评估结果显示,2007年年底,美国国内生产总值的下降率为3.8%。但事实上,此次金融危机对经济造成的危害比这个评估结果多出一倍以上。美国国内生产总值的实际下降率曾一度接近9%,这就意味着这个国家的国内生产总值比政府的第一份评估结果实际上要少2 000亿美元。

也许白宫犯下的更不可宽恕的错误是,他们做出这样一个看似很精确的预测,却没有告诉人们这个预测也有可能会出错。白宫内外的经济学家都没能成功地预测失业率等主要经济指标的走势。(在本书第六章中,我将详细论述宏观经济预测的问题)。经济衰退时所作的失业率预测,因为不确定性而常常存在2%的误差。所以,即便白宫认为8%的失业率是最有可能出现的结果,这个数字也极有可能攀升至两位数(或也有可能会降至6%的低水平)。

为刺激消费所投入的资金的效力也具有很大的不确定性。不同研究得到的乘数效应——为刺激消费而投入的每一美元对经济增长的贡献——的预估结果也有出入。一些研究认为,投入一美元会带来高达4美元的国内生产总值的增长,另一些研究则认为,一美元只能带来60美分的回报。任何形式的宏观经济预测本身都具有很大的不确定性,一旦以这种不确定的预测结果为基础对刺激手段的有效性进行评估,就相当于把两种很大的不确定性叠加在一起,此时的预测就很有可能失败。

失败的预测都是非样本预测

此次金融危机的预测至少存在4大失败之处:• 人们本来可以发觉这次的房地产泡沫是一个错误的预测,但那些房主和投资者却错误地认为,不断走高的房屋价格表明房屋价值还会不断提高。事实上,历史证明,房屋价格走高时,其价值反而更容易降低。• 各大评级机构以及像雷曼兄弟这样的投资银行没有预测到抵押贷款支持证券的巨大风险。但问题是,这些评级机构之所以预测错误,并不是(他们在美国国会听证会上辩解的那样)由于他们没有发现房地产泡沫的存在,而是由于其预测模式存在着很多错误的假设,对这次房价暴跌可能带来的风险估计不足、盲目乐观。• 人们普遍没有预料到一次房地产危机竟会触发一场全球性的金融危机。这次危机是由市场中的高负债经营导致的,只有在1美元的风险有50美元的风险资金支持的情况下,美国人才愿意将资金投到一所新房子里。• 金融危机发生后,人们没能预测到这次危机可能引发的巨大经济问题。莱因哈特和罗格夫已经发现金融危机常会导致严重而长久的经济衰退,但许多经济学家和政策制定者对这个观点并不在意。

这些失败的预测有一条共同线索,即在上述每种情况下,人们在评估数据时都忽视了一个重要因素:• 近些年来,美国的房价从未出现过大幅回落,这种情况使得很多房主对房价信心满满。然而,美国的房价在房市崩盘前高得离谱,这种提升幅度是前所未有的。• 穆迪和标准普尔等评级机构过去总能对各种金融资产做出准确的测评,基于此,各大银行对这些评级机构对抵押贷款支持证券的评估能力毫不怀疑。然而,这些评级机构此前从未为这种复杂的新型信用违约率证券做过测评。• 过去,房价的浮动并未对金融体系造成多么严重的影响,于是许多经济学家便对金融体系承受房地产市场危机的能力充满信心。然而,金融体系或许从未出现过这样高负债经营的局面,自然也就从来没有为房地产市场投入过这么多的资金。• 最近几次经济衰退几乎都呈现出“V”字形的迅速恢复态势,这种经历使那些政策制定者坚信,此次金融危机之后,经济也会迅速恢复。然而,之前的那些经济衰退都和金融危机无关,其严重程度不可与这一次同日而语。

此类问题有一个专门术语:以上这些预测者所考虑的事件都属于“非样本”预测。一个预测一旦出现严重错误,其中通常都会存在“非样本”预测这一问题的痕迹。“非样本”究竟是什么意思呢?我们举个简单的例子解释一下。

失败预测的公式——非样本,无思考

假设你是一名非常出色的司机。每个人都认为自己是一个好司机,但是你有实际的驾驶记录可以证明这一点:驾龄长达30年,在20 000次出行过程中,只发生过两次轻微剐蹭事故。

你也不是酒鬼,醉驾这种事情似乎永远不会发生在你的身上。但是,有一年在公司的圣诞派对上,一位好友要离开公司,你当时的工作压力又很大,于是情绪出现了波动,不知不觉间喝了12杯伏特加,你喝醉了。此时该开车回家,还是叫一辆出租车呢?

这个问题的答案肯定是叫辆出租车载你回家。

但你突发奇想要自己开车回去,你是这样为自己找理由的:自己曾经有20 000次驾车出行的经历,只发生过两起小意外,其他19 998次都安全抵达目的地。安全率这么高,又何必那么麻烦让出租车载你回家呢?

但问题是,20 000次出行记录没有一次是像这次醉酒驾车的,你的醉驾样本数量不是20 000次,而是零次。因此,用先前的经验预测此次驾车的风险是毫无根据的。这个例子就解释了什么是“非样本”问题。

这一问题看似很容易避免,但评级公司正是犯了这一错误。穆迪公司根据过去的数据——特别是美国自20世纪80年代以来的房地产市场数据——构建了一个预测模式,以此来评估不同抵押违约行为之间的关联程度。问题是,从20世纪80年代到21世纪初期的二十几年的时间里,美国的房价一直保持稳定或略有增长。在这种情况下,认为一个房主的抵押贷款与其他贷款没有什么关系,这种假设看起来好像没有什么问题。但这些从前的数据无法显示当房价开始不断走低时会出现什么情况。房市崩盘是“非样本”事件,评级公司在此基础上对违约风险进行评价的预测模式也就毫无价值可言。

前事不忘,后事之师

然而,穆迪公司当时并未竭尽所能,如果它们当时能放宽眼界,还是可以得到更合理的评估结果的。美国此前确实没有经历过房地产市场的崩盘,但其他国家经历过,而且结果惨不忍睹。如果穆迪公司对日本房地产泡沫后的违约率有所了解,就会更加理性地看待抵押贷款支持证券的危险性,也就不会给出3A评级了。

很多预测者通常都不愿意考虑“非样本”中存在的这些问题。当我们将样本扩大到涵盖了那些在时空上都离我们很远的事件时,这通常意味着我们会遇到一些自己并不熟悉或与所进行研究关系并不紧密的案例。因此,这一模式看上去就不那么有说服力,展示在幻灯片(或期刊论文或博客)中时,也不会给人留下很深刻的印象。在这种情形下,我们只好承认自己对这个世界的了解并没有想象的多,而我们的个人感受和职业动机几乎总在阻止我们这样做。

我们忘了——也可能是故意忽略——我们的预测模式就是简化了的世界,我们以为即使犯了错,也无大碍。

然而,在复杂的系统中,错误都不是用程度来衡量的,而是用级别衡量的。标准普尔和穆迪将债务担保凭证的违约风险低估了200倍,那些经济学家认为发生概率只有500分之一的经济衰退也实实在在地上演了。

就像我在引言中提到的那样,在信息时代我们面临的一个重大挑战,就是全球的知识总量在增加,而我们实际掌握的知识和自认为掌握的知识之间的鸿沟却越来越宽。这一症状与那些貌似精确实则错误的预测是有关联的。穆迪将计算结果保留到小数点后两位,看似精确却脱离了实际。这就好比你说自己是一位射击高手,因为你的子弹每次都能射中同一个位置,即使每一枪都离目标十万八千里,你也会这样讲。图1–6 准确度与精确度对比

金融危机以及其他大多数失败的预测都源于一种盲目的自信。他们用精确的预测冒充准确的预测,于是我们有些人就上当了,还将赌注翻番。我们自以为已经克服了辨别力中的盲点,却没有料到实力雄厚如美国这样的国家此时经济的发展也戛然而止了。

第二章 政治选举预测:狐狸和刺猬,谁更聪明?

对许多人来说,政治预测就是“麦克劳夫伦讨论小组”这档电视节目的同义词。从1982年开始,每周日电视台都会播出这样一场“政治圆桌会议”,之后还会被“周六夜现场”节目恶搞一番。节目主持人约翰·麦克劳夫伦是一个80多岁的暴脾气老人,曾在1970年竞选美国参议员时落败。该节目像组织体育活动一样组织政治专家展开讨论,小组成员要在半个小时内循环讨论四五个话题,麦克劳夫伦会就相关话题对这些成员步步紧逼,这些话题从澳大利亚政治探讨到地外智慧生物探寻,无所不包。“麦克劳夫伦讨论小组”每期节目的最后都设有一个“预测”的环节,在这个环节中,小组成员用几秒钟的时间讨论当天发生的某件事的重要性。有时,他们可以选择一个和政治关系不大的话题进行预测;有时,麦克劳夫伦会就某一个特定问题突击询问小组成员,让他们现场作答,麦克劳夫伦称此为“强迫性预测”。

麦克劳夫伦的有些问题很难回答,比如让小组成员从几个最佳候选人中选出最高法院的下届法官。其他问题则比较温和,比如2008年美国总统大选前夕,他曾让小组成员预测麦凯恩和奥巴马谁会当选。

答案显而易见。2008年9月15日,雷曼兄弟宣布破产,引发了自20世纪30年代大萧条时期之后最严重的经济衰退,正是从那天起,奥巴马的选票数几乎在所有的美国投票站都领先麦凯恩。而且,不论是在俄亥俄州、佛罗里达州、宾夕法尼亚州或是新罕布什尔州这样的“摇摆”州,还是在一些民主党很少获胜的地区,如科罗拉多州和弗吉尼亚州,奥巴马也都处于领先地位。我为自己的网站开发的预测模式和其他类似的统计模式都表明,奥巴马赢得大选的可能性超过95%,赌博市场虽然对美国总统大选结果的估计稍显模棱两可,但对奥巴马获选的支持率预测也达到了7∶1。

而“麦克劳夫伦讨论小组”的首席成员帕特·布坎南对这个问题却避而不谈。他说:“一切自有定数,本周末自然见分晓”,这句话引得其他成员一阵爆笑。来自《芝加哥论坛报》的克拉伦斯·佩吉预测说:“这场大选难分伯仲。”《福克斯新闻》的莫妮卡·克劳莉更加夸张,她大胆预测麦凯恩会以0.5个点险胜。只有《新闻周刊》的埃莉诺·克里夫特点明了显而易见的事实,她预测奥巴马最终会当选。

接下来的那个周二,结果出来了,奥巴马以365张选举人票对麦凯恩的173张选举人票当选为下一届美国总统,这一结果与民意测验和统计模型的预测结果基本吻合。虽然不是以压倒性的优势获胜,但也绝不是“难分伯仲”:奥巴马以总选票数高出近1 000万张的实力击败麦凯恩,那些预测失败的人该想想怎样自圆其说了。

一周后,“麦克劳夫伦讨论小组”再次迎来上周那4位小组成员,这几位此次对上次预测失败的事情缄口不谈。他们讨论了奥巴马获胜的细枝末节,讨论了奥巴马任命拉姆·伊曼纽尔为下一届美国国务卿,还讨论了他与俄罗斯总统德米特里·梅德韦杰夫的交情。大家对上次失败的预测只字未提——尽管那次预测基本上与当时所有的证据背道而驰,并且还在美国国家电视节目中播出。事实上,小组的几位成员似乎自始至终都认为这样的结果是不可避免的。克劳莉是这样解释的:“2008年本就是个换届年,麦凯恩的竞选宣传太不到位了。”克劳莉似乎忘了仅仅一周前,她还把赌注押在麦凯恩一边。

我们不能单凭一次预测就对一位预言家做出评判,但有一种情况属于例外。截止到美国总统大选前的那个周末,认为麦凯恩仍将获胜的假设中,唯一说得通的也许就是大多数人对奥巴马都存在种族敌意,而这一点在民意调查中无法体现出来。然而,所有小组成员都没有提到这个假设。他们似乎是在另一个世界进行预测,那里没有民意测验,也没有经济崩溃,在那里美国总统小布什仍然很受欢迎,完全没有连累到麦凯恩。

虽然如此,我还是决定研究看看这种情况是否正常。“麦克劳夫伦讨论小组”花钱请来那些以谈论政治为生的专家们,他们是否真有预测的本事?

我对这个节目最后的预测环节中的近千份预测报告进行了评估,这些预测都是由麦克劳夫伦及其节目的其他专家做出的。其中近1/4的预测,要么模棱两可,要么不切实际,想要分析都无从下手。我将剩下的那些预测从完全错误到完全正确分为5个级别。

结果,就好像那些小组成员作预测时用了投掷硬币的方法一样,完全错误或基本错误的预测共有338份,而完全正确或基本正确的预测也是338份。表2–1 “麦克劳夫伦讨论小组”预测分析

包括成功预测出2008年美国总统大选结果的克里夫特在内,小组成员的预测能力不相上下。我为每个成员计算了一个百分比得分,基本反映了他们预测成功的次数。克里夫特和其他3位参与该节目次数最多的小组成员——布坎南、已故的托尼·布兰科里,还有麦克劳夫伦本人——的分数几乎相同,预测成功比率都在49%~52%。这说明他们预测成功和预测失败的概率是一样的,他们所表现出的政治敏锐度和从理发店走出来的四重唱演员差不多。

当然,从某种程度上来讲,“麦克劳夫伦讨论小组”这档节目不过是供政治狂热者消遣的低俗闹剧,当时此类“声高即有理”的节目很流行,以美国有线电视新闻网的“唇枪舌剑”节目为例,节目中自由派与保守派只是没完没了地与对方争辩。但是,录影棚时代与过去那个“声高即有理”的时代也没有什么不同,只不过现在自由派与保守派都在各自的频道中活动,在电视节目时间表中被美食频道和高尔夫频道隔离在和平地带。这样的安排虽然未见得会催生更加可靠的分析,但看似可以带来更高的收视率。

但是,栏目组花钱请来那些学者讨论问题,初衷是因为他们的判断更准确,学识更渊博,而不是因为他们发表观点时的嗓门够大。那些政治科学家和美国政府的智囊团中的那些分析师怎么样呢?他们是不是更擅长预测呢?

政治学家是名副其实还是徒有虚名?

苏联解体与东欧剧变的发生极为突然,但综合各方面的因素进行考虑,这些事情的发生又是顺理成章的。

1987年6月12日,美国总统里根站在勃兰登堡门下,恳请苏联领导人戈尔巴乔夫拆除柏林墙,他的这一令人欢欣鼓舞的建言和当初肯尼迪承诺把人送上月球的誓言一样大胆。里根当时是有先见之明的,因为此后不到两年柏林墙就被拆了。

1988年11月16日,爱沙尼亚共和国(面积同美国缅因州相仿)议会宣布脱离苏联独立。此后不到3年的时间里,戈尔巴乔夫否决了莫斯科强硬派主张的政变,苏联国旗最后一次在克里姆林宫前降下。爱沙尼亚和其他苏联加盟共和国不久后都脱离苏联,各自独立。

如果说苏联的衰亡是有迹可循的,是可以预测到的,然而几乎所有主流的政治学家都没有察觉到这一点。即使有,当时也会被当成笑料。如果那些政治学家连苏联解体都预见不到——也许是20世纪后半叶最重要的事件了——那他们还能做些什么呢?

当时在加利福尼亚大学伯克利分校任教的心理政治学教授菲利普·泰特罗克也有着同样的疑问。苏联分崩瓦解之前,泰特罗克就已经野心勃勃地展开了一项空前的实验。从1987年起,泰特罗克就开始从学术界和政府的各方面专家那里广泛搜集各类关于国内政治、经济和国际关系的预言。

泰特罗克发现,那些政治专家很难预测到苏联解体,因为既要预测到政权的衰亡,又要找到其衰亡的原因,这就需要进行预测的人将不同立场的观点论据穿插在一起。这些观点本身没有什么内在矛盾,但通常是由身处两个不同政治阵营的人发出的,而坚定地站在某一个思想阵营的学者则不可能同时接受两种思想。

一方面,戈尔巴乔夫很明显是这一事件的主角——他是真心诚意地主张改革的。如果戈尔巴乔夫当初选择做会计或是诗人而不是选择踏入政坛,苏联政权也许至少几年内还不至于垮台。自由派对戈尔巴乔夫还是心存同情的,可保守派不愿相信戈尔巴乔夫,有些人认为戈尔巴乔夫的公开讲话不过是故作姿态而已。

另一方面,保守派对共产主义有一种本能的批判。他们很快就认定苏联经济正在走下坡路,普通民众的生活正变得愈加艰难。1990年,美国中央情报局估计——相当不准确的估计——苏联的国民生产总值约为美国的1/2(按人均水平计算,与今天的韩国和葡萄牙这类稳定的民主国家的水平相当)。实际上,最新的证据表明,由于长期陷于阿富汗战争的泥潭,且中央政府对各类社会问题疏于管理,苏联的国内生产总值比美国中央情报局提供的数据还要低约1万亿美元,而且每年国内生产总值缩减的比例都会达到5%,通货膨胀率也高达两位数。

综合两方面因素考虑,苏联解体其实很容易预见。开放媒体和市场,赋予公民更大的民主权利,戈尔巴乔夫为苏联人民提供了一种新机制,以促进社会制度的改革。由于国家经济百废待兴,人们自然乐于支持戈尔巴乔夫提出的机制。然而当时的中央政权已经不堪重负,根本承受不了这种改革:爱沙尼亚人厌恶苏联人,苏联人同样厌恶爱沙尼亚人。各个加盟共和国为苏联经济贡献的力量远远低于他们从莫斯科得到的补助金。捷克斯洛伐克、波兰、罗马尼亚、保加利亚、匈牙利和民主德国都在1989年的改革之列,东欧这些国家一旦像多米诺骨牌一样一个接一个地倒下,不论是戈尔巴乔夫还是别的人,都无法阻止整个国家的土崩瓦解。许多苏联学者看到了这一问题的几个部分,但鲜有专家能把这些碎片拼接起来,因此,几乎没有人能预见到苏联会突然垮台。

受苏联解体的案例启发,泰特罗克开始到其他领域的专家那里进行调查,让那些专家做出各种预测,如海湾战争、日本房地产泡沫、魁北克脱离加拿大统治的可能性,几乎将20世纪八九十年代所有大事件都包括在内。对苏联解体的失败预测究竟是个特例,还是那些“专业”的政治分析者只是徒有虚名?泰特罗克的研究持续了15年之久,他最终将这些研究发表在2005年出版的《专家的政治判断力》一书中。

泰特罗克的结论招来了强烈谴责。他的调查中涉及的那些专家——无论职业、阅历或者研究领域——所作的各项预测的准确率跟碰运气差不多,对未来的政治事件进行预测时,他们预测的准确程度甚至不及那些尚不成熟的统计方法计算的准确度。他们过于自信了,计算概率的能力也很差:他们宣称不会发生的事件中有15%实实在在地发生了,而他们认为绝对会出现的情况中则有25%根本没有出现。他们是否在对国家的经济状况、国内政治或国际事务作预测这点并不重要,重要的是他们的预测全线溃败。

狐狸型专家:善于变通,更善于做出准确的预测

尽管那些专家的整体表现欠佳,但泰特罗克还是发现一些不错的专家。表现不佳的专家往往是被媒体引用预测言论最多的那些人。泰特罗克发现,如果一位专家接受新闻媒体的采访越多,他的预测就可能越不准确。

而另外一些专家的表现相对好些。曾经接受过心理学培训的泰特罗克对那些专家的认知风格很感兴趣,他想看看这些人是如何看待世界的。于是,泰特罗克从性格测试中选取了一些问题,让所有专家作答。

根据诸位专家对这些问题的回答,泰特罗克把他们分为两类,他称其为“刺猬”和“狐狸”。刺猬和狐狸的称呼参照了以赛亚·伯林所写的一篇有关俄国小说家列夫托尔斯泰的散文——《刺猬与狐狸》。而伯林则是借鉴了希腊诗人阿基罗库斯的作品才想到了这一题目:“狐狸千伎百俩而有尽,刺猬凭一技之长而无穷”。

除非你是托尔斯泰的崇拜者,或是对华丽的散文如痴如醉,否则你肯定不会读伯林的散文。不过基本思想是,作家和思想家总是分属两大范畴:刺猬属于A型性格的人,他们相信“凭一技之长而无穷”,认为自己掌控着世间真理,认为自己就是万物的法则,切实保障着社会的运行。比如马克思和阶级斗争、弗洛伊德和潜意识,或是马尔科姆·格拉德威尔和“引爆点”等。而狐狸属于一种好斗的人,他们认为“千伎百俩而有尽”,解决问题有许多方法。他们对于琐碎、不确定、复杂或是有分歧的意见更加有耐心。如果说刺猬是猎手,总在不停地寻找大型猎物,那么狐狸更像是一个采集者。

泰特罗克发现,作预测时,狐狸型专家比刺猬型专家考虑得更周全,比如在苏联的问题上,他们的预测就更准确一些。对苏联问题进行预测时,他们没有把这个国家视为一个意识形态符号,既不认为苏联是“邪恶帝国”,也不认为苏联是马克思主义经济体系中一个相对成功(或是举世瞩目)的案例。他们只是客观地看待这个国家:一个濒临瓦解的国家,一个日渐式微的国家。如果说刺猬型专家作预测只能称得上是碰运气,那么狐狸型专家就可谓预测的高手了。表2–2 狐狸型专家和刺猬型专家的不同态度

刺猬型专家更适合做电视节目嘉宾

一个冬日的午后,我在杜兰特酒店(加州大学伯克利分校附近的一家精品酒店)与泰特罗克共进午餐。他的表现足以证明自己是狐狸型专家:柔声细语,严谨治学,每次回答我的问题之前都会停顿二三十秒(唯恐给我的答复太仓促)。

泰特罗克问我:“成为公众学者的动机是什么?一些学者非常低调、避开公众视线,但另外一些人则急切地想成为公众学者,高调、张扬、引人注目,这样才更有可能吸引众人的眼球。”

换句话说,高调、夸大的刺猬型预测更有可能使你成为电视中的公众人物。曾任美国前总统克林顿顾问的迪克·莫里斯现在是《福克斯新闻》的评论员,他是典型的刺猬型专家,他的策略就是抓住一切机会做出惹人注目的预测。2005年,莫里斯称,小布什总统处理卡特里娜飓风的方式会使他重新赢得民众的支持。2008年美国总统大选前夕,莫里斯预测奥巴马会赢得田纳西州和阿肯色州的竞选。2010年,莫里斯预测共和党人会轻而易举地赢得美国众议院的100个席位。2011年,莫里斯预测唐纳德·特朗普会竞选共和党候提名选人,并极有可能获胜。

然而,所有这些预言最终都落空了。卡特里娜飓风是小布什政府走向终结的开始,奥巴马在田纳西州和阿肯色州的竞选以惨败收场——实际上,奥巴马在这两个州的表现比4年前与小布什争夺美国总统宝座的约翰·克里的表现还要糟糕。2010年11月共和党人确实有所收获,但他们只赢得了众议院的63个席位,而不是莫里斯所说的100个席位。莫里斯坚持认为特朗普会竞选共和党提名候选人,但在他做出预测后仅仅两周,特朗普就宣布退出了。

但是,莫里斯思维敏捷,说话风趣,非常善于推销自己——他在《福克斯新闻》中有固定的栏目,他所著图书的销量也高达几十万册。

狐狸型专家有时对刺猬型专家游走于电视节目、商业和政治活动的做法很难苟同。狐狸型专家认为,许多问题难以预测,所以我们应该对这些不确定性进行解释。他们的这种做派会让人误认为他们缺乏自信,他们的多元方法也被误解为缺乏确定性。杜鲁门总统曾经提出一个著名的论断,说自己需要一个“独臂经济学家”,他觉得那些狐狸型专家根本无法为自己的决策提供任何确定性的意见。

但是,狐狸型专家偶尔也会做出很好的预测。他们能较快地意识到数据的嘈杂,而不去盲目跟踪错误的信号。与刺猬型专家相比,狐狸型专家更清楚自己还有很多无知之处。

如果你想让医生为你预测某种药物的疗效,或是想让投资顾问为你估算养老金的最大回报,那你最好选择狐狸型专家。他们可能会很谦逊地说自己的能力有限,但是成功的把握其实很大。

政治预测为什么常常失败?

在进行政治预测时,狐狸型专家的态度也许尤为重要。在进行政治展望时,刺猬型专家很容易落入陷阱,而狐狸型专家却能小心地绕过这些陷阱。

其中一个陷阱就是党派意识形态。尽管莫里斯一直以克林顿总统顾问的身份出现,却常被视为共和党人,并且为共和党候选人筹集资金,他保守的观点与《福克斯新闻》的风格也很吻合。但是,自由主义者却极有可能成为刺猬型专家。在对“麦克劳夫伦讨论小组”成员预测的精确性进行研究时,我发现,埃莉诺·克里夫特通常是小组成员中最自由的,她几乎从不发表对共和党特别有利的预测,总是跟小组里其他成员的总体意见相左。也许正是因为这一点,她才在2008年美国总统大选的预测中尝到了甜头,然而久而久之,她的预测也和保守派一样不准确了。

与泰特罗克的研究对象相似的那些专家学者,可能都会遇到同样的问题。实际上,对于拥有博士学位的刺猬型专家而言,一知半解是很危险的事。泰特罗克还有一些更重要的发现,其中之一便是,狐狸型专家的经验越丰富,预测就越准确,而刺猬型专家则恰恰相反:他们获得的额外信息越多,表现得就越糟糕。泰特罗克认为,刺猬型专家掌握的事实越多,他们以自己的方式改变且操纵事实的机会就越多,而这些方式往往会强化他们的个人偏见。如果你让一个忧郁症患者待在一个可以上网的黑暗房间里,就会出现类似的情况。你给他的时间越多,他要处理的信息越多,他最后得出的自我诊断也就越荒谬,不久之后,他就会把普通感冒误认为腺鼠疫了。

泰特罗克发现“左翼”和“右翼”两派刺猬型专家都会做出格外差劲儿的预测,但是所有政治派别中的狐狸型专家都不会出现这样的问题。狐狸型专家也许内心也会强烈地期待一种理想状况的出现,但他们在对现实情况和未来可能出现的情况进行分析时,通常可以将自己的理想与现实状况区分开来。

相反的,刺猬型专家总会将自己固有的偏好与分析的问题混为一谈。用泰特罗克的话说就是,他们创作了一个将“真相与个人价值观搅和在一起的混合体”。他们对证据总是带有偏见,仅凭个人喜好取证,不尊重客观事实。

你可以用泰特罗克的测试为自己作个诊断,看看你是不是一个刺猬型的人:在获得更多信息的时候,你的预测准确率是否有所提高?理论上来说,拥有更多信息会让你的预测能力如虎添翼,不过你也可以忽略那些没用的信息。但是,刺猬型专家做不到这一点,他们经常会陷入信息荆棘之中,无法自拔。《国家政治内幕期刊》(下文简称为《国家期刊》)曾经作过一项调查,对象是政治家、政治顾问、民意测验人和评论员,人数大约为180位。这项调查在民主党和共和党中分别展开,但是两个党派的受访人员回答的问题是一样的。抛开政治派别不谈,这组受访人员都比较接近刺猬型:那些政治活动家以身上的战争创伤为荣,并且发现自己一直都在与另一派别——鸡尾酒会派——进行无休止的斗争。

2010年美国总统中期大选前期,《国家期刊》要求专门小组成员讨论民主党是否有可能继续掌控参众两院。大家几乎一致认为,民主党会掌控参议院,而共和党会掌控众议院(事后证明这两项猜测都是对的),两党的成员也基本同意由共和党获得众议院的大部分席位。民主党的专业人士呼吁本党派要拿到其中47个席位,而共和党则预测民主党将获得53个众议院席位,考虑到众议院中有435个席位,两党之间的预测差别可以忽略不计。

同时,《国家期刊》还要求专门小组成员对11场个人竞选的结果进行预测,包括参议院、众议院和州长竞选,但这一次的预测结果则颇有出入。在预测内华达州、伊利诺伊州和宾夕法尼亚州的参议员竞选、佛罗里达州的州长竞选和艾奥瓦州的关键众议院竞选中,小组成员的意见产生了分歧。整体上看,支持共和党的成员预计民主党只会赢得11场竞选中的一场,而支持民主党的成员则预计自己的党派会赢得6场竞选。(实际结果是两派预测的中间值——民主党最终赢得了11场竞选中的3场。)

很明显,党派偏见对预测产生了一定影响:民主党和共和党成员都会从自己的党派利益出发去考虑问题。然而,这并不足以解释为什么小组成员在回答不同类型的问题时会出现不寻常的分歧。当问及一般问题时,如共和党人可能会有何种表现,小组成员之间的答复几乎没有什么区别。但当问及具体问题时,他们的答案就会大相径庭,党派分歧就会显现出来。

刺猬型专家掌握太多信息可不是一件好事。共和党会赢得多少席位终究是一个抽象的问题:除非你仔细地研究了全部435场竞选,否则没有多余的细节能帮你解决这个问题。相反,当问及某一次竞选时,比如内华达州参议员竞选,小组成员就需要处理各种各样的信息:这些信息不仅包括投票数,还包括自己读到的相关新闻报道、有可能是从朋友中打听到的小道消息,以及他们在电视上看到候选人时想到的。他们甚至与候选人相熟,或者认识候选人身边的工作人员。

刺猬型专家一旦掌握大量信息就会编一些故事,这些故事甚至比真实世界发生的事情更有条理、更加有序,有主角和反派、胜者和败者、高潮和结局,通常以大团圆结局收场。竞选票数低10个点的候选人将会取得最后的胜利,你若问刺猬型专家为什么会这样,他会说,因为“我”了解这个候选人,“我”了解她所在的那个州的选民,“我”还从她的新闻秘书那里听说票数咬得很紧。他还会反问你,你没看过她最新的商业广告吧?

当我们编故事的时候,就无法以批判的方式看待信息。选举通常都是扣人心弦的叙事性故事。无论你怎样看待巴拉克·奥巴马、莎拉·佩林、约翰·麦凯恩以及希拉里·克林顿这些人在2008年的政治表现,你都得承认他们的人生经历确实很有说服力。他们撰写竞选纪实著作,如《规则改变》,它读起来颇像一本畅销小说。参加2012年美国总统竞选的几位候选人虽然没有引起太多关注,但依然使民众过足了戏瘾,从赫尔曼·凯恩的悲剧到里克·佩里的闹剧,全部涵盖在内。

叙事性故事会使人忘乎所以。政治之所以特别容易受错误预测的影响,恰恰是因为其中的人为因素:每一次竞选我们都要投入很多情感。这并不是说,为了对某一政治事件做出准确预测,你对这件事就一定不能带有任何感情因素。但是这再一次表明,狐狸型预测者的冷漠态度更有助于他们做出准确的预测。

狐狸型预测方法

2008年2月,我在新奥尔良的路易斯阿姆斯特朗国际机场候机,我的航班延误了。在等待登机的过程中,我萌生了建立538网站的想法。出于某种原因——也许是卡津马提尼酒在作祟——我觉得应该有人牵头建立一个网站,然后用这个网站来预测奥巴马和希拉里(当时两人还在为争夺民主党总统提名权激战)将如何完胜麦凯恩。这个想法突然间就明朗起来了。

我对政治选举的关注时间可能还要早一些,之所以关注,并不是因为热爱政治,而是对它感到失望。2006年,我曾密切关注过美国国会下令禁止“互联网扑克”这一事件,“互联网扑克”可是我的主要经济来源之一。我发现,即使与体育报道相比,政治报道也依然存在盲区,前者的报道和分析至少借着《点球成金》节目有所改善。在大选之前,我发现自己越来越关注政治节目,主要收看美国广播电视台、美国有线电视新闻网和福克斯新闻的节目,可大部分内容都索然无味。尽管离美国总统大选还有数月之遥,但各档节目的评论都认为希拉里必然会获得总统提名权,却忽略了民意调查这种方式本身所固有的不确定性。这些评论似乎过于强调希拉里的性别优势和奥巴马的种族劣势,若某个候选人在一场新闻发布会上开了一个机智的玩笑或获得某个无名议员的认可,新闻界就会以此大做文章,断言这个人最终定会获选,可99%的选民都不会在意这些事情。

政治新闻,尤其是那些真正影响美国总统大选的重要新闻,传播速度十分惊人。但是,新闻报道每天都有,且大部分都是用来填充版面的,而媒体却总是将这些报道打造成劲爆新闻。政治新闻报道不仅经常抓不住信号,还时常会强调噪声。如果一个州有大量选票显示共和党领先,而且大家都知道这件事,这就称不上是新闻。如果一个新的投票结果显示该州民主党处于优势地位,即使选票并非来自投票的主要群体,而且也不能准确预测出结果,但也一定会上头版头条。

换句话说,竞争设置的障碍当时已经相当小了。某些人只不过是对政治活动中真正拥有预测能力的事物进行了相当基础性的研究,他们看上去可能就像一个天才了。于是,我开始在Daily Kos网站上发表博文,公开了民意调查和募捐数目这类问题的细节,利用数据对这些问题进行分析。我研究过哪些民调公司在过去这些年的预测最准确,也研究过赢得某一个州(如艾奥瓦州)的选票究竟会对另外一个州的选票数产生多大的影响。尽管像Daily Kos这样的网站上的评论通常都是定性的(而且具有党派取向),而不是定量的(不用数据说话),但是我的那些文章还是很快就有了跟帖。2008年3月,我将作过的分析转到我自己创建的538网站上,旨在对美国总统大选进行各种预测。

起初,538网站的预测模型十分简单——基本上总是取自民意调查的平均值,但会根据之前的准确程度给这些调查加权——后来就逐渐变得比较复杂了,但预测模型始终遵循三大原则,而且这些原则都是典型的狐狸型原则。

原则一:用概率的方法思考问题

几乎我发布的所有预测,不管是政治方面还是其他方面,都是以概率的形式公布的。我不会随便给出一个准数或声称某事一定会发生,只会给出几个可能的结果。比如,2010年11月2日,在预测共和党会赢得多少众议院席位时,我的估计正如图2–1所示。

图2–1 2010年11月2日,538网站预测模型对众议院席位的预结果测示意图

可能性最大的几个结果——足以覆盖所有可能出现情况的1/2——显示,共和党会获得45~65个席位(实际上获得63个)。但是,也存在共和党会获得70或80个席位的可能性——这个数字与莫里斯当时预测的100个席位仍然相去甚远。而另一方面,民主党也有机会获得足够的席位以保住对众议院的控制权。

结果的广泛分布就是现实世界不确定性的真实体现。这个预测结果是在对435个席位中的每个席位分别进行预测之后得出的,其中多数席位的预测概率极为接近。尽管如此,仍有引人注目的77个席位的预测概率相互之间的差别大到个位数。如果当初民主党人在大部分有竞争力的地区能多赢得一些票数,哪怕是很少的一些,他们就能打败预测结果,轻松地保住对众议院的控制权。而如果共和党人采取了与他们的实际做法相反的做法,他们在众议院中的席位肯定也会低到让人大跌眼镜。政坛上,一颗小石子就会激起轩然大波,所以,预测时列出确切的数字肯定不是明智之举。

当我对某个竞选个案进行预测时,概率原则依然成立。比如,若民调显示某位候选人领先5个点,那他获胜的概率有多大?这就是538预测网站试图解决的问题。

参选人能否获胜在很大程度上是由他参与的竞选活动的类型决定的。竞选级别越低,民调的不稳定性就越大:美国众议院选举的民调就不如参议院的精确,参议院选举的民调就不如美国总统大选的精确。初选的民调结果与最终大选的民调结果更是相差甚远。2008年民主党初选期间平均票数丢了8个点,比预想的误差幅度大得多。2012年共和党初选时民调的情况更糟糕。实际上,在许多主要的州,如艾奥瓦、南卡罗来纳、佛罗里达、密歇根、华盛顿、科罗拉多、俄亥俄、亚拉巴马和密西西比,民调中处于领先地位的候选人往往一周后就会落败。

但到了临近大选那几天,民意调查就会越来越准确。表2–3展示了538预测模型对参议院选举结果进行预测后做出的简化图,该模型运用1998~2008年的数据,根据美国候选人领先民调的平均得票情况推断其获胜的概率。比如,某位参议院候选人在选举前一天领先5个点,且以往他选举获胜过,那么他此次获胜的预测概率高达95%,尽管新闻报道还会说这次竞选“难分伯仲”,但其实这次竞选他几乎已经胜券在握了。相反,如果是大选前一年领先5个点,那么他此次获胜的预测概率仅为59%,这个概率跟掷硬币作决定差不多。表2–3 根据参议院候选人领先民调的平均得票情况预测其获胜的概率

这样,538网站的预测模型的价值就显现出来了。有了它,人们就可以非常轻松地对大选进行预测,观察一个候选人是否在全部或者大部分民调中都处于领先位置,判断他是否会成为最终获选的幸运儿(除了少数例外情况,这一假设还是正确的)。预测候选人获胜的准确概率其实更难。我们的大脑处于高度探测模式,一直都在寻找信号,但同时我们也应该对得到的数据的干扰程度进行甄别。

对于这种思考方式我已经习以为常了,因为我的专业背景主要包括两大学科:体育运动和牌类游戏。浸淫在这两个领域中,你会明白什么叫见惯不怪。牌类游戏玩多了,你会轻而易举地抓到“皇家同花顺”,久而久之,当你的对手抓到一手“同花”牌时,你的牌可能已经满堂红了。体育运动,尤其是棒球,其中也有很多出现概率很低的事件最终实实在在地发生了。2011年,波士顿红袜队当时有99.7%的机会成功打入季后赛,可还是铩羽而归。对此我很无奈,只能说,一般的概率法则对红袜队和芝加哥小熊队不起作用。

然而,政客和政治观察员对这种不确定性却深感不满。2010年,一个民主党的国会议员在美国总统大选前几周给我打来电话。他代表西海岸一个民主党占绝对优势的地区,但是考虑到共和党当年的良好表现,他还是很担心会丢掉自己的位置。他想知道的是,我们的预测会有多大的不确定性。我们为他提供了一个估值:民主党的获胜概率无限接近100%。但近似100%指的是99%、99.99%还是99.999 9%呢?如果他落选的概率只有十万分之一,他就应该把自己的竞选基金捐赠给民主党优势不够明显的地区的候选人。但现在一切都不确定,他连1%的风险也不愿意冒。

同时,不同政治派别还会对你预测中的不确定性进行曲解。他们认为你是在两面下注,你在为可能出现的预测失误找借口。实际上不是这样的。如果你预测某位现任国会议员获选的可能性为90%,你同时也是在预测他有10%的可能性落选。一个出色的预测的标志是,每一个概率最终都会被事实证实是正确的。

泰特罗克所定义的刺猬型专家对概率的理解尤其差劲。当你说某个事件有90%的概率会发生时,这句话本身拥有非常具体且客观的意思,但我们的大脑却会把这种说法转变为比较主观的推测。心理学家丹尼尔·卡尼曼和阿莫斯·特沃斯基给出的事例表明,这些主观推测通常并非总是与客观事实相吻合的。一架飞机安全着陆的概率是90%、99%或者是99.999 9%,我们看不出这3个数字有多大差别,但是在考虑应该订哪个航班的机票时,这3个概率对我们而言立即有了天壤之别。

多加练习,我们的预测就会变得更准确。泰特罗克所定义的那些刺猬型专家与其他人的不同之处在于,他们很固执,不愿意从自己的错误中吸取教训。想让他们承认自己对这个真实世界的预测存在不确定性,就相当于让他们承认自己对这个世界发展趋势的论断存在不足,这是所有理论家最不情愿做的事情。

原则二:今天的预测是你以后人生的第一个预测

另一个误解是:一个成功的预测不会改变。当然,如果你的预测结果每天都会出现巨大的波动,那可能就是一个不好的预示——不是设计的模型很差劲儿,就是你的预测对象根本不具备可预测性。2012年,在各州公布共和党初选的预测结果之前,我抢在他们之前发布了自己的预测结果。我只是根据民调结果进行预测,这些概率经常会随着民调结果的变化而变化。

若结果的可预测性更强——比如美国总统大选到了竞选后期——预测结果通常会更加稳定。2008年美国总统大选之后,我听到来自民主党最多的评论就是,他们向538网站求助以稳定党内人心。到了总统竞选后期,各个州每天会发布近三四十份民调结果,其中一些不可避免地会出现很大的偏差。那些喜欢把竞选气氛变紧张的候选人、战略家和电视评论员可能会把重点放在局外人的民意调查上,但是538网站的预测模型发现,这些民调不会对大选结果产生太大影响。

最根本的是,不管你上周、上个月还是去年说了什么,“今天做出最好的预测”才是应有的态度。做出新的预测并不意味着旧的预测不复存在了(最好对整个预测过程做个记录,并请人对你的预测效果进行评价)。但是,如果确定昨天的预测是错误的,那就没必要坚持了。经济学家约翰·梅纳德·凯恩斯有一句著名的论断:“当实际情况发生改变时,我的想法也会随之改变,你是怎么做的呢?”

有些人不认同这种进程–修正分析的方式,误认为那是软弱的表现。改变想法似乎是在欺骗自己——无异于伸出手指去测量风向。批评家通常含蓄或明确地认为,政治与物理、生物等学科类似,本身就应当遵循可知性和可预测性等基本法则。(我接触最多的批评家中有一位是普林斯顿大学的神经科学教授。)这样看来,新信息就不那么重要了,各种竞选就像冲向地球的彗星一样,应当沿着可预测的轨道行进。

然而,选举预测与物理和生物不同,倒是有点接近扑克牌游戏:我们可以观察对手的行为,从中找到一些蛛丝马迹,但是我们看不到他的牌。更新、更好的信息会不断出现,所以,只有时刻更新预测才能最大限度地利用有限的信息。因为害怕出丑而不对预测进行更改,这其实才是懦弱的表现。

原则三:寻求共识

每个刺猬型专家都幻想着自己能做出大胆、无畏又与众不同的预测——对一个话题的看法一定要跟众人的意见迥然不同才行。刺猬型专家遭受同事的排挤,就连家里的金毛猎犬也认为他们有些滑稽。但很快,结果证明他们做出的预测完全正确、绝对正确、不容置疑地正确。两天后,他们上了《华尔街日报》的头版,同时附有一张照片,他们坐在杰伊·雷诺的沙发上,个个都像大胆而勇敢的先驱。

这样的预测可能偶尔是正确的。专家的共识也可能会出错——如果当初某个专家预测到苏联解体,那他一定会受到此生最大的褒奖。然而,幻想的情节终归难以成真。狐狸型专家——包括我本人在内——虽说不是墨守成规的人,但当我们的预测与竞争对手的大不相同时,我们总会感到忧虑。

许多证据表明,群体预测要比个人预测准确,其准确率随预测领域的不同通常会高出15%~20%。这并不是说群体预测就一定是准确的(我们会在本书稍后的部分对这个主题进行深入探讨),但从多个角度考虑问题总会大有裨益。

泰特罗克曾经对我说:“狐狸型专家通常会独立思考问题,而刺猬型专家则习惯与别人共同商讨问题。”他的意思是,狐狸型专家已经培养出一种仿效集体决策过程的能力。他们不再咨询整个专家组,而是不停地向自己发问。通常这就意味着他们需要将很多不同类型的信息集合起来——就像一组各持己见的人真正要做的那样——他们会客观地对待所有信息,而绝不会把某一条信息当成金科玉律。(以538网站的预测为例,这些预测通常会把民调数据和经济、各州人口统计等有关信息综合起来)。那些没有留心泰特罗克指导意见的预测者,总要为此付出代价。

2000年美国总统大选前夕,经济学家道格拉斯·希布斯公布了一个预测模型,声称依据经济增长和战争伤亡率这两个变量,就可以非常准确地预测出总统大选的结果。希布斯提出了一些十分大胆的刺猬式主张,他认为依据总统的支持率(通常这是总统能否连任的可靠信号),根本不会提高预测的准确性,对通货膨胀率和失业率有所了解同样也不会提高预测的准确性。候选人的身份无关紧要:一个政党既会推荐乔治·麦戈文那种有着强烈党派意识的议员,也会推选德怀特·D·艾森豪威尔那样的中间派战争英雄。希布斯断言,关键的因素是一个相对模糊的经济变量,即被命名为“实际可支配的人均收入”。

那么,希布斯的预测模型究竟得出了什么结果呢?它预测戈尔会获得压倒性胜利,并且说他最终会以9%的优势取胜,但在佛罗里达州重新计票之后,获胜的却是小布什。戈尔确实赢得了美国普选,可这个预测模型表明,美国总统大选结果和预测结果会有天壤之别,且出现预测结果的概率只有1/80。

还有其他几种预测模型也采用相似的方法,把美国总统大选这类复杂的问题用“两个变量”的方程式解决(奇怪的是,这些模型中所用的两个变量五花八门)。实际上,在这些预测模型中,有些模型的跟踪记录远不及希布斯的预测模型准确。2000年,其中一个预测模型预计戈尔会以19个点取胜,甚至还预测小布什只有十万分之一的概率获胜。

这样的预测模型在1988年美国总统大选之后开始盛行,因为在这次竞选中此类模型的基本变量一直偏向老布什一方——经济运行良好,老布什代表的共和党有一位颇受民众欢迎的前任总统里根——但直到本次大选后期,民意调查都是偏向迈克尔·杜卡基斯一方的。最终,老布什轻松获胜。

然而,尽管这类预测模型越来越多,但它们的跟踪记录却很差。1992年以后的5次美国总统大选中,这个“基于基本变量”的典型预测模型——它忽略了民意调查,声称在没有相关信息的情况下仍可辨清选民的动向——结果漏掉了几位主要候选人之间高达7%的点数差距。而采用狐狸式方法的预测模式,把经济数据、民调数据以及其他类型的信息结合在一起,得出了更为可靠的预测结果。

定性信息与定量信息同等重要

虽然这些“魔法子弹”式(结果发生逆转)的预测模式依据的是定量信息,比如已公布的经济统计数据,但还是失败了。实际上,本书所引用的那些最差劲的预测案例有些就是定量分析的案例。比如,那些评级机构就是运用不同模型对不同类型的抵押贷款的违约率进行预测,它们得到的都是精确到具体数据的估值。然而这些模型却漏洞百出,因为它们依据的是一种利己假设——不同抵押贷款之间的违约风险互不相干——这一假设在房地产市场和信用泡沫中完全行不通。当然,我自己在作预测时也非常喜欢运用定量的方法。刺猬型专家会接收各种类型的信息,并借助这些信息强化他们的偏见,而狐狸型专家则会对不同类型的信息进行总体权衡,将定性分析和定量分析结合起来,所以能经常做出正确的预测。

说到预测成功率,没有几个政治分析家能比得过“库克政治报道”这样一个紧密团结的团队。来自路易斯安那州的查理·库克长了一张友善的圆脸,他在1984年组建了这个团队,当时在贝尔特威以外的地方几乎没有人听说过他们。但是,政治狂热者多年来一直十分信任库克团队的预测,而且这个团队也几乎没让他们失望过。

库克和他的团队有一项特殊使命:对全美各级选举的结果进行预测,特别是对美国国会的选举结果进行预测。这就意味着,每隔一年,他们就要对外发布对美国众议院全部435场竞选结果的预测,还要发布对美国参议院大约35场竞选结果的预测报告。

预测美国参议院选举或是州长竞选的结果相对简单。因为选民一般对这些候选人都非常熟悉,这些最为重要的竞选活动往往会引起广泛关注,还会有声誉良好的公司定期进行民意调查。在这种情况下,想要像我在538网站中那样改进收集民调结果的方法并非易事。

而美国众议院选举就完全是另外一番景象了。候选人通常身份比较低微,其中包括那些想在美国政坛一展身手的市议会议员或小企业家,而且在选举前,这些候选人一般不为选民所熟知。同时,美国国会选区几乎遍布全国各个角落,全美国人都被调动起来了。如果有人能够提供众议院选区的民调结果,这个结果必定是最起伏不定的,当然通常情况下几乎没有人能提供。

但这并不意味着像库克这样的分析家就无从知晓信息了,事实上,他们得到的信息量很大:除了民调结果,他们还知道某个选区的人口数据,也了解该选区此前几次选举的投票情况。他们还掌握了美国党派的总体发展趋势的数据,比如现任总统的支持率。此外,他们甚至能得到必须上报美国联邦选举委员会的筹款数据。

除了上述信息,其他类型的信息更偏向于定性信息,但同样很重要。比如,这位候选人是一个出色的公共演说家吗?她所在选区的政纲基调是什么?她的竞选口号是什么?政治活动其实就是一个小公司,她能管理好自己的职员吗?

当然,如果你是一个不仔细权衡定性信息的刺猬型专家,那么所有的信息就只会给你带来麻烦。库克的团队在预测方面很有经验,准确度也很高。

库克团队把竞选划分为从“共和党必胜派”到“民主党必胜派”7个等级。1998~2010年间,库克团队成功预测共和党候选人获胜的次数为1 205次(共1 207次竞选),达到了99%以上的成功率,同样的,他们成功预测民主党候选人取胜的次数为1 226次(共1 229次竞选)。

库克提到的那些“民主党必胜派”获胜的选区几乎每年都是民主党获胜,“共和党必胜派”获胜的选区每年则都是共和党获选,这些预测都不难作。但是,在需要高技术水平的竞选预测中,库克团队同样表现不俗。比如,在被他们列为“倾向于”共和党候选人的那些选举中,共和党实际获胜的概率高达95%;在被列为“倾向于”民主党候选人的选举中,民主党获胜的概率高达92%。此外,即使库克团队并不赞同民调那样的定量指标,但他们在相关预测中仍然拥有良好的跟踪记录。

2010年9月,大概是2010年11月选举活动开始前5周的光景,我在华盛顿拜访了库克团队,整个下午,我都和戴维·瓦瑟曼在一起,他的年龄约为30岁,一头卷发,负责管理众议院的预测事务。

库克团队最具特色之处就体现在他们与候选人的面谈环节。美国总统大选期间,位于水门综合大厦5楼的库克工作室入口处总是人头攒动,候选人时不时地过来聊上个把小时,谈论的话题无外乎是筹款和战略会议。我拜访瓦瑟曼那天,他安排了3场面谈。他让我和一个叫丹·卡潘克的共和党候选人一起与他见面。卡潘克想要击败威斯康星州第三国会选区的现任民主党议员罗恩·坎德,这个选区包含这个州西南部的几个小社区。库克团队已经将这次竞选认定为“民主党可能获胜”,也就是说卡潘克获胜的概率很低,但是他们当时正在考虑将这一选区改为形势更有利的“民主党必胜”区。

做农场补给生意的州参议员卡潘克举止粗暴,像个高中体育老师。他还有一口浓重的威斯康星州口音,当他谈到自己拥有一支名为“拉克洛斯罗格”(La Crosse Loggers)的小型联盟棒球队时,我都不确定他说的是“logger”(伐木工),还是“lager”(一种淡啤酒的牌子),哪个词听上去都像是这个来自威斯康星州的俱乐部的别名。不过,他朴素的话语使人可以多少忽略其举止的粗暴,所以在通常民主党占优势的选区,他也始终能在州议会中任参议员。

然而,瓦瑟曼在面谈时运用了一些扑克牌游戏的规则。他一脸严肃且不失职业风范,但他会巧妙地给候选人施压,以找到更多信息。

他对我说:“我的基本技巧是,在面谈开始时让候选人谈谈自己的情况,从而营造一种舒适友好的气氛。然后,我试着提一些尖锐的问题,比如,说说你在哪些问题上与你所属党派的领导人意见不同。这么做的目的并不是让他们提供解决办法,只是想要了解他们的作风和处事方法。”

与卡潘克的面谈就是按照这一模式进行的。瓦瑟曼对选区的政治、地理状况无所不知,这使他看起来很像一个当地人,卡潘克也乐于谈论有关他所在选区的复杂情况,例如他在拉克洛斯需要获得多少票数才能弥补他在奥克莱尔丢掉的选票。他啰啰唆唆地说了几个问题,主要内容是他用说客们游说得来的捐款为俱乐部买了一个全新的棒球场。

这都是一些小事,远不及卡潘克因为婚外情和偷税漏税被起诉来得重要。这两件事足以劝阻瓦瑟曼不要改变评价。事实上,尽管那年11月共和党在中西部相似选区的大部分竞选中都取得了胜利,但卡潘克本人还是以9 500张选票的差距落选了。

事实上,这种情况很常见。面谈之后,瓦瑟曼通常会保持(与面谈前)同样的评价。尽管他努力地从候选人那里收集新信息,可还是不能推翻他之前对竞选结果的看法。

瓦瑟曼的方法之所以奏效,是因为他能在不受对面这位候选人影响的情况下,对信息做出评价。能力不足的分析师不是表现得像是被迷惑、被欺骗、被耍弄,就是在竞选活动中迷失自我。或者,他们只顾着对自己与候选人谈话时所使用的技巧感到沾沾自喜,却忽略了其他所有与竞选相关的信息。

而瓦瑟曼会考虑更大的政治背景中的每一件事。极其优秀的民主党候选人,即使面谈时表现超级棒,可能也没有机会在共和党通常获胜的选区取胜。

那为什么还要费时费力地与候选人进行面谈呢?这主要是因为瓦瑟曼在寻找危险信号,就像那次与民主党议员艾瑞克·马萨(在传出性丑闻之后突然从国会辞职)面谈一样。心理学家保罗·米尔将这些情况称为“断腿”情况,即如果一件事情太过招人耳目,那么不对它进行解释说明就是不明智的。

这种现象,每年瓦瑟曼都会遇到几例,这使得他能够正确预测更多的竞选。他能够从面谈中得到足量但不过量的信息。信息是定性的还是定量的,这并不重要,重要的是你怎样使用这些信息。

做出客观的预测并非易事

在本书中,我使用“客观”和“主观”这两个词时,都非常谨慎。“客观”有时被认为是“定量”的同义词,其实不然。它的实际意义是超越我们的个人喜好和偏见,去寻找问题的真相。

在这个世界上,纯粹的客观性是求之而不得的。进行预测时,我们可以选择很多不同的方法。有些方法可能单纯依赖定量因素,比如民意调查,但是瓦瑟曼的方法也将定性因素考虑在内。然而,所有这些决定和假设都要由预测人做出。人为的判断终究会存在潜在的偏见。只有认识到假设对预测的影响,并从自身找问题,才能做到更加客观。在政治预测上,我们穿梭于意识取向和行为倾向之间,在嘈杂的数据中理顺客观事实,这是相当困难的。

所以,你需要从电视评论员身上学习一些不同的习惯,学会怎样表达预测中的不确定性,并使其量化。随着事实和环境的改变,你的预测也要跟着更新,你要试着发现,从不同视角看世界也会得到智慧。只有这样,评估各式各样信息的能力才会越来越强,而不至于滥用这些信息。

简而言之,你需要学习狐狸型专家的思维方式。狐狸型专家认识到了人类在预测世界进程时所作判断的局限性。认识到这些局限,才能做出更准确的预测。

第三章 棒球比赛预测:球探和数据怪才,谁更胜一筹?

刚从纽约回来的红袜队士气非常低落,连输3场对阵劲敌洋基队的周末赛,使得红袜队与2009年美国棒球联盟东区冠军彻底无缘了。常规赛只剩7场了,红袜队似乎就要成为美国棒球大联盟季后赛的外卡队,而这样的季后赛绝不是主办方所期待的。有统计研究表明,球队常规赛的表现并不影响其季后赛的发挥,但2009年红袜队似乎已经放弃希望了。

在芬威球场,我准备采访红袜队的明星二垒手达斯汀·佩德罗亚。佩德罗亚是2006年以来我最喜爱的球员之一,2006年我为年刊《棒球规程》创建的预测系统PECOTA也预测他将成为最佳棒球运动员之一。但这一预测结果却与球探的观点截然相反,他们认为佩德罗亚天资不足,身高欠缺,挥棒姿势怪异,只能当个替补球员。然而,在2006年最具发展前景的棒球运动员名单中,PECOTA预测系统却将佩德罗亚排在第4位,而向来注重球探观点的出版物《美国棒球》则将他排在第77位。其实,关于佩德罗亚的报道中,这种褒少贬多的说法屡见不鲜。娱乐与体育节目电视网的基斯·劳早在佩德罗亚的新秀赛时就说过他没什么发展前途了。“达斯汀·佩德罗亚毫无实力可言,击球欠缺速度和力量,在顶级联赛中,也不能连续击投球。如果他的击球率能达到0.260,还是有些价值的。但他总是连滚带爬地跑到三垒或游击手那里,如果能改掉这个缺点,成为一名内场替补球员还是有希望的。”

2007年5月12日,基斯·劳发表了上述评论。那天,佩德罗亚的击球率只有0.247,只完成了一次本垒打。说真的,当时我对他也开始失去信心了,我看了他大部分“安打”的比赛,佩德罗亚表现出一脸败相。

但是,佩德罗亚仿佛想证明那些怀疑他的人是错的,他开始发狠地击球,期盼迎来逆转。接下来的15场比赛中,他的击球率达到惊人的0.472,使他的平均击球率从4月低谷时的0.158一路升至0.336。

2007年7月,也就是基斯·劳做出那番评论的两个月之后,佩德罗亚入选美国联盟全明星队。10月,他帮助红袜队赢得有史以来第二个世界职业棒球大赛冠军(上一次是在1918年)。11月,他被评为“年度最佳新秀”。在随后的一个赛季,24岁的佩德罗亚获选“最有价值球员”,一举成为美国棒球联盟中表现最全面的球员。佩德罗亚告别内场替补,成为今日巨星,而那些球探当日却严重地低估了这位棒球天才。

之所以到芬威球场来,是因为我想了解究竟是什么让佩德罗亚实现了逆转。我准备了一堆问题,也获得了红袜队的采访许可,可以进行场地采访。但我知道这并非易事,因为联盟球场是球员心中的圣地,在此地采访并不适合,且红袜队又刚输了周末赛,队内气氛乖戾紧张。

我在那里看着佩德罗亚进行场内练习,他接住大块头三垒手凯文·尤基里斯的投球,转投给新的一垒手凯西·柯奇曼。他显得与众不同,动作认真到位,而尤基里斯则略显笨拙,柯奇曼似乎还在走神。佩德罗亚与队友的主要不同之处在于态度,队友走神时,佩德罗亚会愤怒地将球摔出场地,恼怒地看着他们。

15分钟训练过后,红袜队出发到当晚的对手多伦多蓝鸟队的主场。我站在离红袜队的休息棚一两米远的一垒位置旁边,佩德罗亚从我身边走过,正如那些球探所说,他的确不算高,按照官方公布的数据,他身高为1.75米(5英尺9英寸),相当于把我的身高四舍五入之后的高度,但我好歹还比他高出两英寸。球探们说他不像一个运动员也没错,刚刚25岁就秃顶,头顶的头发和下巴上的胡须一样多,腰间赘肉堆积,还有小肚腩。如果你在街上遇见他,很可能会把他当作音像店的店员。

佩德罗亚转身走进休息棚,独自坐在那儿。这似乎是一个采访的好时机,我鼓起勇气走上前去。“嘿,佩德罗亚,有空吗?”

他狐疑地盯着我看了几秒钟,然后用一种极尽优越的口吻,一字一句强调道:“不,我没空。我正在努力备战棒–球–大–联–盟–比–赛!”

于是,尴尬的我只能在球场边转悠,努力在前往记者席看比赛之前重拾自己的尊严。

第二天,采访许可到期之后,我回到纽约,委派从前的同事(《棒球规程》的资深记者)戴维·劳里拉前去打探,希望他能获得一些有价值的信息。但是,这次佩德罗亚的话仍不多,回答也是尽可能地平淡无奇。他告诉劳里拉:“你知道吗,我根本不在乎数字和统计数据,我只在乎输赢,其他的东西对我来说都无所谓。”

佩德罗亚曾经偏离政党路线,因此惹了一身麻烦,之后他就学会了用这种说话方式来应对各种提问。比如那次,他称自己的家乡加利福尼亚伍德兰是一个垃圾场,还告诉《波士顿杂志》,“你可以说这句话出自我,事实上也是如此,我从不撒谎。”

佩德罗亚确实从不说谎。我想,也许正是因为持有这种态度,他才能够承受得起“球探”的质疑,最终成为大联盟中的一员。

构建棒球比赛的预测系统

从记事起,我就是一个棒球迷,也是一个棒球数据迷。6岁时,我家乡底特律的老虎队赢得了1984年的世界棒球联赛,作为一个数学小神童,当时我对比赛的各种数字特别着迷。7岁时我第一次买棒球卡片,10岁时第一次读《埃利亚斯棒球分析师》,12岁时有了自己的统计数据。(令人难以置信的是,那个数据竟然预测到默默无闻的红袜队场内球员提姆·尼尔林将成为最佳球员之一。)

直到2002年,我对棒球和棒球数据的兴趣才达到最高点。迈克尔·刘易斯当时正忙着写《点球成金》,书中记录了奥克兰竞技队及其总经理、统计奇才比利·比恩崛起的故事,该书很快畅销全美。25年前,比尔·詹姆斯出版了《比尔·詹姆斯棒球摘要》(下文简称为《摘要》),开创了棒球数据统计分析时代,随后他被聘为红袜队的顾问。所有这些都让我发现,沉迷棒球数据似乎不再只是一个小小的爱好,它为我寻觅新工作提供了一个新思路。

大学毕业之后两年,我一直在芝加哥的毕马威会计师事务所担任转让定价顾问。工作不错,薪水不薄,老板和同事做事专业、待人友善,生活还算安逸。

平时,我要么指导某公司的马来西亚移动电话分部如何定价,以便降低税金,要么赶早上6点的飞机到圣路易斯为一家煤矿公司的合同估价,但这份工作并不是我想要的充满刺激的工作。当时我24岁,不愿意安于现状,对我而言,这份工作平淡无奇、按部就班、了无生趣,让我觉得生活乏味至极。但这份工作有一个好处,那就是我有很多空闲的时间可用。于是,闲来无事,我就开始创建各式各样的电子表格以记录庞大的棒球统计数据,这后来便成了PECOTA预测系统的雏形。

读大学时,我就开始看年刊《棒球规程》。这本刊物是加里·赫卡贝于1996年创办的。一头红发的赫卡贝热情奔放,嘴不饶人。他先是从早期互联网新闻组中招募了一批写手,后来成了体育运动数据分析行业的领军人物。加里·赫卡贝很早就嗅出了商机:1988年比尔·詹姆斯停止了《摘要》的出版,而那些试图取代《摘要》的出版物不是品质不好,就是在1994~1995年棒球罢赛期间停刊了。于是,他在1996年创办了《棒球规程》刊物。第一本刊物问世时,是由激光打印机一次一本印出来的,还意外漏掉了圣路易斯红雀队的内容,最终《棒球规程》只售出了75本。但之后这本刊物销量逐年倍增,成了热门刊物。《棒球规程》是统计怪才的快乐源泉。数据海洋里不仅有大联盟球员的数据,还有小联盟中表现出顶级水平的球员的数据。刊物虽然有时只适合圈内人士传看,但文风犀利,常引用《辛普森一家》或是20世纪80年代情色电影里的隐晦笑话,还常对不受欢迎的联盟经理冷嘲热讽,读来颇为有趣。

当然,刊物中最重要的内容还是对每位球员下个赛季表现的预测,预测依据的是赫卡贝创建的“弗拉迪米尔”预测系统。这一系统似乎是继詹姆斯开创的棒球预测革命之后的又一个里程碑。

一个好的棒球预测系统必须可以完成3项基本任务:1. 考虑影响球员表现的外在因素。2. 区别看待技术和运气因素。3. 熟知老化曲线,了解球员的表现是如何随着年龄增长而发生变化的。

任务1相对简单。在美国主要的运动项目中,棒球很独特,比赛场地没有标准尺寸。道奇体育场如血管般错综复杂,外围是壕沟般的停车场,相比之下,芬威球场则如缩略版的新英格兰网格街道,整齐、舒适,球员在此更容易获得较高的击球率。通过观察球员在主客场的表现,我们就可以用“球场因素”来解释球员所面临的困难的程度。(比如说,在弗莱德·林恩——20世纪70年代红袜队的“最有价值球员”——的职业生涯中,他在芬威球场时击球率达0.374,但在其他体育场击球率只有0.264。)同样的,通过观察从国家联盟转会到美国联盟的那些球员的表现,就能分辨出哪个联盟更好,也能看出一个球员的竞争实力。

全世界最丰富的统计数据库

任务2——区别看待技术和运气因素——就不是那么轻松了。在短期内,运气常会主导棒球比赛:即使最好的球队也会输掉1/3的比赛,即使最好的击球手安全上垒的概率也只有2/5。有时候,运气因素甚至会掩盖一个队员的真实技术水平长达一年之久。某一个赛季中,一个击球手的真实击球率为0.275,受运气因素影响,这个球手的击球率有10%的概率出现浮动,时而升至0.300,时而降到0.250。

设计完善的预测系统能够辨识出那些容易受运气影响的数据,比如,平均击球数就比本垒打数善变。投手的表现也是出了名的不稳定,所以数据整理对预测投手的表现至关重要。若想预测一位投手的输赢,参考他取得的三振出局数以及保送数目,要比翻阅他前一赛季的输赢纪录更有价值,因为从每年的情况来看,前一类数据要更稳定些。

像所有预测一样,对棒球比赛进行预测是为找出决定输赢的根本原因:将击球手三振出局就能阻止对手安全上垒,从而阻止对手得分,进而阻止他们赢得比赛,所以三振出局数更为关键。然而,预测这回事,越往下探究,就会遇到越多的噪声干扰:投手的输赢纪录受自己发挥的影响,也受制于对手得分的多少,而后者是他无法左右的。西雅图水手队的明星投手菲利克斯·埃尔南德斯在2009年和2010年的投球表现都很不错,但输赢纪录却有很大差距,分别是19∶5和13∶12,因为2010年水手队的击球手水平极差,给了对手很多机会。

此类事例的出现绝非偶然,只要用心整理数据,就会发现端倪。棒球比赛为我们提供的数据也许是全世界最丰富的:过去的140年里,在大联盟球场上发生的每一件事都被忠实、准确地记录下来,而且每年还有数百位棒球手在很多较大的联盟中打球。另外,尽管棒球是团队运动,却是以高度有序的方式进行的:投球手轮流投球,击球手按序击球,这样每人都有各自的统计数据。复杂的、非线性的统计问题很少出现,因果关系很容易理顺。

这使得棒球预测者的工作变得十分轻松。(在这项运动中,)一个假设通常可以根据经验进行检验,利用精确度比较高的统计数据来证实或者证伪。而对于经济预测或政治预测来说,可用的数据就少很多——美国总统大选每4年才举行一次,不是每年都能产生几百个数据点——缺少数据,预测往往更易误入歧途。

老化曲线与相似分数

前述观点都是建立在一项假设的基础上的,即球员的技术水平一直保持稳定,年复一年,不会改变。其实不然。只要能将信号与噪声区分开来,我们就能获得所需的任何信息。事实上,每位棒球队员的技术水平都处于一种不断变化的状态,预测的挑战也正在于此。

研究过数千名球员的统计数据之后,詹姆斯发现,在二十八九岁之前,大多数球员的技术水平都会持续提高,但之后通常会开始走下坡路,三十五六岁时尤其严重。詹姆斯由此得出他最重大的发现:老化曲线。

奥运会体操运动员的运动巅峰期是十几岁,诗人的黄金时代是二十几岁,国际象棋选手的最佳比赛年龄是三十几岁,应用经济学家在四十几岁时成就辉煌,财富500强首席执行官的平均年龄为55岁。詹姆斯发现,一个棒球运动员状态最好的年龄是27岁。1985~2009年间,获得“最有价值球员”称号的运动员共有50位,其中30人获此殊荣的年龄是在25~29岁,更有10人的年龄刚好是27岁。这个年龄是体能和脑力完美结合的最佳阶段,可以让棒球运动员发挥出最高水平。图3–1 击球手的老化曲线

读过詹姆斯的著作的球队都能从“老化曲线”中受益良多。棒球合同规定,球员必须打满6个大联盟赛季方可成为自由球员,到那时已处于其职业生涯的后期了。(在此之前,所在俱乐部享有对他们的绝对支配权,而且他们的要价要低于市场价格。)通常,一个新晋球员会在二十三四岁时加入大联盟,直到30岁时他才可能成为自由球员——那时他的巅峰表现期已过,运动生涯开始黯然失色。球队为这些自由球员支付大量的保险费用,指望他们可以在30岁时复制二十几岁时的辉煌,而事实上球员的技术水平已不复当年,但大棒球联盟合约规定必须支付这笔费用,球队也没有办法。

詹姆斯的“老化曲线”并非没有缺陷,表现为其走势过于平缓。诚然,一般球员会在27岁达到巅峰状态。但只要是付过会费的人盯着棒球卡背面研究一会儿都会发现,不同球员的老化速度是不一样的。比如,20世纪80年代亚特兰大勇士队的三垒手鲍勃·霍纳获得年度最佳新秀奖时只有20岁,24岁时就入选全明星队了。如果根据当时通用的假设预测,鲍勃进入名人堂就是板上钉钉的事。但30岁时他却因伤停赛了,之后又草率地加入日本大联盟的“养乐多燕子棒球队”,彻底结束了他的顶级职业棒球生涯。再如,来自西雅图水手队的伟大球员埃德加·马丁内斯直到27岁才在大联盟中有了一份稳定的工作,大器晚成的他在30多岁时才迎来了职业生涯的巅峰时期,40岁时击球数还排在联盟的领先位置。

尽管鲍勃和马丁内斯的例子有些不合常规,但确实很少有球员如那条老化曲线般平缓发展,高峰低谷间断交错的形式反而更为常见。也就是说,真实的老化曲线充满噪声,而且噪声非常大(见图3–2),不会那样平缓。平均值就像“每个家庭拥有1.7个孩子”这样的说法,不过是一个统计学的抽象概念。按加里·赫卡贝的推论来看,也许詹姆斯的老化曲线没能传递出噪声中的某些信号。也许像游击手这样处于对体能要求比较高的位置的球员,其技术水平的衰退速度要比打右外场的球员快。也许那些颇具运动天赋的全能型球员的职业生涯会比那些只有一两个强项的球员要长。

赫卡贝的系统则假定存在26条明显的老化曲线,每一条都适用于不同类型的球员。如果他的假设是正确的,你就能评判出哪条曲线适合哪个球员,并以此预测出该球员职业生涯的走势。如果一个球员符合鲍勃·霍纳的老化曲线,那就预示着他会少年得志,但衰退期也会早早到来;如果一个球员符合马丁内斯的老化曲线,那就预示着他将大器晚成。图3–2 不同击球手的带有噪声的老化曲线

在赫卡贝的“弗拉迪米尔”预测系统中,每个球员对应着不同的曲线;而在詹姆斯创建的平缓的预测系统中,所有球员都对应着同一条曲线。尽管如此,从赫卡贝发布的一些预测结果看,“弗拉迪米尔”系统的预测准确度比詹姆斯的老化曲线高不了多少。预测准确率不高,在一定程度上是因为赫卡贝设定的26条曲线没有科学依据,只是随意选定了这个数目。这样一来,为球员匹配曲线就成了一个科学和艺术并重的技术活。

然而,要将棒球队员的技术水平发挥到较高的程度,一个人一定要对自己的身体技巧和精神技能进行多种多样的排列组合才行:肌肉记忆、体能耐力、手眼协调性、击球速度、投球识别力以及失利时强大的意志力,这些因素都要科学合理地运用。如此看来,“弗拉迪米尔”预测系统关于不同老化曲线的概念貌似更符合人类行为固有的复杂性。在创立PECOTA预测系统时,我尽量从詹姆斯和赫卡贝的系统中借鉴了一些元素来完善自己的预测系统。

在1986年的《摘要》中,詹姆斯介绍了“相似分数”的概念。顾名思义,设计者设计了这些分数,用来对任意两名大联盟球员的职业数据的相似性进行评定。这个概念比较简单。评定人员首先将两名球员分为一组,每组赋值1 000分,每发现年龄两人之间的一次不同则扣若干分。结果,高相似度的组可得到950分甚至975分,但低相似度组的组员间的差异会迅速增大。

略懂棒球历史的人都会发现相似分数的方法很得人心,评定人员并没有一门心思地只顾研究球员的统计数据,而是提供了一定的历史背景。例如,佩德罗亚在25岁时的数据与历史上的很多球员相似,比如20世纪70年代统帅明尼苏达双城队的队长、一个伟大的巴拿马人罗德·卡鲁,以及大萧条时期老虎队的明星查利·格林格。

詹姆斯主要是想用相似分数进行反向检测,比如分析一个球员是否有资格入选名人堂。如果想论证你最喜爱的球员是否够资格入选库佰斯顿球员名册,就可以借用相似分数。若通过观察你会发现已经入选的球员中有9/10的人的数据和他的相似,你就得到了一个非常有力的论据。

相似分数也可以用于预测吗?假设我们能够确定有100名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这100名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?

为了验证这个想法,2002年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立PECOTA预测系统的雏形。这一系统是由五花八门、内容丰富的Excel电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。

就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含10 000多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。

PECOTA预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但PECOTA并不局限于26种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。

但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。

对小联盟中的球员而言,这种差异更为明显。2009年,PECOTA预测系统为亚特兰大勇士队19岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力17个赛季,职业生涯里的平局击球率为0.304,外加450次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在2003年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。

所有与海沃德相似的球员都是高大的运动全才,在小联盟比赛中展现出高超的技术水平,在选秀中脱颖而出,但是他们的命运却截然不同。而PECOTA预测系统的创新点就在于此,它能够告知球员他们可能遇到的各种命运结局,这些结局参考了数据相似的前辈球员,尤其是那些结局最好与最坏的球员,或结局最有可能再次上演的球员。由此可见,若预测对象是人类行为,那结局更是不胜枚举了。

看到现在,海沃德的命运真可谓跌宕起伏啊。而真实情况是,2009年海沃德荣获年度小联盟“最佳球员”称号,2010年他在自己前30场大联盟比赛中贡献了8个本垒打,完成了自己在勇士队的首秀,还入选了全明星队,这一切都超过了人们的预期。但是,2011年海沃德在大联盟的第二个赛季却不是那么顺利,击球率只有0.227。面对海沃德在2011年赛季的糟糕表现,完善的预测系统仍会找出一个保持乐观的理由:他还是有潜力的,除了平均击球率之外,主要数据仍然保持了先前的水平,而平均击球率本身就比其他数据更容易受到运气因素的影响。

但是,你想要了解的关于一个球员的一切,这些数据都能够告诉你吗?10年前,这个问题可是棒球界最热的话题。

球探与数据怪才的矛盾冲突

只要对《点球成金》稍有了解你就会知道,书中讲述了“统计专员”与“球探”这两个敌对阵营之间的冲突与斗争,他们注重不同的范例,采取不同的方法评估球员的表现。(“统计专员”当然是用数据说话,而球探也有自己的“工具”。)

2003年,《点球成金》一书出版后,迈克尔·刘易斯的读者们一定不会忽略书中对两个阵营敌对状态的描绘(而这本书本身很可能也加重了两者间的敌意)。同年,我参加了在新奥尔良万豪酒店举行的棒球冬季会议,当时的情形一下把我带回了高中时代。一方是老牌球探,他们就像草地上的老水牛一样悠闲自在,偶尔会坐在酒店吧台旁一边喝着威士忌,一边聊着老掉牙的战时故事,更多的时候是把自己关在宾馆的房间里谈生意。这些人从前都是专业从事棒球运动的,而今多半都已届不惑之年甚至是知天命之年了。他们中很多人以前都是运动员,在球场上为棒球运动奋力打拼,后来逐渐进入领导层负责幕后工作,一路平步青云。另一方则是一群数据怪才:二三十岁的模样,背着电脑包,拿着彩色打印的建议书,不停地在大厅的人群中穿梭,希望可以说服某个投资者为自己提供一个工作岗位。平时这两个阵营的交流并不多,他们都觉得对方自大无知且闭目塞听。

两方矛盾的根源也许就在于,球探觉得数据怪才威胁到了他们的饭碗。他们认为球探预算正在缩减,不管这是客观事实还是主观感受,他们通常都会以此为依据,说自己的饭碗难保。在一次围绕《点球成金》展开的激烈讨论的圆桌会议上,洛杉矶安那罕天使棒球队的球探总监埃迪·贝克告诉《美国棒球》杂志的记者:“此刻真是剑拔弩张啊。我们的一些老伙计本不该丢掉工作,现在却失业了。也许有财政或是其他因素的影响,但我们都认为其实是一些懂电脑的人抢走了他们的饭碗,对此我感到十分愤怒。”

我们并不清楚具体有多少支球队削减了球探预算。多伦多蓝鸟队就是其中一支,他们也为此付出了代价,球队在2002~2005年球员选秀的结果都不尽如人意。但缩减预算绝不是当时的球队总经理、比恩的弟子J·P·里恰尔迪一时兴起的冲动做法,而是由于多伦多蓝鸟队的母公司罗杰斯通信公司正受加元贬值的困扰,不得已而为之。《点球成金》已经出版10年了,球探和数据怪才之间的争斗使他们耗尽了力气。2004年,红袜队在时隔86年之后再次捧得世界联赛冠军,成功的原因在于球队既充分尊重了球探的意见,也对已有数据进行了细致分析,两相结合成为两个阵营和平共处的关键所在。2003年时还被界定为“球探”阵营的许多球队,如圣路易斯红雀队,此后也越来越多地运用数据分析的方法,这些球队现已成为最具创新精神的棒球队伍。而那些原本就偏好数据的“怪才”队,如奥克兰竞技队,非但没有削减球探预算,反而增加了相关投入。

2007~2009年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达40万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的1/10。对于球队而言,花4万美元聘用一个数据怪才远比投入4 000万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。

但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。

系统与球探的对决:球探赢了

PECOTA是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是20世纪80年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。

PECOTA预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用WFG系统进行过数年[1]实验之后——你肯定能猜出来这个缩略词代表的含义——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了PECOTA系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买PECOTA系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组PECOTA预测结果便发表在2003年冬季的《棒球规程》上。

2003年赛季结束时我们发现,PECOTA系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008年这几年,无论在我们自己还是别人的测试中,PECOTA系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使PECOTA名声大振,比如,芝加哥白袜队在2005年加冕世界联赛冠军,但2007年赛季PECOTA却预测该队只能获得72场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以72场胜利、90场失利的成绩结束该赛季。

然而,在2009年前后,PECOTA预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了PECOTA系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。

但我当时之所以创立PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时PECOTA系统唯一的竞争对手就是球探。

2006年,我首次公布了PECOTA系统预测出的100名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA系统依据这些球员入选大联盟后的前6个赛季中为球队做出的贡献对他们进行排名。

2011年赛季,也是预测结果发布的第6个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。

在最具发展前景的棒球球员名单中,佩德罗亚排在第4位,这是PECOTA系统的成功案例之一。当然,PECOTA的成功案例可不止这一桩,该系统当年对伊恩·金德尔的职业前景也很看好,而《美国棒球》并没有把他列入名单。事实上,金德尔自2006年以来两次入选全明星队,还成了得克萨斯流浪者队的主攻手之一。PECOTA系统还看准了麦特·坎普,道奇队的超级明星,2011年麦特·坎普曾十分遗憾地与棒球“三冠王”失之交臂。PECOTA系统当年的这个判断也比《美国棒球》高明。

上面几位也许你还有所耳闻,但你听说过乔尔·古兹曼、唐纳德·莫菲,还有约塞米蒂·佩蒂特这些人吗?若非资深棒球迷,很可能根本不知道这些人。但PECOTA系统也将他们列入了那份名单。《美国棒球》难免会看走眼:球探们对布兰登·伍德、拉斯汀·米利奇以及马克·罗杰斯的职业前景十分看好,但他们此后的表现不尽如人意。球探们还认定红袜队的明星投手乔恩·李斯特、洛杉矶道奇队的游击手特洛伊·图洛维茨基以及巴尔的摩金莺队的外野手尼克·马卡提斯会有不俗表现,但他们在小联盟时一直表现平平,PECOTA系统并未将其列入名单。

现在,我们有充足的数据可以对两个预测系统进行统计学分析。具体来说,我们可以查看每份名单上的球员为自己所在的大联盟球队带来的胜场数,这些胜场数以WARP(超过替补球员的胜场数)的数据形式呈现,这就意味着要收集每一位球员为整场棒球比赛贡献的价值,包括击球、投球及防守。

PECOTA系统所列名单里的球员在2011年大联盟赛季贡献的胜场数总计为546场(见图3–3),而《美国棒球》所选球员的贡献更大,胜场数总计为630场。尽管球探们的判断有时会出现失误,但他们的工作还是具有非常大的价值的:他们预测的准确度比单纯靠数据分析进行的预测高出15%。这个差距听起来也许不算大,但带来的收益可不小。每赢得一场胜利,棒球队都愿意向球探支付400万美元。这样算来,在过去的6个赛季中,那些球探预测名单上多出来的84次正确预测,会为他们带来总计达3.36亿美元的收益。图3–3 2006年PECOTA系统和《美国棒球》列出的100位最具前景球员2011年赛季贡献的胜场数注释[1]WFG(Web Forward Gate)Web服务请求转发软件的发布将为你解决这一切烦恼。利用此软件你只需进行简单的设置就可以很好地将实际的Web服务器保护起来,并且不影响你的服务器的访问情况进行各种统计。

球探和数据怪才的偏见

如果PECOTA系统的预测结果能比球探们的预测结果更准确,那自然很好,可我并不期待出现这样的结果。就像我在PECOTA预测名单公布后不久所写的那样:这次球探对战数据怪才的戏码引发诸多趣闻,但我并不期待PECOTA系统给出的排名能与《美国棒球》的排名同样准确。预测系统的工作原料是信息。能够同时将球探的推断和统计信息收入囊中,就意味着你拥有更多原料。单纯依靠数据的预测想要打败依靠综合分析的预测,只有一个途径,那就是综合分析的过程中掺杂了过多偏见,若偏见太强,就会削减掉这种分析手段的优势。

换句话说,那些球探用的是综合分析的方法,他们得到的信息并不局限于统计数据。球探和PECOTA系统都会观察球员的平均击球率和防御率,PECOTA系统毫无主观偏好,也善于从数据中排除部分噪声,并将这些数据排列好。而球探则可以了解到很多信息,这是PECOTA系统做不到的。比如说,球探并非只能依据投手三振出局数推断球员的表现,他们还能够拿出雷达测速仪测定投手投出的快速球的速度,或者用秒表测定他的跑垒时间。

这一类型的信息更接近我们进行棒球比赛结果预测的根本目标。在美国棒球小联盟中,投手即使投出一个无力快速球也可得分,只要投到好球区,或几种投球混合使用,都可以让不少击球手三振出局,因为大多数击球手实力平平,很容易被战胜。但是在美国棒球大联盟中,击球手甚至能将时速将近158公里(98英里)的快速球击出场外,此时投手只能依靠软抛球谋得胜算。结果是,PECOTA系统很容易被这些伪正数欺骗,但是球探却能够辨别哪些球员具有大联盟水平,哪些球员还需要修炼。

当然,任何的人为判断都有可能掺杂个人偏见。就像本书前文中提到的那样,对预测持错误态度的人,常以信息过多为借口提出一个不公正的理论,用来描绘世界应该是什么样的,而不是体现客观事实,故而他们获得的信息越多,情况就越糟。

也许在前“点球成金”时代,球探们带有更多偏见。他们倾向于从美学的角度评判球员,比如球员的球衣合不合身,而不是看这个球员是否具有天赋。若说近些年来位列《美国棒球》预测名单中的那些球员都有不俗表现,那么20世纪90年代,该刊力荐的那些球员的表现就平平了,像托德·范·波佩尔、鲁本·里维拉和奥布莱恩·泰勒等球员的职业前景明显被夸大了。

数据怪才们也有自己的偏见,其中最致命的一个偏见:若某项因素很难量化,那它就被视为无关紧要。例如,在棒球运动中,很长时期内防守质量要比击球率或投球质量更难测量。20世纪90年代中期,比恩率领的奥克兰竞技队忽视防守,常让马特·斯特尔这类庞大笨拙的球员防守外野,而马特·斯特尔是一个天生的击球好手,却总被安排去防守外野。随着防守技术研究的不断推进,奥克兰竞技队无可避免地为其薄弱的防线付出了巨大代价,每个赛季奥克兰竞技队得多输8~10场比赛。在这种情况下,不管球队的安打表现多好,都不可能跻身热门球队之列了。比恩从中吸取了教训,最近由他带领的球队防守得都不错。

在预测美国棒球小联盟球员的表现时,这些盲点带来的失误会造成更大的损失。对于一个颇有成就的美国棒球大联盟球员来说,关键是预测他能否续写辉煌。一个聪明的系统可能会预测,球员的发展走势会上下浮动几个百分点。但如果只是简单地假设这个球员下个赛季的表现与前几个赛季相仿,你也不会错得太离谱。通常情况下,球员日后的实力与现在的表现不会有天壤之别。

然而,在主要的职业运动中,棒球属于比较特殊的,因为这项运动中包含着极其复杂的小联盟系统。美国橄榄球联盟很少批准小联盟赛事,美国第一大职业篮球赛事的小联盟数量也不多,但在棒球界,每个大联盟下附有8个小联盟,共有240个小联盟。另外,足球和篮球队员可以从大学甚至高中直接进入职业联赛,变身为球星,这种情况在棒球界却很少见,即使是最有天赋的新秀,也必须在比利斯特、贝克斯菲尔德或宾厄姆顿苦苦地等待进入美国棒球大联盟的机会。

对这些棒球手的表现进行预测是非常具有挑战性的,因为我们一直在期待这些球员最终能做到他们现在无法做到的事情:参与高水平的赛事,成为大联盟球星。美国棒球大联盟选秀赛非常残酷,就连全美高中时期表现最棒的击球手布莱斯·哈珀,在面对大联盟(选秀)投球时都可能惨遭淘汰。要知道大联盟是勤奋和运气结合的地方,新秀们必须变得更强、更壮、更聪明、更守纪律,才能在大联盟打比赛。假设你来到一所普通高中的课堂上,你应该对那些学生留心地观察几天,然后预测他们当中谁将来会是医生、谁会是律师、谁会是企业家、谁又只能勉强度日。我猜你一定会参考这些学生的成绩和学术能力评估测试分数,再看看谁的人缘更好,但你还必须进行一些大胆的猜测才行。

很多业余球探(以及所有模仿球探的做法设计出来的数据预测系统)都是这么预测的。尽管一些棒球球员是从大学中选出的,还有很多球员是直接从高中选出的,但球探的“侦察”活动在这些球员十几岁时就开始了。和同龄人一样,这些球员荷尔蒙爆发,经历着青春期的焦虑,身体正在发育,并且需要与酒色的诱惑抗争。如果你把你企业的未来交给这样一群19岁的年轻人,你能放心吗?

生理指标与心理指标

正如刘易斯在《点球成金》中提到的那样,有些球员拥有惊人的天赋却不自知,比利·比恩就属于这样的球员。1980年第一轮选秀后,比恩在大联盟只打了148场比赛,职业生涯的平均击球率仅为0.219。但与约翰·桑德斯相比,比恩的球员生涯还算辉煌,至少他还入选过一次名人堂。

桑德斯现为洛杉矶道奇队的球探,也曾参加过大联盟比赛,确切地说,他只打过一场比赛,就像《梦幻成真》里的“月光先生”葛兰曼博士一样。1965年4月13日,在堪萨斯城竞技队对阵底特律老虎队的比赛中,19岁的桑德斯作为替补跑垒员,在第七局时上场。但桑德斯当时毫无上垒准备:两个击球手突袭成功,他在下一局开始前就被换下场。从那之后,他再也没有参加过美国棒球大联盟比赛。

桑德斯并非缺乏天赋,他在内布拉斯加州格兰德岛高中读书时一直是位全能体育明星:1963年在州足球队踢四分卫,1964年效力于州篮球队,还曾经得过州田径运动会铁饼金牌。棒球可能并不是桑德斯最擅长的运动项目,但是他真的极具天赋,1964年夏天高中毕业时,他就拿到了奥克兰运动家队职业球员的合约。

但新秀津贴规则阻碍了桑德斯的发展,断送了他的大好前程。1965年,当时还没有采用大联盟合约,所有业余选手都是自由球员,球队可以根据球员意愿支付薪酬。为防止经济条件较好的球队笼络天资好的球员,新秀津贴规则提出了一项惩罚措施:每个得到大笔签约津贴的球员必须在大联盟球队打满两个职业赛季。但事实上,他们的实力根本就打不了这样的高水平比赛。

这项规则实际上是让像桑德斯这样前途光明的球员吃了“杀威棒”。大多数得到大笔新秀津贴的球员只能坐冷板凳,几乎没有机会去打任何大联盟的比赛。在最需要每天都打比赛积累经验的时候,这些年轻的球员却和比赛无缘。球队的支持者和队友也在纳闷,球队为什么花重金雇这些乳臭未干的19岁“娃娃”来当球童?所以,这些人也不可能理解和同情那些新的年轻球员的困境。在这种情况下,除了桑迪·考法克斯和哈蒙·吉尔布鲁这样的得到签约津贴的球员能咬牙挺下去并最终入选名人堂,当时很多具有潜力的优秀球员在这样困境中都撑不下去。

从内布拉斯加州最佳运动员到《棒球百科全书》的一个小脚注,这样高低起伏的人生经历让桑德斯对年轻运动员的心智有着独到见解。一天上午,我通过电话联系到桑德斯,当时他正从北卡罗来纳州开车前往芝加哥观看勇士队的最佳附属队的比赛。

早在2003年新奥尔良冬季会议之际,我就觉得桑德斯会孜孜不倦地为棒球付出一生。(短暂的)运动生涯结束之后,桑德斯还在为棒球运动贡献力量。但桑德斯从未从“球探对战数据怪才”的角度看待棒球运动。

桑德斯告诉我说:“我喜欢估算,喜欢统计学证据,就连从前使用计算器或其他计算仪器处理数据时都觉得很享受。”他接着还说了一件逸事:“一个球探曾说过,‘伙计们,面对现实吧,每天我们到球场后做的第一件事是什么?是到记者席拿最新的数据’。我们拿的是数据啊!那样做有什么不对吗?可你们就是那样做的。”

的确,自棒球运动诞生之日起,统计数据就一直是其中的一部分。第一份新闻技术统计数据——其中包括得分、安打数、出局数、助杀数及失误次数——是由亨利·查德威克于1859年发表的,而第一个职业联盟直到12年后的1871年才成立。到了“点球成金”时代,许多争论的焦点不是该不该使用数据,而是该使用哪些数据。比如詹姆斯等分析家多年前就提出,和安打率相比,上垒率和得分的关联更大,但这一观点一直不被业界的传统主义者所认可。

这样的争论通常涉及那些数据怪才的专业领域,可谓投其所好了。上垒率比平均击球率更有用,投手防御率比他的输赢纪录更能客观体现其水平,这些都是科学事实,就像“地球围绕太阳旋转”一样不容反驳,数据怪才的这些看法自然没有错。对此类争论,数据怪才们只赢不输,这也使得他们有些自鸣得意,忘了自己在别的问题上其实很含糊。

离美国棒球大联盟越远,统计数据的用处就越小,因为此时你需要做得更多的是对球员的表现进行预测,而不是测量。对于那些级别比较高的小联盟,比如2A等级或3A等级小联盟,统计数据的预测作用和大联盟的几乎无异。但是级别较低的小联盟数据就没有那么可靠,大学或高中球员的数据的预测力则更弱。

球探们(预测时)经常会用另外“五大指标”来替代统计数据:击球效力、击球平均数、速度、手臂力量以及防守范围。但这些指标饱受诟病,也确有缺陷。这5项指标并未包括送出保送球和避免三振出局这样的垒上规则。虽然这5项指标会让人觉得它们同等重要,但实际上,除了游击手和捕手之外,对其余所有位置上的球员而言,击球效力要比手臂力量重要得多。“五大指标”之所以饱受批评,还有另外一个原因,那就是仅凭这几个指标获得的信息并不全面。随着一名小联盟球员的球技日渐成熟,他的统计数据应当越来越多地体现出这几项指标——当然,很可能这位球员的水平并没有多少提高。实际上,其中有些指标就是统计数据:“击球平均数”表现为平均击球率,“击球效力”表现为二垒安打数和本垒打数。如果球探告诉你某位球员击球效力得了70分(满分80分),但这位球员在阿尔图纳弧线棒球队效力时,每年却只贡献10个本垒打,那么你觉得球探给出的这份报告可信度高吗?

作为业界资深人士,桑德斯对过分强调“五大指标”的做法持怀疑态度。他告诉我说:“这些指标也没有多么玄妙,无非是快速奔跑、用力投球之类的技术,其实人人都懂,只是球探可以在第一时间看到这些数据。问题是,这些技术真的可以有效地塑造得分球员吗?那些指标真能转变为可用的技术吗?以击球速度为例,若一个球员击球的速度很快,但他却不相信自己,总是想去做投手,那他的击球速度就成了不可用的技术,也就是说他的击球效力没有转变为可用的技术。”

桑德斯不太注重这些生理指标,而是更加看重可用的、适用于比赛的技术。桑德斯认为球员的心理指标可以决定其生理转变的程度。心理指标通常比生理指标显露得晚些。桑德斯的妻子是一位特殊教育工作者,在她的指点下,桑德斯作了一项研究。这项研究表明,大多数人在24岁之前都处于心理未成年期。对于那些年龄小于24岁的球员,如果桑德斯发现其各项心理指标正在发育的话,就会暂缓将其从名单中除名;对于那些年龄大于24岁的球员,就要看其球场表现了。有趣的是,24岁正好是球员在2A级小联盟中效力的年龄,此时刚好可以开始根据其统计数据来预测其球场表现。

桑德斯并没有明确地指出一个球员的心理指标应当包含哪些内容,但是通过我们之间的交流,对于他认为有助于预测大联盟胜率的五大智力和心理能力,我进行了总结。

赛前准备和职业道德。与其他职业运动不同,棒球队员一周有六七场比赛。足球或篮球队员只要比赛当天进入状态即可,但是棒球队员不行,他们每天都要保持参加职业赛事的状态。这就意味着他们必须进行一定量的科目训练。桑德斯喜欢提前到达球场,因为他总觉得赛前预热(相比比赛过程)更能体现出队员的科目训练效果。例如,前文中提到的那个9月的晚上,在芬威球场进行场内练习时,佩德罗亚显然比队友更专注。他在进行常规训练,无法忍受任何干扰,这干扰当然也包括某个不知名的记者试图对他进行采访。

全神贯注和集中精神。尽管和赛前准备有关,但这一项特指球员在比赛过程中自我控制的习惯。棒球是条件反射型运动,击球手只有3/10秒的时间决定是否挥棒击球,内野手在地滚球离垒的瞬间就要做出反应。桑德斯说:“球员若精神不集中,我们也拿他们没辙,但我希望游击手和中场内野手能集中精神应对每次投球。”

竞争力和自信心。所有职业运动员天生就具有竞争力,这种说法似乎成了公认的道理,所以棒球手在职业生涯早期必须克服自我怀疑和其他心理障碍。前一秒还是高中的风云人物,下一刻却在安纳波利斯到格林斯博罗的大巴车上读着网上有关自己比赛失利的报道,心情立刻跌到谷底,这些都得学着自己调节。每当桑德斯看到一个颇有天赋的球员难以打出成绩时,他总在想:有没有一种成功的欲望能与失败的机制抗衡?对成功的渴望能否足以战胜对失败的恐惧?

压力管理和自谦。棒球比赛中,即使技术最棒的击球手多数时间也得不到分,每个球员在赛季的某些时段都会进入低谷状态。应对这样的挫败需要差记性和幽默感。桑德斯最喜欢的一个侦察策略,就是观察球员在碰到一场硬战或运气不好的比赛时的反应。“击球手大力挥棒,动作夸张却没打中球,球迷会觉得很滑稽,这时,我喜欢俯身看到他的微笑。这就意味着,接下来一击——嘣!——球飞出0.12公里之外。”一旦球员进入美国棒球大联盟,就必须接受球迷和媒体的品头论足,此时这项心理技能就显得更加关键了。

灵活应变和学习能力。比赛过程中,球员处理突发情况的能力如何?是否听从教练指挥?生活境遇发生改变时如何调节?转会或是被安排到新的位置时该怎么办?要知道,即使是天赋极高的球员,从业余队员到专业队员的转变也绝非一帆风顺,因此,一个出色球员处理问题的手段不能太过僵化。桑德斯评论说:“沿着一条走廊走到拐角,有些人会从容地绕过去,而不是猛烈地拐过去。能玩转比赛的人就是这样的聪明人,他们知道如何克制自己的紧张感。”

当然,上述几种能力在很多人类活动中都颇为重要。其中一些已经为预测者所用,尤其是桑德斯所说的灵活应变能力:遇到新信息时,你会怎么处理?情况发生改变,证据指向其他方向,此时反应过激或无动于衷都会导致预测失败。

然而,就竞争的激烈程度而言,几乎没有哪种职业运动能与棒球匹敌。数十万名业余球员,数千名职业球员,只有750人能在指定时间加入美国棒球大联盟,而这750人中能入选全明星队的则更是少之又少,只有几十人。桑德斯的工作就是寻找那些不轻易言败的明星球员,他自己也像那类球员一样恪尽职守、努力工作,虽已年近古稀,几乎每天都坚持出门工作。

桑德斯确实为道奇队提供了最具价值的信息,别人提供不了这类信息。

信息是决定预测成败的关键

《点球成金》的主人公比利·比恩认为不断地收集信息是成为好球探的秘诀。“如何定义好球探?球探可以找到别人找不到的信息。要了解一个人,还要了解这个人的孩子的信息,了解他的家庭信息等。很多信息都得你亲自去找。”他如是说。

比恩应该清楚,奥克兰竞技队的大多数胜利有赖于该队出色的数据统计能力,但球探对业余选手的甄选工作也为球队的优异成绩做出了重要贡献。21世纪初载入《点球成金》的该队球星中,米格尔·特哈达、杰森·吉昂比、巴里·奇托、提姆·哈德森、艾瑞克·查韦斯等多数都是由俱乐部签约并培养的。

比恩告诉我,奥克兰竞技队十分着迷于数据型综合分析,因此该队如今的球探预算比以往都高。如前文所说,棒球球员打满6个赛季之后才是自由球员,那时他们至少有30岁了,按照比尔·詹姆斯的老化曲线来看,那些俱乐部花在自由球员身上的钱通常无法得到应得的回报,毕竟球员的最佳状态已经基本过去了。但从另一方面看,球员在30岁之前还可以为球队做出巨大贡献。而且,在棒球经济学中,比较年轻的球员通常都是低价“买入”的。

如果和其他行业一样,从盈亏角度看待棒球,这个行业中几乎所有的价值都是由球探甄选和培养球员的过程创造的。如果一支球队的预测系统特别完善,也许该支球队只需支付1 000万美元的年薪就能获得一位价值1 200万美元的球员。但如果这支球队的球探团队足够出色,也许只需花40万美元就能签到那位价值1 200万美元的球员。在奥克兰这样的小市场中只能智取。

所以,奥克兰竞技队从来不会对球探表示不敬,而是非常尊重这些人。比恩还明确表示,球队纳新时一定会考量球员的心理素质。球队仍十分信任缜密的分析,球队在处理收集的信息时,秉持着严谨的作风和纪律,但并不随意排斥某种信息。“每个球队赋予客观分析和主观分析的权重都不同。”比恩解释道:“以我们奥克兰队的立场来看,从某种意义上讲,我们只能做出客观判断,不能依靠直觉。若某次直觉判断碰巧是正确的,我猜这只是歪打正着而已。我们的工作职责决定了我们不能乱下决定,然后企盼好运。如果我们在玩21点,庄家底牌有一张4,我们手里有一张6,遇到16点,我们就爆牌了。”

如前文所述,预测成功的关键是,不应该局限于定量信息,而应该用心权衡信息的适用性。比恩的工作宗旨是尽可能地收集信息,尽可能严谨、专业地分析信息。

信息越多,你的预测就越准确,如果是这样,那你就是一个十分出色的预测者。若态度不端、习惯不良,那你就会像菲利普·特罗克的政治学者一样,预测得十分糟糕。候选球员A的平均击球率为0.300外加20个本垒打,轮休日出现在“救济厨房”帮忙,球员B也有相同的击球率和本垒打个数,但平日里他逛夜店、吸毒品,两位球员的区别尽管很难用数字量化,但是你进行预测时一定会考虑这个区别。

事实上,很多时候定性信息有可能转变为定量信息。球探实际上是用严格的数据范围来测评球员,每类数据的范围都是20~80之间,当然你可以将这种方式归入数据模式中,和球员平均击球率放在一起,看看其价值何在。有些球队,如圣路易斯红雀队,已经开始尝试这一模式了。

确实,在棒球界,球探模式和统计数据之间、定性信息和定量信息之间的差别已经非常模糊了。例如,投手球路分析系统(Pitch f/x)是一套三维相机系统,如今在大联盟中的每个球场都已经安装了。投球数据折线图不仅可以测量球速——很多年前雷达测速仪就能做到这一点——它还可以测量出球落垒前在垂直方向和水平方向的移动距离。比如,我们现在可以用统计学方法来分析扎克·葛兰基,他是2009年大联盟最佳投手,是赛扬奖获得者,是密尔瓦基酿酒人队的队员,他还投出过最漂亮的弧线球。我们还可以用另一种方法来分析,马里亚诺·里维拉的卡特投球果然名不虚传。从传统角度来讲,这些信息都属于球探的考察范围,现在成了预测系统中的变量之一。

不久的将来,我们也许就能用一套完整的三维成像系统记录球场上发生的一切了。雅各比·艾尔斯布里一跃而起接住头顶飞来的球时,我们可以立刻测量出他这一跃有多高;也可知道铃木一郎完成一圈跑垒的确切时间;或是当雅迪尔·莫力纳想将对方盗垒手赶下垒时,在二垒奋力接球时的速度究竟有多快。

正如当年《点球成金》中公布的预测结果一样,这项新技术并不会减少球探的数量,但它有可能会被重点用来测量更难量化、更加隐秘的信息,例如球员的心理指标。像桑德斯这样聪明的球探在这一方面已先行一步了。

并不是信息越多,预测就越成功

为什么球探们对达斯汀·佩德罗亚的预测错得那么离谱?

所有的球探对佩德罗亚的基本信息都没有疑义,他们都知道佩德罗亚是一个非常出色的击球手,垒上技术灵活,心理素质超群。球探们也都知道佩德罗亚挥棒姿势怪异,防守技术稳定但不突出,移动速度平平,且个子不高,体格一般。

然而,作为年轻球员,佩德罗亚的个人履历很特殊,很多球探不知对此该如何看待。桑德斯告诉我:“招募新球员时,球探都是带着主观想法进行选拔的,他们心中早就有了典型标准。佩德罗亚在很多方面都不符合这些标准,他需要新的标尺。”

当我们无法把一个方形物体塞进圆洞时,通常会责怪这个方形的物体。有时,就是思维定势使我们没有及时做出调整去适应新情况。我们总是本能地将信息归为不同类别,通常类别的数量相对较少,这样便于跟踪。(美国人口调查局将数百个种族团体分成六大种族类别,数千名艺术家按照音乐类型归为几类,这些都是归类的做法。)

在大多数情况下,归类的方法还是非常奏效的。可是,一旦遇到不易分类的信息,我们通常就会无视它或对其进行错误分类。这也是比恩不愿“凭直觉”作决定的原因之一。如果过分依赖第一印象,很可能会错过潜力无穷的球员,而奥克兰竞技队的经济条件可负担不起这样的过失。

像PECOTA这样的预测系统是在数千名球员中搜索信息相似的球员,对球员进行分类时更需要谨慎细致。PECOTA系统能够将佩德罗亚的各项技术归入更适合的类别之下,也确实搜索到了一些与他的信息相似的前辈。

若将佩德罗亚的其他技能考虑在内,他矮小的身材反倒可能是他的优势。棒球的好球区是指从球员肩膀到膝盖的范围,个头越矮,投手的目标区就越窄,而佩德罗亚对来球的捕捉能力又强,这样他就能更好地利用自己个子矮、好球区小的优势。

另外,二垒手身材矮小,防守起来更有优势。二垒手要求灵活敏捷,能像猫一样灵活地捕捉地滚球。史上最佳的二垒手大部分都是矮个子。入选名人堂的17名二垒手中,只有内普·拉如瓦和瑞纳·桑德伯格身高超过1.82米。最伟大的二垒手乔伊·摩根的身高只有1.70米。

那些球探非常擅长本职工作,也善于分类,但是这一次他们预测得过于仓促,偏见也过大。佩德罗亚的矮小身材从某些方面来看其实是优点。

但是,一切都没有定数:PECOTA系统并没有认为佩德罗亚一定会成功,只是觉得可能性较大,而球探并不这样认为。不过,红袜队信任佩德罗亚,这才是最重要的,而佩德罗亚的自信也给球队带来了好运。

第一次遇见比尔·詹姆斯是在2009年10月“纽约客艺术节”的一个专家小组。在随后的一个奇特的派对,比尔·詹姆斯穿了一件色彩夸张的运动衫,脚踩一双又大又旧的木屐,在一群打扮时髦的人中,显得尤为特别。派对上其他人都在追随明星苏珊·萨兰登,我和詹姆斯却在吧台边聊天。

詹姆斯在红袜队的职责范围很广,也很秘密(很多细节他不方便透露)。过去的25年里,作为一名在场外摇旗呐喊的人,詹姆斯写了很多关于棒球的文章,人到暮年他变得平和很多。现在,作为一名熟悉行情的内行人,这项运动对詹姆斯有了不同的意义。詹姆斯是最早从心理角度审视棒球的人。

詹姆斯对我说:“年轻时我写的东西,很多观点都不对。自从有了孩子,我的态度发生了很大的转变。这句话是有些老生常谈,但确实,有了孩子才开始懂得每个人都是父母的宝。这就是内行人和外行人的区别。小时候觉得这些人是电视里、游戏中或是棒球卡上的人物,并没有意识到他们也是普通人,正在尽全力比赛。”

令我惊讶的是,尽管詹姆斯、比恩和桑德斯这三位看待棒球这项运动的角度存在极大差异,但他们对很多问题的评论却非常相似。事实上,如果把我和他们3位的交谈记录放在一起,你很难指出哪一段话是谁说的。(詹姆斯的话相对容易分辨,因为他更风趣)。詹姆斯逐渐注意到球探为红袜队带来的价值,他认为这也是他的使命。在棒球运动中,衡量预测是否准确的方式很严苛,只看比赛的输赢,所以,所有的预测者都明白预测不能离谱。如果信息越多,你的预测却越离谱,那你注定会失业,也没有资格得到麦克劳林媒体集团的终生聘用合约。“从某个角度看,我和其他球探看待棒球的方式是非常相似的。”詹姆斯接着说,“在政治领域,从最‘右翼’到最‘左翼’,人们说的其实完全是一回事。也许球探行业也是这样,别的球探努力探寻的问题和我努力探寻的问题完全是一回事儿。”

2004年,詹姆斯协助红袜队进行职业棒球选秀,佩德罗亚是第65个被选中的。詹姆斯写了一份报告,其中对佩德罗亚赞许有加,但还是建议球队选择另外一个人。虽然詹姆斯对这个选择很满意,却也很开心地看到佩德罗亚后来用行动证明詹姆斯当时的评判很愚蠢。

然而,在佩德罗亚职业生涯的早期,连他的一些头号粉丝有些时候都会怀疑他。2006年8月,佩德罗亚开始了自己的第一个大联盟赛季,打了31场比赛,平均击球率仅为0.198,只有6个二垒以上的长打。没人特别关注他的表现;更令人感到意外的是,在那一季的最后几周里,红袜队无缘季后赛已成定局。于是,新英格兰地区的焦点完全转移到卡尔特人和爱国者这两支球队上。第二年,佩德罗亚担任球队的专职二垒手,但他进入状态还是很慢,赛季已经开始一个月了,佩德罗亚的平均击球率只有0.172。

如果当时他是在芝加哥小熊队这样的球队,佩德罗亚很可能会被开除。小熊队的决策机制从前是出了名的随意,直到近几年才有所改观。对很多球队来说,每个行动都会遇到同样的过激反应,但是红袜队不会,这支球队是经过系统方法训练出来的。詹姆斯透露,从佩德罗亚在那个赛季的表现中,红袜队看到了令人欣喜的地方。佩德罗亚一直在积极应对比赛,制造了很多接球机会,只是球没有落在球棒上而已。照这种情形看,比赛的各项数据极有可能会向他倾斜。

詹姆斯对我说道:“我们都有对数据失去信心的时候,或许你也清楚这一点。回看过去一年的情况,当时佩德罗亚的击球率仅为0.180,再看看他的挥杆失误率,可能高达8%~9%。在那个春季赛季中,佩德罗亚一直在努力,但他同样也对自己的数据失去了信心。按理说,那么卖力地挥杆,接球机会不可能那么少,击球率不可能只有0.180。”

红袜队当初选择佩德罗亚并非轻率之举。他们当时一直都在留意观察佩德罗亚的比赛表现,是“雪藏”佩德罗亚还是派其首发,球队都要慎重思考。球队会在更大的背景下考虑这个问题,不会让数据左右他们的决定。

詹姆斯告诉我,红袜队唯一担忧的是佩德罗亚是否开始怀疑自己的实力。遇到类似情况,其他球员也许会对自己产生怀疑,但佩德罗亚不会这样,骗子和批评家都奈何不了他。“幸好佩德罗亚是一个骄傲的家伙。如果他胆小怯懦,容易受到批评的影响,他就完蛋了。佩德罗亚并不理会旁人,依然我行我素,保持怪异的挥杆姿势,最终实现了逆转。”

佩德罗亚拥有桑德斯所说的“大联盟记忆力”——忘得快。佩德罗亚不会为糟糕的表现所困,因为他完全相信自己的打法没有问题,从长远来看,这一点真的很重要。但对所有让他分心的事情,佩德罗亚则采取零容忍的态度,这种态度无法将他塑造成最宽容的人,但这却是红袜队二垒手最需要的品质,也是他唯一在乎的事。“缺点和优点是一对亲密伙伴。佩德罗亚善于化腐朽为神奇。”詹姆斯点评道。

《点球成金》的真正意义

在与比利·比恩讨论《点球成金》时,比恩说:“正如迈克尔·刘易斯所说,争论已经结束了。”《点球成金》这本书有段时间曾对球探形成威胁,貌似球探的工作和生活也因此出现了危机。但这只是臆想,电脑从来没有取代球探。实际上,无论是由球探报告指导,还是靠数据系统分析,了解棒球市场未来所需的不同类型球员一直是供不应求的工作。球队挑选谁、与谁交易、付给自由球员多少钱,这些都决定着世界联赛的结果和数百万美元的走向。现在,当球队做决定时,会使用越来越多可支配的工具。在别的领域,信息革命并没有任何益处,但在棒球行业,信息革命带来的价值配得上那张数百万美元的高额支票。因为体育是高科技、激烈竞争、均衡的激励制度和大量数据的独特结合体。

但科技并未使比恩的生活轻松多少,其他球队已经复制了奥克兰竞技队的成功诀窍,为此他表示出自己的担忧。比方说,现在几乎所有球队都懂得上垒率的重要性,也都十分重视防守的作用,而没有发生改变的是,那些球队仍然(像从前一样)比竞技队富有。

在像体育运动这样竞争最为激烈的行业中,最出色的预测者必须不断地创新才行。树立“挖掘市场盲点”的目标容易,但这个目标并不能真正地为你谋划如何找到市场盲点,也无法确定这些盲点是代表希望的曙光还是错误的导向。拥有别人想不到的想法很难,拥有好的想法更难——即便有了好的想法,也很快会被人复制。

正因为如此,本书避免推崇速效方案,这些方案通常会让你以为,只要稍稍改变经营方式即可提高竞争力。优秀的创新者通常既从大局出发,又考虑细节。有时你可以从一个问题的最微小的细节中发现新的想法,但别人却不愿意这样做。当你进行最抽象的哲理思考时,会琢磨世界为什么是这个样子,想知道是否还会有另外一种主流范例可供选择,此时也可能有新的想法迸发出来。但大多数时候,我们都生活在宏观与细节中间的“舒服地带”,这种状态下很少能萌发出新的想法。在常态生活中,我们所作的分类和估值通常能行得通,但有时还是会漏掉那些有助于提高竞争力的信息。

要在正确的地方寻找信息和想法,关键在于要开发一些手段、培养一些习惯,这样才能在准确的地方发现更多的想法和信息。一旦发现了一些必需的技能,就要把它们变成能分输赢的技能。

这并非易事。但是,棒球会为创新者提供一个特殊的验证平台。10年前PECOTA系统首次亮相后,就几乎再也没有突破性的预测系统问世了,但一定会有人巧妙地利用Pitch f/x的图像数据,或是想出将球员表现的定性数据和定量数据相结合的方法。很快这些假设都会实现,或许本书付印时就会实现。“如今,进入棒球领域、创造领域及智力领域的人都十分优秀,10年后如果我再去应聘球探这份工作,也许连面试的机会都没有。”比恩自嘲道。《点球成金》已经落幕。《点球成金》的影响极为深远。

第四章 天气预测:蝴蝶扇动翅膀,有可能引起龙卷风

2005年8月23日,星期二,一架空军侦察机在巴哈马群岛上空飞行时,捕捉到一些干扰气流,几个旋涡正呈顺时针方向形成一股旋风,并由东向西移动,从大西洋逐渐向美国推进。从云层或卫星数据中很难检测到中断的风力模式,但海面上的货船已经有所察觉。美国国家飓风中心认为,足以把此次干扰气流描述为热带气旋,并将其标记为第12号热带低气压。在大西洋流域的所有热带气压中,有一半最终会演变为飓风。这次风暴很诡异,可能会加剧,也可能会消失。

这次的热带气压很快就加强了,截至星期三下午,美国国家飓风中心的计算机模拟机已经预测到有十几场飓风会在美国登陆,第一场将覆盖佛罗里达州南部,第二场可能会将气旋“带到”新奥尔良。风暴的威力已经足以升级为飓风,人们将它命名为“卡特里娜”飓风。

卡特里娜飓风第一次登陆时,持续的时间不长,它只是从迈阿密北部经过,几个小时后,又掠过佛罗里达大沼泽地,当时只算得上是1级飓风,不足以对太多人畜造成威胁。如果说那时卡特里娜飓风还没有从风暴中汲取太多力量,那么当卡特里娜飓风到达墨西哥湾的温暖水域时,就开始积攒力量了。星期六清晨,情况开始变得严重:卡特里娜飓风风力已达到3级,并且正在增强至5级。预测跟踪显示,它正从佛罗里达的狭长地带逐渐向西移至密西西比和路易斯安那。计算机模拟机已得出一致结论:新奥尔良必将遭到此次风暴的袭击。

我请美国国家飓风中心主管马克斯·梅菲尔德回忆一下他从什么时候开始意识到这次风暴的严重性。马克斯·梅菲尔德说:“在卡特里娜飓风来袭后,我已经参加过5次国会听证会了。当时有人问我是从什么时候开始关注新奥尔良的,我告诉他是60年前。”

新奥尔良遭到严重飓风的正面袭击对于每个气象预测者来说,在很长一段时间内都是一个噩梦。这个城市的各方面情况都适合自我破坏甚至灭亡。这一方面与那里的地形有关:新奥尔良几乎是陷在墨西哥湾中,很大一部分人口生活在海平面以下,他们的保护措施只有过时的堤坝和一些几乎已经被冲进大海的天然栅栏。另一方面与当地的风俗有关:新奥尔良人在许多方面做得相当好,唯有两件事他们不屑去做,那就是他们不愿迅速行事,也不信任权威,这就是新奥尔良人。如果他们不这样的话,那新奥尔良也称不上是新奥尔良了。这座城市本可以更好地应对卡特里娜飓风,因为这两方面的事正是飓风来袭时最应该做的事。

美国国家飓风中心对卡特里娜飓风的预测是准确的,在堤坝被冲毁前5天就预测到这次袭击有可能会出现,在飓风登陆前48个小时就看出这次噩梦的一些端倪。20~30年前,根本不会有这种先进的预警,人们也无法及时撤离。在过去几十年中,美国国家飓风中心的预测和气象预报不断地取得进步,毫无疑问,这种进步挽救了许多人的生命。

然而,并不是每个人都收听气象预报。约有80 000名(几乎占据当时该市总人口的1/5)新奥尔良人没有来得及撤离,其中1 600人失去了生命。对幸存者的调查显示,2/3的人没想到这次风暴会那么严重,其他人则说当时已经被混乱的撤离秩序搞晕了。尽管梅菲尔德和其他政府官员苦苦哀求,市长雷·纳金还是等了24个小时才下令强制撤离。还有一些居民,如穷人、老人或是看不到新闻的人,即使曾经想过撤离,最终也没能逃过这一劫。

本书中成功预测的故事之一就是气象预报,人与机器通力合作,使得我们能够了解,有时还能预测到大自然错综复杂的奥秘。然而,能够预测自然规律并不意味着我们可以改变它。如果没有人愿意相信预测,那预测也就没有什么意义了。卡特里娜飓风就是有关人类才智与失误的故事。

我们真能准确地预测天气吗?

科罗拉多州博尔德市的美国国家大气研究中心(NCAR)有几个超级计算机实验室,它们会自己制造天气:有时炎热,由国际商业机器公司(IBM)公司蓝火超级计算机每秒进行的77万亿次运算会产生大量的辐射能;有时多风,所有的热量都需要被冷却,以免预测天气的能力突然丧失,所以,会有几个高压风扇一直向计算机供氧;有时还很聒噪,风扇的噪声很大,而这些运行的声音正是衡量这些装备是否安全的标准。

蓝火超级计算机由11个小匣子组成,每个小匣子大概2.4米高、0.6米宽。在匣子的边缘,有一条亮绿色的赛车条纹。在匣子的后端,和你想象中的一样,大量缆线交错,连接着机器的主干,蓝色的指示灯一闪一闪。从匣子的前面看,它们的形状大小与便携式马桶差不多,只不过多了一个带有银色把手的门。

理查德·罗夫特博士是美国国家大气研究中心技术发展部门的主管,他负责监督超级计算机实验室的运行。我与罗夫特博士聊天时说:“这些计算机看着有点儿像马桶。”

气象领域的人已经习惯了这些玩笑。出演《抑制热情》的拉里·戴维就指出,气象专家有时在没有雨的天气也会预测有雨,好像只有这样做才可以在高尔夫球场上领先别人一样。政治广告常以天气打比喻,象征对手在某些问题上总是出尔反尔,以此攻击对手。大部分人认为,气象预报员其实并不怎么擅长预测工作。

事实上,看看那些正在运行中的计算机,想想所有这些操作是不是压根儿没用:计算机就能预测天气?还是它们仍然无法告诉我们明天会不会下雨?

罗夫特看上去并不满意预测现状。改良的计算机运算能力并没有明显提高对地震和经济形势的预测准确率。但是,气象学领域已经取得了许多显著的进步,罗夫特的超级计算机就是功臣之一。

气象预报简史

回到办公室之后,罗夫特对我说:“请允许我偏离正常的飞行计划。”罗夫特很幽默,想法古怪离奇,很像电视剧《办公室》里面的德怀特·斯格鲁特,只不过他更有自知之明。罗夫特说,有史以来,人们一直在试图预测自己周边的环境。“早在查科峡谷或是巨石阵形成的那个时期,人们就已经认识到自己可以预测一年当中时间最长和最短的一天,可以预测月亮的运动轨迹。但仍有一些事情古人无法预知,如来自某种动物的伏击或洪水和雷阵雨的突然袭击。”

现在,提前几天预测到飓风是很平常的事,但是气象学发展成为科学的过程并非一帆风顺。几个世纪以来,气象学发展都处于停滞状态。被称为“天文学家”的巴比伦人做出的气象预报,被刻在石碑上保留了6 000多年。然而,最终他们还是归顺了宁吉尔苏。亚里士多德写过一篇关于气象学的论文,提出了一些可靠的直觉感知,但不过是浅尝辄止。而仅在过去的50年前后,随着计算机的发展,气象学才取得了一些真正的进步。

你可能认为气象预报运用不到玄学知识,但是预测天气这一思想却引起了关于预定论和自由意愿的长期争论。罗夫特问我,“是万物天注定呢,还是万物人注定呢?这是人类最基本的问题,而且这两种思潮确实存在。”

罗夫特继续说道,预定论来自圣·奥古斯丁和加尔文主义,基于他们的哲学理论,人们也许有能力预知未来,但却无法改变未来,所有事都要顺应上帝的旨意。“这与耶稣和托马斯·阿奎奈信仰的自由意愿相悖。这是一个有关世界可预知与不可预知的问题。”

在启蒙时代和工业革命时期,关于不同事物可预知性的争论就已经开始了。艾萨克·牛顿的经典力学理论似乎证明了宇宙的高度有序性和可预知性,并且遵守相对简单的物理定律。几个世纪以前,科学进步、技术进步和经济进步就像是天方夜谭,而随着“人定胜天”思想的兴起,这些进步意识开始出现了。预定论也成了一个新思想的一部分,这个新思想就是科学决定论。

科学决定论表现为多种形式,但仍无法与法国天文学家、数学家拉普拉斯的观点相提并论。1814年,拉普拉斯做出以下假设,后来这些假设被称作拉普斯的恶魔:我们可以把宇宙的现状看作其过去已经发生的事情和未来可能发生的事情共同影响的结果。假设我们具备一种理解能力,能在某一个特定时刻认识到使大自然运动的所有力量,能够知晓构成大自然的所有事物的位置。若这种理解能力足够强大,可以对所有这些数据进行分析,就必然能够用一种最简单的公式或准则涵盖这个宇宙中最大的星体和最微小原子的所有运动。有了这种理解能力,就没有什么是不能确定的,未来和过去都能尽收眼底。

若对现在的情况(构成大自然的所有事物的位置)有充分的了解,对统治宇宙的定律(使大自然运动的所有力量)了如指掌,我们就应该能够做出完美的预测(未来就会像过去一样呈现在我们眼前)。宇宙中所有粒子的运动跟台球桌上那些球的运动一样,是可以预测的。拉普拉斯坦言,人类可能还不具备这样的预测能力。但是,如果人类足够聪明(或是有一台高速计算机),还是可以对天气或其他所有事物进行预测的,这样我们就会发现,大自然本身是多么完美。

拉普拉斯的恶魔存在的200年里,对它一直争议不断。与决定论者争论的是或然论者。或然论者认为,宇宙可知性成立的条件是,承认一定程度的不确定性的存在。最初的或然论几乎都是认识论范式,认识论断言,人类认识宇宙的能力有限。近期,随着量子力学的发现,科学家和哲学家开始怀疑宇宙自身的运行是否也存在概率。当你仔细观察时会发现,拉普拉斯试图识别的粒子呈波状运动,似乎没有固定的位置。如果一开始就无从得知某物在哪里,你又何以预测它将去向何处呢?显然做不到。这是理论物理学家沃纳·海森堡提出的著名的“测不准原理”(又称“不确定性原理”)的基础。物理学家以各种方式来解释“测不准原理”,但这一原理表明,照字面意思来看,拉普拉斯的假设就不可能正确。如果宇宙本身是杂乱无章的,那么根本就不可能存在完美的预测。

幸亏在研究天气方面用不到量子力学,而只涉及分子(而不是原子)层面,分子体积相对较大,不会受到量子的影响。此外,很长一段时间以来,我们对基于化学和牛顿物理学的天气研究一直都非常熟悉。

那么,将拉普拉斯的恶魔修正一下会怎样呢?如果我们知道地球大气层内每一个分子的位置——比起了解宇宙中每一个原子位置的要求,这个要求低得多——我们能否做出完美的气象预报呢?或者说,天气本身也存在一定程度的不可测性吗?

用矩阵来预测天气

对天气状况进行单纯的统计预测,早已成为可能。假设今天下雨,那么明天也下雨的可能性有多大呢?气象学家可以查看数据库里有关过去下雨的实例,或者查看较长时期内下雨的概率的平均值,如3月份的伦敦基本有十一二天都在下雨,进而得出答案。

问题是,这类预测的用处并不是很大,因为它们不够精确,无法告诉你是否需要带伞,更不用说预测飓风的路径了。所以,气象学家一直在寻找其他形式的预测。气象学家需要的是栩栩如生的预测模型,能够逼真地模仿自然界天气变化的过程,而这些是统计预测做不到的。

然而长期以来,我们预测天气的能力远远落后于对天气的理论研究。我们知道如何解方程式,并且能得出正确的结果,但是我们却无法使用方程式计算大气层里的每一个分子,我们能够做到的,只是给出近似值。

将问题简单化往往是最直接的方法,把大气层分解为一系列有限的象素,气象学家通常把这些象素称为矩阵:菱形格或方形格。罗夫特说,成果丰硕的英国物理学家刘易斯·弗莱·理查德森在1916年第一个做出这样的尝试。理查德森试图预测某一个特定时间——1910年5月20日下午1点——德国北部的天气状况。严格地说,这算不上是预测,因为理查德森选择的是6年前的时点,但是,理查德森准备了很多数据:由政府收集的关于温度、气压和风速的一系列观察报告。他还有大量的时间:当时,他正在法国北部当救护志愿者,远离战火纷飞的前线。他把德国分成若干个二维分区,每个分区跨越3个纬度(约338公里)和3个经度。之后,他试着解出控制每一分区天气的化学方程式,并算出它们会对相邻地区的天气产生什么样的影响。图4–1 理查德森矩阵:现代气象预报的诞生

可惜,理查德森的实验并未成功,他预测当天气压会急剧升高,可实际上并没有。尽管如此,理查德森还是公布了这次实验的结果。这似乎是预测天气的正确方法:不依靠粗略统计出来的近似值,而是从第一手资料入手,利用对系统运行的透彻的理论认识进行预测。

理查德森采取的预测方法的问题在于,他需要太多的准备工作。计算机更适合他所建立的这一模型的要求。

首次使用计算机预测天气是在1950年,数学家约翰·冯·诺依曼使用一台每秒可以进行5 000次运算的机器,速度远远快于在法国干草堆里用笔和纸做计算的理查德森。但是,这次预测的结果并不好,还不如随意猜测得出的结果。

到了20世纪60年代中期,计算机才开始展示出预测天气的技能。蓝火是比第一台计算机的计算速度快150亿倍,比理查德森几乎快1 000万亿倍的超级计算机,超快的计算速度使蓝火看上去更为敏锐。现在的气象预报比15~20年前的准确多了,但是,相对于不断提高的运算能力,气象预报准确性的提升就显得有些缓慢了。

之所以进步缓慢,主要有两个原因。其中之一是,这个世界不是一维或二维的。提高气象预报的准确性,最可靠的方法就是,减小用来代指大气层的网格区域,逐一分析每一个分子的运动。理查德森的单位研究区域大约是40 000(200英里× 200英里)平方英里(约合10 360平方公里),只能提供一个高度概括的视界(你几乎可以把天气状况完全不同的纽约和波士顿都塞进这个40 000平方英里的区域里)。如果把这个单位研究区域的边长减半,也就是让分辨率变为100英里×100英里,那么预测的精确度就会提高,但同时方程式也会增多。实际上,方程式的数量不是增加一倍,而是增加3倍。这就意味着,你需要大约4倍的计算能力,才能得到答案。如下图所示。

不只需要考虑二维空间,二维以上的空间也需要投入更多精力。不同的气候模型可以停留在较高或较低的大气层中,也可以停留在海洋里或地球表面。在三维空间里,如果单位研究区域的数量增至两倍,方程式就需要增至8倍。如下图所示。

接着还有第四维:时间。气象模型如果是静态的,可不见得就是好事,因为我们想要了解的恰恰是天气的动态变化过程。暴风雨的移动速度约为每小时64公里:如果是在一个40×40×40的三维网格中,就需要每小时观测一次,进而监控暴风雨的移动;但是,如果三维网格是20×20×20,那么暴风雨每半个小时就会穿过其中的一个区域。这就意味着,如果时间参数减半,计算量就会增加到原先的16倍。如下图所示。

如果这是唯一的问题,它不会成为气象预报准确性提升的障碍。一般来说,若想要让单位研究区域的分辨率翻倍,那么你需要掌握16倍于原先的运算能力,而运算能力会以每两年增加一倍的速度不断提高。也就是说,只需等待8年,得到的预测就会比原先准确一倍。顺便提一下,美国国家大气研究中心的超级计算机已经达到这个运算速度了。

如果你解决了控制天气系统运动的流体动力学法则问题,会怎样呢?相对来说,这些属于牛顿学说的范畴。“测不准原理”对物理学家而言乐趣无穷,对你而言也算不上什么烦恼。你拥有蓝火这样最先进的设备,雇用了理查德·罗夫特为你设计计算机软件并进行模拟实验,还会有什么问题吗?

混沌理论与蝴蝶效应

出问题的是什么呢?是混沌理论。你可能听说过蝴蝶效应:巴西的蝴蝶扇扇翅膀,就掀起了得克萨斯州的龙卷风。混沌理论是麻省理工学院的爱德华·洛伦兹在1972年发表的一篇论文的题目,当时,洛伦兹刚刚开始做气象师的工作。适用混沌理论的系统,常有以下两个特性:1. 该系统是动态的,这就意味着当前某一个时间点发生的动作会影响未来的动作。2. 该系统是非线性的,这就意味着其会呈指数型增长而非加法累积。

动态系统给预测者们带来了大量问题,例如,我在本书后文中会提到一件事,美国经济持续发展的连锁反应事件,正是其难以预测的原因之一。非线性系统也是一样,抵押证券引起的金融危机就是这样一个例证,宏观经济中的微小变化极有可能导致严重的后果。

如果把这些特性放在一起,简直就是一团糟。洛伦兹一直没有意识到这些问题的严重性,他的重大发现只是出于偶然,就好像亚历山大·弗莱明意外发现了青霉素、纽约尼克队出现了林书豪一样。

洛伦兹和他的团队早期用一台名叫皇家麦克比LGP–30的计算机制作了一套气象预报程序,他们本以为会有所收获,可计算机后来却给出了很多稀奇古怪的结果。他们使用自认为完全相同的数据和完全相同的操作代码,但这套程序给出的堪萨斯州的气象预报却一会儿晴一会儿阴,每测一次出现一个结果。

经过几周反复的硬件检查和程序调试,洛伦兹和他的团队最终发现,他们使用的数据实际上并不完全相同:一位技术员把数据精确到了小数点后三位。比如,网格中某一角上的气压本该是29.516 8,却被写成了29.517。这怎么可能不造成巨大的差别呢?

洛伦兹认识到小数点后的数字保留情况会造成巨大的差距。混沌理论最基本的信条是,初始条件的一丁点儿变化,比如巴西的蝴蝶扇动翅膀就会产生巨大的、无法预料的各种结果,会引发得克萨斯州的龙卷风。但这并不是说这一系统就像它的名字“混沌”的含义那样随机,“混沌理论”也不是“墨菲定律”(该出的错总要出)的现代版本,它只是意味着,某些类型的系统很难预测。

我们的数据中一旦出现错误(或者假设中出现错误,如抵押贷款证券的例子),问题就会随之而来。想象一下,我们本该计算5加5,可是键入第二个数字时出错了,变成了5加6,我们本来想得出的结果是10,现在结果却成了11,这必然会出错,但错得还不算离谱:加法是线性运算,不会出现让人无法原谅的错误。而如果指数运算出现错误,后果就会非常严重。如果本该计算55,却误写成56,那得到的结果就从原来的3 215变成了15 625,这样就错得太离谱了,几乎是正确答案的5倍。

如果这个计算过程是动态的,就意味着我们在整个过程中的某一个阶段的输出会成为下一个阶段的输入,结果的不准确性就会更加严重。比如说我们要算5的5次方,然后对得到的结果再进行5次方运算。如果犯了上述错误,把第一个5次方错写成6次方,又把错误结果应用到后面的计算,这样一来,得出的结果就会是应得结果的3 000多倍。一个小小的,甚至看似微小的错误,就这样越错越离谱了。

天气变化是动态系统的一个缩影,反映大气层里气体和液体运动的不同方程式是非线性的。因此,混沌理论绝对适用于气象预报,但也使气象预报更容易受信息不准确性的影响。

有时,错误的产生是人为的结果。更为重要的问题是,在我们观察周围事物时,精确程度是有限的。没有哪个温度计是准确无误的,就连小数点后保留位数的不确定都会对预测造成严重的影响。

图4–2展示的是欧洲天气模型的50轮预测结果,该模型试图预测法国和德国在1999年平安夜的天气状况。所有这些模拟操作使用的都是同一款软件,做出的天气假设也是相同的。实际上,这些模型完全是决定论的:他们认为,只要非常清楚初始条件,就一定能非常准确地预测出天气状况。但是,输入信息的一丁点儿变化就会造成输出信息的巨大差异。欧洲天气预测模型曾经试图解释这些错误。在模拟操作中,汉诺威市的气压也许只作了微调,斯图加特市的风力也许只变更了零点几,这些微小的变化都足以引发巴黎的强风暴,而其他地区可能仍是平静的冬夜。

这就是现代气象预报的制作过程,人们有意加入这些微小的变化以代表观测数据内在的不确定性,这样就可以将一个必然性的预报变成了或然性的。比如,当地气象预报员说,明天有40%的概率会下雨,意思是说,在他的模拟操作中,有40%的概率会下雨,有60%的概率不会下雨。

然而,问题并没有那么简单。气象学家使用的气象预报程序相当不错,但也并非尽善尽美。我们实际看到的预测反映的是计算机和人工判断相结合的结果。人类可以使计算机预测得更好,也可以使计算机预测得更糟。

视觉化预测与抽象化预测

世界天气和气候预测大楼是典型的20世纪70年代建造的办公楼,造型很一般,外观是黄褐色的,位于马里兰州的坎普泉,距离华盛顿有20分钟路程。这座大楼是美国国家海洋和大气管理局(NOAA)的指挥总部,在政府组织关系表中,NOAA是国家气象局(NWS)的上级单位。相比之下,位于博尔德的国家大气研究中心(NCAR)则可以使人们饱览落基山弗兰特岭地区的景观,而世界天气和气候预测大楼给人的印象不过是一个官僚机构。

美国国家气象局最初是在1870年由格兰特总统授权,由战备部组建的。之所以由战备部组建,一部分原因是因为格兰特总统相信,只有保持军事纪律的作风,才能保证预测的精准,而另一部分原因是,当时的整个战备部都死气沉沉的,只有在竭力取胜的战争时期才有存在的价值。图4–2 初始条件稍作变动后的气象预报多样性

1888年1月发生“校舍暴风雪”事件之后,公众开始更多地关注气象预报问题。那年1月12日,起初还算是大平原地区相对温暖的气温,可几个小时之后,气温骤降30摄氏度,紧接着,让人眼晕的暴风雪骤起。数以百计的学生刚刚放学就被暴风雪困住,冻死在回家的路上。早期的气象预报如此粗糙,但对于这种严酷的天气情况,人们还是期望气象预报至少能提供一些预警。于是,美国国家气象局被划归农业部管辖,接手一些面向大众的任务。

现在的美国国家气象局仍保留着最初的职能,预测者夜以继日地工作,薪水却不高,因此预测者自称“人民公仆”。我在坎普泉见到的气象学家都是爱国主义者,他们总会让我由衷地认为,农业、小商业、航空公司、能源部门、军事、公共服务、高尔夫球场、郊游野餐以至上学的小学生之所以能够一直保持这样生龙活虎的运行状态,气象预报起到了重要作用,预测者更是劳苦功高(尽管美国国家气象局对国民经济会产生20%的直接影响,但每年得到的经费却只有9亿美元,相当于每个美国市民付出3美元)。

我见过的气象学家中,有一位名叫吉姆·呼克,是美国国家气象局水文气象预报中心的主管。他在这一领域工作了35年,既负责计算方面的工作(协助建立预测者使用的计算机模型),也负责操作方面的工作(做出预测并把预测结果公之于众)。对于人类和机器如何探索气象领域,他有着独特的见解。

与能够进行每秒77兆次浮点运算的计算机相比,人类究竟哪点做得好呢?答案是,人类能够看得见。呼克让我站上预测台,预测台是由一系列工作站组成的,工作站上悬挂着许多蓝色标牌,上面配有海事预报中心和国家中心等机构的传奇故事。每个工作站由一两名气象员进行操作,配有一套平板屏幕显示器,显示器上的彩色地图展示了美国每个角落的各种天气数据类型。预测者工作的时候,悄然无声却又动作迅捷,有一种类似格兰特军队的精确作战风范。

有些预测者用光笔在这些地图上做标记,仔细地校准计算机模型给出的温度梯度的轮廓,向西跨越密西西比三角洲约24公里,向北覆盖伊利运河约48公里,离他们期望中的那份近乎完美的气象图更近了一步。

预测者知道计算机模型的纰漏。这些纰漏不可避免,因为这是混沌理论影响的结果。即使是模型中最微小的漏洞,也可能造成潜在的深远影响。比如,当普吉特海湾出现低压系统时,计算机对西雅图夜间大雨的预测也许会过于保守;当缅因州的阿卡迪亚国家公园出现大雾时,如果大风朝着某一个方向吹,黎明时大雾就会散去,可是如果风来自另外一个方向,那么雾需要一个上午才能消散,计算机也许预测不到这一点。这些经验都是预测者在试图对付计算机模型中的纰漏的过程中逐渐积累起来的,这就好比技艺高超的台球选手能把台球桌上死角位置的球,调整到顺应自己球杆的位置。

这些气象预报员运用的独特资源,就是他们的视觉。对所有学科的预测人员而言,视觉都是十分有用的工具。对显示两个变量互相作用的图表进行目视检查,通常能比统计测试更快捷、可靠地检测出数据中的异常值。这也是计算机远远落后于人脑的地方之一。若对一串字母稍加变形——就像用于垃圾邮件拦截或是密码保护的验证码技术一样——“聪明透顶”的计算机也会被迷惑。计算机缺乏想象力,哪怕对操作稍作变动,它就无法识别图案,而人类经过必要的进化,拥有十分强大的视觉皮质,能够快速识别任何数据变化,辨认出抽象的图案或组织。在不同类型的天气系统中,抽象的特质恰恰非常重要。图4–3 验证码

其实,在气象计算机作用不大的过去,气象预报几乎完全依靠视觉判断。那时候没有平板屏幕,气象办公室里有的只是一排排的看板台和照明地图,气象员用白垩笔和绘图铅笔在上面做记号,一次只能预测出方圆24公里的天气情况。尽管看板台在许多年前就被淘汰了,可这项技术所需要的一丝不苟的精神却一直延续至今。

呼克解释道,最好的预测者在进行视觉化和抽象化思考的同时,还要能够整理计算机提供的大量信息。另外,对于所研究的系统,他们还必须理解其动态和非线性的属性,这并非易事,需要充分调动左右脑的功能。呼克手下的许多预测者本来都能加入高级工程师或软件设计师这类高收入群体,可他们却选择了从事气象工作。

美国国家气象局保存着两类图书:一类展示了计算机的风采,另一类展示了人类的贡献。根据该机构的数据来看,在单独由计算机指导完成对降雨和温度的预测后,人类还能将其精确度分别提高约25%和10%。另外,据呼克说,多年来这些数据一直保持着平稳态势:尽管计算机技术取得了长足进步,但他手下的那些预测者仍不断为其添彩,视觉判断功不可没。

被雷电击中的概率越来越小了

20世纪70年代中期,呼克开始了从事气象预报工作的职业生涯,那时关于气象预报的玩笑话其实还是有些道理的。比如,一般来说,国家气象局在3天前做出的气象预报,难免会将高温报高或报低6摄氏度(见图4–4)。如果我们自己去查长期的天气变化表,得出的结论也差不多是这样。好在人机合作带来了很多好处,现在的平均误差是3.5摄氏度,降低了将近一半。

气象预报员对恶劣天气的预测也越来越准确了。你知道遭雷击致死的概率是多少吗?实际上,这并不是一个常数,是否在雷雨天气出门,或是在气象预报不准时能否及时避雨,这些都会影响遭雷击的概率。1940年,美国人遭雷击死亡的概率是1/400 000,今天,这一概率只有1/11 000 000,概率下降了近3000%。这一变化一方面反映出我们生活方式的改变(我们的室内工作越来越多)以及通信技术、医疗保健水平的改善,另一方面也得益于越来越准确的气象预报。图4–4 国家气象局的高温误差平均值

给人印象最深刻的进步大概就是飓风预测了。25年前,美国国家飓风中心提前3天预测飓风登陆的位置时,平均误差将近563公里,对于人类来说,这种预测毫无意义。比如,以新奥尔良为圆心以563公里为半径向外扩散,涉及的地区包括休斯敦、得克萨斯、塔拉哈西和佛罗里达(见图4–5),而我们根本无法疏散这么大区域的居民。图4–5 改进后的飓风轨迹预测图

现在的平均误差只有约161公里,覆盖的区域只有路易斯安那东南部和密西西比南部的一小片地区。虽然飓风仍会在某一个时间到达这一区域以外的地区,但我们现在关注的区域相对较小,预测的效果也能相对好些,足以提前72个小时疏散那里的居民。1985年,对飓风登陆时间的预测只能提前24个小时,与之相比,现在在风暴来袭之前,我们有近48个小时的预警时间,对于新奥尔良这样的城市,[1]疏散工作到后期,时间就越显得宝贵。

美国国家气象局没有否定拉普拉斯的恶魔,你可能会认为他们应该得到的赞誉比实际得到的要多。尽管复杂多变的天气系统对预测构成了巨大挑战,但气象预报科学仍然大有斩获。读完本书你会发现,在进行预测时,这样的成功案例更多的是例外,而非规律。(还是把你的玩笑话留给那些经济学家吧。)

事实上,美国国家气象局的工作通常得不到人们的认可,面临着来自私有行业的严峻竞争,这种竞争是在不公平的运动场中进行的。美国国家气象局的模型数据免费提供给所有需要它的人,而不是采取世界上其他地区的大多数相应机构的做法(其他大部分国家的气象局会收取预测许可费和使用费)。这样一来,像美国AccuWeather气象预测公司和气象频道(TWC)这样的私有公司才能够顺带发展并销售自己的产品。大量的受众会从这些私有公司中的某一家获取预测信息,气象频道网站Weather.com的浏览量比政府气象预测网站Weather.gov的浏览量多出近10倍。

我通常很赞同自由市场的竞争,或是国有企业和私有企业之间的竞争。棒球运动迅猛发展,得益于棒球预测更好地结合了球探和数据怪才在预测潜力球员发展前景时的见解,这都是竞争带来的结果。

然而,在棒球运动预测领域中,衡量竞争力的标准十分明确:你赢了几场比赛?在气象预报过程中,问题则有些复杂,国有和私有预测部门各自会有不同的衡量标准。注释[1]不幸的是,尽管预测人员对飓风登陆地点的预测已经算是准确了,但他们对其着陆时强度的预测并不是很准确。究其原因,是因为控制风暴强度的风力远小于决定其路线的风力,这就意味着他们需要更出色的点阵,这一点即使蓝火计算机也无法做到。

什么样的预测才算是好预测?

美国气象频道最重要的科学家兼副总裁布鲁斯·罗斯博士为人谦和,他告诉我:“没有人碰到过专业的研究专家看气象频道,但其实他们中有很多人都是偷偷看的。”罗斯并不认同气象频道的预测比政府部门发布的预测更精确,他只是说,二者的预测存在差异,是为各自的特定受众群提供的。

罗斯还说道:“通常人们不会根据这些模型对实际天气的预测质量衡量气象预测结果。真正重要的是,纽约市的天气是25毫米的降雨,而不是254毫米的降雪。因为对于普通受众来说,这有巨大的差别,而科学家们对此却不以为然。”

的确,罗斯大部分的时间都致力于研究受众如何理解自己的预测这类问题,这些问题高度实用,甚至还有些陈腐。比如,如何将第一手的天气数据转化为日常用语:严寒到底有多冷?当天下暴雨的概率有多大?少云和多云之间的界限该如何划定?这是气象频道需要解决的问题,因为该频道发布过太多预测,决意在措辞上有些变通,所以现在应该建立一些解决问题的正式规则。

有时,让预测适应受众的需要,这种做法显得滑稽可笑。多年来,气象频道一直用绿色阴影在雷达地图上标注降雨(偶尔也会用表示大暴雨的黄色和红色标记)。2001年,销售部的一个员工想到一个新点子:用蓝色代替绿色标注降雨,毕竟这才是人们眼中水的颜色。结果,气象频道马上被气愤的——偶尔也有惊慌的——受众来电围攻,人们误以为蓝色的标注代表的是至今未知的降雨(血浆暴雨或是放射性尘埃)。罗斯博士对我说:“人们的反应就像核爆炸!有人还写信来说道,‘这么多年你一直告诉我们雨的标识是绿色的,现在怎么又变成蓝色的了?你们疯了吗?’”

但是,气象频道在气象学方面的态度也很认真。至少在理论上,我们有理由相信它们能够做出优于政府部门的预测,毕竟气象频道能够以政府部门所有的原始数据作为起点,并把它们能够贡献的价值毫无保留地投入进去。

可问题是,什么才是“更好的”预测呢?我简单地将其定义为更准确的预测,但也有一些不同的声音,这些观点也都十分中肯。

1993年,俄勒冈州立大学的气象学家艾伦·墨菲发表了一篇颇具影响力的文章,他在文中提出假设,在气象预报群体中,有3种常见的关于预测质量的定义。墨菲并没有特意指出哪一种定义更好,只是试图促使众人对这几种定义进行更为开放、更为坦诚的交流。这些定义的不同版本几乎可以在任何可预测或可预言的领域中应用。

墨菲提出,衡量预测的一种途径——或许也是最显而易见的途径——就是通过他所说的“质量”,但何种质量才可被认定为准确呢?“质量”是指预测与实际天气相符吗?

第二种途径就是墨菲所称的“一致性”,但我以为应该是“诚实性”。不论预测得多么准确,这个预测是预测者当时的巅峰之作吗?这个预测是否反映了预测者的最佳判断呢?公之于众之前,这个预测是否作了某种程度的修饰呢?

墨菲最后写道,预测是有经济价值的,判断的依据就是,预测是否有助于公众或政治决策者做出更好的决定。

墨菲对准确和诚实所做的区分很细微,也相当重要。当我做出错误的预测时,我总会问自己,鉴于我所了解到的情况,这是不是我本该做出的最好预测呢?有时,我给出的答案是肯定的,因为我的思考过程是合理的,我已经进行了研究,建立了良好的模型,仔细考量了其中的不确定性。当然,有时我也会发现所进行的预测里有自己不喜欢的地方。或许我过于匆忙地搁置了一个关键证据,或许我高估了问题的可预测性,或许我在某些地方有所偏倚,或许根本就是动机不纯。

我并不是建议你每次预测错误时都要狠狠地责备自己,相反的,当你发现事情超出自己的瞬时掌控时,依旧能保持平和的心态,这才是做出正确预测的前提。但仍要留出空间问问自己,当时作决定时,自己的大脑里到底在想什么。

长远来看,当我们动机正确时,墨菲提出的准确性和诚实性就会汇于一点。但有时我们却做不到动机正确,比如,“麦克劳夫伦讨论小组”就肯定通不过墨菲的“诚实性预测”测试,他们似乎更关注自己在电视上表现得是否聪明,而不关注是否做出了准确的预测。他们本可以表现得很理性,但如果想要引起带有政党倾向的观众的注意,或是想要再次获邀参加节目,他们就会蓄意做出错误的预测。

墨菲的第三个途径是,预测的经济价值会使问题更加复杂化。比如,有人很同情罗斯博士的处境。如果预测一个城市的气温接近冰点,其降水形式可能是雨、冰雹或是雪,这真的值得大家给予更多关注,因为这几种情况都会对早上出行和居民安全造成不同的影响。然而,这更应该是气象频道集中资源、下大力气处理的问题。没有必要怀疑预测的准确性和诚实性。新闻报道力求保证其文章内容的准确性和诚实性,但它们仍然需要决定哪些文章可以放在头版头条。气象频道也要做出类似决定,经济因素是促使其这么做的合理理由。

然而,有时候,对于准确性、诚实性和经济价值的追求也会陷入更加激烈的斗争,而此时商业成功的重要性就要超过准确性了。

商业竞争如何使预测变得更糟糕?

任何气象预测都必须通过两项基本测试,以表明其优势所在:1. 它们必须做到气象学家所说的持续性,甚至做得更好。所谓持续性,是指假定明天(或者第二天)的天气同今天一样。2. 它们还要突破气候学规律。气候学规律是指长期以来特定区域、特定日期历史平均状况的综合。

早在理查德森、洛伦兹和蓝火计算机出现以前,我们的祖先就已经在使用这些方法了,如果我们无法改进这些方法,那么再昂贵的计算机也做不出出色的预测。

我们拥有大量有关过去气象预报结果的数据,至少可以追溯到第二次世界大战时期。比如,我可以登录气象网站Wunderground.com,查询到1978年1月13日(我的出生日期)早晨7点,密歇根首府兰辛的天气状况:气温约8摄氏度,小雪,东北风。但是,几乎没有人会劳神费心地收集过去的气象预报。有人料到那天早上兰辛会下雪吗?你可能会到互联网上查找这样的信息,但却查不到。

2002年,一位名叫艾瑞克·弗娄尔的企业家改变了这种状况,他是俄亥俄州立大学计算机科学专业的毕业生,当时效力于美国第二大长途电话运营商美国世界通信公司(MCI)。最初只是为了比较政府预测模型和私有公司预测模型哪个更准确,他才开始收集国家气象局、气象频道和AccuWeather公司发布的有关气象预报的数据。起初,这个大规模的科学实验的项目多半是为了满足弗娄尔的个人求知欲,可随后迅速发展为有利可图的商机。人们创建了ForecastWatch.com网站,在很大程度上按照客户的要求对数据进行重新包装,其客户群的涵盖面很广,从能源商人(对这些人来说,气温发生的细微变化能转变为数万美元)到学者不一而足。

弗娄尔发现,没有一家气象预测机构是明显完胜的赢家。他收集的数据表明,AccuWeather网站在降雨量预测方面的误差最小,气象频道在温度预测方面略胜一筹,而政府预测在各个方面都稳定出众,总之,它们做得都非常好。

但是,这些模型的预测时间跨度越长,其预测准确性就越低(见图4–6)。比如,提前8天的预测几乎没有任何技术含量,这种预测打破了稳定性,但并没有突破气候学规律。如果是提前9天或更多时间进行预测,那么这些专业的预测得出的结果就会比按照气候学规律推测的结果还要糟糕。

罗夫特告诉我,混沌理论是大势所趋,大气的动态内存会自我清除。尽管下面这个类比有些不准确,但对于理解这一原理还是有所帮助的。人们把大气想象成纳斯卡赛车的椭圆车道,围绕轨道行驶的不同车辆就代表不同的天气系统。比赛开始的十几圈,了解赛车的出发顺序能使我们更好地预测出它们经过的顺序。期间可能出现碰撞、急停、引擎故障等我们无法解释的状况,所以我们的预测不会完美无瑕,但总会比随便猜测的准确一些。很快的,速度较快的汽车就会领先速度较慢的车若干圈,不久,赛道上的顺序就完全被打乱了。也许与排位第二的赛车并驾齐驱的,是排位第16的赛车(即将落下一圈)和排位第20的赛车(已经落下一圈,眼看又要落下第二圈)。比赛最初的状态几乎没有什么参考价值,同样的,一旦大气有了足够的循环时间,天气模式与其最初的状态就不再相似,这些模型也就没有什么用处了。图4–6 高温预测对比

弗娄尔的发现仍然引起了一些令人不安的问题。预报发布的七八天之后,如果计算机模型的预测结果被证明是零技术含量,则会是另外一种情况。这些模型得到的结果竟然还不如普通人坐在家里查阅长期天气平均状况表得到的结果准确,怎么会这样?也许是因为计算机程序对天气系统中自然出现的反馈过于敏感,于是开始自我反馈。这不仅说明噪声中不再有信号,还说明噪声正在渐渐增强。

还有一个更大的问题,那就是如果提前过长时间做出的预测不准确,那气象频道(预测近10天的天气情况)和AccuWeather网站(将预测时间提前到15天)这样的公司为何还要继续发布预测呢?罗斯博士认为,因为这样做不会造成任何伤害,即使是单纯基于气候学的预测,对他们的用户而言也是有点用处的。

对于商业性的气象预报来说,统计学上的准确度没必要斤斤计较。在受众眼中,只有感知上的准确度才是有价值的。

比如,以赢利为目的的气象预报公司很少确切地预测下雨的概率为50%,这个概率对用户来说似乎显得空洞又模糊。相反,它们会投掷硬币且将数值四舍五入,得到60%或者40%的降水概率,尽管这样做会使预测结果更加不准确、不诚实。

弗娄尔还发现预测公司竟然明目张胆地篡改数字,这可能是气象预报行业里公开的秘密了。大多数商业性气象预报都是有偏向性的,可能是故意为之。这些预测公司尤其偏向于预测更多的降水量(但实际上降水并没有那么多),气象学家称之为“降水偏向”。从政府部门得到越多的原始数据,客户面对的气象预报就越多,这种偏向性就会越严重。预测就是这样通过减少准确性来“增加价值”的。

天气预报说降水概率为60%,你出门会带伞吗?

关于预测的重要测试中有一项叫作标定,我认为这是最重要的测试。很多次你都说降水概率为40%,但真正下雨的情况有几次呢?如果长期以来,下雨的概率的确为40%,那就说明你的预测是已标定的。而如果下雨的概率有时只有20%或者高达60%,那么你的预测就是未标定的。

很多领域都难以实现标定,它要求我们做到用概率的方法思考问题,而我们大部分人(包括大部分预测“专家”在内)对此都不是十分擅长。标定会给“过于自信”的预测者——大多数预测者都具有的特点——当头一棒,还需要利用大量数据进行充分评价,也就是对预测者发布的数百个预测进行全面评估。

气象学家的预测涉及大量数据,他们每天都要预测几百座城市的气温、降雨和其他类型降水的概率。一年下来,气象学家得进行数万次预测。

这种频繁的预测不仅在我们想评估某个预测的时候大有帮助,对那些预测者本身也很有用,他们会从中得到很多反馈,知道自己当前的做法是不是有什么不妥,以便根据情况加以改变。比如,某些计算机模型倾向于给出多雨天气的预测——比应有的下雨天气多。一旦察觉到这一偏向,你就可以将其改正过来。同样,如果你对自己的预测过于自信,你很快也会认识到这一点。

美国国家气象局的预测已被证实为极好的标定预测(见图4–

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载