大数据预测:告诉你谁会点击、购买、撒谎或死去(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-11 09:58:45

点击下载

作者:[美]埃里克·西格尔,周大昕

出版社:中信出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据预测:告诉你谁会点击、购买、撒谎或死去

大数据预测:告诉你谁会点击、购买、撒谎或死去试读:

序言

本书旨在通过量化方法来预测人类的行为。人类在此方面的最初实践是在第二次世界大战时期。1940年,“控制论之父”诺伯特·维纳开始尝试预测德国空军飞行员的行为,目的是消灭这些纳粹空中力量。其预测方法是,观测德国飞机运动的轨迹,推测飞行员可能采取的机动规避动作,由此推断飞机接下来所处的位置并用高射炮将其击落。然而,维纳只能推断出飞机下一秒的飞行轨迹,要想精确炮击飞机,必须预测飞机至少20秒内的飞行轨迹。

在埃里克·西格尔的书中,你将看到许多预测案例,这些案例与维纳预测德国飞机的案例相比要精准许多。与“二战”时期相比,目前计算机的运算性能有了极大的提升,数据的丰富程度也非维纳之时可比。因此,银行、零售商、政治团体、医院以及其他众多机构,都在通过计算机数据处理来预测某些特定人群的行为,进而赢取客户、赢得选举或治愈疾病。

在本人看来,这些预测行为总体上是有益于人类发展的。在疾病治疗、打击犯罪以及反恐等领域,预测能挽救生命;在商业广告领域,预测能让广告定位更加精准,从而保护森林(减少无效纸质广告和宣传册的发放)、节省受众的时间和精力;在政治领域,那些相信科学预测方法的政治候选人会有更大的胜算。

然而,正如西格尔在本书开篇坦诚指出的那样,这些方法也可能产生问题。西格尔引述了电影《蜘蛛侠》中的台词“力量越大,责任越大”来说明这一点。其引申意义是,人类必须谨慎运用预测模型,否则其效用和益处就会大打折扣。与其他重要发明或革命性创新成果相似,预测分析本身并无是非对错之分,但作为工具,它会带来或善或恶的结果。要想避免预测分析的不正当应用,我们首先必须知晓预测分析究竟都能做什么,随着对本书阅读的深入,相信你会对此问题形成自己的见解。

本书的重点是预测分析,这是诸多分析方法中的一种,是最有趣和最重要的分析方法。在我看来,纯粹的描述性分析已经过时了,因为它只是记录过去发生的事情,无法真正说明这些事情为何会发生。此外,我也经常在自己的书里提到第三种分析方法,即规范性分析,也就是通过控制实验或定向优化来告诉人们应该怎么做。但这些数理分析方法的应用范围较预测分析要小许多。

本书内容及其背后的思想与纳西姆·尼古拉斯·塔勒布的思想恰恰[1]相反。塔勒布在《黑天鹅》等书中提到,由于世界充满偶然性且复杂事物的发展总是具有内在的不可预测性,因此预测行为注定会有失误。毫无疑问,塔勒布的话是有道理的,世界上总会有不可预测的“黑天鹅事件”,但大部分人类行为都具有惯常性和可预测性。西格尔在本书中所给出的大量成功预测的案例表明,世界上大部分天鹅是白色的。

同时,西格尔也在试图避免陷入“大数据”的陈词滥调。尽管书中的某些案例具有“大数据”分析的特征,即数据量庞杂无序以致难以用传统关系数据库进行分析,但预测分析的关键点不在于数据的规模或繁复程度,而在于如何对待数据。我认为,通常,“大数据不过是小算术”,某些大数据领域从业者所做的不过是用宏大数据来装点门面。其价值与真正的预测模型相比,自然有云泥之别。

西格尔在本书中所阐述的理念复杂精巧,但其行文却浅显易懂,无论读者是否熟悉数理分析,都可读懂本书。书中包含了大量的实际案例和分析图表,笔触通俗诙谐。即便是非数理分析专业人士,也应该好好阅读本书,因为在现实生活中,任何人的行为都免不了成为他人分析和预测的对象。此外,非数理分析专业人士也免不了要在实践中学习预测模型、评估模型效果并根据预测模型的结果采取适当的行动。

总而言之,我们所处的是讲究预测的社会。要想在这样的社会中生存发展,最好的方法就是去理解预测模型的目标、方法以及限制,要想做到这一点,最好的方法莫过于阅读本书。托马斯·H.达文波特巴布森学院杰出教授麻省理工学院数字业务中心成员,德勤分析高级顾问国际数据分析研究所联合创始人《数据分析竞争法》联合作者

[1] 《黑天鹅》中文版已于2008年5月由中信出版社出版。——编者注前言预测分析的职业风险昨天已经过去,明天全然未知,我们能够把握的,只有今天。——英国儿童文学作家米尔恩(A. A. Milne)、美国漫画家比尔·基恩以及《功夫熊猫》中乌龟大师的名言

每当我告诉别人我的职业时,他们总是用异样的眼光看我。这也算是职业危害吧。

信息时代其实存在着巨大的不确定性。这样的论断可能会使许多人感到惊讶,因为当前,我们几乎可以把世界上发生的每一件事情记录下来。如果说历史书上仅仅记载的是那些重大事件,那么现在的信息系统如此发达,以至于人类的每次点击、每次支付、每个电话、每次交通事故、每次犯罪行为以及每次求医问诊都会被记录在案。在如此完备的海量数据面前,数据爱好者即便没有觉得自己是天之骄子,至少也应该感到心满意足吧。

但如此巨大的信息库中所缺乏的恰恰是最值得人类知晓的事:未来之事。

人人都渴望拥有预知未来的能力,我们对预测几乎无法抗拒。我们对先知神明顶礼膜拜;我们为算命先生慷慨解囊;我们热衷于占卜问卦,崇拜占星之术,对那些“讨口彩”的食品甘之如饴。

在狂热追求超能力的同时,我们却又常常鄙夷科学。我们对科学的直接反应是“敬而远之”——科学看上去深奥而乏味。对于许多人而言,或许预测是只有凭借超能力才可以做到的事情。

美国喜剧《灵异妙探》(Psych)中的故事颇能说明这一点,这部剧的主角是一位具有敏锐的数据推断力的侦探。这位现代福尔摩斯具有超强的观察力,他对事实的精准描述常常令警察误认为他就在犯罪现场。为此,这位“神探”给出了一个最合乎情理的解释:自己有通灵能力。警察信以为真,而他也得以继续四处侦探,打击犯罪。绝对的喜剧!

我也有过类似的经历,比如,当别人友善地问我是什么星座时,我不会假装自己相信这套东西,但我会用自相矛盾的方式回答他们:“我是天蝎座,天蝎座的人从不相信星座。”

在各类聚会中,经常有人问我是做什么的。每当此时,我都会调整姿态,看着对方略带困惑的表情,一个字一个字地说:预测分析。大部分人的工作用一个词就可以形容——医生、律师、服务员、会计或演员,但我的工作却不太容易描述。每次我都要费半天口舌向别人介绍我到底是做什么的。如果我含糊回答,对方更会打破砂锅问到底:“我做技术领域的商业咨询。”如此回答后,对方会接着问:“什么技术?”“利用电脑来预测人的行为。”这种回答通常会引发更大的困惑,其中夹杂着怀疑和恐惧。“研究数据来预测人类个体的行为。”对方还是不解,在聚会上,没人愿意谈论数据。“分析数据来总结模式。”对方听后,表情更加困惑,在懵懂中陷入尴尬、沉默。“帮助营销人员确定哪些客户会下单,哪些不会下单。”虽然对方能听得懂大概的意思,但这种描述完全贬低了我的职业。毕竟,这只是我工作的一部分。“预测客户行为,就像用试纸检测你是否怀孕了一样。”对方直接被吓跑。

为此,我写了这本书,想说明预测分析是直观的、有力的,是可以令人大开眼界的。

一点预测,无限可能。我称之为“预测效应”,这也是贯穿本书的主题。只要是预测而不是猜测,其力量就是显而易见的。预测效应表明,预测分析是可信的。我们只要顺势而为,就可以更好地看清未来。有一项令人激动而又信服的发现:现在与未来之间隔着层层迷雾,但只要我们能将雾气稍微冲淡些,就将创造出无限的价值。正因如此,预测分析可以帮助人们规避风险、提升销量、削减成本、改善医疗服务、精简生产过程、清除垃圾邮件、加强打击犯罪、优化社交网络和赢得选举。

你有科学家的好奇之心吗?你有不断进取的创业者情怀吗?你是否对预测本身或预测能产生的价值感到着迷?

我对“知晓不可知之事”尤为热衷。预测似乎有违自然规律:人不能知晓未来,因为未来尚未到来。我们研发了能从历史经验中总结规律的计算机系统,通过严谨的方法来整理“已知”数据信息,就可越来越精准地预见未来之事。这是数学与科技的融合,两者之间不断地相互砥砺,最终开花结果,产生了科学的系统,由此连通现在与未来之间那个曾经不可逾越的鸿沟。

这是一项前无古人的事业!

有人做销售,有人搞政治,而我做预测,且备感自豪。导论预测效应

我和你一样,在生活中,有成功,也有失败;有时交好运,有时走霉运。人们总是想象,如果生活不是这样,那将会怎样。在此,我想简单说说我遭遇的7次不幸。

1. 2009年我在犹他州滑雪时受伤,右膝盖差点儿残废。滑雪起跳时没有问题,但落地时发生了偏差。膝盖要做手术,因为膝关节前交叉韧带断裂,所以要选择用身体其他部位的韧带进行修复。这样的选择很痛苦,因为如果选择失误,我下半辈子就有可能变成瘸子。最后,我选择了用自己的腿后腱。那么,医院能否给我提供一个更好的治疗方案?

2. 我本人承受了身体上的极大痛苦,但付钱付到肉疼的却是保险公司,因为膝盖手术相当昂贵。那么,面对我这类蹩脚的滑雪爱好者,保险公司能否更好地预见风险并把风险计算在保费里?

3. 早在1995年,我就遭遇过事故,虽然那次事故并未对我造成大的身体伤害。我的身份证件被盗,我不得不耗费大量时间在不同部门之间奔波,走那些烦琐的程序,填写各种表格,由此来消除错误的信用记录。那么,那些对我的账号提供信用贷款的人,有没有办法在第一时间就判断出我的账号被盗了呢?

4. 在恢复了良好信用记录后,我以抵押贷款方式购买了一套公寓。这算是明智的投资决策吗?或许我的理财顾问应该对我进行风险提示,因为这套房子在买入之后,很快就可能因跌价而变成负资产。

5. 飞行途中,我问邻座的人她的机票多少钱一张,结果远远低于我购买的价格。那么,在购买机票前,有没有方法可以预知票价会降?

6. 其实我的职业生涯也充满风险。虽然现在生意还可以,但作为企业,势必面对经济环境变化或竞争加剧带来的风险。那么,我们能否预测,哪些营销活动会有效果,哪些投资活动会有良好回报,哪些行为只是烧钱呢?

7. 日常生活中一些小事的顺利与否决定了我们的命运。有效的垃圾邮件过滤系统可防止我们在工作时被打扰。有效的互联网搜索也很重要,不仅工作中要用到,还可用来搜索医疗信息(如膝盖手术的知识)、家居装潢以及其他信息。我们也信赖潘多拉网络电台以及Netflix(网飞公司)推荐的个性化影片和音乐。但在许多年之后,我的邮箱还是常常收到垃圾邮件。为什么有些公司就不能多了解一些我的信息,来减少无效邮件呢(如果是纸质邮件,还可减少森林砍伐)?

这些问题并非无关紧要,它们决定着我们每天、每年甚至这辈子生活质量的好坏。那么,这些问题有什么共同点呢?

与其相似的许多挑战和问题其实都可通过预测的方法加以解决。病人是否适合做这个手术?借款人是否会欠钱不还?这位购房者能及时还上贷款吗?机票会不会打折?这位消费者是否会对邮寄的宣传材料感兴趣?如果能正确预测这些问题,那么,我们的生活将因此得到极大的改观。大企业的预测——资产的归宿

我们还可以从其他角度来看待这个问题。预测除了让你我这样的消费者获益之外,也可让企业脱胎换骨,形成全新的竞争力。因此,很多企业都在不遗余力地提升预测力。

20世纪90年代中期,一位名叫丹·斯坦伯格的商业科学家走进了美国大通银行,他要帮助这家金融机构预测数百万份抵押贷款申请的风险。大通银行采纳了斯坦伯格的预测技术,并借助斯坦伯格研发的系统来评估、处理大量的银行抵押贷款申请。从此,斯坦伯格在金融界声名鹊起。

预测就是力量。如果大型商业机构能预测个体资产的风险变化和价值,那么,它将形成不可撼动的市场竞争优势。在本案例中,大通银行精确预测了贷款申请人的未来还款行为,由此极大降低了放贷风险并增加了赢利——大通银行当年就获得了高达9位数的利润。发明会学习的电脑

预测技术不断完善,渐成主流,现在几乎无所不在,时刻影响着我们每一个人的生活。预测技术正在不知不觉中影响着人类的体验,无论是开车、购物、学习、投票、就医、沟通、看电视,还是赚钱、借钱甚至偷盗。

本书要讲述的是计算机预测技术中最具影响力和最有价值的成就,及其背后的两大要素:技术背后的人和推动技术发展的神奇的科学。

做出精确的预测很难。每项预测都有若干先决条件,首先要掌握每个病人、每个购房者以及每封邮件的不同特征。在每项预测中,我们该如何将这些分散的信息整合起来呢?

说起来容易做起来难。我们的应对之策就是,用系统化和科学化的方法来开发并持续改善预测技术,即要让计算机系统自动“学习”如何预测。

这就是机器学习,也就是让电脑自动获取新知识和新能力,持续不断地输入现代社会最有价值和最重要的非自然资源:数据。“喂我吧!”——机器思考的食物数据是一种新型石油。——欧洲消费者委员会委员梅格莱纳·库尼瓦知识的唯一来源是经验。——阿尔伯特·爱因斯坦除上帝外,我只信数据。——质量管理大师威廉·爱德华兹·戴明

大部分人都对数据感到厌烦,它好像总是让人觉得乏味。数据仿佛是无数事实和数字的堆砌,每条数据都显得无聊,其乏味程度等同于在推特上发“我买了双新鞋”之类的内容。这是一大堆尚未加工的索然无味的材料,只有企业才会去咀嚼。

但千万不要被数据的表象欺骗!其实,数据里凝结了极为珍贵的值得学习的经验。每一次医疗诊断、贷款申请、Facebook(脸谱网)发帖、影视推荐、欺诈行径、垃圾邮件,以及结果或好或坏的购买行为、或失败或成功的电话推销、交通事故或交易,都会被整理成数据并积累起来。它们的数量是如此庞杂,只有计算机才有可能从中总结出规律。如果应用得法,计算机就会像海绵吸水一样从原始材料的汪洋中汲取知识。

随着数据的不断累积,人们也开始掀起从数据中获取财富的淘金热。但数据本身并不是黄金,作为原始材料的数据只是枯燥无味的代码组合。从数据中提炼出来的规律和知识才是黄金。数据—机器学习—预测

计算机自动学习系统的研发使得数据资源的能量开始爆发。因为这一系统揭示了人类的动机和行为,这是人类生存的印迹以及世界发展的奥秘。在获取这些新知识后,科学预测就成为可能。

计算机在自我学习过程中发现了如下有意思的规律:

• 提前退休会缩短寿命。

• 网上约会评分越高,配对成功率就越低。

• 女歌手蕾哈娜的粉丝大都支持民主党。

• 素食主义者不太容易误机。

• 公共体育活动会导致本地犯罪率上升。

机器学习会从这些发现中尝试建立预测能力,利用统计学方法和计算机科学方法,进行数字挖掘和试错。我早就知道你会这么做

拥有这些预测能力之后,我们想要预测什么呢?人的每个行为都值得预测,无论是消费、思考、工作、放弃、投票、恋爱、生育、离婚,还是捣乱、撒谎、欺骗、盗窃、凶杀、死亡。让我们来看看其中某些行为。人的消费行为• 好莱坞的影视公司会预测,如果某个剧本被制作成影片,它是否会受欢迎。• Netflix提供100万美元奖金来改善其影片推荐系统,某研究团队因为成功地让系统推荐的影片更受消费者喜爱而赢得奖金。• 机票优惠查询应用Hopper会基于其对机票价格波动的预测,向你提供何时购买机票最划算的建议。• Energex(澳大利亚电力集团)预测电力需求,以此决定在何处建设电网;Con Edison(联合爱迪生电力公司)会预测用电高峰时可能出现的系统故障。• 华尔街的金融机构根据对股价的预测进行买卖,用算法交易。• 企业会预测哪些消费者会购买其产品并选择这些人作为营销对象,无论是大型金融机构如美国银行,还是像港湾甜品店和佛蒙特乡村商场(提供“高品质且难以寻找的经典产品”),都在这样做。宝贵的营销预算要依照预测结果来分配。某些公司甚至会预测如何提升对消费者的影响力,让消费者买得更多(详见第七章)。• 超市收银台发放的优惠券,也是预测在起作用。英国零售业巨头乐购是全球第三大零售商,它会预测哪些优惠券被拿去使用,由此提升每年在全球13个国家的门店里发放的上亿张优惠券的利用率。于是,Kmart、Kroger、Ralph’s、Safeway、Stop & Shop、Target以及Winn-Dixie等零售商也纷纷效仿。• 如果能预测网络用户的点击率,企业将获得丰厚的回报。通常,网站上的广告都是按点击率来收费的,因此网站会预测你最可能点击的广告,然后让广告在最显眼的位置弹出。实际上,网站替你选择了与你相关性更高的广告,并因此增加了数百万美元的收入。• Facebook会预测你对朋友圈中的哪些帖子内容感兴趣。社交网络还会预测“你可能认识的人”,更不要说你会点进去看的广告了。人的恋爱、工作、生育和离婚• 职场社交网站LinkedIn(领英)会预测你的未来职业选项。• 婚恋网站Match.com、OkCupid和eHarmony会根据你的特征为你推荐相亲对象。• Target超市会通过预测客户的怀孕时间来推销母婴用品。• 临床研究人员会预测不忠与离婚之间的关系,现在甚至还有预测自己婚姻长久程度的网站(www.divorceprobability.com)。人的思考和决策• 2012年,奥巴马在选民预测系统的帮助下再次当选为总统。奥巴马的竞选团队成功预测到,哪些选民在接触竞选宣传活动(例如电话、家访、横幅广告以及电视广告)后,更倾向于支持己方,哪些选民会坚定不移地支持竞争对手。这套方法针对的是数百万“摇摆选民”,与传统的选民定位方法相比,它为奥巴马赢得了更多选票。2016年美国总统竞选,希拉里团队也采取了这种方法。• “你是什么意思?”现在,电脑系统已经学会了从书面词句中推测人的主观动机。花旗银行和PayPal(贝宝支付)能感知到用户对其产品的态度,而某位研究人员研发的系统则可判断亚马逊网站上的哪些书评是带有讽刺意味的。• 学生论文评分系统现在已经问世,可自动给论文评分,评分结果与人工评分几无二致。• 计算机已经能参加美国最受欢迎的智力和知识挑战节目,直接与人类选手对决。在《危险边缘》(Jeopardy!)电视问答节目中,IBM(国际商业机器公司)研发的电脑“沃森”击败人类选手获得了胜利。这台电脑可准确处理英语信息并回答各类随机抽取的知识问题,还击败了两位曾获得该节目冠军的人类选手。• 现在的计算机已经可以读懂人的思想。科研人员研发出了这样的系统来解码人类大脑活动并确定大脑正在思考的对象,例如,是某些工具、建筑,还是食物?正确率已经超过80%。人的放弃• 惠普公司对其全球30万名员工都进行了“离职风险”评估,预测每名员工的离职可能性,这样管理层就可提前介入或及时采取应对措施。• 你是否对手机运营商的服务感到厌倦?运营商也在努力预测用户的体验。所有大型移动运营商都会判断用户终止服务合同并转投竞争对手的风险,或许在你决定更换运营商之前,他们就已经提前知晓,预测依据的就是你的通话故障次数、电话使用频率、账单信息以及你的主要联系人是否已经选择了其他运营商。• 联邦快递在快递市场上始终处于领先地位,因为这家公司能预测哪些客户会投向竞争对手,其预测成功率高达65%~90%。• 美国公立大学系统可预测辍学率并依据预测结果来积极管理学生;此外,亚拉巴马大学、亚利桑那州立大学、艾奥瓦州立大学、俄克拉何马州立大学以及荷兰埃因霍芬理工大学都在用计算机预测学生的辍学率。• 维基百科的大部分编辑都是免费工作,他们维护这个网络百科全书纯粹是出于热爱,但维基百科也在预测,哪些编辑可能会中途退出而不再继续为其做出贡献。• 哈佛医学院的研究人员预测,如果你的朋友戒烟,那么你戒烟的可能性就会提高。戒烟也具有“传染性”。人的事故• 保险公司会预测谁开车更容易出交通事故。好事达保险公司会根据投保车辆的状况来预测出现交通事故时车内人员的受伤情况,这项预测每年可为该公司节省4000万美元。另外一家公司在保险精算中采用了先进的预测技术,每年可因此节省5000万美元。• 福特汽车正从一系列数据中预测规律,以此研发汽车报警系统。这样,当驾驶员分神、疲劳时,汽车系统就会自动启动大声报警等防护措施。• 研究人员从美国国家交通安全委员会发布的数据中分析得出,飞机失事造成的死亡率是普通交通事故的5倍。• 所有的重要金融机构和信用卡发卡机构都会预测申请人破产、无力偿付贷款或信用卡欠款的概率。讨债公司主要预测的是,采取什么样的方法才能从破产债务人那里收回尽可能多的债务。人的疾病和死亡我并不害怕死亡,只是希望死亡降临的时候,我恰巧不在。——伍迪·艾伦• 2013年,美国医疗保健机构Heritage Provider Network奖赏50万美元,征求医院住院率最佳预测方案。每年,美国医疗机构都会花费数十亿美元接收无住院必要的病患,预测住院率能有效节约这项成本。与此类似,匹兹堡大学医疗中心在预测短期重复住院治疗的概率,这样,医生在开出院证明时就会更加审慎。• 斯坦福大学科研人员研发出了高效的乳腺癌诊断系统,通过检测人体组织样本中的若干指标,该系统可精确判断患者是否患有乳腺癌,其效率远高于此前的人工检测。• 杨百翰大学和犹他大学的研究人员通过检测血液样本中的肽指标,最早可在怀孕24周时精准预测早产概率,准确率达到80%(预测正常生产的准确率当然也达到了80%)。• 高校科研人员仅凭发言记录就可预测发言人是否患有精神分裂症。• 除了传统的精算表格之外,现在越来越多的保险公司都在采用预测技术来判断投保人的死亡概率。或许这应该被称为“人身死亡险”,投保人尚在人世时,保险公司就开始预测其何时会死亡。• 除寿险公司之外,目前全美五大保险公司中有一家正通过观察投保人近期医疗保险报销记录来预测老年投保人在未来18个月内身故的风险。不过,这些预测的目的都是善意的。• 研究人员会根据病患的各项指标以及身体状况来判断其在手术中猝死的风险,并将信息用于制订诊疗方案。• 医疗行业中的一项惯例是,医护人员常常会以牺牲某些病患为代价来挽救另一些病患的生命,当然医护人员并不是故意为之,这样做也毫无道德争议。除诊断方案或手术结果之外,如果医护人员能够预测“医疗影响”(详见第七章),就可减少这类事情的发生。人的撒谎、欺诈、盗窃和谋杀• 大部分大中型银行都采用了预测技术来防范单证造假、信用卡盗刷以及其他交易欺诈行为。公民银行通过预测技术,将单证造假损失降低了20%。惠普公司则通过及早发现虚假保修申请节省了6600万美元。• 具备预测能力的计算机可帮助司法人员判断谁应该被关进监狱。在做出入狱或释放决定时,俄勒冈州和宾夕法尼亚州等地的司法人员会使用预测系统来评估嫌疑人是否有再犯的风险。• 谋杀被公认为最无法预知的事,但在高风险人群内,预测技术可以发挥作用。马里兰州就用分析系统来预测那些服刑人员,谁可能会杀人,谁可能会被杀。科研院校和执法研究人员也研发出了类似的系统,可预测哪些杀人犯会再度行凶。• 英国某大型银行的一位反欺诈专家在发现某些银行账户交易的异动后,竟然顺藤摸瓜,找出了一批恐怖分子。虽然该事件的大部分细节尚未公布,但是很显然,美国国家安全局会将这种分析方法列为战略重点,以此发现潜在威胁。• 芝加哥、孟菲斯、里士满的警察会加强在预测的犯罪热点地区巡逻。• 在《别对我撒谎》这部电视剧中,男主角可通过观察“细微表情”来判断对方是否在撒谎。受此启发,水牛城大学的研究人员研发出了观察眼球移动的测谎仪,其测谎精确率达到了82%。• 我曾于20世纪90年代末在哥伦比亚大学执教,当时我和我的助教们使用了一套作弊检测软件,以此检测上交的数百份编程作业中是否存在抄袭行为。• 美国国税局可预测纳税人是否会偷税漏税。预测的局限和潜力经济学家是这样的专家:他会明了为什么自己昨天的预测在今天没有发生。——美国专栏作家厄尔·威尔逊你怎么可能没听过“算命先生中彩票”这样的新闻?——美国脱口秀主持人杰·雷诺

上述的每项成就都源于预测,而科学预测本身又是机器自动学习的结果。这些林林总总的关于预测的成功案例与科幻小说迥然不同:它们是真实的。或许此时,你应该想到,上述案例仅仅是成功的科学预测的小部分例证。我们可以肯定地说,预测的力量远远不止于此。预测天气状况

但这样的断言是否有些过于自信?正如丹麦物理学家尼尔斯·玻尔所言:“预测很难,尤其是对于未来的预测。”那么,未来是否有可能预测?毕竟,未来充满着不确定性。

说得更直白些,实现精准预测的可能性不大。天气预报的准确率是50%。预测人的行为也不容易,不管预测对象是病患、客户还是罪犯。

然而,预测的价值与其精准度的关联并不大。比如,预测技术最直接的商业应用就是,确定公司发送邮件的目标群体。如果定位到特定一群人,他们回复邮件的概率是其他人的3倍,那么,这家公司就可以事先删除不太可能回复邮件的人的邮箱地址,这些人收到的垃圾邮件数量也会减少。

其实,企业在做营销时已经预先进行了某种“数字计算”,这种预测为其带来了丰厚的回报,尽管企业所做的预测并不完全准确。事实上,即便预测的准确率较差,预测所产生的效用依然很大。如果说普通消费者群体的反馈率是1%,那么敏感消费者群体的反馈率就是3%。此时,我们依然不能断定,哪个消费者会对营销材料做出反应。预测——今天看到了销售宣传小册子,第二天把小册子上宣传的产品买回家

这就是“预测效应”的核心价值。只要预测的准确率超过了毫无依据的猜测,那么即便预测结果不是那么精准,预测也会创造真正的价值。在预测未来的过程中,尽管有迷雾存在,那也远胜于在黑暗中盲目前行。

预测效应:小预测,大影响。

这是本书要阐述的第一个效应。或许大家都听过“蝴蝶效应”、“多普勒效应”或“安慰剂效应”,而在预测分析中,我们有数据效应、归纳效应、组合效应以及说服效应。每个效应都是科学与技术的有趣结合:直观观察,揭示其如何运转,以及为何成功发挥效应。梦想之地人总是会受信仰和偏见的制约,但如果你能用数据来替换主观信仰和偏见,那么你将获得明显的优势。——迈克尔·刘易斯《魔球——逆境中制胜的智慧》

预测究竟属于哪个研究领域或哪个科学分支?学习如何在数据基础上做预测有时会被称为“机器学习”,这个术语常常出现在科研实验室、学术论文以及大学课堂上(本人曾于20世纪90年代末在哥伦比亚大学教授“机器学习”这门课程)。这些地方当然是知识的源泉和圣殿,但这里面的知识却无法直接用于实践。在商业、工业以及政府管理等“真实世界”里,通过机器学习来预测有其固定的名称,这也是本书要阐述的主题:

预测分析(PA):学习经验(数据)来预测个人未来行为的技术,以便更好地做出决策。

预测分析建构在计算机科学和统计学基础上,同时也受到了学术研究和大学教育的推动。预测分析有其自身的规范,但其属性却决定其除了作为科学分支之外,也产生了其他巨大的影响。每天都有数百万的决策是借助预测分析做出的,涉及领域包括电话营销、邮件推广、录取、测验、医疗诊断、警报、侦查、监禁、约会以及用药等。预测分析是帮助人做决策的工具,它是以数据为引导的。通过回答日常生活中庞杂琐碎的问题,预测分析或许能解决一些宏观问题:我们如何才能有效改进政府、医疗、商业、非营利以及执法等部门的功能?预测可帮助相关机构决定如何对待和服务个人

在此意义上,预测分析与预想有着本质的区别。预想是宽泛层面上各项预测结果的总和,如经济会怎样发展,哪位总统候选人会赢得俄亥俄州更多的选票等。如果说预想的对象是内布拉斯加州下个月冰激凌的销售总额,那么预测分析则是判断哪个内布拉斯加人会在下个月买冰激凌。

预测分析使得人们在做决策时越来越注重“数据驱动”,也就是更依据客观统计数据而不是某人的“判断”。在这个以事实为基础的领域中,常见的词语都是“分析学”、“大数据”、“数据科学”以及“商业情报”等。尽管预测分析可能从属于上述各个概念,但这些概念更多的是在形容某些数据科研人员所处的文化或技能体系。这些科研人员对数据本身进行了极具创新性的分类,而不是将其随意地归为某种技术或方法。这些领域涉及的内容很宽泛,有时仅仅是以标准的电子表格的形式体现出来,例如那些重要的必须加以改进的事情,但其中可能很少涉及科学或复杂的数学计算。因此,这些工作都具有很大的主观性。正如奥莱利出版社副总裁迈克·劳克德斯所言:“数据科学就像色情书刊,只有看了才知道。”此外,还有一个概念叫作“数据挖掘”,这也常常被人们与预测分析混用,尽管预测分析也有“深挖”数据的意味,但数据挖掘所指的领域要宽泛许多。组织学习Google(谷歌)和亚马逊等互联网时代的巨擘,其商业模式都围绕着基于机器学习的预测模型。——纽约大学斯特恩商学院教授瓦森特·达哈机器学习上的突破,其价值抵得上10个微软。——比尔·盖茨

任何组织都是“人的组合”,我们是否也应该“组合学习”呢?团队的形成是为了成员的共同利益,公司、政府、医院、大学和慈善机构莫不如此。在团队形成之后,劳动分工、技能互补以及规模效应就可发挥作用,从而实现整体效用大于部分效用之和。因此,集体学习自然也就成为继续发挥团队力量的必要步骤。一位销售员会在销售过程中慢慢成长,从每次销售的正面和负面反馈以及每次交易的成败中总结经验。预测分析是团队从成员共同经验以及计算机系统中不断学习的过程。如果团队不利用经验数据,那就好比某个人每天重复某种行为而从不进行思考。

除了极少数特殊情况外,我们发现,运用预测分析更有利于组织而不是个人。组织要做出大量的运营决策,这些决策往往都有很大的改善空间,而组织内部却通常存在着大量低效行为,造成巨大的浪费。营销方面就是“重灾区”,大量的无效电邮造成互联网上垃圾邮件充斥,许多纸质推销邮件发出去之后根本没有人看,这极大地浪费了纸张和森林资源。目前大约有80%的营销邮件都是垃圾邮件。高风险的贷款人获得了过多的信贷额度;政府救济的申请书堆积如山,急需救助的人们无法及时获得帮助。而组织恰恰拥有大量的数据,用以改善各项系统的运营。

在商业领域,利润是最重要的驱动力。因此,企业要想让日常经营更有效率、让营销投放更为精准、要更及时地发现欺诈行为、要更审慎地避免坏账形成并在线上吸引更多的消费者,必须提升规模效应并优化操作流程,以使业务经营焕然一新。新的超级极客:数据科学家向前思考的对立面就是向后思考……这常常被称为记忆。——《生活大爆炸》中理论物理学家谢尔顿的台词

应用预测分析的机会随时都有,利润也不是唯一的驱动因素。让预测分析大显身手的力量是极客力量!即技术从业者的热忱。说实话,我对预测分析极为热衷,并不是因为预测分析能为企业创造价值,而是因为喜欢。计算机能自主学习这件事,令我非常着迷,我更关心这个魔盒里到底有什么,而不是能用它来做什么。或许这样纯粹的好奇就是判断极客的标准。我们热爱科技,崇拜科技。例如,目前预测分析系统中的主流软件是一款名为R的免费开源系统(仅用单字母命名,富有极客色彩),该软件的用户数量正在不断增加,全球各地的软件研发志愿者正不断为这套系统增砖添瓦。在公开的预测分析软件大赛中,职业选手和业余选手蜂拥而至,以“竞争性合作”的精神状态相互切磋。预测分析人才有时在企业内部效力,有时以外部顾问形式为企业提供咨询服务。企业求贤若渴,我们也因此奔波于各地。但我们只能乘坐经济舱或是升级版的经济舱。学习的艺术要怎样做才能将CPU(中央处理器)的性能发挥到极致?登录电脑后别忘了想办法让电脑更听话。但有项功能能让这台机器更聪明:系统通过试错,自我改善。

从前,人类创造了一种终极通用机器,但不知为何,他们竟然只称呼其为“计算机”(当时这个词的意思是用于计算的机器)。这台机器能处理无数指令,无论指令多么复杂烦琐,它从不出错,从不抱怨。此后短短几十年,计算机的运算速度发展到了超出常人想象的地步。在强大的计算机面前,人类只能感叹:“天哪,我们真的做到了!”或许计算机应该换一个更符合其伟大功能的名字,例如伟大机器。只可惜在几十年后,“伟大机器”这个名字竟然被某食品加工企业优先采用了(这不是开玩笑)。真夸张!真可惜!“我们应该怎样利用计算机?计算机到底还有多少潜力?我们如何来发掘这些潜力?”人类始终怀着好奇之心在追问这些问题。

其实电脑和人脑有许多类似之处,其运行机制都很神秘,但我们只是自然接受其运行结果。当你听到绣花针掉在地上的声音时,你的大脑会立刻告诉你这是绣花针掉在了地上。电脑和人脑的运行都是无声的,其复杂运算过程不会产生任何声音。当然,电脑里的硬盘或风扇可能会产生些细微的声音,这就好比我们也会因为呼吸、打喷嚏或打鼾而出声,但电脑和人脑的运算中枢却并没有任何物理动作,因此其运行寂静无声,完全不被察觉。最后,不可思议地在显示器上显示出结果,在你的头脑中形成了观点。

电脑和人脑都有着无穷的力量。那么,是否有可能让电脑也具有思考和感知的能力,并最终变得智能呢?从最好的角度说,即使能做到,这也会引发难以回答的哲学问题;而从最坏的角度说,人工智能并没有客观标准,因此永远没有人可以声称彻底实现了人工智能。但有一点是确定的:电脑可以掌握人类最宝贵、最有意义的本领,那就是自主学习。

但如何才能让电脑自主学习?无论是复杂还是简单学习,让机器学会自我成长实在是超乎想象的难事。这也是哲学意义上的深层次悖论。机器学习的任务不仅仅在于让机器看清手头既有的数据,还要让机器准确判断出尚未发生的未来之事。机器学习的核心问题,从本质上说是要赋予预测分析以“魔力”。要做到这一点,不仅要用到技术,更需要艺术。这些问题我们将在下文中详细论述。机器学习的目的在于预测你将会采取的行动,但途径却主要是研究其他人的行为特征而不是你的行为。

或许我说得不太清楚,但真实状况比这还要复杂。本书的最后一章将提出这样一个问题:那些发生在你身上的无从察觉之事,甚至是你自己都不知道是否发生的事,机器是如何预测到的?

通过研究数据来做出预测仅仅是第一步。接下来是根据预测结果来采取行动,这才是真正考验勇气的时刻。第一章将分析一个案例,说明为何预测分析的影响和意义不亚于让火箭发射升空。第一章升空!预测开始发威将预测模型应用于实践,究竟需要多少勇气?人们凭什么从中获益?有人将毕生积蓄都投入到自己研发的股市交易预测系统上,但结果如何?运用预测分析意味着要根据预测结果去行动,要在实践中应用从预测中学到的东西并尊重数据所揭示的规律。许多人都在尝试做到这一点,否则,他们只能失败。

20世纪90年代中期,一位博士利用自己的业余时间设计出了一套股票预测系统。他再也按捺不住自己的激动心情,跟妻子商量之后就将毕生积蓄投入了股市,正如《化身博士》中的主角在月光下吞下自己配制的药液一样,年轻的约翰·埃尔德博士也毅然决然地在自己研发的系统上按下了“启动”键。

每项新技术的诞生都伴随着惶恐。航天飞机升空瞬间的画面或许能彰显科技力量和国家荣耀,但宏伟画面的背后却是宇航员家属承受的巨大心理煎熬。从本质上说,宇航员与特技飞行员无异,他们自愿将自己层层包裹起来,献祭于伟大的科技实验,冒着牺牲的风险换取留名青史的机会。

伟大的挑战孕育出伟大的成就。人类实现了月球漫步,近年来,更有非政府组织因研发出可循环使用的载人航天飞机而赢得奖金达1000万美元的“伟大挑战奖”(Grand Challenge)。无人驾驶汽车已经问世,歌谣中所唱的“看,妈妈,我开车不用手”变为现实,这也是由数百万美元的科技奖金催生的成果,在Google和宝马的厂区,无人驾驶汽车四处游弋。

与发射火箭相比,数据整合的科技意义同样深远,只不过数据整合针对的不是外太空技术的发展,而是一项新的前沿科技:预见未来。这同样是激动人心的探索,却不会像外太空那样危险和令人难受(外太空处于真空状态)。赢得数百万美元科技奖金的背后,是对每个病例都进行有效治疗并安排具有针对性的治疗方案。益智电视节目《危险边缘》曾给出150万美元的奖金鼓励举办人机对抗赛,让真人与智能计算机系统在电视上直接对决,看看究竟是人还是机器更善于回答各类问题(IBM研发的智能计算机系统最终赢得了胜利,但IBM为研发这套系统所投入的资金远远超过150万美元的奖金,本案例将在第六章中详述)。目前,大量机构都在利用大数据进行预测分析并将其运用于儿童入学研究、交通信号灯控制以及打击犯罪等社会各个领域。预测分析模型在实践中不断彰显威力,帮助人们赢得政治选举、棒球大赛并成功管理资产组合。

黑箱交易——由系统自动做出金融交易决定,这也是目前数据驱动决策中最振奋人心的部分。人们只需要将现有金融环境参数输入“黑箱”,系统就会自动做出买、卖或持有的决策。其系统特征首先是“黑”(即不透明),交易员根本无须知道系统内部的测算过程,只要系统得出有效的结论即可。如果系统得出的结论有效,那么这几乎可秒杀世上其他一切商业计划:电脑变成了自动挣钱的机器,消耗一点儿电力就可换来源源不断的投资收益。

因此,在股票交易系统设计完成之后,约翰·埃尔德就决定投入自己的全部身家。或许股市预测并不是人类迈出的伟大一步,但约翰的举动对其本人而言却绝非“一小步”,其意义无法言喻。当约翰孤注一掷地将所有“鸡蛋”都投入预测分析这一“篮子”时,他其实是吞下了自己配制的具有神奇魔力的“药水”。

在深入描述约翰的案例之前,首先要看看预测系统在黑箱交易领域之外的其他各类实践中是如何运行的。开始实践几乎每项工作都可从数据学习中获益。掌握了数据,你将无往不利。——约翰·埃尔德

成功运用预测分析的案例正在不断增加,这些案例都具备了如下内在特征:

• 海量数据的积累;

• 对预测科技的理解和利用程度的加深,组织文化的变迁;

• 预测分析相关软件的不断完善。

预测分析的盛行其实从一开始就已注定,因为预测科技天生就具有普适性——预测技术的应用方法数不胜数。如果你想拥有属于自己的运用预测分析的创新方法,仅需两步:

预测分析的应用包含以下两方面内容:

1. 预测内容:个人、股票以及其他任何事物的表现。

2. 采取行动:做出决策,针对预测结果做出的组织行为。

由于预测分析具有开放性,其应用领域几乎无所不包,案例也层出不穷,因此罗列案例本身就是一项“数据管理挑战”!本书将这些案例整理为9个表格,共包含182个案例,以便读者浏览并对此有大致的了解。这也是本书最精彩的部分。这些案例涉及股价、风险、事故、销售、捐赠、点击率、取消率、健康问题、医院入诊、欺诈、逃税、犯罪、故障、油量、电力中断、政府福利许可、思想、动机、答案、观点、谎言、等级、退出率、友谊、爱情、怀孕、离婚、工作、离职、赢取投票等。预测科技的应用领域正在不断拓宽!

在这些案例中,最典型的商业案例当属大众营销。

预测分析的应用:精准营销

1. 预测内容:哪些客户会对营销做出反应。

2. 采取行动:联系那些更倾向于做出反应的客户。

如大家所见,预测分析的应用证实了预测效果。

预测效应:小预测,大影响。

在此,我们可简单计算预测效应所产生的财务价值。假设某公司现在有100万潜在客户。给每个潜在客户发送营销材料的成本是2美元,但每100个潜在客户中只有一个会真正购买(即总共有1万份有效反馈)。公司把营销材料寄给了所有的潜在客户。如果每份有效反馈可赢利220美元,那么公司的收益是:

利润总额 = 收入 – 成本

=(220美元×10000)–(2美元×1000000)

计算所得的利润是20万美元。对此结果,公司应该不会太满意。

即使你此前对精准营销一无所知,你也会发现,这样漫天撒网的做法其实是在玩数字游戏,其中存在着大量的浪费,成功概率就好比让100万只猴子蒙着眼睛扔飞镖,中靶与否全看天意。正如20世纪初现代营销学先驱约翰·沃纳梅克所言:“我投在广告上的钱有一半浪费掉了,但问题是我不知道是哪一半。”实际上,这样的浪费远远不止一半,好在预测分析可以帮忙。人人爱预言,虽然不精确预测未来的第一步是承认我们无法预测未来。——怪诞经济电台主持人史蒂芬·都伯纳预测悖论:我们对自己的预测能力多一份谦逊,在规划未来上就多一份成功的把握。[1]——纳特·西尔弗, 《信号与噪声》

通过预测分析,你知道了哪些客户更容易对营销材料做出反应。大概有1/4的潜在消费者“对营销材料做出反馈的概率是平均反馈概率的3倍”!因此,现在你的潜在客户名单缩至25万,其中有3%的人会对营销材料做出反馈,也就是说,会有7500人成为真正的客户。

预言看起来有些模糊,丝毫谈不上精准,因为你无法确认一个消费者是否会购买。然而,这毕竟比一群猴子蒙着眼睛扔飞镖要强许多。如果你只是给初选后的25万名潜在客户邮寄材料,那么你的利润会发生如下变化:

利润总额 = 收入 – 成本

=(220美元×7500)–(2美元× 250000)

利润总额是115万美元!通过减少低效材料邮寄(也节省了大量的森林资源),企业就将利润总额提升到了原来的5.75倍。具体而言,当你预测到不值得给哪些人邮寄材料时,你就把这些人排除在营销计划之外。由此你将成本削减了3/4,而风险仅仅是损失1/4的销售额。这就是生意经。

要想测算预测的价值并不难。如上所述,尽管预测本身来源于复杂的数理运算,但只要通过简单的计算,就能知道这些或精确或模糊的预测结果的整体价值。这不再是抽象概念。预测效应意味着实实在在的收益。防护预测

可见,只要能提前预知哪怕一点点,只要在正确方向上看到一点点希望,就能创造出价值。在此,预测与科幻小说有相似之处。在科幻小说里,一点点超自然能力就会造成深远的影响。在根据菲利普·迪克的原著改编的电影《预知未来》(Next)中,尼古拉斯·凯奇惩恶扬善,大显神威。那么,凯奇的武器是什么呢?就是预知的能力。他能看到未来,但只能看到未来两分钟内将要发生的事。但这点本领足以改变世界。在片中,凯奇是手无寸铁的平民,心地善良,总是盼着世界变得美好,却要带着一群全副武装的联邦调查局特工在枪林弹雨中穿梭,这些特工全都听命于他。他能提前知道哪里有陷阱、哪里有狙击手、谁是伪装的坏人,因此他指挥着整个“超人类风险防控队”的一举一动,让这个团队绝处逢生。

从某种意义上来说,预测分析也能给组织打造一支类似的“超人类风险防控队”。组织机构做出的每项决策以及采取的每一步行动都蕴含着风险,如果能提前看到这些缺陷并采取防护性的措施,组织机构将获得更多的收益——规避犯罪行为、股价下跌、入院治疗、坏账、交通拥堵、高中辍学以及那些没有人看的营销材料。组织风险管理在传统意义上是针对单一和宏观风险的管理,例如飞机失事或经济下滑,但现在,风险管理正逐渐向大量微观事务管理的方向转变。

千万不要因此而感到心灰意冷。我们也可以从预知良好行为中获益,因为良好行为通常会产生积极的后果。预测正面因素可称为“猛扑式预测”,因为如果能看到某个消费者要做出购买决定、某只股票价格要上涨、某个选民要改变主意或一直在网上暗恋的某人开始有所回应,那么你必然会立即采取行动。

一点点洞悉未来的能力就能赋予你强大的力量,因为你会有更多的选择。在某些场合,看到未来之后,你就会尽力避免那些不该发生的事情,例如犯罪、损失和疾病。但如果未来之事正朝着正面方向发展,例如提前看到市场需求,那么你可以采取行动来充分利用这一点。无论如何,预测都有助于你做出明智的决策。

现在,我们来看看一个真实的案例。价值100万美元的无声革命

当组织采用预测分析时,其意义不啻发动了一支庞大军队,只不过这是由“蚂蚁”组成的军队。这些“蚂蚁”会走上组织运营的各大前线,与消费者、学生或病人等服务对象直接接触。之后,这个“蚂蚁军团”会在预测结果的引导下改善数百个决策。这一过程可能并不是轰轰烈烈的,但用心观察其综合效果之后,会发现这些细小变化所产生的合力。每一个被改善的决策本身可能都显得无足轻重,但成千上万的决策合起来就大为不同。

2005年,某位客户让我想办法提高他网站的点击量,为此我把自己埋在了相关数据中,希望能找出办法帮助这位客户。这位客户希望其网页上的广告能获得更多的点击量。这关乎收入,广告的点击量越多,这位客户的收入就越高。这家网站在创办几年后已拥有数千万用户,用户数据大概有5000万条,这就是用来做预测的宝贵的原始材料库,而预测的对象竟然是:点击!

广告是媒体不可分割的部分,无论是纸媒、电视还是网络媒体都离不开广告。本杰明·富兰克林曾说,人生中不可避免的两样东西是死亡和税。如果他现在还活着,一定会加上第三样东西:广告。互联网巨头Google承认,广告是其最大的收入来源。Facebook也是如此。

但对于我要研究的这家网站来说,广告的功能略有不同,只要能预测用户的点击率,其潜在收益就会更大。这家网站提供搜索高校奖学金的服务,在美国所有准备上大学的高中生中,大约有1/3都是这家网站的用户。这虽是不显眼的细分市场,但对于许多大学和军校的招生工作人员来说,却是不容错过的网站。在该网站上,有一则大学招生广告很霸气,它自称是“美国创新型教育的领导者”,上面还附加了链接让用户点击。不难想象,一些提供学生贷款的机构也选择在这家网站上投放广告,让报考学生没有财务上的后顾之忧。这些广告商为每次点击支付25美元。对于网站而言,如果一次点击就能换来这样丰厚的收入,那真是太棒了。此外,网站上的广告与网站主题紧密相关,而网站的用户也有很强的目的性,因此平均下来每100次点击就能产生5笔成功交易,这是令普通网站难以企及的业绩!因此,拥有这家网站的猎头公司从中获利颇丰。任何微小的改善都意味着总收入的显著提升。

但要想改善用户的广告选择却不是件容易的事。网页切换时,用户面前可能会出现很多广告。最难的就是让用户点击最适合他们的广告链接。目前,网站根据各广告的平均点击率来排序,完全没有考虑用户的独特需求。因此,点击最多的广告总是摆在最显眼的位置。这样的安排降低了广告与单个用户的匹配度,而且广告一旦被推到显眼的位置,就很难被替换下来,因为大量用户总是会不经意地点击最显眼处的链接。某些大学对每次点击都愿意支付高价,而且因为位置显眼,其广告链接的点击率也很高。因此,似乎没有理由用冷门的广告去替换主流广告,因为这样做很可能会失去唾手可得的收入。个性化的危险

如果根据预测结果来为用户安排相应的广告,网站实际上是要冒风险的。因为预测结果往往是:“尽管甲校的广告点击率很高,但对于这位用户,最好还是推荐乙校的广告。”正因为风险高,大部分网站广告都不会根据用户状况进行针对性调整,即便是Google [2]AdWords服务,其广告也是按页面内容、广告点击率以及广告商出价(广告商愿意为每次点击支付的价格)的排序来显示的。这完全忽略了看这些广告的具体用户的独特需求。

然而,如果愿意承担这些风险,那么网站在个性化广告方面就会前进一大步。对于企业来说,做到这一点就意味着“定制广告”、“提高相关度”以及“一对一营销接触”!与营销中的定制广告相同,科学预测也有利于实现有针对性的医疗处理或犯罪打击。《纽约客》杂志撰稿人马尔科姆·格拉德威尔曾在演讲中以人们选择意大利面酱料为例,说明不同的用户可能会选择时蔬、甜酱或辣酱。“曾经,人类在不断求索宇宙的普遍真理,即那些对每个人都适用的普遍规律,在整个19世纪和20世纪的大部分时间,整个科学界都在为此努力。心理学家、医学家以及经济学家都在试图找出人类行为的普遍规律。但现在,情况完全不同了。科学在过去10年或15年发生的最大变化是什么?那就是从注重普遍性转而注重个性。在现代医学中,我们不想知道癌症到底是如何发生的,我们只想知道,我的癌症与你的癌症有什么区别。”

在从医疗诊断、消费倾向方面,个性超越了普遍性。广告也是如此:

预测分析的应用:预测广告受众定位

1. 预测内容:消费者最有可能点击的广告。

2. 采取行动:显示最好的广告(根据被点击的可能性以及广告主愿意支付的价格)。

于是,我研发出了相应的预测分析软件,来帮助这家公司明确广告受众。软件若有丝毫差池,这家公司便会毫不犹豫地将其视为二流创意丢进垃圾桶。只有那些能带来大量现金流的程序才是合格程序。为了让该预测分析软件能担此大任,我们赋予了其火力强大的“武器库”。预测结果来自计算机对5000万个实际案例的分析,每个案例都是基于客观存在的“微经验”,即“玛丽看了广告甲并点击进去”(正面案例)或“约翰看了广告乙但没有点击”(负面案例)。

此处所采用的为每个具体用户选择最佳广告的系统方法依据的是贝叶斯统计理论,这一理论的名称来源于神父托马斯·贝叶斯——18世纪伟大的数学家。我们简化了其分析方法,但最终的计算结果还是成立的,因此在实际操作中,我们会得出“足够好”的预测。实际上,对于每个广告,我都要研发出291个模型。根据这些模型的综合结果,我们就可预测用户最有可能点击什么广告。预测分析程序的安装:迂回和拖延

正如航天飞机一样,从理论上看,预测分析程序看上去很完美。你要先设计并构建好系统,然后将其放在发射塔上等待发射信号。但当真正开始执行时,却可能出现波折。计划不得不往后拖,之后还可能遇到新的问题。美国莱特兄弟发现了载人飞机的巨大价值并为此激情澎湃,但其发明之路却充满坎坷和艰辛,在所有障碍被排除之前,他们曾遭遇无数次失败,摔断肋骨,差点儿搭上性命。

广告定位和其他实时预测分析系统的预测结果必须在“瞬间”生成,由此才能产生价值。现代互联网世界不允许任何拖延,系统必须做出实时预测——该显示什么广告、该买入什么股票、是否该发放信用卡、是否要推荐某部影片、是否要过滤掉可能含有病毒的邮件或迅速回答电视智力问答赛上的题目。实时的预测分析方案要直接与网站或信用卡受理程序等操作系统融合。如果要为某企业增设预测分析系统,软件工程师可能要费很大的工夫才能完成,而企业中的软件工程师通常又肩负维持具体项目日常运行的任务,工作安排本来就很紧张。因此,预测分析项目的实际应用过程很复杂,远远不是高管层点个头那么简单。他们安装好我的广告筛选预测程序,已经是11个月之后的事了。将近一年前的陈旧数据还有效吗?预测的力量是否会因此消失?

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载