大数据预测——告诉你谁会点击、购买、死去或撒谎(txt+pdf+epub+mobi电子书下载)


发布时间:2021-08-02 05:54:45

点击下载

作者:(美)埃里克·西格尔(Eric Siegel)

出版社:中信出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据预测——告诉你谁会点击、购买、死去或撒谎

大数据预测——告诉你谁会点击、购买、死去或撒谎试读:

序言

本书旨在通过量化方法来预测人类的行为。人类在此方面的最初实践是在第二次世界大战时期。1940年,“控制论之父”诺伯特·维纳(Norbert Wiener)便开始尝试预测德国空军飞行员的行为,目的是消灭这些纳粹空中力量。其预测方法是,观测德国飞机运动的轨迹,推测飞行员可能采取的机动规避动作,由此推断飞机接下来所处的位置并用高射炮将其击落。然而,维纳只能推断出飞机下一秒的运动轨迹,要想精确炮击飞机,必须预测飞机至少20秒的运行轨迹。

在埃里克·西格尔的书中,读者将看到许多预测案例,这些案例与维纳预测德国飞机的案例相比要精准许多。与“二战”时期相比,目前计算机的运算性能有了极大的提升,数据的丰富程度也非维纳之时可比。因此,银行、零售商、政治团体、医院以及其他众多机构,都在通过计算机数据处理来预测某些特定人群的行为,进而实现赢取客户、赢得选举或治愈疾病的最终目标。

在本人看来,这些预测行为是有益于人类发展的。在疾病治疗、打击犯罪以及反恐等领域,预测能挽救生命;在商业广告领域,预测能让广告定位更加精准,从而达到保护森林(减少无效纸质广告和宣传册的发放)、节省受众的时间和精力的目的;在政治领域,那些相信科学预测方法的政治候选人会拥有更大的胜算。

然而,正如西格尔在本书开篇中坦诚指出的那样,这些方法也可能产生问题。西格尔引述了电影《蜘蛛侠》中的台词“力量越大,责任越大”来说明这一点。其引申意义是,人类必须谨慎运用预测模型,否则其效用和益处就会大打折扣。与其他重要发明或革命性创新成果相似,预测分析本身并无是非对错之分,但作为工具,它却会带来或善或恶的后果。要想避免预测分析的不正当应用,我们首先必须知晓预测分析究竟能做什么,随着对本书阅读的深入,相信读者会对此问题形成自己的见解。

本书的重点是预测分析,这是诸多分析方法中的一种,是最有趣味和最重要的分析方法。在我看来,纯粹的描述性分析已经过时了,因为它记录的是过去发生的事情,无法真正说明这些事情为何会发生。此外,我也经常在自己的书里提到第三种分析方法,即规范性分析,也就是通过实验监测或定向优化来告诉人们应该怎么做。但这些数理分析方法的应用范围较预测分析要小许多。

本书内容及其背后的思想与纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)的思想恰恰相反。塔勒布在其《黑天鹅》等书中提到,由于世界充满着偶然性且复杂事物的发展总是具有内在的不可预测性,因此预测行为注定会有失误。毫无疑问,塔勒布的话是有道理的,世界上总会有不可预测的“黑天鹅事件”,但我们认为,大部分人类行为都具有惯常性和可预测性。西格尔在本书中所给出的大量成功预测的案例表明,世界上大部分天鹅都是白色的。

同时,西格尔也在试图避免陷入“大数据”的陈词滥调。尽管书中的某些案例具有“大数据”分析的特征,即数据量庞杂无序且难以用传统关系数据库进行分析,但预测分析的关键点不在于数据的规模或繁复程度,而在于其如何对待或取舍数据。我认为,通常,“大数据不过是小算术”,某些大数据实践者所做的不过是用宏大数据来装点门面。因此,其价值与真正的预测模型相比,自然有云泥之别。

西格尔在本书中所阐述的是复杂精巧的理念,但其行文却浅显易懂,无论读者是否熟悉数理分析,都可读懂本书。书中包含了大量的实际案例和分析图表,并用通俗诙谐的笔触剖析预测分析。即便是非数理分析专业人士,也应该好好阅读本书,因为在现实生活中,任何人的行为都免不了成为他人分析和预测的对象。此外,随着信息社会的发展,非数理分析专业人士也必然要在实践中学习预测模型、评估模型效果并根据预测模型的结果采取适当的行动。

总而言之,我们所处的是讲究预测的社会。要想在这样的社会中生存发展,最好的方法就是去理解预测的目标、方法以及限制,要想做到这一点,最好的方法莫过于阅读本书。托马斯·H·达文波特哈佛商学院访问教授、巴布森学院杰出教授和国际数据分析研究所创始人数据分析竞争法》作者

前言 预测分析的职业风险

昨天已经过去,明天全然未知,我们能够把握的,只有今天。——英国儿童文学作家米尔恩(A. A. Milne)、美国漫画家比尔·基恩(Bill Keane)以及《功夫熊猫》中乌龟大师的名言

每当我告诉别人我的职业时,人们总是用异样的眼光看我。这也算是职业危害吧。

信息时代其实存在着巨大的不确定性。这样的论断可能会使许多人感到吃惊,因为当前,我们几乎可以把世界上发生的每一件事情记录下来。如果说历史书上仅仅记载那些重大事件,那么现在的信息系统如此发达,以至于人类的每次点击、每次支付、每个电话、每次交通事故、每次犯罪行为以及每次求医问诊都会被记录在案。在如此完备的海量数据面前,数据爱好者即便没有觉得自己是天之骄子,至少也应该感到心满意足吧。

但如此巨大的信息库中所缺乏的恰恰是最值得人类知晓的事:未来之事。

人人都渴望拥有预知未来的能力,他们对预测几乎无法抗拒。我们对先知神明顶礼膜拜;我们为算命先生慷慨解囊;我们热衷于占卜问卦,崇拜占星之术,对那些“讨口彩”的食品甘之如饴。

在狂热追求非理性预测行为的同时,人们却又常常鄙夷符合科学规律的预测。他们对科学预测的直接反应是“敬而远之”——科学预测显得深奥而乏味。对于许多人而言,或许预测是只有凭借超能力才可以做到的事情。美国喜剧《灵异妙探》(Psych)中的故事颇能说明这一点,这部剧的主角是一位具有敏锐的数据推断力的侦探,这位现代版的福尔摩斯具有超强的观察力,他对事实的精准描述常常令警察误认为他就在犯罪现场。为此,这位“神探”给出了一个最合乎情理的解释:自己有通灵能力。警察信以为真,而他也得以继续四处侦探,打击犯罪。绝对的喜剧!

我也有过类似的经历,比如,当别人友善地问起我的星座属性时,我不会假装自己相信这套东西,但我会用自相矛盾的方式回答他们:“我是天蝎座,天蝎座的人从不相信星座属性。”

在各类聚会中,经常有人问我到底是做什么的。每当此时,我都会调整姿态,看着对方略带困惑的表情,准确无误说出四个字:预测分析。大部分人的工作用一个单词就可以形容:医生、律师、服务员、会计或演员,但我的工作却不太容易描述。每次我都要费半天口舌向别人介绍我到底是做什么的。如果我含糊回答,对方更会打破砂锅问到底:“我做技术领域的商业咨询。”如此回答后,对方会接着问:“什么技术?”“我通过电脑来预测人的行为。”这种回答通常会引发更大的困惑,其中夹杂着怀疑和恐惧。“研究数据来预测个体人类的行为。”对方还是不解,在聚会上,没人愿意谈论数据。“分析数据来总结模式。”对方听后,表情更加困惑,在懵懂中陷入尴尬、沉默。“帮助营销人员确定哪些客户会下单,哪些不会下单。”虽然对方能听得懂大概的意思,但这种描述完全贬低了我的职业。毕竟,这只是我工作的一部分。“预测客户行为,就像用孕试纸检测你是否怀孕了一样。”对方直接被吓跑。

为此,我写了这本书,想说明预测分析是直观的、有力的,是可以令人大开眼界的。

一点预测,无限可能。我称之为“预测效应”,这也是贯穿本书的主题。只要是预测而不是猜测,那么其力量就是显而易见的。预测效应表明,预测分析是可信的。我们只要顺势而为,就可以更好地看清未来。有一项令人激动又令人信服的发现:现在与未来之间隔着层层迷雾,但只要我们能将雾气稍微冲淡些,然后潜心研究较为清楚的那部分,我们就将创造出无限的价值。正因如此,预测分析可以帮助人们规避金融风险、改善医疗服务、清除垃圾邮件、加强打击犯罪或提升销售业绩。

你有科学家的好奇之心吗?你有不断进取的创业者的情怀吗?你是否对预测本身或预测能产生的价值感到着迷?

我对“知晓不可知之事”尤为热衷。预测似乎能打破这一自然规律:人不能知晓未来,因为未来尚未到来。但自从研发了能从历史经验中总结规律的计算机系统,人类现在可以更好地看清未来。通过严谨的方法来整理“已知”数据信息,人们就可越来越精准地预见未来之事。这是数学与科技的融合,两者之间不断地相互砥砺,最终开花结果,产生了科学的系统,由此连通现在与未来之间那个曾经不可逾越的鸿沟。

这是一项前无古人的事业!

有人做销售,有人搞政治,而我则做预测,这令我骄傲。

导论 预测效应

我也是普通人,在生活中,有成功,也有失败;有时交好运,有时走霉运。人们总是想象,如果生活不是这样,那将会怎样。在此,我想简单说说我所遭遇的6次不幸。1. 2009年在犹他州滑雪时受伤,我的右膝盖差点儿残废。滑雪起跳时没有问题,但落地时却发生了偏差。膝盖要做手术,因为膝关节前交叉韧带断裂,所以要选择身体其他部位的韧带进行修复。这样的选择很痛苦,因为如果选择失误,我下半辈子就有可能变成瘸子。最后,我选择了用自己的腿后腱。那么,医院能否给我提供一个更好的治疗方案?2. 我本人承受了极大的身体痛苦,但付钱付到肉疼的却是保险公司,因为膝盖手术相当昂贵。那么,面对我这类蹩脚的滑雪爱好者,保险公司能否更好地预见风险并把风险计算在保费里?3. 早在1995年时,我就遭遇过事故,虽然那次事故并未对我造成大的身体伤害。我的身份证号被盗,我不得不耗费大量时间在不同部门之间奔波,走那些烦琐的程序,填写各种表格,由此来消除错误的信用记录。那么,那些对我的账号放债的人,他们有没有办法在第一时间就判断出我的账户被盗了呢?4. 在恢复了良好信用记录后,我以按揭方式购买了一套公寓。这算是明智的投资决策吗?或许我的理财顾问应该对我进行风险提示,因为这套房子在买入之后,很快就因跌价而变成负资产。5. 其实我的职业生涯充满风险。虽然现在生意还可以,但作为企业,势必要面对经济环境变化或竞争加剧带来的风险。那么,我们能否预测:哪些营销行为会有效果,哪些投资活动会有良好回报,哪些行为只是烧钱呢?6. 我们的日常生活是由小事构成的,这些小事的顺利与否决定了我们的命运。有效的垃圾邮件过滤系统可防止我们在工作时被打扰。有效的互联网搜索也很重要,不仅工作中要用到,还可用来搜索医疗信息(如膝盖手术的知识)、家居装潢以及其他信息。我们也信赖潘多拉网络电台以及Netflix(网飞公司)所推荐的个性化影片和音乐。但在许多年之后,我的邮箱却还是常常收到垃圾邮件。为何有些公司就不能多了解一些我的信息,来减少无效邮件呢(如果是纸质邮件,还可减少森林砍伐)?

这些问题并非无关紧要,它们决定着我们每天、每年甚至这辈子生活的好坏。那么,这些问题有什么共同点呢?

与其相似的许多挑战和问题其实都可通过预测的方法加以解决。病人是否适合做这个手术?借款人是否会欠钱不还?这位购房者能及时还上按揭吗?这位消费者是否会对邮寄的营销材料感兴趣?如果能正确预测这些问题,那么,我们的生活将因此而得到极大的改观。大企业的预测——资产的归宿

我们还可以从其他角度来看待这个问题。预测除了让你我这样的消费者获益之外,也可让企业脱胎换骨,形成全新的竞争力。因此,很多企业都在不遗余力地提升预测力。

20世纪90年代中期,一位名叫丹·斯坦伯格(Dan Steinberg)的商业科学家走进了美国大通银行,他要帮助这家金融机构预测数百万份按揭的风险。大通银行采纳了斯坦伯格的预测技术,并借助斯坦伯格研发的系统来评估、处理大量的银行按揭。从此,斯坦伯格在金融界声名鹊起。

预测就是力量。如果某大型商业机构能预测个体资产的风险变化和价值,那么,它将形成不可撼动的市场竞争优势。在本案例中,大通银行精确预测了按揭申请人的未来还款行为,由此极大降低了放贷风险并增加了赢利——大通银行当年就获得了高达9位数的利润。发明会学习的电脑

预测技术不断完善,渐成主流,现在几乎无处不在,时刻影响着我们的生活。预测技术正在不知不觉中影响着人类的体验,无论是开车、购物、学习、就医、沟通、看电视,还是赚钱、借钱甚至偷盗。

本书要讲述的是计算机预测技术中最具影响力和最有价值的成就,以及其背后的两大因素:技术背后的人和推动技术发展的神奇的科学。

做出精确的预测是件很难的事。每项预测都有若干先决条件,即首先要掌握每个病人、每个购房者以及每封邮件的不同特征信息。那么在每项预测中,我们该如何将这些分散的信息综合起来呢?

说起来容易做起来难。我们的应对之策就是,用系统化和科学化的方法来开发并持续改善预测技术,即要让计算机系统自动“学习”如何预测。

这就是机器学习,也就是让电脑自动获取新知识和新能力,持续不断地输入现代社会最有价值和最重要的非自然资源:数据。“喂我吧!”——机器思考的食物数据是一种新型石油。——欧洲消费者委员会委员梅格莱纳·库尼瓦(Meglena Kuneva)知识的唯一来源是经验。——阿尔伯特·爱因斯坦我只信数据。——质量管理大师威廉·爱德华兹·戴明(William Edwards Deming)

大部分人都对数据感到厌倦,它好像总是让人觉得乏味。数据仿佛是无数事实和数字的堆砌,每条数据都显得无聊,其乏味程度等同于“我买了双新鞋”之类的微博。这是一大堆尚未加工的索然无味的材料,只有企业才会去咀嚼。

但千万不要被数据的表象欺骗!其实,数据里凝结了极为珍贵的值得学习的经验。每一次医疗诊断、借款申请、Facebook(脸书网)发帖、影视推荐、欺诈行径、垃圾邮件,以及结果或好或坏的购买行为、失败或成功的电话推销、交通事故、事件或交易,都会被整理成数据并积累起来,由此缔造了海量的原始材料。它们的数量是如此庞杂,只有计算机才有可能从中总结出规律。如果应用得法,计算机就会像海绵吸水一样从原始材料的汪洋中汲取知识。

随着数据的不断累积,人们也开始掀起了从数据中获取财富的淘金热。但数据本身并不是黄金,作为原始材料的数据只是枯燥无味的代码组合。只有从数据中提炼出来的规律和知识才是黄金。图0-1 数据—机器学习—预测

计算机自动学习系统的研发使得数据资源的能量开始爆发。因为这一系统揭示出了人类的动机及行为,这是人类生存的印迹以及世界发展的奥秘所在。在获取这些新知识后,科学预测就成为可能。

计算机在自我学习过程中发现了如下有意思的规律:·提前退休会缩短寿命。·网上约会时,评分越高,配对成功率就越低。·女歌手蕾哈娜的粉丝大都支持民主党。·素食主义者不太容易误机。·公共体育活动会导致本地犯罪率上升。

机器学习会从这些发现中尝试建立预测能力,通过对数字的挖掘和试错,并用统计学方法和计算机科学方法实现这种预测。我早就知道你会这么做

当拥有这些预测能力之后,我们想要预测什么呢?人的每个行为都值得预测,无论是消费、思考、工作、放弃、恋爱、生育、离婚,还是捣乱、撒谎、欺骗、盗窃、凶杀、死亡。让我们来看看其中某些行为。人的消费行为·好莱坞的影视公司会预测,如果某剧本被制作成影片,它是否会受欢迎。·Netflix悬赏100万美元来改善其影片推荐系统,某研究团队因为成功地让系统推荐的影片更受消费者喜爱而赢得奖金。·Energex(澳大利亚电力集团)预测电力需求,以此确定在何处建设电网;Con Edison(联合爱迪生电力公司)会预测在用电高峰时可能出现的系统故障。·华尔街的金融机构通过观察股价涨跌预测股价未来走势,AlphaGenius和Derwent Capital两家投资机构会根据Twitter(推特)上公众的表现来进行对冲基金交易。·企业会预测哪些消费者会购买其产品并选择其作为营销对象,无论是大型金融机构还是像港湾甜品(糖果)和佛蒙特乡村商场(提供“高品质且难以寻找的经典产品”),它们都在这样做。宝贵的营销预算要依照预测结果来分配。某些公司甚至会预测,如何才能提升对消费者的影响力,让消费者买得更多(详见第七章)。·超市收银台发放的优惠券,也是预测在起作用。英国零售业巨头乐购是全球第三大零售商,它会预测哪些优惠券被拿回来使用,由此提升每年在全球13个国家的门店里发放的上亿张优惠券的利用率。与此前的方法相比,科学预测将乐购优惠券的使用率提升了3.6个百分点。于是,凯马特超市(Kmart)、克罗格超市(Kroger)、拉尔夫超市(Ralph's)、喜互惠连锁超市(Safeway)、停车采购超市(Stop & Shop)、目标超市(Target)以及温迪克斯(Winn-Dixie)等零售商也纷纷效仿。·如果能预测网络用户的点击率,企业将获得丰厚的回报。通常,网站上的广告都是按点击率来收费的,因此网站会预测你最可能点击的广告,然后让广告在最显眼的位置弹出。实际上,网站替你选择了与你相关性更高的广告,并以此增加了数百万美元的收入。人的恋爱、工作、生育和离婚·职场社交网站LinkedIn(商务化人际关系网)会预测你的未来职业选项。·婚恋网站Match.com、OkCupid和eHarmony会根据你的特征为你推荐相亲对象。·目标超市会通过预测客户的怀孕时间来推销母婴用品。·临床研究人员会预测不忠与离婚之间的关系,现在甚至还有预测离婚的自助网站,让你测测自己婚姻的长久程度(www.divorce360.com),据传信用卡公司也采纳了这套方法。人的思考和决策·2012年,奥巴马在选民预测系统的帮助下再次当选为总统。奥巴马的竞选团队成功预测到,通过与选民进行与竞选有关的接触(例如电话、家访、横幅广告以及电视广告),选民更容易支持己方,反之,选民便会倾向于支持对方。这套方法针对的是数百万的“摇摆选民”,与传统的选民定位相比,它让更多的选民选择了奥巴马。·“你是什么意思?”现在,电脑系统已经学会了从书面词句中推测人的主观动机。花旗银行和贝宝支付(PayPal)能以此感知到用户对其产品的态度,而某位研究人员研发的系统则可判断亚马逊网站上的书评哪些是在说反话。·学生论文评分系统现在已经问世,可自动给论文评分,系统精确程度与人相当。·现在,计算机已经能参加美国最受欢迎的智力和知识挑战节目,直接与人类选手对决。在《危险边缘》(Jeopardy!)电视问答节目中,IBM(国际商业机器公司)所研发的电脑“沃森”击败人类选手获得了胜利。这台电脑可准确处理英语信息并回答各类随机抽取的知识问题,还击败了两位曾获得该节目冠军的人类选手。·现在的计算机已经可以读懂人的思想。科研人员研发出了这样的系统来解码人类大脑活动并确定大脑正在思考的对象。例如,是关于某些工具、建筑,还是关于食物?现在,计算机预测的正确率已经超过80%。2011年,IBM预测说,未来5年,读心术将成为主流。人的放弃·惠普公司对其全球33万名员工都进行了“离职风险”评估,预测每位员工的离职可能性,这样管理层就可提前介入或及早采取应对措施。·你是否对手机运营商的服务感到厌倦?运营商也在努力预测用户的体验。世界上所有大型移动运营商都会判断用户终止服务合约并转投竞争对手的风险,因此或许在你决定更换运营商之前,他们就已经提前知晓,其预测的依据就是你的通话故障次数、电话使用频率、账单信息以及你的主要联系人是否已经选择了其他运营商。·联邦快递在快递市场上始终处于领先地位,因为这家公司能预测哪些客户会投向竞争对手,其预测成功率高达65%~90%。·美国公立大学系统可预测辍学率并依据预测结果来积极管理学生;此外,亚拉巴马大学、亚利桑那州立大学、艾奥瓦州立大学、俄克拉何马州立大学以及荷兰爱因霍芬科技大学都在用计算机预测学生的辍学率。·维基百科的大部分编辑人员都在免费工作,他们维护着这份网络百科全书纯粹出于热爱,但维基百科也在预测,哪些编辑人员可能会中途退出而不再继续为其做出贡献。·哈佛医学院的研究人员预测,如果你的朋友戒烟,那么你戒烟的可能性就会提高。戒烟也具有“传染性”。人的事故·保险公司会预测谁开车更容易出交通事故,或谁在滑雪时更容易受伤。好事达保险公司(Allstate)会根据投保车辆的状况来预测出现交通事故时车内人员的受伤情况,这项预测每年可为该公司节省4000万美元。另外一家公司在保险精算中采取了高级预测技术,每年可因此节省5000万美元。·福特汽车正从一系列数据中预测规律,以此研发报警系统。这样,当驾驶员分神、疲劳或酗酒之后,汽车系统就会自动采取大声报警等防护措施。·研究人员从国家交通安全委员会的数据中分析得出,飞机失事造成的死亡概率是普通交通事故的5倍。·所有的重要金融机构和信用卡发卡机构都会预测申请人破产、无力偿付贷款或信用卡欠款的概率。讨债公司主要预测的是,采取什么样的方法才能从破产债务人那里收回尽可能多的债务。人的疾病和死亡我并不害怕死亡,只是希望死亡降临的时候,我恰巧不在。——伍迪·艾伦·2013年,美国医疗保健机构Heritage Provider Network悬赏300万美元,征求医院住院率最佳预测方案。每年,美国医疗机构都会花费数十亿美元接收无住院必要的病患,预测住院率能有效节约这项成本。与此类似,匹兹堡大学医疗中心则在预测短期重复住院治疗的概率,为此,医生在开出院证明时就会更加审慎。·在斯坦福大学,科研人员研发出了高效的乳腺癌诊断系统,通过检测人体组织样本中的若干指标,该系统可精确判断患者是否患有乳腺癌,其效率远高于此前的人工检测。·杨百翰大学和犹他大学的研究人员通过检测血液样本中的肽指标,最早可在孕24周时就精准预测早产概率,其准确率达到80%(检测正常生产的准确率当然也达到了80%)。·高校科研人员仅凭发言记录就可预测发言人是否患有精神分裂症。·除了传统的精算表格之外,现在越来越多的保险公司都在采用预测技术来判断投保人的死亡概率。或许这应该被称为“人身死亡险”,在投保人尚在人世时,保险公司就开始预测其何时会死亡。·除寿险公司之外,目前全美五大保险公司中的一家正通过观察投保人近期医疗保险报销记录来预测老年投保人在未来18个月内逝世的风险。不过,这些预测的目的都是善意的。·研究人员会根据病患的各项指标以及身体状况来判断其在手术中猝死的风险,并将信息用于制订诊疗方案。·医疗行业中的一项惯例是,医护人员常常会以牺牲某些病患为代价来挽救另一些病患的生命,当然医护人员这样做并不是故意为之,也毫无道德争议。除诊断方案或手术结果之外,如果医护人员能够预测“医疗影响”(详见第七章),那么就可减少这类事情的发生。人的撒谎、欺诈、盗窃和谋杀·大部分大中型银行都采取了预测技术来防范单证造假、信用卡盗刷以及其他欺诈行为。公民银行通过预测技术,将单证造假损失降低了20%。惠普公司则通过及早发现虚假保修申请节省了6600万美元。·具备预测能力的计算机可帮助司法人员判断谁应该被关进监狱。在做出入狱或释放决定时,俄勒冈州和宾夕法尼亚州等地的司法人员会使用预测系统来评估嫌疑人是否有再犯的风险。·谋杀可能是公认的最无法预知的事,但在高风险人群内,预测技术却可以发挥作用。马里兰州就用分析系统来预测那些在监狱中的人,谁可能会杀人,谁可能会被杀。科研院校和执法研究人员也研发出了类似的系统,可预测哪些杀人犯会再度行凶。·英国某大型银行的一位反欺诈专家在发现某些银行账户交易的异动后,竟然顺藤摸瓜,找出了一批恐怖分子。·芝加哥、孟菲斯、里士满以及弗吉尼亚的警察会加强在预测的犯罪热点地区巡逻。·在《别对我撒谎》这部电视剧中,主角可通过观察“细微表情”来判断对方是否在撒谎。受此启发,水牛城大学的研究人员研发出了观察眼球移动的测谎仪,其测谎精确率达到了82%。·我曾于20世纪90年代末在哥伦比亚大学执教,当时我和我的助教们使用了一套作弊检测软件,以此检测上交的数百份编程作业中是否存在抄袭剽窃行为。·美国国税局可预测纳税人是否会偷税漏税。预测的局限和潜力经济学家是这样的专家:明天,他将会明了为什么自己昨天的预测在今天没有发生。——美国专栏作家厄尔·威尔逊(Earl Wilson)你有没有听过“算命先生中彩票”的新闻?——美国脱口秀主持人杰·雷诺(Jay Leno)

上述的每项成就都源于预测,而科学预测本身又是机器自动学习的结果。这些林林总总的关于预测的成功案例与科幻小说迥然不同:它们是真实的。或许此时,你应该想到,上述的预测案例仅仅是成功的科学预测的小部分例证。我们可以肯定地说,预测的力量远远不止于此。

但这样的断言是否有些过于自信?正如丹麦物理学家尼尔斯·玻尔(Niels Bohr)所言:“预测很难,尤其是对于未来的预测。”那么,未来是否有可能预测?毕竟,未来充满着不确定性。表0-1 安全和效率故障检测的预测分析

其实,企业在做营销时已经预先进行了某种“数字计算”,这种预测为其带来了丰厚的回报,尽管企业所做的预测并不完全准确。事实上,即便预测的准确率较差,预测所产生的效用依然很高。如果说普通消费者群体的反馈率是1%,那么敏感消费者群体的反应率就是3%。此时,我们依然不能断定,哪个消费者会对营销材料做出反应。

这就是“预测效应”的核心价值。只要预测的准确率超过了毫无依据的猜测,那么即便预测结果不是那么精准,预测也会创造真正的价值。在预测未来的过程中,尽管有迷雾存在,那也远胜于在黑暗中盲目前行。预测效应:小预测,大影响。

这是本书所要阐述的第一个效应。或许大家都听过“蝴蝶效应”、“多普勒效应”或“安慰剂效应”,而在预测分析中,我们有数据效应、归纳效应、组合效应以及说服效应。每个效应都是科学与技术的有趣结合:从直观观察开始,到揭示如何运转,最后成功实现效应。梦想之地人总是会受信仰和偏见的制约,但如果你能用数据来替换主观信仰和偏见,那么你将获得明显的优势。——迈克尔·刘易斯《魔球——逆境中致胜的智慧》

那么,预测究竟属于哪个研究领域或哪项科学分支?学习如何在数据基础上做预测有时会被称为“机器学习”,这个术语常常出现在科研实验室、学术论文以及大学课堂上(本人曾于20世纪90年代末在哥伦比亚大学教授《机器学习》这门课程)。这些象牙塔般的环境当然是知识的源泉和圣殿,但这里面的知识却无法直接用于实践。在商业、工业以及政府管理等“真实世界”里,通过机器学习去预测有其固定的名称,这也是本书要阐述的主题:预测分析(PA):学习经验(数据)来预测个人未来行为的技术,以更好地做出决策。

预测分析建构在计算机科学和统计学基础上,同时也受到学术研究和大学教育的推动。预测分析有其自身的规范,但其属性却决定其除了作为科学分支之外,也产生了其他巨大的影响。每天都有数百万的决策是借助预测分析做出的,涉及领域包括电话营销、推广、录取、测验、医疗诊断、警报、侦查、监禁、约会以及用药等。预测分析是以数据为依据的帮助人做决策的工具,它是以数据为引导的。通过回答日常生活中庞杂琐碎的问题,预测分析或许能解决一些宏观问题:我们如何才能有效改进政府、医疗、商业、非营利以及执法等部门的功能?图0-2 预测可帮助相关组织机构决定如何对待和服务个人

在此意义上,预测分析与普通宏观预想有着本质的区别。预想是宽泛层面上各项预测结果的总和,如经济会怎样发展,哪些国家会崛起等。如果说预想的对象是内布拉斯加下个月冰淇淋的销售总额,那么预测技术则是判断哪个内布拉斯加人会在下个月买冰淇淋。

预测分析使得人们在做决策时越来越注重“数据驱动”,也就是更依据客观统计数据而不是某人的“判断”。在这个以事实为基础的领域中,常见的词汇都是“分析学”、“大数据”、“商业情报”以及“数据科学”等。尽管预测分析可能从属于上述各个概念,但这些概念更多的是在形容某些数据科研人员所处的文化或技能体系。这些科研人员对数据本身进行了极具创新性的分类,而不是将其随意地归为某种技术或方法。这些领域涉及的内容很宽泛,有时仅仅是以标准的电子表格式报告的形式体现出来,例如那些重要的必须加以改进的事情,但其中可能很少涉及科学或复杂的数学计算。因此,这些工作都具有很大的主观性。正如奥莱利出版社副总裁迈克·劳克德斯(Mike Loukides)所言:“数据科学就像色情书刊,只有看了才知道。”此外,还有一个概念叫作“数据挖掘”,这也常常被人们与预测分析混用,尽管预测分析也有“深挖”数据的意味,但数据挖掘所指的领域要宽泛许多。组织学习Google(谷歌)和亚马逊等互联网时代的巨擘,其商业模式都围绕着基于机器学习的预测模型。——纽约大学斯特恩商学院教授瓦森特·达哈(Vasant Dhar)

任何组织都是“人的组合”,那么我们是否也应该“组合学习”呢?团队的形成是为了成员的共同利益,公司、政府、医院、大学和慈善机构莫不如此。在团队形成之后,劳动分工、技能互补以及规模效应就可发挥作用,从而实现整体效用大于部分效用之和。因此,集体学习自然也就成为继续发挥团队力量的必要步骤。一位销售员会在销售过程中慢慢成长,从每次销售的正面和负面反馈以及每次交易的成败中总结经验。预测分析是团队从成员共同经验以及计算机系统中不断学习的过程。如果团队不利用经验数据,那就好比某个人每天重复某种行为而从不进行思考。

我们发现,运用预测分析更有利于组织而不是个人。组织要做出大量的运营决策,这些决策往往都有很大的改善空间,而组织内部却通常存在着大量低效行为,造成巨大的浪费。营销方面就是“重灾区”,大量的无效电邮造成了互联网上垃圾邮件充斥,许多纸质推销邮件发出去之后根本没有人看,这极大地浪费了纸张和森林资源。目前大约有80%的营销邮件都是垃圾邮件。高风险的借款人获得了过多的信贷;政府救济的申请书堆积如山,急需救助的人们无法及时获得帮助。而组织恰恰拥有大量的数据,用以改善各项系统的运营。

在商业领域,利润是最重要的驱动力。因此,企业要想让日常经营更有效率、让营销投放更为精准、要更及时地发现欺诈行为、要更审慎地避免坏账形成并在线上吸引更多的消费者,必须提升规模效应并优化操作流程,以使业务经营焕然一新。新的超级极客:数据科学家未来10年的职场宠儿是统计学家。——Google首席经济学家、加州大学伯克利分校教授哈尔·瓦里安(Hal Varian),2009向前思考的对立面就是向后思考……这常常被称为记忆。——《生活大爆炸》中理论物理学家谢尔顿的台词

应用预测分析的机会随时都有,利润也不是唯一的驱动因素。让预测分析大显身手的力量是极客力量!即技术从业者的热忱。说实话,我对预测分析极为热衷,并不是因为预测分析能为企业创造价值,而是因为喜欢。计算机能自主学习这件事,令我非常着迷,我更关心这个魔法盒里到底有什么,而不是最后的结果到底有什么用。或许这样纯粹的好奇就是判断极客的标准。我们热爱科技,崇拜科技。例如,目前预测分析系统中的主流软件是一款名为R的免费开源系统(仅用单字母命名的富有极客色彩的名字),该软件的用户数量正在不断增长,全球各地的软件研发志愿者正不断为这套系统增砖添瓦。在公开的预测分析软件大赛中,职业选手和业余选手蜂拥而至,以“竞争性合作”的精神状态相互切磋。预测分析人才有时在企业内部效力,有时以外部顾问形式为企业提供咨询服务。企业对我们求贤若渴,我们也因此奔波于各地。但我们只能乘坐经济舱或是升级版的经济舱。学习的艺术要怎样做才能将CPU(中央处理器)的性能发挥到极致?登录电脑后别忘了想办法让电脑更听话。但有项功能能让这台机器更聪明:系统会试错,也会自己改善。——埃里克·西格尔《学习吧!》节选

从前,人类创造了一种终极通用机器,但不知为何,他们竟然只是称呼其为“计算机”(当时这个词的意思是用于计算的机器)。这台机器能处理无数指令,无论指令多么复杂烦琐,它从不出错,从不抱怨。此后短短几十年,计算机的运算速度发展到了超出常人想象的地步。在强大的计算机面前,人类只能感叹:“天哪,我们真的做到了!”或许计算机应该换一个更符合其伟大功能的名字,例如伟大机器。只可惜在几十年后,“伟大机器”这个名字竟然被某食品加工企业优先采用了(这不是开玩笑),真夸张!真可惜!“我们应该怎样利用计算机?计算机到底还有多少潜力?我们如何来发掘这些潜力?”人类始终怀着好奇之心在追问这些问题。

其实电脑和人脑有许多类似之处,其运行机制都很神秘,但我们只是自然接受其运行结果。当你听到绣花针掉在地上时,你的大脑会立刻告诉你这是绣花针掉在了地上。电脑和人脑的运行都是无声的,其复杂运算过程不会产生任何声音。当然,电脑里的硬盘或风扇可能会产生些细微的声音,这就好比我们也会因为呼吸、打喷嚏或打鼾而出声,但电脑和人脑的运算中枢却并没有任何物理动作,因此其运行寂静无声,完全不被察觉。最后,不可思议般地在显示器上显示出了结果,在你的头脑中形成了观点。

电脑和人脑都有着无穷的力量。那么,是否有可能让电脑也具有思考和感知的能力,并最终形成人工智能呢?即便是从最好的角度说,即使能做到,这也会引发难以回答的哲学问题;而从最坏的角度说,人工智能并没有客观标准,因此永远没有人可以声称彻底实现了人工智能。但有一点是确定的:电脑可以掌握人类最宝贵、最有意义的本领。也就是说,电脑可以自主学习。

但如何才能让电脑自主学习?无论是复杂还是简单学习,让机器学会自我成长实在是超乎想象的难事。这也是哲学意义上的深层次悖论。机器学习的任务不仅仅在于让机器看清手头既有的数据,此外还要让机器准确判断出尚未发生的未来之事。机器学习的核心问题,从本质上说是要赋予预测分析以“魔力”。要做到这一点,不仅要用到技术,更需要艺术。这些问题我们将在下文中详细论述。机器学习的目的在于预测你将会采取的行动,但途径却主要是研究其他人的行为特征而不是你的行为。

或许我说得不太清楚,但真实状况比这还要复杂。本书的最后一章将提出这样一个问题:那些发生在你身上的无从察觉之事,甚至是你自己都不知道是否发生的事,机器是如何预测到的?

通过研究数据来做出预测仅仅是第一步。接下来是根据预测结果来采取行动,这才是真正考验勇气的时刻。第一章将分析一个案例,说明为何预测分析的影响和意义不亚于让火箭发射升空。

第一章 升空!预测开始发威

要想将预测模型应用于实践,究竟需要多少勇气?人们凭什么从中获益?有人将毕生积蓄都投入自己研发的股市交易预测系统上,但结果如何?运用预测分析意味着要根据预测结果去行动,要在实践中应用从预测中学到的东西并尊重数据所揭示的规律。许多人都在尝试做到这一点,否则,他们只能失败。

20世纪90年代中期,一位博士后再也按捺不住自己的激情,在跟妻子商量之后就将毕生积蓄投入了股市,利用自己的业余时间设计出了一套股票预测系统。正如《化身博士》中的主角在月光下吞下自己配制的药液一样,年轻的约翰·埃尔德(John Elder)博士也毅然决然地在自己研发的系统上按下了“启动”键。

每项新技术的诞生都伴随着惶恐。航天飞机升空瞬间的画面或许能彰显科技力量和国家荣耀,但宏伟画面的背后却是宇航员家属此刻正承受着的巨大心理煎熬。从本质上说,宇航员与特技飞行员无异,他们自愿将自己层层包裹,如仓鼠般献祭于伟大的科技实验,冒着牺牲的风险换取留名青史的机会。

伟大的挑战孕育伟大的成就。人类实现了月球漫步,近年来,更有非政府组织因研发出可循环使用的载人航天飞机而赢得1000万美元的“伟大挑战奖”。无人驾驶汽车已经问世,歌谣中所唱的“看,妈妈,我开车不用手”变为现实,这也是由数百万美元的科技奖金催生的成果,在Google公司和宝马公司的厂区,无人驾驶汽车正四处游弋。

数据整合与发射火箭相比看似毫不相关,但其科技意义同样深远,只不过数据整合所针对的不是外太空技术的发展,而是一项新的前沿科技:预见未来。这同样是激动人心的探索,却不会像外太空那样危险和令人难受(外太空处于真空状态,人在真空中,身体会感觉不适)。赢得数百万美元科技奖金的背后,是对每个病例都进行有效治疗并安排具有针对性的治疗方案。益智电视节目《危险边缘》曾悬赏150万美元进行人机对抗赛,让真人与智能计算机系统在电视上直接对决,看看究竟是人还是机器更善于回答各类问题(IBM研发的智能计算机系统最终赢得了胜利,但IBM为研发这套系统所投入的资金远远超过此次奖金,本案例将在第六章中详述)。目前,大量机构都在采用大数据进行预测分析并将其运用于儿童入学研究、交通信号灯控制以及打击犯罪等社会的各个领域。预测分析模型在实践中不断彰显威力,帮助人们赢得政治选举、棒球大赛并成功进行资产组合管理。

黑匣交易——由系统自动做出金融交易决定,这也是目前数据驱动决策中最振奋人心的部分。人们只需要将现有金融环境参数输入“黑匣子”,系统就会自动做出买/卖/持有的决策。其系统特征首先是“黑”(即不透明),交易员根本无须知道系统内部的测算过程,只要系统做出有效的结论即可。如果系统做出的结论有效,那么这几乎可秒杀世上其他一切商业计划:电脑变成了自动挣钱的机器,消耗一点儿电力就可换来源源不断的投资收益。

因此,在股票交易系统设计完成之后,约翰·埃尔德就决定投入自己的全部身家。或许股市预测并不是人类迈出的伟大一步,但约翰的举动对其本人而言却绝非“一小步”,其意义无法言喻。当约翰孤注一掷地将所有“鸡蛋”都投入预测分析这一“篮子”时,他其实是吞下了自己配制的具有神奇魔力的“药水”。

在深入描述约翰的案例之前,首先要看看预测系统在除黑匣交易领域之外的其他各类实践中是如何运行的。

开始实践

几乎每项工作都可从数据学习中获益。掌握了数据,你将无往而不利。——约翰·埃尔德

关于成功运用预测分析的案例正不断增加,这些案例都具备了如下内在特征:·海量数据的积累。·组织文化的变迁。·预测分析相关软件的不断完善。

预测分析的盛行其实从一开始就已注定,因为预测科技天生就具有普适性——预测技术的应用方法数不胜数。如果你想有属于自己的运用预测分析的创新方法,仅需两步:

预测分析的应用包含以下两方面内容:

1. 预测内容:个人、股票以及其他任何事物的表现形式。

2. 采取行动:做出决策,针对预测结果所做出的组织行为。

由于预测分析具有开放性,其应用领域几乎无所不包,案例也层出不穷,因此罗列案例本身就是一项“数据管理挑战”!本书将这些案例整理为9个表格,共包含147个案例,以便读者浏览并对此拥有大致的了解。这也是本书最精彩的部分。这些案例涉及股票价格、风险、事故、销售、捐赠、点击率、取消率、健康问题、医院入诊、欺诈、逃税、犯罪、故障、油量、电力中断、政府福利许可、思想、动机、答案、观点、谎言、等级、退出率、友谊、爱情、怀孕、离婚、工作、离职、赢取投票等。预测科技的应用领域正在不断拓宽!

在这些案例中,最典型的商业案例当属导论中所提到的大众营销。

预测分析的应用:精准营销

1. 预测内容:哪些客户会对营销产生反应。

2. 采取行动:联系那些更倾向于做出反应的客户。

如大家所见,预测分析的运用证实了预测效果。预测效应:小预测,大影响。

在此,我们可简单计算预测效应所产生的财务价值。假设某公司现在有潜在客户100万人。对每个潜在客户发送营销材料的成本是2美元,但每100个潜在客户中只有一个会真正购买(即总共有1万份有效反馈)。公司把营销材料寄给了所有的潜在客户。如果每份有效反馈可盈利220美元,那么公司的收益是:利润总额=收入-成本

=(220美元×10000)-(2美元×1000000)

计算所得的利润是20万美元。对此结果,公司应该不会太满意。

即使你此前对精准营销一无所知,你也会发现,这样漫天撒网的做法其实是在玩儿数字游戏,其中存在着大量的浪费,成功概率就好比让100万只猴子蒙着眼睛朝靶子扔飞镖,中标与否全看天意。正如20世纪初现代营销学先驱约翰·沃纳梅克(John Wanamaker)所言:“我投在广告上的钱有一半是浪费的,但问题是我不知道是哪一半。”实际上,这样的浪费远远不止一半,好在预测分析可以帮忙。

人人爱预言,虽然不精确

预测未来的第一步是承认我们无法办到。——怪诞经济电台主持人斯蒂芬·都伯纳(Stephen J. Dubner),2011年3月30日预测悖论:我们对自己的预测能力多一份谦逊,我们在规划未来上就多一份成功的把握。——纳特·西尔弗(Nate Silver)《信号与噪声:大数据时代预测的科学和技术》。当你开始临床操作时,你会发现医学院里教的知识有一半是错的。——医师穆罕默德·厄兹(Dr. Mehmet Oz)

通过预测分析,你知道了哪些客户更容易对营销材料做出反应。大概有1/4的潜在消费者属于此类,“这些人对营销材料做出正反馈的概率是平均反馈概率的3倍!”因此,现在你的潜在客户名单缩至25万人,其中有3%的人会对营销材料做出正反馈,也就是说,会有7500人成为真正的客户。

预言看起来也有些模糊,丝毫谈不上精准,因为对于任何一个消费者来说,你都无法确认他是否购买。然而,这毕竟比让一群猴子蒙着眼睛朝靶子扔飞镖要强许多。如果你只是给初选后的25万名潜在客户邮寄材料,那么你的利润就会发生如下变化:利润总额=收入-成本

=(220美元×7500人)-(2美元×250000份)

利润总额是115万美元!通过减少低效材料邮寄(也节省了大量的森林资源),企业就将利润总额提升到了原来的5.75倍。具体而言,当你预测到哪些人是不值得给他们邮寄材料时,你就把这些人排除在营销计划之外。由此你将成本削减了3/4,而风险仅仅是损失1/4的销售额。这就是生意经。

要想测算预测的价值并不难。如上所述,尽管预测本身来源于复杂的数理运算,但只要通过简单的计算,就能知道这些或精确或模糊的预测结果的整体价值。这不再是抽象概念。预测效应意味着实实在在的收益。

防护预测

可见,只要把预测往前推进一点点,只要在正确方向上看到一点点希望,那就能创造出价值。在此,预测与科幻小说有相似之处。在科幻小说里,一点点超自然能力就会造成深远的影响。在根据菲利普·迪克(Philip K. Dick)的原著改编的电影《预知未来》中,尼古拉斯·凯奇惩恶扬善,大显神威。那么,凯奇的武器是什么呢?就是一点点提前预知的能力。他能看到未来,但只能看到未来两分钟内将要发生之事。但这点本领已经足以改变世界。在片中,凯奇是手无寸铁的平民,心地善良,总是盼着世界变得美好,却要带着一群全副武装的联邦调查局特工在枪林弹雨中穿梭,这些特工都唯他马首是瞻。他能提前知道哪里有陷阱、哪里有狙击手、谁是伪装的坏人,因此他指挥着整个“超人类风险防控队”的一举一动,让这个团队绝处逢生。

从某种意义上说,预测分析也能给组织打造一支类似的“超人类风险防控队”。组织机构所做出的每项决策以及采取每一步行动都蕴含着风险,如果能提前看到这些缺陷并采取保护性的措施,那么组织机构将获得更多的收益——犯罪行为、股票下跌、入院治疗、坏账、交通拥堵、高中辍学以及那些没有人看的营销材料都有可能得到规避。组织风险管理在传统意义上是针对单一和宏观风险的管理,例如飞机失事或经济下滑,但现在,风险管理的趋势正越来越向大量微观事务管理的方向转变。

千万不要因此而感到心灰意冷。我们也可以从预知良好行为中获益,因为良好行为通常会产生积极的后果。预测正面因素可称为“猛扑式预测”,因为如果能看到某消费者要做出购买决定、某股票价格要上涨、某选民要改变主意或一直在网上暗恋的某人开始有所回应,那么你必然会立即采取行动。

一点点洞悉未来的能力就能赋予你强大的力量,因为你会有更多的选择。在某些场合,看到未来之后,你就会改变那些不该发生的事情,例如犯罪、损失和疾病。但如果未来之事正朝着正面方向发展,例如提前看到市场需求,那么你可以采取行动来充分利用这一点。无论如何,预测都有助于你做出明智的决策。

现在,我们来看看一个真实的案例。

价值100万美元的无声革命

当组织采用预测分析时,其意义不啻发动了一支庞大军队,只不过这是由“蚂蚁”组成的军队。这些“蚂蚁”会走上组织运营的各条战线,与消费者、学生或病人等服务对象直接接触。之后,这个“蚂蚁军团”会在预测结果的引导下改善数百万的决策。这一过程可能并不是轰轰烈烈的,但直到有人用心观察其综合效果之后,才会发现这些细小变化所产生的合力。每一个被改善的决策本身可能都显得无足轻重,但成千上万的决策合起来就大为不同。

2005年,某位客户让我想办法提高他网站的点击率,为此我把自己埋在了相关数据中,希望能找出办法帮助这位客户。其实,这位客户是希望其网页上的广告能获得更多的点击。这是关乎收入的问题,广告的点击量越多,这位客户的收入就越高。这家网站在创办几年后已拥有数千万用户,用户数据大概有5000万条,这就是用来做预测的宝贵的原始材料库,而预测的对象竟然是:点击!

广告是媒体不可分割的部分,无论是纸媒、电视还是网络媒体都不能离开广告。本杰明·富兰克林曾说,人生中不可避免的两样东西是死亡和税。如果他能活到现在,一定会加上第三样东西:广告。互联网巨头Google公司承认,广告是其最大的收入来源。Facebook也是如此。

但对于我要研究的这家网站来说,广告的功能略有不同,因此只要能预测用户的点击率,那么其潜在收益就会更大。这家网站提供搜索高校奖学金服务,在美国所有准备上大学的高中生中,大约有1/3都是这家网站的用户。这虽是不显眼的细分市场,但对于许多大学和军校的招生工作人员来说,这却是不容错过的网站。在该网站上,有一则美国大学的招生广告说得很霸气,它自称是“美国创新型教育的领导者”,上面还附加了链接让用户点击:“好吧,让艺术学院的招生办联系我吧!”不难想象,一些做学生贷款的机构也选择在这家网站上投放广告,让报考学生没有财务上的后顾之忧。对于因广告而得以最终完成的招生或借贷,这些广告商每次支付25美元。对于网站而言,如果一次点击就能换来这样丰厚的收入,那真是太棒了。此外,网站上的广告与网站主题紧密相关,而网站的用户也有很强的目的性,因此每100次点击都能产生5笔成功交易,这是令普通网站难以企及的业绩!因此,拥有这家网站的猎头公司从中获利颇丰。任何微小的改善都意味着总收入的显著提升。

但要想改善用户的广告选择却不是件容易的事。在网页切换时,用户面前可能会出现很多广告。最难的就是让用户点击正确的广告链接。目前,网站根据各广告的平均点击率来排序,完全没有考虑用户的独特需求。因此,点击最多的广告总是摆在最显眼的位置。这样的安排降低了广告与单个用户的匹配概率,而且广告一旦被推到显眼位置,那么就很难将其替换下来,因为大量用户总是会不经意地点击最显眼处的链接。某些大学对每次点击都愿意支付高价,而且因为位置显眼,其广告链接的点击率也很高。因此,似乎没有理由用冷门的广告去替换这些主流广告,因为这样做很可能会失去唾手可得的收入。

个性化的危险

如果根据预测结果来为用户安排相应的广告,那么网站实际上是要冒风险的。因为预测结果往往是:“尽管甲校的广告点击率很高,但对于这位用户,最好还是推荐乙校的广告。”为此,大部分网站广告都不会按用户状况进行针对性调整,即便是Google Adwords服务(在用户搜索内容时在侧栏显示相关文字广告),其广告也是按页面内容、广告点击率以及广告商出价(广告商愿意为每次点击支付的价格)的排序来显示的。这完全忽略了看这些广告的具体用户的独特需求。

然而,如果愿意承担这些风险,那么网站在个性化广告方面就会前进一大步。对于企业来说,做到这一点就意味着“实现定制广告”、“提高相关度”以及“一对一营销接触”!与营销中的定制广告相同,科学预测也有利于实现有针对性的医疗处理或犯罪打击。《纽约客》撰稿人马尔科姆·格拉德威尔(Malcolm Gladwell)曾在演讲中以人们选择意大利面酱料为例,说明不同的用户可能会选择时蔬、甜酱或辣酱,“曾经,人类在不断求索宇宙的普遍真理,那些对每个人都适用的普遍规律,在整个19世纪和20世纪的大部分时间,整个科学界都在为此努力。心理学家、医学家以及经济学家都在试图找出人类行为的普遍规律。但现在,情况完全不同了。科学在过去10年或15年发生的最大变化是什么?那就是从注重普遍性转而注重个性。在现代医学中,我们不想知道癌症到底是如何发生的,我们只想知道,我的癌症与你的癌症有什么区别。”

从医疗诊断到消费倾向,个性超越了普遍性。广告也是如此:

预测分析的应用:预测广告定位

1. 预测内容:消费者最有可能点击的广告。

2. 采取行动:显示最好的广告(根据被点击的可能性以及广告主愿意支付的价格)。

于是,我研发出了相应的预测分析软件,来帮助这家公司实现广告定位,也拿出了“不成功便成仁”的肉搏战劲头,把软件用于实践。只要软件有丝毫不称心之处,这家公司便会毫不犹豫地将其视为二流创意丢进垃圾桶;只有那些能带来大量现金流的程序才是合格程序。为了让该预测分析软件能担此大任,我们赋予了其火力强大的“武器库”。预测结果来自计算机对5000万条实际案例的分析,每个案例都是基于客观存在的“微经验”,即“玛丽看了广告甲并点击了”(正面案例)或“约翰看了广告乙但没有点击”(负面案例)。

此处所采用的为每个具体用户选择最佳广告的系统方法依据的是贝叶斯统计理论,这一理论的名称来源于神父托马斯·贝叶斯(Thomas Bayes)——这位18世纪的伟大数学家。我们对其分析方法予以简化,但最终的计算结果还是成立的,因此在实际操作中,我们会得出“足够好”的预测。实际上,对于每个广告,我都要研发出291个模型。通过这些模型的综合结果,我们就可预测用户最有可能点击什么广告。

预测分析程序的安装:迂回和拖延

正如航天飞机一样,从理论上看,预测分析程序看上去很完美。你要先设计并构建好系统,然后将其放在发射塔上等待发射信号。但当真正要开始执行时,发射过程却可能出现波折。然后,计划不得不往后拖,拖延之后还可能再次遇到新的问题。美国莱特兄弟发现了载人飞机的巨大价值并为此而激情澎湃,但其发明之路却充满坎坷和艰辛,在所有障碍被排除之前,他们曾无数次遭遇失败,摔断肋骨,差点儿搭上性命。

对于广告定位以及其他实时预测分析系统的运用,预测结果必须在“瞬间”产生,由此才能实现价值。现代互联网世界不允许任何拖延,系统必须做出实时预测,预测该显示什么广告、该买入什么股票、是否该发放信用卡、是否要推荐某部影片、是否要过滤掉可能含有病毒的邮件或迅速回答电视智力问答赛上的题目。实时的预测分析方案要直接与网站或信用卡受理程序等操作系统融合。如果要为某企业增设预测分析系统,那么软件工程师可能要费很大的功夫才能完成项目,而企业中的软件工程师通常又肩负维持具体项目日常运行的任务,工作安排本来就很紧张。因此,预测分析项目的实际应用过程很复杂,远远不是高管层点个头那么简单。当他们安装好我的预测性广告筛选程序后,已经是11个月之后的事了。那么,将近一年前的陈旧数据还能有效吗?预测的力量是否会因此消失?

运行过程中

汤姆少校呼叫地面控制我现在走出舱门,步入太空我从未如此漂浮在虚无中……——大卫·鲍伊《太空星尘》

在启动之后,预测分析系统就进入了奇特而安静的等待期,正如航天飞机进入轨道后出现的静止状态一样。实际上,航天飞机正在以14000英里的时速在轨道上围着地球运转。预测分析系统的运行没有火箭发射和建造高楼那样的视觉冲击效果,其启动过程相对安静。在系统上线后,日常的活动并没有表现出明显的变化。在广告定位程序启动后,如果你进入网站,网站还是会显示广告,你很难知道系统是否调整了这次广告显示。这也是计算机的魅力所在。计算机能在不知不觉中完成海量的程序变更,而人是无法直接看到或感知到这些变更的。

但在平静的表面下,却是汹涌澎湃的暗流,一切都已改头换面。只有看到最后的综合报告时,你才能发现其影响之大。

在我的客户那里,预测广告筛选系统获得了成功。客户进行了直接对比,让一半用户继续用旧的系统,另一半用户则用预测性系统,结果发现新系统至少把其收益提高了3.6%。这仅仅是针对网站的整页广告,其他许多功能页面中还内置了许多小型广告,如果采用预测分析软件,这些小广告也可能会产生类似的效果。

在没有增添新用户、没有增加新广告主、没有变更业务合同、没有更换材料或电脑硬件、没有增加人手或延长工作时间的情况下,预测分析改善了决策过程,带来了实实在在的额外收入。像我的客户这样,如果业务和系统都相对成熟,那么即便是3.6%的额外提升也能带来巨大的收益。当然,在其他行业,小变化所引发的大变化更加惊人。例如在保险行业,某保险公司采用了预测分析软件,将损失率降低了一半,每年可节约5000万美元。

那么,这些预测模型是如何预测每个用户是否会点击呢?

基本要素是:观察

如同福尔摩斯从蛛丝马迹中寻找出嫌疑犯一样,预测也源于细致的观察。对每个用户的观察都为推测其下一步行为提供了相应的线索。客户是否会点击特定广告取决于诸多因素,例如当前年龄、性别、电子邮箱后缀(hotmail、gmail等)、作文分数以及数学得分(偏文科还是理科)等。

实际上,网站积累了大量的用户数据。为了获得相应的奖学金,用户要在网站上回答几十个问题,比如在校表现、学习兴趣、课外活动、希望报考专业、家长教育程度等。因此,系统学习的数据表很长(5000万个案例),涉及面也很广,每一栏都包含着用户看广告时的全部相关信息。这乍看上去有些离谱:要从数百万份案例中总结规律,然后学习如何运用每个客户的不同参数来进行预测。但我们可以把这样的宏大任务分解成若干部分,随后问题就会显得简单许多。首先,我们要从做出预测的那个神奇的程序入手,通过这个电子版的“福尔摩斯”来对具体用户进行单项预测。

预测模型——预测个人行为的机制,预测对象包括点击、购买、死亡或撒谎。在预测模型中输入个人特征后,模型就会给出预测分数。分数越高,个人做出预测行为的可能性就越大。

预测模型(在此书中将称其为“金”蛋,虽然显示是黑白色的)是用来给个人打分的:图1-1 预测模型与个人特征和预测分数之间的关系

预测模型依据个人的特征进行预测,它包括许多方法。其中之一就是把每项特征都进行考量,然后把结果整合起来,例如女性会把分值提高33.4,Hotmail用户会把分值拉低15.7等。每项因素都影响着最终的个人分数。这被称为线性模型,这种模型考虑的因素相对简单和有限,但比起盲目猜测,这是质的飞跃。

其他模型则是规则的,如以下的真实案例:如果一个人还在高中且预计在三年内要完成大专教育且表现出对军事的兴趣且从来没有看过这份广告那么,这位用户点击艺术学院广告的概率就是13.5%。

这项规则是极有价值的发现,因为人们对艺术学院广告做出反应的平均概率只有2.7%,因此相对而言,我们通过这种运算实际上发现了一大群最有可能点击此广告的人。

这看起来似乎很有意思,因为对军事感兴趣的人对艺术院校的兴趣也会高于平均值。我们当然可以猜测,但千万不要想当然地认为这只是偶然联系。例如,或许那些在网站上填写完整资料的用户本来就会比大多数人更倾向于点击广告,无论广告内容是什么。

若干不同模型相互竞争,最终得出了最精确的预测。其实,像上述例子那样融合了若干规则的模型相对而言还是比较简单的。此外,我们还可以用“超级预算”来解决预测问题,即通过包含复杂计算公式的模型来做出更有效的预测,当然,这些复杂运算的速度之快根本不会让人的肉眼捕捉到。

然而,所有的预测模型归根到底只有一个目的:它们会根据用户的不同参数,来给那个用户打出单项分值。然后这项分值就会用作企业决策的参考,甚至引导企业采取什么样的举措。图1-2 机器学习构建的预测模型

在使用模型之前,我们必须研发模型。机器学习构建的预测模型如下:

机器学习通过分析数据来构建模型——一台全新的预测机器。预测模型是这种学习技术的产物,其本身也是被研究的对象。因此,机器学习也被称为预测建模,这是一个常见的商业用语。如果以传统的比喻用词“数据挖掘”来解释的话,预测模型就是从数据中挖掘出来的精华。

预测建模从零开始构建整个预测模型,该模型的所有数学运算、权重分配以及预测规则都是由计算机自动生成的。机器学习过程的研发就是为了完成这项任务,即让机器从数据中自我研发出新的功能。这种自动化也是预测分析系统构建自身预测力量的方式。

猎手回到自己的部落后,会自豪地展示自己斩获的猎物。与此类似,数据科学家也会在办公室公告栏上展示自己的模型。猎手把到手的猎物交给了厨师,而数据科学家会自己处理模型,将其转换成标准电脑语言并通过电邮方式发给工程师,让工程师来实现整合。酒足饭饱后的部落族人们会相亲相爱,兴致高昂的公司高管会大派奖金。当整个部落都在安享战利品时,科学家依然在思量。

行动就是决策

光知道还不够,我们必须行动。——约翰·沃尔夫冈·冯·歌德要土豆还是要米饭?我应该做些什么?我真的无从选择。——Muffin乐团《我无从选择》歌词(1996年)

在研发完成模型之后,先不要沾沾自喜。如果不根据预测结果采取行动,那么预测实际上没有任何意义,它们只是信息而不是创意。虽然这些珍宝熠熠生辉,但如果你只是把这些成果当作装饰品挂在墙上,那么除了展示你的良好自我感觉外,它们别无他用。

预测分析的目的绝不是要产生堆在办公桌上等着落满灰尘的报告,它要跳出实验室,在现实中发挥作用。从此意义上说,预测分析高于其他形式的分析、数据科学或数据挖掘。预测分析在本质上注重实际运用,它不仅要预见未来,更要指挥行动。

用户的预测分值直接影响着要对该用户采取何种决策。此时,医生需要重新考虑是否安排病人再次入院,而服务人员则要联络那些有可能取消订单的消费者。预测分值决定着人们要采取的后续行动,如邮寄、打电话、打折、重新推荐产品、显示网页广告、投入营销资源、审计、调查、查看缺陷、批准放贷或买入股票等。通过将根据机器学习产生的预测付诸行动,企业可以将所学知识用于实践,据此优化并调整每日的经营行为。

为了说明这点,我们必须咬文嚼字,深究其意义。预测分析的支持者常说,这是“可实施的”。因为其结果能直接影响行为,指导企业的后续行动。但在使用这个词时,业内人士实际上误用了这个法律用词,变换了其原意(值得采取法律措施,例如诉讼)。这种“词义切换”现象之所以会产生,是因为人们厌倦了那些看似言之凿凿的报告实际上只给出了模棱两可的方向。

在赋予该词新的词义后,“你的拉链没拉”是“可实施的”(因为你接下来要做什么很清楚——你能够也必须采取补救措施),但“你会变成秃顶”则不具有“可实施”性(因为你没有补救办法,没法采取任何措施)。更明显的例子是,“我预测你将会购买这条拉链牛仔裤和这款新潮时装帽”,这对于销售人员来说,当然是极有价值的可指导行动的信息。

在竞争激烈的商业环境中,启动预测分析来指导行动能带来明显的优势。在如今这个商品化年代,企业似乎都在进行同质化竞争。企业所售卖的产品看上去都差不多,其经营行为也大同小异。为了让自身脱颖而出,企业应该朝哪个方向走呢?

正如托马斯·达文波特(Thomas Davenport)和珍妮·哈里斯(Jeanne Harris)在其著述《数据分析竞争法:企业赢之道》中所言:“当许多行业企业的产品和技术都出现同质化时,优秀企业只能通过独特的流程去取胜,这也是形成差异的最终依托。”在预测分析领域,“竞争更加激烈的环境”其实是推动企业采取新预测技术的最大动因。

然而,尽管预测分析会带来实实在在的变化,但也可能因为其所带来的新的风险而产生危害。在认识到这一点之后,让我们再来看看约翰的案例。

危险的启动

女士们,先生们……从一堆毫无生气的零散组织中,我制造了儒雅聪慧的城市居民。——弗雷迪·弗兰克斯坦(吉恩·怀尔德扮演)在电影《新科学怪人》中的台词

约翰·埃尔德博士将自己的全部身家都压在其研发的预测模型上。他在实验室里研发了这套模型后,将其用于股市投资。有的木匠能自己做张床,然后就理所当然地躺在上面。但约翰此举就好比给自己制造了一对翅膀,然后迫不及待地绑上这对翅膀从高高的悬崖上一跃而下,他自己心里也没底,这对翅膀究竟能让他从此自由飞翔,还是会让他粉身碎骨。

约翰严阵以待,准备时刻应对各种风险。对于他和妻子来说,启动这台机器就如同发射火箭那样,只能产生两个结果:要么一飞冲天,要么一败涂地。每天都有成千上万的交易员试图寻找出可持续获利的市场交易模式,这些构成了约翰眼中充满白热化竞争的战场;如果能通过机器学习来自动捕捉持续获利交易的机会,那当然是人人都梦寐以求的事情,但许多人认为这是异想天开。此外,如果要研究股票市场交易规律,约翰基本上无法获得外部帮助,因此,此领域的研究总是处于高度保密状态,研究人员无法看到其他人或其他机构的成败经验。学者会公布其成果,市场人员会讨论相关模型,但核心的数理运算始终是各自深藏、不容示人的秘密。理论上被说得头头是道的产品或许暗藏着毁灭一切的祸根,宏大系统中的某处细小差错可能引发倾家荡产的残酷后果。约翰毫不隐讳地指出:“华尔街面临的就是最难的数据挖掘问题。”

这种风险在现实世界中也存在,在启动自己的系统之前,约翰就发现了当时市面上的一款预测交易系统存在的漏洞,随后,他凭借自己的智慧,修复了这个漏洞。这次机会是偶然的,当时有一家名为“三角洲金融”的小公司要参与投资一套黑箱交易系统的研发,据说这套系统能预测标普500指数变动,其准确率为70%。这套系统的研发者是一位颇为自负的科学家,在系统尚未完成之前,他就想当然地认为它会成为自动赚钱的机器,而这套系统的初创人员更是整天西装革履,乘飞机到处飞,向投资者推介这套系统并希望能说服一些投资客,拉来巨资。三角洲金融恰好是最初的投资商之一,它在系统研发过程中发挥了核心和示范作用。这家公司专门搜罗和赞助前景看好的先进交易技术,愿意用高风险来换取高回报。但为了谨慎起见,该公司还是想验证一下这套系统是否真的能做到其研发者所承诺的70%的准确率。于是,这家公司找到了约翰。当时,约翰还在攻读弗吉尼亚大学的博士学位,在读书之余为这家公司提供咨询服务。约翰在三角洲金融的主要任务通常是验证甚至拆解黑箱交易系统。

如果不能看到里面有什么东西,你该如何证明这台机器有问题呢?怀着这样的疑虑,约翰决心要彻底分析一下这套系统,因为在他看来,70%的预测准确率实在是好得有些令人难以置信。这套系统极其神秘,在检查这套系统时,约翰只能看到系统运算的结果以及若干形容该系统的词汇:闪亮登场、独一无二、功能强大等。在证据严重不足的情况下,约翰试图找到整套系统的漏洞,虽然他并不确定这一漏洞是否存在。

在投入使用之前,企业总是会用过去的经验来验证预测分析系统,这就是所谓的“先验”。只有当模型经历了历史数据的验证,企业才有信心将其用于预测未来。在类似“模拟预测”的环境中,该模型用来评估过去一周、一个月甚至一年的数据。测试时,首先将某时间点的已知信息输入模型,然后模型就会给出预测结果,再看预测结果与后来的实际情况是否吻合。标普500指数在1991年3月21日那天是涨还是跌?如果机器能根据1991年3月20日的信息来准确推断3月21日那天的情况,那么就有证据表明,该模型是可靠的。历史数据检验是约翰检验这套数据模型的唯一途径。

呼叫休斯敦,我们有麻烦了

即便是最优秀的工程师,也无法完全避免严重的低级错误。1998年末,美国航空航天局发射了火星气候探测者号卫星,这颗卫星要在太空中旅行9个月后才能抵达火星,而人类向火星发射卫星的实验,其成功率不到50%。但这项耗资3.276亿美元的实验最终却失败了,这不是因为上帝的嘲弄,而是因为科学家犯了一个低级的严重错误。宇宙飞船因过于贴近火星表面而在火星的大气层中解体了。那么,此次太空航行失败的根源在哪里呢?原来其中一套系统对应接收的度量衡单位应该是公制(例如公里、公斤等),但另一系统的程序员采用的却是美式度量衡单位(英里、磅等)。这就是原因!

约翰每天盯着满屏的数字思考,想弄清其中是否存在错误;如果有,是否能将其找出来。从表面上看,这套机器确实做出了许多精准的预测,尽管这些预测都已成为过去。从这些预测中,他清晰地看到了研发者所承诺的巨大收益以及大众的狂热。如果他能证明这套系统存在缺陷,那么一切都将戛然而止;如果他无法证明缺陷的存在,不确定性将依然存在。他的任务实际上是要这套系统进行“反向工程”:根据系统所生成的预测,他能否看到系统背后的运行原理并从中找出系统预测的方法?这有些讽刺的意味,因为所有的预测模型都具有“反向工程”的性质。机器学习的起点是数据,即对所有发生过的事情进行编码,用来发现“可生成”或“可解释”数据的规律。约翰要做的工作则是演绎系统研发部门所归纳的规律。那么,他依据什么来演绎呢?主观直觉以及毫无依据的推论只能通过试错的原始方法来证明,因此,他要通过手动编程来测试他们得出的假定规律,然后再与系统所给出的预测结果相比对。

他的坚持不懈终于有了回报,约翰发现了该系统的致命缺陷,那位躲在幕后装神弄鬼的魔法大师原来并没有魔力!这套预测系统试图要看清未来,但未来却恰恰是这套系统无法逾越的天堑。它所给出的全部预测都是对已发生事实的验证,并不能真正实现预见未来。相反,系统每次预测都是基于昨天、今天以及明天的三日均线。或许开发这套系统的科研人员的本意是基于到今天为止的三日均线,却在不知不觉中延后了一天。哦,原来如此!这项致命缺陷的发现推翻了整套模型,使其根本无法用于预测实践。因为这套系统今天生成的预测结果无法获得其想要预测的变量,即明天的股价,因为明天尚未到来。假设将这套系统仓促用于实践,那么其预测精度必然会大大低于其承诺的精度。为了证明自己的发现,约翰研发出了带有同样缺陷的模型,结果这套模型的“预测”也能吻合交易系统上的记录。

预测模型一旦出现这样的漏洞,那么整套模型就会像碰上了冰山的泰坦尼克号那样被迅速淹没。但类似的“假借未来”的错误却很常见,当然有些错误可能隐藏得很深。每个模型都会用历史数据去验证,但从严格意义上说,真正的预测是无法验证的,因为事实尚未发生。在研发预测模型时,与过去对应的未来已经存在,因此人们不自觉地就会采用过去的“未来数据”。对于预测分析的实践者而言,这样的“时光错配”会令项目戛然而止。如果此时是在《星际迷航》电影中,那么影片中那位颇受欢迎的疯疯癫癫的工程师“思考帝”一定会大喊:“船长,船长,我们的时空完整性遭到破坏!”

当约翰将这个令人失望的消息告诉三角洲金融时,对方有些沮丧。因为他成功破解了系统并证明了其内在的致命缺陷。曾经那些天花乱坠的谎言被戳破,童话故事在冰冷的现实面前被击得粉碎。但对方也十分感激约翰的发现,这实际上是帮助投资者躲开了一个陷阱。这套系统的潜在投资者或许不开心,但一时哭总胜过一路哭。如果将这套系统用于实践,那最后的损失就真的不堪设想,甚至可能会在无意中背上欺诈的恶名。到那时,项目将彻底失败。

能做到的小模型

每个新的开始,都意味着结束。——《结束时间》中的歌词,Semisonic乐队

尽管当时还很年轻,但约翰已经成为黑匣交易创业者纷纷咨询的数据高手。其中一位创业者来到了约翰原来所在的夏吕特镇,但当时他已经拿到学位并远赴休斯敦,在那里的莱斯大学做博士后研究。虽然他已经离开,但夏吕特镇上依然流传着他的故事,学术圈和创业圈的人都推荐这位创业者去找约翰。因此尽管相隔万里,这位创业者还是请求约翰在休斯敦为其筹备、研发并监测新的黑匣交易系统。约翰在哪里,项目的控制中心就在哪里。

此时,约翰的工作已不再是评估他人研发的预测系统,而是要亲自研发一套系统。在数月时间里,约翰和他的研发小组依照这位创业者的设想,研发出了一套全新的极有市场前景的黑匣交易系统。约翰迫不及待地要将这套系统用于实践。万事俱备,只欠东风:现在还没有人愿意投资,让约翰去股海搏击。

从资历上看,约翰理应获得信任。他刚刚拿到了博士学位,思维活跃,理论基础扎实。更难得的是,他还有丰富的解决数据问题的实践经验。从学术上看,他的博士论文在同类研究中实现了重大突破,他的方法可用来优化解决一系列的系统工程问题(机器学习本身就是优化问题)。他甚至可通过蝙蝠的回声定位信号来判断蝙蝠的种类(这些信号构成了蝙蝠的“雷达”)。在商业经验方面,他在毕业之前就曾深入研究过机器学习系统,广泛涉及航天发射控制以及核反应堆中冷却管裂缝检测等领域,更不用说为三角洲金融所做的黑匣交易系统数理验证了。

现在,约翰的最新研究成果正亟待得到检验。所有的历史数据检验都表明,这套系统将在实践应用中大显身手。正如约翰自己所言:“它是在纷扰的噪音中脱颖而出的模型;我们恰巧发现了市场中始终存在的定价失效,这是普通投资者的重大优势而且可不断重复。”定价失效之处,正是交易员的交易机会。完全有效的市场是无法做投机交易的,但如果能发现价格被高估或低估,那么这才是交易的好时机。

预测分析的应用:黑匣交易

1. 预测内容:股价会上涨还是下跌。

2. 采取行动:买入上涨股票、卖出下跌股票。

但约翰却无法获得信任。当他试图去说服投资者时,总是吃闭门羹。这些投资者也许都想作壁上观。毕竟,人们只有当看到系统成功运行时才会打消疑虑,但如果无法启动运作,那么系统就永远无法成功。时不我待,每一天的等待都是损失。

在又一次无疾而终的会议后,约翰回到自己家中,坐下来和自己的妻子伊丽莎白商量。一位真正支持丈夫的妻子又怎会给自己爱人的热忱和信心泼冷水呢?她表示会全力支持约翰放手一搏,尽管如果这次尝试失败,他们可能会失去自己唯一的住房。即使如此,约翰还是需要获得至少一位外部投资者的认可。

当约翰向创业者展示自己所研发的系统时,他得到的是疑问、担忧甚至不屑。约翰想完全用自己的钱来启动系统,这意味着客户不用承担任何风险,他要用事实来消除这位创业者的顾虑。但这样做有点儿类似于自己为自己辩护。对于像约翰这样一个并没有太多资产的人来说,这样做反而更容易引起别人的担忧。这会让他显得过于自负或鲁莽。退一步讲,即使约翰能获得这位创业者的完全信任,别的投资者也不见得会随之信任约翰。只要能将系统启动,那么其支持者也只能孤注一掷。约翰选择了这场赌局,也为这场赌局设定了规则。

最终,他获得了这位投资者的支持:“放手去做吧。”这意味着现在没有任何障碍了。当然,这也说明,这位投资者可能会随时放弃整个项目,因为他现在已经没什么可失去的了。

休斯敦,发射

预测分析从业者如果要推广自己研发的系统,通常要敢于以自己的职业前景为赌注,而这个案例却属极致。如果说美国职业棒球联赛奥克兰运动家球队总经理比利·比恩(Billy Beane)用自己的全部职业生涯做赌注,在球队管理中采用数据分析方法,那么约翰这次则是赌上了自己的全部身家。那是1994年初,当时约翰的全部家当不过4万多美元。他把所有钱都投了进去。“黑匣交易系统启动的瞬间既令人激动,也让人害怕,”约翰回忆道,“这将是永远不会停止的过山车,不仅上下起伏,而且还有可能随时出轨。”

但正如在棒球比赛中,“低潮”并非完全是低潮,这是无可避免的统计学意义上的起落。每次下跌都会让你思考:“这到底是安全旅程的一部分,还是确实发生了什么问题?”其系统设计的一个优点在于,它能发现预测的真实质量,这可以验证系统的有效性,即看看最近的成功预测究竟是系统之功还是瞎猫碰到死耗子。

从启动开始,系统就开始大显神威。当年就让约翰的资产增加了40%,这样的增长速度意味着他的资产每两年就可翻一番。

这位投资者看到了测试结果,并对此大为赞叹,于是很快投入数百万美元。一年之后,这套系统的管理资产规模达到了2000万美元,这些钱来自不同的投资者,最终这套系统管理的资产规模达到了数亿美元。在这样庞大的本金支持下,系统捕捉的每次交易机会都可带来极大的收益。

毫无疑问,所有投资者都对这场发财盛宴欣喜若狂,这场盛宴整整延续了9年,几乎每年的投资回报都超过同期大盘走势。系统运行之后会自动交易科技、运输以及医疗等各大板块的股票。约翰说,这套系统“每年都跑赢大盘且标准差只有2/3,从风险调整收益率角度看,这真是完胜。”

但天下没有不散的筵席,正如在开始的时候,约翰要费尽心力拉投资者入伙一样,到了最后,他同样要苦口婆心地劝他们离场。差不多10年之后,系统有效性的重要标准在消亡。约翰确信,这套系统已日渐失去活力,而其运行的基金也必然会跟着增长缓慢。在发生重大变故之前,他及时中止了系统。最终,所有的投资者都提前撤出。

热情的科学家

早期的成功经历迅速改变了约翰的生活。当该系统如日中天之时,约翰可轻松供养其规模不断扩大的家庭。每天,约翰只要花几个小时监控、调整和更新这套系统即可,因为系统构架始终是稳定的,黑匣里的计算方法也不用改变。如果换成你,你会做什么呢?是每天高枕无忧地品尝美酒,间或带着老婆孩子逛逛迪士尼乐园吗?毕竟,在此之前,约翰的经济状况始终捉襟见肘,他在大学期间要打暑期工,在上研究生时要做兼职,即便是这套黑匣交易系统,也是他在研读博士后时利用业余时间研发出来的。

约翰对科研的追求超越了这些狭隘的发财梦。换言之,他依然保持着科技极客的精神。他对前沿科技挑战有着不可遏制的热忱,对此,他也时常自嘲。他对创新欲罢不能。要想过瘾,只有一个方法,那就是不断尝试新的项目。因此,在投身股市两年之后,他离开了博士后研究站,带上自己的家人回到了夏吕特镇,他在那里创立了自己的数据挖掘公司。

约翰创立的公司名叫“埃尔德研究公司”,现在它是北美地区最大的预测分析服务机构。对于许多企业而言,专注做好某事才能成功,但埃尔德研究公司的优势却恰恰相反:多元化才是制胜的秘诀。公司经营所涉及的范围不只是金融,还包括所有主要行业。约翰自己也奠定了在行业内的顶尖地位。他支持了许多学术会议、合著了教科书、走上了大学讲坛并做了5年的国家安全技术小组的负责人。

让预测走入内心

随着类似约翰的案例的出现,企业也纷纷开始采用预测分析。其中一家大型跨国企业就想用预测的力量来实现自我审视,对自己的员工进行预测分析。当科学家在尝试弄清人是否喜欢被预测时,喜忧都开始涌现,下文案例将对此进行详解。

第二章 权力越大,责任越大:惠普、目标超市和警察会窥探你的秘密

如果预测机器能预见辞职、怀孕和犯罪,那么我们如何才能安全驾驭这台机器?它是否会侵害人们的自由权利?为什么寿险公司会去预测其客户什么时候会死?本章中将有详细专栏阐述如何发现造假,那么智能机器是如何领会“假”的意思呢?

如果某天你的老板忽然知道你要辞职,但你跟谁都没有说过自己的计划,那将会怎样呢?如果你是惠普全球33万名员工之一,那么你的雇主将会给你和你的每位同事都进行“离职风险”评分。这个分数能反映出你离开公司的可能性。在惠普,现在还有许多员工并不知道公司在做这样的评估。读者先不要着急,本章将会让你对此有完整的了解。

惠普研究员工离职风险时恰好是目标超市深陷舆论攻讦之时,目标超市因为试图预测顾客何时会怀孕而引发了公众质疑。媒体连篇累牍的抨击引发了公众偏激的苛责,以及人们对公司权利、电视名人和预测分析的恐惧。让我想不到的是,我自己竟然也会深深卷入这场风波。

电视新闻曝光虽然粗糙,但新闻报道的大致方向是对的。媒体的攻击虽然并无建设性,有时也未免有失偏颇,但表面之下确实隐藏着深层次的伦理难题。目标超市和惠普的预测行为提出了一个极为复杂但又不容回避的伦理问题。此复杂领域的核心是有关隐私的讨论,牵涉的是大是大非的问题。

为何?因为预测领域属于个人隐私范畴。企业希望通过预测来了解此前未知而私密的事实:员工是不是在考虑辞职?消费者是否怀有身孕?当然,这不是滥用、泄露或窃取数据。相反,这是要生成新数据,即用间接方式来发现人们不愿主动披露的信息。企业通过现有的数据来推导出关键的结论,就好像是凭空去创造新的数据。那么,企业是否能妥善处理这些通过预测得出的信息呢?

当我们开始慢慢承认预测力量的重要性时,我们也要面对这种力量所带来的隐私争议。由此造成的连锁反应甚至令专家都感到震惊:企业有了新的能力、消费者对此感到不安、媒体在旁边火上浇油,科学家们则变得小心翼翼,并开始重新审视赋予企业这些能力是否妥当。

这些连锁反应最终会让我们处于极为尴尬的境地。除了预测怀孕和辞职之外,预测分析还能发现潜在的罪犯,这些信息有助于司法机构判断应该监禁谁或释放谁。

对于本人而言,我从超然物外的科学家变成了内心纠结的辩论者,企业的态度则从扬扬自得变为谦虚谨慎。数据和分析看似与价值判断无关,但在现实生活中,却也不尽然如此。

目标超市的预测及其预测目标

2010年,我邀请了目标超市的预测专家安德鲁·波尔(Andrew Pole)在当年的预测分析世界大会上发表主题演讲,我当时担任大会的执行主席。波尔在目标超市管理着由数十人组成的预测团队,这些人负责超市的若干个预测分析项目。当年10月,波尔就目标超市所推出的预测分析系列项目进行了精彩的演讲。他在台上激情四射,阐述了许多项目细节,提到了诸多有趣的案例以及执行成果,台下听众也深受感染,对其演讲内容产生了浓厚的兴趣。当年的视频目前在网上仍然能搜到,网址是:www.pawcon.com/target。

在演讲快要结束时,波尔讲了一个预测消费者怀孕的案例。因为每位新生儿的出世都会伴随着大量的相关消费品采购,所以这对于超市而言是极为珍贵的营销机会。

这是前所未有的预测应用,为此,我也转过头去看听众的反应。一切正常,没有人提出异议。通常来说,对于营销类的预测应用,预测分析的目标是购买行为。在此,听众并不关心预测结果本身,即消费者是否怀孕,他们所关注的是预测结果是否预示着大量的采购需求。毕竟,市场营销人员的职责就是发现并充分把握消费者的需求。在此,你可以把预测结果想象成零售商所关注的内容——“胎儿”(抱歉),最终能让零售商愿意付钱来获得的信息是相关的消费者购买行为。

预测分析的应用:预测怀孕

1. 预测内容:哪位女性消费者会在未来数月里生孩子。

2. 采取行动:针对即将为人父母的消费者开展营销活动。

那么,目标超市又是依靠什么数据来预测消费者是否怀孕呢?预测模型必须参透若干已知数据,然后才能得出结论。记住,预测模型的工作是一种学习具体案例的自动化数据处理过程,这些案例包括正面的和负面的。企业首先要发现过去所发生的怀孕案例,然后才能找出规律去预测未来。要想预测“购买环绕立体声音响”之类的行为,零售商可能会有很多经验可供借鉴,但对于消费者是否怀孕,他们又该如何去判断呢?

当你知道答案是如此简单时,你自己可能也会感到惊讶。你猜到了吗?假设我们从这个预测项目中完全看不到相关的诊断信息或用药数据,那么消费者的哪些行为会让目标超市得出其是否怀孕的结论呢?答案是:婴儿登记。这不仅会说明消费者是否怀有身孕,还会让消费者主动提供预产日期。此外,目标超市的其他营销项目也会让怀孕妈妈主动提供信息,这些也可用作正面学习案例。

目标超市将婴儿登记处的数据以及其他消费者数据进行汇总,这样就获得了预测系统的原始数据,可生成相对精确的预测模型。有了模型之后,目标超市就可用它来预测那些没有主动注册登记的消费者的情况了。假设大部分的怀孕妈妈都不主动登记信息,那么通过这套系统,目标超市就可发现许多其他怀有身孕的消费者。

根据消费者所采购商品的种类,例如婴儿相关产品或其他与婴儿无直接关系的产品组合,目标超市就能判断出消费者是否怀孕。其原理是,在考虑一系列变量的基础上,对趋势做出自动判断。我不敢说,仅仅凭借消费者购买酸黄瓜和冰淇淋,目标超市就能推断出其是否怀有身孕,但如果系统能分析和考虑消费者采购的所有商品种类,那么,其可信度就提升了。这套系统至少让目标超市的营销受众孕妇群体的规模扩大了30%,这是极为成功的营销案例。

意味深长的停顿

在大会的演讲台上,波尔意气风发,热情阐述这次史无前例的预测应用,这也是他亲自领导的项目。该项目的商业价值很明显,故事本身也很有意思。看上去,他已经在目标超市内部讲过许多遍,这次他把同样的故事讲给了公众听。这是一场很有内涵的演讲,听众也听得极为入迷。

当时,我的心中也闪过一丝顾虑,但正因长时间浸淫于预测技术,我想当然地认为该项目已经经过了全盘考虑,目标超市的工作者应该已经妥善处理了我的顾虑。预测分析的实践者埋头于数据研究,他们看外面的世界就仿佛是在黑暗的洞穴中向外张望,根本无从想象那些走在马路上的人们会对这样的预测项目产生什么反应。实际上,波尔在演讲中还拍着胸脯说,目标超市在此项目的运行过程中严格遵守了所有隐私保护和数据使用法规。“目标超市不希望因为任何不当行为而成为电视或报纸上的新闻。”他对随后将要发生的事情全无预判。

我的15分钟

由于随后发生的关于目标超市预测怀孕的舆论风波将我卷了进去,因此我得以近距离地观察整场媒体风暴的生成演化过程。某位记者率先提出了质疑,燃起了星星之火,其他媒体随后纷纷跟进,一场燎原大火就此熊熊燃起。

究竟是谁第一个捅破了马蜂窝?在波尔演讲几个月后,《纽约时报》的记者查尔斯·杜西格(Charles Duhigg)对我进行了采访。他试探着了解预测科学,然后让我举几个预测分析应用的案例。我当时不假思索地讲了几个案例,其中就包括目标超市的怀孕预测,我让他去看波尔演讲的网络视频,当时这段视频并没有引起太多人关注,我还把杜西格介绍给了波尔。我必须承认,当时我脑子里完全没有想到所谓的隐私问题。

一年之后,即2012年2月,杜西格在《纽约时报》上发表了头版文章,这篇文章将目标超市的怀孕预测推到了舆论的风口浪尖上。这篇题为“公司如何窃取您的秘密”的文章处处暗指这种预测行为是错误的。文中特意提到了一个不具名的案例,说某位父亲直到看到了目标超市寄过来的营销材料之后,才发现自己的未婚女儿怀孕了。虽然文中没有充分证据表明,目标超市是为了配合其预测分析项目才邮寄营销材料的,但行文却暗指两者之间存在关系。这篇报道甚至还专门制作了相关视频,黑白视频中的顾客以夸张和慢镜头的形式走出了目标超市,背景音乐恐怖、阴暗。杜西格在文中写道:“当他们知道您的生活什么时候会有改变……他们就有能力来利用你……你的习惯就会转变成他们口袋中的金钱。”他将这种基于数据的营销称为“窥视”顾客。

这次报道引发了众多媒体的跟风,报纸杂志和广播电视纷纷跟进,所有媒体报道几乎都接受了《纽约时报》的观点。颇为巧合的是,杜西格也在此风潮中推出了自己的新书《习惯的力量:我们为什么会这样生活,那样工作?》,这本书还登上了《纽约时报》的畅销书排行榜。

我也被卷入了这场风暴,因为报道中引述了我和波尔的话,此时作为报道对象的目标超市当然采取了缄默对策,不允许其员工在媒体上发表任何言论。但我作为独立的咨询师,我有充分的自由出现在公开场合。我无须谨言慎行。

曝光于聚光灯下

我无法面对事实,我惊慌失措,无法平静。——传声头像乐队

几乎就在一夜之间,我从技术宅男变身为公共评论家。我搭乘深夜航班赶到纽约,参加福克斯新闻台的电视访谈节目。尽管我知道自己要在数百万电视观众面前为预测科学辩护,但我完全没有做节目的经验。通常,预测分析的研究人员都埋头于数据的汪洋大海中,只有偶尔在不得已的情况下才浮出水面来呼吸人间的空气。预测分析的大部分工作都是通过数学运算来揭示能预测未来的规律。这在常人看来是奇特而有魔力的工作,仿佛在试图制造时光穿梭机器。在类似细菌培养皿般的工作环境中,预测分析研究人员几乎完全与世隔绝,根本无暇去考虑那些受伤心灵的愤怒,也没空去关注所谓隐私权的争议。当我脱下实验服,换上西装领带时,我才体会到,原来我们此前那些不为人知的在数据的海洋中从事的研究活动确实蕴含着某种神奇的力量。

我所参加的是当天早晨《福克斯与朋友们》的访谈节目,我坐在播音台的后面,小心翼翼坐正,有些如坐针毡的感觉。著名电视节目主持人格莱琛·卡尔森(Gretchen Carlson)从演播室的另一侧高声向我打招呼:“你好,西格尔!”我也强作镇定,仿佛是电视演播室的常客般回应道:“你好,卡尔森!”

然后,我们就开始了现场直播,当时的观众数量大概是200万。卡尔森的论调跟《纽约时报》上的文章相似,首先她宣读了目标超市的所谓暴露未婚少女怀孕的案例,并暗示预测分析应用必然会导致这种损害隐私的事情发生。访谈节目中还有一位医学伦理教授,他的态度更加强硬,他建议暂停所有的预测分析应用或至少要在进行深入调查之后再决定是否继续应用。当时,数百万观众都在收看福克斯新闻台,他们在电视屏幕上看到的应该是目标超市的画面,上面写着“商家是否在窥视你”,随后福克斯新闻台给出结论说:“目标超市就在瞄准你。”

很快,我就意识到,这次电视节目是在妖魔化我所从事的职业,让我来就是要让我充当被批判的靶子。那一刻,我成了预测分析的代言人,我深知我必须站起来反驳。如果说商家在运用其资源进行预测时存在疏漏行为,那么媒体的误导性报道同样存在问题。我调整呼吸,指出《纽约时报》的报道是在误导公众,因为这篇报道假定了目标超市具有精确预测谁会怀孕的“超自然”能力,而且没有证据表明,暴露未婚少女怀孕与预测分析应用存在某种必然关系。目标超市的预测并非是医疗诊断,也无法看到消费者的医疗信息。最后,我抓紧时间做总结陈述:我们不能就这样把预测分析一棍子打死。这次电视访谈的视频网址是:www.pawcon.com/target-on-fox。

在另外一场媒体访谈中,对方让我对著名的消费者隐私权保护者凯瑟琳·阿尔布雷克特(Katherine Albrecht)的一段话进行回应,她是这么说的:“零售商的全部目的就是要彻底认知消费者。现代社会正在把零售产业变成动物园,消费者就是动物园中展览的动物。”对此,我该怎么回答呢?与社会科学不同,预测分析的目的是改善经营效率而不是探求人的属性,而且不管怎样,观察别人都不意味着不尊重别人。

这次媒体报道热潮来势汹汹,在短短几个星期内,好像所有人都在有意无意地谈论目标超市预测消费者怀孕的案例,甚至著名的喜剧演员斯蒂芬·科尔伯特(Stephen Colbert)也参与其中。他在节目中揶揄说,目标超市下一步的目标就是预测你的配偶是否红杏出墙,然后超市会给你推荐电磁炉产品,以此满足分居后你的单身生活所需。

我们先不管媒体这种添油加醋或煽风点火式的报道,在分析预测中,隐私权应当如何去正确界定呢?

你无法禁锢那些可传送的东西

在某些时刻,有关交易的信息要比交易本身更重要。——花旗银行前董事长兼首席执行官沃尔特·里斯顿(Walter Wriston)

数据是重要的,这也是我们最关注的东西。

有关个人的数据不等同于个人——数据比人更便于管理。数据不占用物理空间,其维系成本几乎为零;数据存在永续性,而且也便于复制和传输。数据比黄金更宝贵,尽管数据没有任何分量,没有任何物理属性。

有关个人的数据在价值上不能与人画等号,但由于数据的管理成本远比人的管理成本要低,因此投资于数据要比投资于人更能产生回报。《大西洋杂志》的高级编辑亚历克西斯·马德里格尔(Alexis Madrigal)曾提到,购买一位用户数据的平均成本只要0.5美分,但在互联网广告系统中,每位用户可带来的平均价值为1200美元。

数据的价值、力量和意义也让数据变得很敏感。数据越多,力量越大;力量越大,也就越敏感。因此,我们现在碰到的这种冲突几乎是不可避免的。如果没有人关心数据,那么自然也不会有人去保护数据,不会有人想要获得数据或从一开始就去搜集和保存数据。约翰·埃尔德后来回忆说:“正因为数据具有独特的力量,人们才会认为它是危险的;如果数据是无关痛痒的,它就不会成为威胁。”

自从纸笔发明以来,有关数据使用和保护的问题就一直存在。医生在诊疗单上写下了潦草的字迹,这就规定了谁能看这张诊疗单,谁不能看。

但在如今,数据的传输极为发达,在个人之间、组织之间甚至国家之间,数据传输随时都可能发生。这种几乎无成本的瞬间传输的特性加上传输内容可能包含的敏感信息,就是当今难以约束的数据世界图景。无影无踪的数据流随处流淌,要想对其实行控制,却难如登天。这就像要将《X战警》里的具有瞬间转移能力的夜行者关进牢房一样。因为数据不受物理空间的限制,所以无法被禁锢起来。

数据的传输有其特殊性,这种传输具有超越物理局限的属性,我们称之为电信。

数据会如野火般扩散蔓延。正如隐私权保护人士大卫·索贝尔(David Sobel)所言:“只要信息存在,我们就无法限制其使用权。完美的数据始终放在那里,迟早有一天,会有人站出来说,‘我能用这些数据做点儿什么吗?’”

数据是信息时代的新货币,天生不受监管。要想分享消费者的数据,只需要轻轻点击一下,完全不需要运送任何货品。

法律与秩序:政策、政治和监管

隐私权是自由人所有权利中最全面和最宝贵的一种。——美国最高法院大法官路易斯·布兰代斯(Louis Brandeis),1938年

尽管数据无法捉摸,但我们还是要倾尽全力来设定一些边界。完全自由开放式地使用数据显然不是理想的选择。人们还会不断想方设法地去限制医疗信息、商业秘密以及不雅照片等数据的传播。这种对数据传播的不安也深深植根于人们心中,据悉,Facebook上有1/4的用户都因为担心隐私权泄露而登记了虚假信息。

对任何机构或企业来说,它们都必须确定数据的使用者、内容、位置、使用时间、保存期限以及使用原因等:保存——确定数据的内容和存储时间。许可——确定可查看或调取数据的员工、社会各界人士和其他组织成员。分享——确定可接收数据的内部部门或外部机构。合并——确定可汇总或连接的数据部分。回应——根据数据所采取的行动,确定组织的回应、行动以及其他行为。

现实情况可能会更加复杂,所有这些数据行为都是在一定情况下并出于某种目的产生的。

紧接着就是一堆难题。什么样的数据政策能够或应该通过立法来确定?什么样的数据措施应该遵守行业最佳标准或约定俗成的惯例?什么样的消费者数据,企业可默认同意采集,除非消费者明确表示不愿意商家使用其相关数据?措施形成之后又该如何落实:要采用什么样的数据保密标准,是用加密、密码设置还是防火墙隔离的方式,哪种保密方式才能让数据如美军基地诺克斯堡那样坚不可摧?

天哪,我们必须考虑工作以外的其他要素!

数据之战

互联网上的一切免费平台、免费服务和免费内容都需要定向广告来埋单,而定向广告的效力(以及盈利程度)又依赖于用户数据的搜集和整理。——亚历山大·福尔纳斯(《大西洋月刊》撰稿人)

数据争议日渐升温,对方的态度也如同熔岩冷却般慢慢固化、僵硬。

争论的一端是隐私权的鼓吹者,他们通常对企业和机构抱着本能的敌意,他们主张截断数据的流动,限制数据、删除数据并在第一时间不让数据被记录下来。

争论的另一端则是数据的觊觎者,对数据垂涎三尺。这一阵营里充满了投机者和野心家,企业家、管理者、技术狂人以及董事会大佬都可能属于这一阵营。

数据的勘探者则看到了其中的价值,那确实是令人激动的价值,这不仅仅是为了一己之私或纯粹的经济利益。我们想通过数据来构建美丽的新世界:提高生产率、改善效率、减少无效邮件及其环境危害、让互联网上推荐的影片和音乐更符合您的口味。

尽管如此,即便是自由数据的拥护者有时也难免会遭遇尴尬。几年前,有一次我去沃尔格林药店,当我准备离开时,该店的自动售货机给我打印了一张极其惹眼、色彩鲜明的优惠券。所有在我身边的其他顾客都看到了这张优惠券的内容,而优惠券上的主打产品却让我感到很不自在。这是一张用于治疗胃胀的消化酶药品广告。我确实曾患有轻度的乳糖不耐症,在确诊之前,我自己买过许多肠胃药。而沃尔格林药店的推荐系统仅仅根据我的购买记录就盲目给出广告,如果它真要那样做,至少也应该让广告投放的方式稍微私密一些,而不是让所有顾客都看到。

其他医疗数据所包含的信息可能比消化问题更严重,也更加敏感。有一次,当我在给一些优秀的中学生上暑期课时,我接到了自己从来也不会接触的数据。暑期班的班主任把我拉到旁边说,其中一个学生被诊断患有躁郁症。我并不是心理学家,不想对那个学生存有任何偏见,但一旦我接收到这个信息,我就无法将其从头脑中“删除”。最后,那位学生被证明是暑期班里表现最优秀的,他也从来没有表现出躁郁症的任何迹象。

如今,手机和汽车的定位数据应用越来越普及。这让有些人在老板或老婆那里无所遁形,执法部门也在通过定位数据抓捕嫌疑人。卡耐基梅隆大学教授汤姆·米切尔(Tom Mitchell)是世界级的机器学习能力研究者,他曾在《科学》杂志上写道:“对定位数据(通过GPS对手机追踪实施定位)的应用可获得各类收益,例如减少交通拥堵和降低污染、控制疾病传播,以及提高公园、公共汽车以及救护车等公共设施的利用效率。但这些数据综合起来也会对人们的隐私权构成前所未有的威胁。”

有关数据的争论还将在未来几十年继续。自由数据的支持者必须要注意数据使用中的“地雷”,要提升数据在应用过程中的敏感度和敏锐性。而隐私权的鼓吹者则要看到,数据技术本身只是工具,可以作恶也可以行善,就像有人用刀切菜、有人用刀杀人一样。用法规来完全禁止数据技术的应用肯定是不可取的。其实,并没有绝对“正确”的解决办法;这是一个主观的、充满变化的领域,文化的新层面正在这里锻造。沟通是必要的,发表“有关隐私条款,请仔细阅读本章”之类深奥冗长、普通人根本不会去阅读的声明并不是沟通。企业和消费者所使用的是不同的语言。在两者之间取得平衡是社会发展中必须处理的大问题。在此,我们还有很长的路要走。

数据挖掘并不是“攫取”数据

请正视数据科学家和他们的发明吧。预测分析本身并不会侵害隐私权,相反,预测分析的核心过程是反对侵害隐私权的。尽管有时候我们约定俗成地将其称为“数据挖掘”,但预测分析并不是深入探讨数据并去窥视个人数据。相反,预测分析是在“提炼”信息,即通过分析海量消费者信息中的浩繁数字来找出普遍适用的规律。而人们常常会误解数据挖掘的这一真实含义,甚至完全颠倒了其本意,由此让数据挖掘成为众矢之的。

但预测分析的出现也确实让数据之战更加激烈,仿佛提升了战争的规模。数据分析的出现,让全世界的数据觊觎者都更加迫切希望获得更多数据。获得的消费者数据越多,就越容易对其进行分析和预测。消费者的基础信息越丰富,通过预测分析搭建的预测模型就会越有效。

如果有人因为口渴而偷喝了柠檬水,不要把责任推到让他感到口渴的太阳上。如果数据的规则是“公平”和“正确”的,那么遵循这些规则的预测分析活动就不会侵犯隐私或助长其侵犯隐私。如此一来,预测分析应被视为有百利而无一害的技术,大家应该张开双臂接纳它,然后高高兴兴地生活在未来精彩的预测世界中,是不是?

现在让我们切换画面,转到一个残酷世界吧。你在一间看上去装备高端的小屋里工作,每天靠吸食营养管线送来的鸡肉味养料维持体能。你时刻忙着操作手柄,远程控制着在太空星云中采掘珍稀金属的机器。忽然你的老板冲进来,直勾勾地看着你说:“我们怀疑你对公司不忠。”

你的雇主预测,你可能会考虑辞职。在你自己都还没有完全想明白的时候,你的雇主已经预测到了你的计划和意图。

惠普自我学习

我明白道别不易,但此刻我正要展翅高飞。——快速马车合唱团

2011年,惠普公司的两位天才科学家发现了用数学方法来评估每位员工忠诚度的方法,这是具有开创意义的新发现,惠普公司33万名员工中每个人都将被评估。吉特利·哈尔德(Gitali Halder)以及安宁戴·戴伊(Anindya Dey)研发了一套预测模型,以此确定员工的“离职风险”,即看看哪些员工更容易离开公司。

留住人才是任何企业都必须面对的问题。归根到底,企业的优势和特征来源于各成员特征的有机组合。惠普创始人所确定的五大基本理念之一就是:我们以团队精神来实现共同目标。该公司要求员工相互帮助、相互配合,以完成任务,同时也要学习如何处理公事。优秀人才离开是谁都不愿看到的事情。员工流失率是现代企业不得不面临的挑战。例如,某家跨国企业就为了设在巴塞罗那的呼叫中心的员工高流失率感到头痛,有些人应聘这家呼叫中心只是为了能在巴塞罗那这座美丽的城市待一阵子,然后突然间就提出辞职。如果公司能在员工录取阶段就将这些人排除在外,那么公司的管理就会变得相对容易。

为此,企业希望通过在内部应用预测分析技术来预测员工的行为,而不是像普通的预测分析那样主要针对企业外部的消费者或客户。正如某些商家会预测哪些消费者会离开而必须加大营销力度一样,惠普也同样要预测哪些员工可能会离职而需要在人事上做出努力。无论如何,这种对客户流失和员工流失的预测就如找出船体上的缝隙,然后将其及时堵上,以确保企业这艘船不会沉没。

预测分析的应用:留住员工

1. 预测内容:哪些员工将辞职?

2. 采取行动:管理层可用预测方法来评估自己的下属,这是典型的决策支持,而不是将预测结果输入自动决策过程中。

洞悉员工还是侵犯隐私

惠普公司是著名的成功企业。创始人在车库白手起家,发展成为今天全球电脑制造业的巨擘。2011年,惠普公司员工数量在全球排第27名,当年营业收入达1270亿美元,成为全世界赢利最多的科技企业。

惠普打造的是一个商业帝国,而不是一个与世隔绝的城堡。有些报告称,惠普员工流失率高达20%。在这艘体量如此巨大的船上,缝隙是免不了的,尤其是考虑到如今科技界员工的浮躁心态。图2-1 通过预测分析来洞悉员工

惠普是世界演进分析学方面的先驱。惠普分析部门在印度班加罗尔有1700名员工,它在销售、营销、供应链管理、财务和人事等领域都号称具备最先进的分析能力和工具。其预测分析项目则覆盖客户流失预测、销售先导评分以及供应商欺诈预测等。

吉特利·哈尔德在惠普班加罗尔负责领导一个小组,该小组主要从事人力资源方面的应用研究。哈尔德是德里经济学院的经济学硕士,而且也拥有几年的实践操作经验,她在预测分析方面都有理论和实践积累。她充满自信、善于表达和交际,其工作成果令人印象深刻。她与同在班加罗尔的惠普顾问安宁戴·戴伊搭档,两人成了梦幻组合。在2011年11月于伦敦举行的预测分析世界大会上,两人联袂登台,精彩演示了他们开发的模型。

哈尔德和戴伊将大量的数据用作预测分析的学习材料。他们整合了两年来的员工数据,包括工资、晋升、表现评级以及岗位轮换等。然后,他们再看是否有员工已经离职。由此,惠普就可通过历史经验来学到无价的知识:哪些事情发生之后,员工就有可能离职?

如果说这项工程降低了惠普的员工流失率,那么它也让哈尔德和戴伊成为惠普最有价值的员工,或者说是最惹人厌烦的员工,至少对其余的同事来说是这样。某些在惠普工作多年的员工如果知道企业在给他们评定辞职风险,心里必然会感到不舒服。如果评分是不客观的怎么办?如果错误地将忠诚员工当成了叛徒呢?如果这样做损害了员工的名誉呢?

一种全新的人力资源数据出现了:猜测性数据。除了个人信息、财务状况以及其他个人情况之外,现在有了“个人未来预估”的信息,这是对员工心态、思想和动机的猜测。那么,这是洞悉员工还是侵犯隐私?

关键看惠普如何利用了。

辞职风险:我不干了!

在世界的另一端,亚历克斯·博(Alex Beaux)将哈尔德和戴伊的工作成果用于研究部分惠普员工。博在休斯敦负责惠普内部的“全球业务服务”部门。该部门有数千名员工,为惠普各部门提供“业务外包”服务。

博、哈尔德和戴伊打算首先在全球业务服务部门的销售薪酬团队中应用这一模型。这个团队大约有300名员工,分布在不同的国家,其员工流失率常常高达20%。这个团队提供了理想的辞职风险测试目标,其主要职责是计算和管理全球销售人员的薪酬。

有一点是明确的:全球化企业是很复杂的。这不是由销售人员组成的团队,甚至不是一支正规的为销售人员提供支持的人力资源团队。相反,这是一个全球性的团队,其成员主要分部在墨西哥、中国和波兰,该团队的主要工作是帮助其他为销售人员提供支持的人力资源团队。因此,该项目是多层次的,是对协助人力资源进行管理(主要支持销售队伍)的团队所实行的分析性人力资源管理。

如果看不明白,请反复读5遍,然后你就会对此有所体悟。我曾经参与了惠普的一个项目,该项目是为了预测企业客户的潜在需求,即他们需要购买多少台电脑,在惠普竞争对手那里,他们的采购比例是多少?在那几个月时间里,我参加了无数次的电话会议,与无数的工作组讨论,这些工作组的名称很复杂,而且都分布在世界各地,我觉得我需要一份专门的名称列表才能记得清谁是谁。

这样复杂的公司结构意味着,如果能保留销售薪酬方面的人才,那么公司将会节省很多钱。公司需要裁撤冗员,这样才能引入新鲜血液。销售薪酬团队的员工是具有专业技能的人才,因为他们所要管理的业务较为复杂且范围宽泛。他们要操作那些复杂的系统,然后精确计算出每个销售人员的薪酬。跨国企业的发展不会像城市规划那样有条理,企业发展更注重对各个部分的整合,因为大部分的企业增长现在都来源于对外部企业的并购,它们需要将这些并购企业销售人员的薪酬整合到集团的薪酬体系中来。目前,全球业务服务部的销售薪酬团队负责了大约全球范围内50%的销售薪酬事务。

洞见:辞职背后的因素

数据显示,辞职风险取决于一些有预见的因素。例如,员工的工资越高、晋升越快、表现评级越高,那么其辞职风险就越低。这些因素可减少辞职风险。不断轮岗也有助于让员工留在公司里。博推测,如果工作内容和岗位能定期调换,那么日常工作对员工来说也会变得更有意思。

令人意外的是,升职并不总是一件好事。在惠普集团,升职确实有助于降低辞职风险,但在销售薪酬团队中,如果只是升职而没有加薪,那么升职甚至会产生反作用:那些升职次数较多的员工更容易辞职,除非在升职过程中,其工资也能水涨船高。

这些分析跟数据本身差不多。另外一家公司的情况也与此类似,这家《财富》1000强的B2B(企业对企业)信用信息电商企业应用了我为其做出的预测模型,以预测新入职的呼叫中心员工的流失率是多少。那些此前有过外勤销售经验的员工会在入职后9个月内安心工作,这比没有经验的员工要高出69%。影响这家公司员工流失率的其他因素还包括过去10年这位员工所从事的工作数量、申请者所掌握的资源以及最高学历。这个项目最终让企业避免了一个重大错误,因为此前的研究得出的错误结论说,没有高中学历的员工愿意留下来的概率要比有高中学历的员工高2.6倍。当时,只差几天我们就要把结果汇报给客户了,建议他们多招聘一些高中辍学者,好在我们及时制止了这场数据错误“风暴”。通常,数据使用不当只会导致结论的有效性不足,而不是推导出完全错误的结论,但那次却是例外——好在我们悬崖勒马!

如同其他预测分析模型一样,这次的模型也是考虑了三个因素,然后为每个人的离职风险打出最后得分。尽管许多现象都是明显而直观的,但我们依旧对模型中各因素进行了细致的考虑:这些因素所占的比重应该是多少?它们如何相互影响?哪些在表面上可观测到的现象必须予以排除?机器学习过程就是自动研究历史数据并得出规律的过程,从字面意义上说,机器从历史中学到规律,然后用规律预测未来。

哈尔德和戴伊的辞职风险模型最后在惠普集团全球各分公司得到了应用,通过识别高风险员工和减少效率损失,这个模型为惠普大约节省了3亿美元的成本。其中有40%的员工被认定为辞职风险较高,在这部分员工中,有75%的员工最终辞职了。

我也曾问过这两位研发这套模型的惠普员工,他们自己的辞职风险评分是多少,他们是否能预测自己的辞职意愿。哈尔德和戴伊立刻回答说,他们喜欢在惠普工作,但实际上他们都属于辞职风险较高的员工。这其实也不难理解,因为现在市场上对数据分析人才的需求很大。

危险品

如果某位化学家制造了某种新的不稳定的化学物质,那么在处理该物质时,他必须绝对谨慎。

惠普在推行辞职风险评分系统时也很慎重,只有少数人才有权使用这套系统。博、哈尔德和戴伊在报告中建议说,系统所生成的辞职风险报告只能让少数经过专门培训的管理人员看到,这些管理人员应充分知晓该如何解读辞职风险分数、理解该分数的局限性、重要性和机密性。此外,这些管理人员只能查看其直接下属的辞职风险得分。实际上,即便有未经授权的人看到评分报告,他们也会发现,报告上并没有员工的姓名或其他具体信息,而是经过加密的认证码,只有获得相应授权的管理人员才能解码并知道报告所描述的具体对象。尽管所有的安全系统都是有漏洞的,但这样的设置基本上保障了数据的安全。

对于全球业务服务部销售薪酬团队的300名员工而言,只有三位管理人员有权看到他们的辞职风险报告。另外,也有工具用简明和非专业的词汇描述辞职风险分数,而且有相应的背景和辅助信息来解释某个分数是低还是高。这项“分析产品”的使用者也经过了提前的培训,他们能通过考虑员工的得分因素来充分解析辞职风险分数,因此,这一分数不会被视为评价员工的权威标准,管理层也不会对其过度采信。

任何由预测模型生成的数据都必须经过相应的验证,因为分数揭示的是趋势性和普遍性,个体则有更加丰富的可能性。比如,如果我今年有一次信用卡逾期还款记录,那么根据数据的普遍性,我今年第二次逾期还款的概率要高出4倍。但如果你知道我那个月逾期还款是因为家里的屋顶塌了,那么或许你的看法会发生变化。通常而言,我们总是无法彻底了解个人的具体情况。这与另外一种具有争议性的判断有些相似:一旦判定某些人心理不正常,他们就会因此被贴上“不正常”的标签,人们也会以相应的方式来对待他们。

随着时间的累积,辞职风险报告逐渐对管理决策发挥正面作用。风险报告可被视为“预警信号”,这样即便无法挽回员工,管理层也可及早为其辞职做好准备;如果还有挽留余地,那么管理层就应做好工作,尽可能让员工留下来。这个预测系统也可显示影响员工去留的因素,由此,管理层就能有的放矢地实施人力资源管理策略,这样就可能留住员工以降低成本并确保业务的连续性。

领先者不必辞职

让我们来看看结果吧。全球业务服务部的销售薪酬团队员工的流失率曾经超过20%,但在实行该预测系统之后,某些地区的流失率已经下降到了15%,而且还在持续下降中。这样的成绩主要应归功于辞职风险报告的出现以及对这些报告的审慎、妥善处理。

这项预测工程在惠普公司内部也颇受认可。惠普负责全球销售薪酬的副总裁对这套系统赞誉有加。辞职风险报告在今天依然发挥着作用,生成这些报告的预测模型则会按照最新数据每季度更新一次,由此确保该系统不会与实际情况脱节。

这些预测科学的先驱可能还没有完全意识到,这项预测工程在机器文化层面上做出了重大革新。计算机不再被动接受信息和数字,而开始生成具有重大意义的新信息,因此对其管理也必须更加审慎。在当今世界,计算机系统能生成全新的有价值的信息,同时我们也必须以更加审慎的姿态来对其进行管理。

在妥善管理和审慎使用的情况下,辞职风险分数能给企业带来巨大的收益,同时也能让其避免一些不必要的麻烦。在既定的管理体系中,如果你知道老板能看到你的辞职风险分数,而你也确定他知道这个分数的反应如何,那么或许你也能坦然接受。进一步讲,或许企业本身就有合理需求,即通过研究数据来掌握员工的动态和趋势,甚至可以在员工不知情的情况下进行这些工作。目前,并没有放之四海而皆准的伦理框架,也没有绝对的权威来判定孰是孰非。

但如果我们把员工记录变为犯罪记录,那会怎样?如果某天执法机构会生成“未来犯罪风险”,然后凭此报告忽然敲你的家门,你该怎么办?

预测犯罪,提前杜绝犯罪

如果你能把侦查情报模式从“感知—猜测—再反应”变为“预测—计划—再行动”,那么情况会有什么变化?——新泽西州警察局文兰德地区技术总监克里斯托弗·富尔彻警官

警察的工作必须随时待命。犯罪率可能会有变化,但执法部门却始终面临着警力配置有限的难题,在确定巡警安排以及调查力量时,警方很难针对犯罪事实进行警力配置。

为此,警方也在采用预测分析技术来预测犯罪发生地点,然后据此配备巡逻力量。其中一套预测系统是基于加利福尼亚圣克鲁斯两年的犯罪数据创建的,这套系统成功预测了25%的入室抢劫案发生地点。如今,它依然是警方布置巡逻力量的重要参考。在这座小城市里,警方共确定了10处犯罪高发地,并且在这些地点相应安排警力。这个项目被《时代》杂志评为2011年50项最佳发明之一。

预测分析的应用:预测犯罪

1. 预测内容:未来犯罪的发生地。

2. 采取行动:在这些地方安排巡警。

弗吉尼亚州里士满市警察局的信息总监斯蒂芬·霍利菲尔德警官则在2011年预测分析大会上展出了另一种犯罪预测系统。这套系统在地图上标注了各地的犯罪风险,即各警察辖区以及各小区的犯罪风险等级。自从这套系统投入使用以来,里士满市的犯罪率出现了下降。芝加哥、洛杉矶、文兰德以及孟菲斯等地的警方也采用了类似的预警系统,在孟菲斯,该预测系统让当地犯罪率下降了31%。2009年,美国国家司法研究所奖励了7个警察局,表彰它们在犯罪预测方面所取得的成就。

这些模型的作用不止于此。它们利用既有的数据和规律,例如在圣克鲁斯,犯罪发生地附近再发生犯罪的概率要比其他地方高。在里士满,预测模型也会根据当天市政活动等信息判断犯罪发生的概率,例如当天是否是薪水发放日或公共假日,当天是星期几甚至天气状况如何。

由此,执法部门有了打击犯罪的新工具,罪犯的嚣张气焰得到遏制。因此,反对使用这些预测系统的声音相对来说比较微弱。即便是美国公民自由联盟也没有对这些系统提出任何异议。没有危害,自然就没有敌人。

实际上还存在一种犯罪,如果预测模型没有及时成功预判,那么公众就会对此充满抱怨,那就是:欺诈。下面的专栏将阐述犯罪预测系统如何判断嫌疑人入狱的时间。专栏:识别欺诈犯罪分子表面上看也可能像好人。1995年,我曾与一个犯罪分子成了朋友。当时,我在纽约攻读博士学位,而他则是我女朋友姐姐的男友。他充满魅力,据说曾经是职业运动员。他总是让人如沐春风,大家都愿意敞开胸怀接纳他。我永远都忘不了他在著名的意大利餐厅“胭脂红”请大家吃大餐的场景。因此,当我外出度假时,我毫不犹豫地让他借用了我的公寓。大概一两年后,我才发现他窃取了我的社保号码、盗用了我的身份并给我一贯良好的信用记录涂上了污点。他以我的名义在洛杉矶地区开了一个小型瓶装水公司。尽管他比我大10岁,生活在美国的另一端,而且他的签名笔迹完全与我不同,但他却成功盗用我的身份开立了多家信用账户,包括信用卡以及获得瓶装水设备的贷款。在债台高筑后,他放弃了自己的生意,欠债不还。然后,债主们就来敲我家的门,我花了几年的时间,填写了各种各样的证明和表格,基本上恢复了我的信用记录,尽管直到今天,我依然无法获得美国运通信用卡,(如果你恰巧在那里工作,是否可替我美言几句?)大部分债权人都说,要看到警察的证明之后才能给我恢复信誉。但所有的警察都在“踢皮球”,没有人愿意给我开这样的证明,他们总是礼貌地回绝我,让我去找其他辖区的警察。那么犯罪发生地到底是哪里?是债权人的所在地?犯罪行为发生地?还是我社保号码被窃取的发生地?终于有一天,我鼓起勇气哀求警察说:“这对我来说是天大的事,您一定得帮帮我。”终于,有位警官大发慈悲了,他给我开了证明。然而,具有讽刺意味的是,在开立证明的过程中,他从头到尾都没有让我出具我的身份证明。那么,当你真正需要一套预测模型时,预测模型为什么又不见了呢?为什么当犯罪分子冒用我的名义去申请信用卡时,银行不能及时识别风险或加强检查呢?为什么不能按照信用记录上所载的地址跟我联系一下呢?毕竟,如果信息足够全面,那么审查人员会一眼发现这是明显的欺诈。如果说某些预测分析模型的使用令人不安,那么预测分析模型的缺位也同样让人难以安心。披着羊皮的狼按照定义,欺诈就是“故意欺骗以获得个人利益”,这是披着羊皮的狼所做的事。在欺诈行为中,某人会假装成另外一个人,或者假装去做其实并没有得到授权的事情。学生抄袭别人的作业、相扑运动员假装输掉、在线赌博分子靠出老千骗钱、利用虚假推特账号散播关于某位竞选人的不实消息,甚至制造虚假死亡证明来骗取寿险赔偿。所有这些行为都可通过预测分析来加以识别。如今,骗子很容易得手,因为现代骗子可在无边无际的世界里试手气,那就是:互联网。这是全球商务交易的全新技术框架,它实现了天涯若比邻,同样也给了不法分子以可乘之机。网络消费和交易行为越便利,实施欺诈的成本也就越低。在互联网交易中,买方、卖方、货物和支付分别发生在不同地点,这为欺诈提供了温床。随着互联网交易规模的扩大和自动化程度的提升,犯罪概率也在随之增长。在信用卡支付、退税、保险申报、担保声明、消费者银行信贷等方面的不实交易,甚至是主动点击过多的付费广告,都会产生巨大的成本。全国保险犯罪调查局称,保险犯罪每年骗保的金额高达300亿美元,这是在美国排名第二的白领犯罪,排名第一的是逃税。骗保犯罪行为对每个美国投保家庭造成的平均损失是200~300美元;也就是说,我们是在给犯罪分子付钱。“预计,每年银行信贷欺诈造成的损失将超过100亿美元。”曾任大众银行副总裁的周杰表示。目前,周杰是一家数据挖掘公司的顾问。信用卡欺诈每年在美国造成的损失接近50亿美元,而医保诈骗的数额则相当于纽约州一年的医保总额。根据最新发布的联邦贸易委员会报告,2011年共有超过180万起欺诈、冒名以及商业故意欺诈报案,较2010年上升了40%。欺诈在美国造成的损失总额预计有1000亿~1万亿美元。预测技术可以解决这一问题。通过预测手段对交易进行评分和排序,能有效提高欺诈识别率。一个审查团队每周只能检查固定数量的可疑交易。例如,美国前进保险公司招聘了大约200名“特别调查员”来审查可疑交易。但如果能用预测系统先对可疑交易进行筛选(将误报为可疑交易的排除在外),那么这些专业的特别调查员的工作效率就能得到明显的提升。由此可提高欺诈识别率并减少甚至挽回损失。预测分析的应用:识别欺诈1. 预测内容:交易以及对信贷、福利、报销或赔偿的申请是否属于欺诈。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载