算法霸权(txt+pdf+epub+mobi电子书下载)


发布时间:2020-09-04 23:30:15

点击下载

作者:[美]凯西·奥尼尔

出版社:中信出版集团股份有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

算法霸权

算法霸权试读:

前言

小时候,我常常盯着车窗外的车流,研究每辆车的车牌号。我会把每个车牌号分解成素数,如:45=3×3×5。这叫作因式分解,是我最喜欢的消遣活动。我这个小数学迷对素数特别感兴趣。

我对数学的爱好逐渐发展成热爱。14岁时我参加了一次数学夏令营,带回来一个心爱的魔方。数学使我摆脱了现实世界的混乱。经过数学家们的一步步证明推导,数学不断发展,其覆盖的知识领域不断扩大。我也加入了数学领域,在大学时期主修数学,后来取得数学的博士学位。我的论文方向是代数数论,这根源于我从小就喜欢的因式分解。最后,我成为巴纳德学院的终身教授,该学院的数学系是与哥伦比亚大学联合创办的。

后来,我做了一个重大的决定:从大学离职,到顶尖对冲基金德劭集团(D.E.Shaw)担任金融工程师。我离开学术界进入金融领域,把抽象的数学理论应用到金融分析的实践中。我们所做的数据分析为一个又一个账户实现了总量达到数万亿美元的变现。起初,在新的研究室研究全球经济让我感到既兴奋又震撼。但就在我在那儿工作了一年多的时候,2008年秋,全球金融危机爆发了。

显然,金融危机使得我曾经的庇护所——数学不仅卷入了这个世界性的问题,还助推了其中许多问题的发生。房地产危机,大型金融机构倒闭,失业率上升,在幕后运用着神奇公式的数学家们成为这些灾难的帮凶。而且,由于数学的功能特别强大(这是我热爱数学的原因之一),一旦其与科技相结合,其所造成的混乱和不幸也会成倍增长,它使得一个有着巨大缺陷的系统加速运转,进一步扩大规模,这些都是我原来不曾意识到的。

要是我们当时头脑清醒的话,就会后退一步思考,数学是怎么被我们误用的?我们该如何防止未来发生同样的灾祸?但是,金融危机发生以后,新的数学技术变得比以往更热门,其应用甚至延伸到更多的领域,每时每刻都在搅动着海量数据,其中大多数数据都是由社交媒体或者电子商务网站从使用者那里搜刮而来的。而且,数学逐渐不再关注全球金融市场动态,而是开始关注我们人类本身。数学家和统计学家一直在研究我们的欲望、行动和消费能力,一直在预测我们的信用,并用结果来评估我们作为学生、职员、情人的表现以及是否有变成罪犯的潜力。

这也就是我们所说的大数据经济,其收益前景非常可观。一个电脑程序可以在1~2秒内快速扫描成千上万份简历或是贷款申请,然后将结果整理成清晰的列表,让最有潜力的申请者位居前列。这不仅节约时间,而且公平客观。毕竟,电脑程序不像人类带有个人偏见,它只是一台处理数字的无情机器。到2010年左右,数学已深刻地介入人类事务,公众对数学这一工具的出现表示出了极大的热情。

然而,我看到的是危机。数学应用助推数据经济,但这些应用的建立是基于不可靠的人类所做的选择。有些选择无疑是出于好意,但也有许多模型把人类的偏见、误解和偏爱编入了软件系统,而这些系统正日益在更大程度上操控着我们的生活。这些数学模型像上帝一样隐晦不明,只有该领域的最高级别的牧师,即那些数学家和计算机科学家才明白模型是如何运作的。人们对模型得出的结论毫无争议,从不上诉,即使结论是错误的或是有害的。而且,模型得出的结论往往会惩罚社会中的穷人和其他受压迫的人,而富人却因此更加富有。

我为这些有害模型提出了一个名称:“数学杀伤性武器”(Weapons of Math Destruction,简写成WMD)。接下来,我将用一个例子向你们阐明这种模型的破坏性。

这个案例中的模型和很多其他的案例一样,其出发点是好的。2007年,华盛顿特区新上任的市长艾德里安·芬提下定决心对本市教学质量不佳的学校进行改革。当时,几乎每两个中学生中就有一个九年级学生是勉强毕业,只有8%的八年级学生在数学上的表现达标。为此,市长芬提设立了一个新的职位——华盛顿市教育总督,并聘用知名教育改革者李阳熙担任该职务。

当时流行的理论是:学生学得不够好是因为老师教得不好。所以,在2009年,教育总督李阳熙落实了一项旨在开除教学表现差的教师的计划。这符合当时全美教学质量差的地区所进行的改革的一种趋势,而且从系统工程学的角度看,这种想法非常有意义:评估教师。开除最差的教师,把最好的老师调到需求最紧迫的地方发挥他们的才干。用数据专家的话来说,就是“优化”学校的教师系统,尽可能保证给孩子们提供好的教育。除了那些“差”教师,谁会反对这项提议?教育总督李阳熙开发了一个叫作IMPACT的教师评估工具,至2009~2010学年末,华盛顿特区开除了评估结果垫底的2%的教师。第二学年末,又开除了5%,也就是206名教师。

华盛顿特区一所公立中学的五年级教师萨拉·韦索基似乎没有任何理由为此担心。她在麦克法兰中学仅任教了两年就得到了校长和学生家长的一致好评。校长表扬她对学生们的教育极负责任,学生家长纷纷称她为“接触过的老师中最好的一个”。

但是在2010~2011学年末,韦索基的IMPACT评分很低。她的问题出自一个叫作增值模型的新评分系统,该系统用于评估数学教学和语言技能教学的效果。该算法给出的评分权重占她最终评分的一半,超过了学校领导和社区的评价。华盛顿特区别无选择,只好开除了她,以及另外IMPACT得分在最低限度之下的205名教师。

这看起来不完全像是一种政治迫害或者分数决定论。该学区的这一评估办法确实是有其内在逻辑的。毕竟学校领导也有可能是糟糕教师的朋友。他们可能只是喜欢这些教师的个性或是表面上的尽心尽力。糟糕教师很可能从表面看来是个好教师。所以,像许多其他的学校系统一样,华盛顿特区愿意减少人为偏差,更加注重评估得分,因为这一分数是根据实实在在的数学和阅读成绩计算得出的。华盛顿特区官员承诺,分数可以清楚地说明问题。分数更能体现公平。

韦索基当然觉得这些数字极其不公平,她想知道这些分数是怎么得来的。她后来告诉我说:“我认为没有人能理解这些分数。”一个优秀的教师怎么会得到如此低的分数呢?增值模型评估的到底是什么?

她所知道的就是,评估模型很复杂。华盛顿特区聘用麦斯迈提卡政策研究机构(Mathematica Policy Research)研发评估体系。该机构遇到的难题是测量特区学生在学业上的进步,然后计算学生的进步或退步在多大程度上归因于他们的老师。这当然不容易。研究人员知道,许多变量,包括学生的社会经济背景、是否存在学习障碍等,都会影响学生的学习成绩。评估算法必须要考虑到这些个人差异,这就是评估模型往往十分复杂的一个原因。

试图将人类行为、表现以及潜力归纳为某个算法或模型确实不是一件容易的事情。要想理解麦斯迈提卡政策研究机构处理的是什么问题,你可以想象一个住在华盛顿特区东南部贫民区里的10岁小女孩。在一学期的学习之后,她要参加五年级的标准化测试。然后她的生活将继续下去。她可能正面对着家庭纠纷或是家庭经济困难,也许她正在搬家或是在担心她品行不良的哥哥,也许她不满意自己的体重或是在学校总被欺负。无论她在生活中经历了什么,下一学年她都要参加六年级的标准化测试。

如果你比较一下这个女孩两次测试的结果,最可能的情况是分数持平,当然更好的是分数提高了。但是如果分数下降,你能很容易地计算出她和那些优秀学生在两次测试的分数差距上差了多少。

但是,老师该为这一差距负多大的责任呢?这很难计算,而且麦斯迈提卡政策研究机构的教学评估模型只有少许数据可供比较。与之相反,像谷歌这样的大数据公司,研究人员会不断测试、监测成千上万个变量。他们可以把任一广告的字体从蓝色改为红色,将不同的版本分别投放给1000万名用户,然后追踪哪个版本获得的点击率更高,随时根据用户的反馈微调算法和操作。虽然我对谷歌公司有许多意见(接下来我将会在本书中做具体探讨),但谷歌的这种测试方法可以说是对数据的一种有效利用。

而想要计算一个人在一个学年内对另一个人的影响则复杂得多。韦索基表示:“学习和教学中有太多的不确定因素,很难一一评估。”而且,试图借助对二三十个学生的考试成绩的分析评估一名教师的教学水平,从统计学上来说也是不可靠的,甚至是很可笑的。样本量太小了,一切皆会出错。如果要采用严格的统计学标准分析教师的教学效果的话,我们必须随机挑选几千个甚至数百万个学生参加考试。统计学家需要大量的数据平衡例外和反常情况。(我们在后文将会看到,数学杀伤性武器惩罚的个体往往是多数人中的例外。)

同样重要的是,统计系统需要反馈通路,以保证系统出差错时运行者能觉察到。统计学家会不断用差错训练模型,使之更加智能。若亚马逊的推荐模型的相关性计算出错,给十几岁的女孩推荐了草坪修剪的工具书,则其网站的点击量必然会发生骤降。为此,亚马逊公司就需要不断调整模型,直到用户相关性推荐的算法运作正常为止。但是,如果没有错误反馈,大数据模型就会持续输出错误的结果,而没人试图对此加以改进。

我将要在本书中探讨的许多数学杀伤性武器都属于后者,包括华盛顿学区的教师评估增值模型。许多数学杀伤性武器都是依靠自己的内置逻辑来定义其所处理的情况,然后再以其自己的定义证明其输出结果的合理性的。这种模型会不断地自我巩固、自我发展,极具破坏力——而且在我们的日常生活中很常见。

在麦斯迈提卡政策研究机构的评分系统给予韦索基和其他205名教师差评之后,华盛顿特区开除了这些教师。但是该评分系统如何知道其决策是否正确呢?无从知道。评分系统确定这些教师是不合格者,那么别人就会认为他们是不合格者。206名“差”教师走了。仅仅是这一事实就表明了该评估增值模型的效果——该模型正在清理华盛顿特区的不合格教师。比起探索教学质量不佳的真相,评估模型所做的只不过是用分数具象化了问题。

这是数学杀伤性武器的典型反馈回路的一个示例。我们将会在本书中看到许多这样的例子。比如,当前,更多的雇主开始使用信用评分系统来评估求职者。雇主的想法是,及时支付账单的人更可能准时到岗和遵守规则。但其实,信用评分低的人中也有很多有责任感的、称职的员工。但是,雇主相信信用低和工作表现差呈正相关,这就导致了信用评分低的人很难找到工作。失业导致他们陷入贫穷,而这又进一步降低了他们的信用得分,让他们找工作难上加难。这是一个恶性循环。而雇主永远也不会知道,他们因为只关注信用评分而错过了多少个优秀的员工。数学杀伤性武器的构建过程存在着许多有害的假设,这些模型包裹着数学精确性的外衣,流行于市场,未经检测便投入使用,而人们对此却毫无争议。

这凸显了数学杀伤性武器的另一个常见特征,即其结果往往更倾向于惩罚穷人。部分原因是数学模型是被设计来评估数量巨大的人群的。数学杀伤性武器擅长处理巨量数据,而且处理成本很低,这也是它们的优势所在。而富人通常受益于个人投入。高档律所或者大学预科学校会比快餐连锁店或者资金短缺的城市公立高中更依赖推荐和当面交流。我们在之后会经常看到这一点:特权阶级更多地与具体的人打交道,而大众则被机器操控。

没有人能给韦索基解释为什么她得了这么低的分数,这已经足够说明问题了。算法就像上帝,数学杀伤性武器的裁决就是上帝的指令。数学杀伤性武器就像一个黑盒子,其内容物是被严格保护的公司机密,如此,像麦斯迈提卡这样的顾问公司才得以收取高昂的费用。但维护算法的机密性也有另一个目的:如果被评估的人被蒙在鼓里,他们将不太可能找到系统的漏洞。他们只能努力工作,遵守规则,祈祷模型记录并回报他们的努力。但是,人们无从了解模型的具体运作方式,这意味着人们很难对模型给出的分数提出质疑或者抗议。

多年来,华盛顿的教师一直在抱怨他们遭到了评估系统武断的差评,强烈要求知道分数的由来。他们被告知这是算法的结果,很难进一步解释。很不幸,很多教师因此望而却步,不再追究,他们被数学吓到了。但有一个叫作萨拉·拜克丝的数学老师没有因此退缩,她不停地向学区领导、以前的同事詹森·卡姆拉斯问个究竟。在萨拉反复追问了几个月之后,卡姆拉斯让她等待一份即将发表的技术报告。而拜克丝回复道:“如果你自己都无法解释评估标准的根据,你怎么能保证评估的正当性呢?”但是,这就是数学杀伤性武器的本质——将问题分析的部分外包给程序员和统计师,而他们的原则通常就是,机器说了算。

即便评估模型的细节始终没有公布,萨拉·韦索基也知道,她的学生的标准化测试的分数在算法中占了很大的权重,而她对此有一些疑问。在麦克法兰中学任教的最后一学年,在开学之前,她看到她即将迎来的五年级新生在四年级期末考试中取得了惊人的好成绩。巴纳德小学29%的学生的阅读水平被评为“高级阅读水平”,这一成绩是该学区平均成绩的5倍。萨拉的很多学生都来自这个小学。

但是,开学后,她发现很多学生连简单的句子都读不好。很久之后,《华盛顿邮报》和《今日美国》的调查揭示,该学区41所学校的标准化测试试卷有大量涂擦痕迹,包括巴纳德小学。大范围纠正答案表明作弊的可能性很大,部分学校有多达70%的考场涉嫌集体作弊。

这和数学杀伤性武器有什么关系?有多方面的关系。第一,教师评估算法被视为一种可以改善教学质量的强大工具,这是开发该算法的本来目的,而在华盛顿校区,该评估算法以一种“胡萝卜加大棒”政策形式推行。教师知道如果他们的学生考试成绩不好,他们就会面临失业风险,因此他们想方设法确保学生通过考试,尤其是在经济大萧条期间劳动力市场需求疲软的时候。与此同时,如果他们的学生的表现好于其他学校的学生的话,该学校的教师和校领导将可以得到高达8000美元的年终奖金。在了解了这些强有力的激励政策的存在以及试卷被大量涂改、出现反常高分的事实之后,你就有理由怀疑巴纳德小学的四年级教师出于害怕或是贪婪修改过学生的试卷。

可以想见,如果萨拉·韦索基班级的五年级新生其上一学年的高分期末成绩是造假的,那么他们这一次真实的五年级期末成绩就会说明他们这一年的学习效果不佳,而他们的老师也会因此成为“差”教师。韦索基认为这正是她现在的遭遇。这种解释与家长、同事和校领导的观察相符,即她确实是一个好教师,而这可以帮助她澄清事实真相。

但是,你不能状告一个数学杀伤性武器。这也是我们说数学杀伤性武器具有极为可怕的破坏力的原因之一。模型不会倾听,也不会屈服,对诱惑、威胁和哄骗以及逻辑通通充耳不闻,即使被评估者有充足的理由怀疑得出结论的数据被污染。没错,如果自动化系统出现过于明显的错误或者整体性错误,程序师的确会回头修改算法。但多数情况下,程序的裁决不容置疑,而操作程序的人只能耸耸肩,好像在说:“嘿,你又能怎么样呢?”

这正是萨拉·韦索基最终得到的学校回复。詹森·卡姆拉斯后来对《华盛顿邮报》表示,试卷上的涂擦也许的确暗示了考试作弊的存在,萨拉的五年级学生前一学年的期末考分也许的确是错误的,但这些都不是决定性的证据。他声明,对韦索基老师的处理是公正的。

你看出矛盾了吗?某个算法被用于处理大量数据,它根据结果提出了一种可能性,即某人可能是糟糕的员工、有风险的借款人、恐怖主义者或者是糟糕的老师,这种可能性所对应的分数能摧毁一个人的生活。但是当有人反击的时候,作为抗衡证据的“暗示考试作弊的可能性”的涂擦痕迹又起不到作用了。之后我们将不断发现,数学杀伤性武器的受害人所面对的提供反驳证据的标准要比算法给自身设定的标准还高。

萨拉·韦索基在拿到评分结果后没几天就被解雇了。好在,很多人包括校长都担保她是个好老师,她很快在北弗吉尼亚富人区的一个学校入了职。换句话说,由于一个正当性与准确性都极为可疑的模型,穷学校失去了一个好老师,而不会根据学生考试成绩开除教师的富学校得到了一个好老师。

房地产危机发生之后,我意识到,数学杀伤性武器的应用领域已经拓展到银行业,并对整体经济造成了危害。2011年年初,我从对冲基金离职。后来我在一家电子商务创业公司担任数据分析师。因为这一职务的关系,我发现大量数学杀伤性武器已经现身于我们能想到的任何一个行业,加剧了社会不公平,进一步压榨了弱势群体的剩余价值。这些数学杀伤性武器是正发展得如火如荼的数据经济的核心。

为了传播数学杀伤性武器这个名词,我注册了一个博客,起名叫“数学宝贝”。我的目的是动员同行数学家们反对使用草率的统计和带有偏见的模型,因为这样的统计和模型会导致恶性循环。我的博客尤其吸引数据专家,他们提醒我要将数学杀伤性武器这个概念传播到新的领域。但是2011年中期,“占领华尔街”事件在下曼哈顿区突然发酵,我意识到我们该为更广大的民众做些事情了。当时,上万民众聚集,要求经济正义和经济问责。但是当我听到记者对占领者的采访时,我发现他们似乎对经济方面的基本问题一无所知。他们明显没有读过我的博客。(这里我要多说一句,了解一个系统的缺陷,并不是要求你对整个系统都了如指掌。)

我意识到,我要么批评他们,要么加入他们,我选择了加入他们。不久后,我便推动哥伦比亚大学交替银行集团启用每周例会制度,讨论金融制度改革。在这个过程中我意识到,离开学术界之后的两次职业冒险,一次是在金融领域,另一次是在数据科学领域,给了我极大的便利接触推动了数学杀伤性武器的流行的科技和文化。

现如今,天生有缺陷的数学模型正从微观上掌控着整体经济,其影响覆盖了从广告业到监狱运营的各个领域。这些数学杀伤性武器和迫使萨拉·韦索基结束其在华盛顿特区公立中学的职业生涯的教师评估增值模型有很多相同的特点:不透明,不接受质疑,解释不通,并且都面对一定规模的大众进行筛选、定位或者“优化”。大多数数学杀伤性武器都会把其运算结果和实际情况相混淆,最终只能导致恶性循环而非问题解决。

但是,学区教师评估增值模型和用于寻找高额发薪日贷款潜在客户的数学杀伤性武器之间有一个重要的区别,即这二者会带来不同的结果。学区得到的是一种概念上的政治货币,即教师评估得以完成,教学效果在表面上得到改善的政绩。企业得到的是本位货币:钞票。对于许多借助数学杀伤性武器运营业务的公司来说,热钱的涌入似乎证明模型奏效了。站在公司的角度,这是有意义的。当公司构建模型寻找潜在客户或者操控绝望的借款人时,越来越多的盈利似乎表明它们走对路了。但现在的问题是,利润变成了真理的象征。这种危险的混淆我们以后还会多次看到。

这种混淆的出现是因为数据科学家经常忽视交易接收端的民众。他们当然明白,数学杀伤性武器必然会出现偏差,在一段时间内会把部分人群归错类,剥夺他们找到工作或者买房的机会。但是一般来说,数学模型操作者不会思考这些可能的错误。他们看重的反馈是金钱,这也是他们的根本动机。他们设计模型就是为了吸收更多的数据,对分析结果进行微调,让更多的热钱涌入。投资者因此而尽享收益,于是决定继续将更多的钱投入数学模型开发公司。

那么受害者呢?数据科学家也许会说,没有数学模型是完美的,那些受害者是附带损失。像萨拉·韦索基这样的人常常会被他们认为没有价值,不值得惋惜。他们也许会说,别管这些人,去看那些从搜索引擎的推荐中获得有益建议的人,或是在潘多拉网络电台上找到自己喜爱的音乐的人,或者那些在领英上找到理想工作的人,还有在婚恋交友网站Match.com上找到爱情的人。多想想算法实现的这些令人惊讶的成就,忽略那些不完美。

大数据从不缺传道者,但我不在其中。本书将透视数学杀伤性武器带来的种种危害和不公正,分析其对人们在人生关键时期(如上大学,借钱,入狱,或者是找工作和保住工作)所做决策造成误导的有害例证。我们将看到,人类生活的各个方面正越来越多地被数学杀伤性武器所控制。

欢迎参观大数据的阴暗面。第一章盲点炸弹不透明、规模化和毁灭性

1946年8月,一个炎热的午后,克里夫兰印第安人棒球队主帅路·波德鲁正经历着他悲惨的一天。在双重赛的第一场比赛中,泰德·威廉姆斯几乎以一人之力横扫了波德鲁的整支球队。威廉姆斯可能是当时最伟大的击球手,在这场比赛中,他粉碎了三个全垒打,为自己的球队赢得8分。最终,印第安人队以10∶11遗憾输球。

波德鲁不得不采取反击。所以,当威廉姆斯在双重赛的第二场中第一次出现时,印第安人队的球员就立即开始调整各自的场地位置。游击手波德鲁换到二垒手位置,二垒手退到右外场,三垒手换到波德鲁的左边,担当游击手。很明显,波德鲁在想方设法地改变球队的防卫方向,力求截下威廉姆斯的击球。

也就是说,他在像数据科学家一样思考。他分析了原始数据——大多数都是靠观察得到的:泰德·威廉姆斯通常会把球打到右外场。然后,他据此调整了球员的站位。结果,这个策略真的奏效了。外野手接住了威廉姆斯更多的极速平直球(但依然对飞过头顶的全垒打束手无策)。

如果你今天再去看美国职业棒球联盟的比赛,你就会看到,如今,球队在制订防守策略时会把几乎每一个球员都看作威廉姆斯。波德鲁仅仅是观察了威廉姆斯通常的击球位置,而现在的球队经理则精确地知道每个球员以往击每一个球时所在的位置,包括上周的、上月的、整个职业生涯的、面对左手投手时的等等。他们利用这一历史数据分析对手的比赛策略,计算防守成功率最高的球员站位。有时候根据计算结果,全场球员都需要变换位置。

防守转移只是一个更复杂的大问题中的一个小问题。这个大问题是:棒球队可以采取哪些措施将自己获胜的可能性最大化?棒球数据科学家在寻找答案时,仔细检查了他们可以量化的每个变量,并赋予每个变量一个分值。二垒安打比一垒安打的价值高多少?什么时候值得用短打送跑垒者从一垒上二垒?

所有这些问题的答案混杂在一起,组合成了棒球运动数学模型。这些模型中的每一个都包含着各种各样的可能性,包含棒球运动要素——从四坏球、全垒球到球员素质——中所有可测量的关系。模型的目标是寻找最优组合。如果扬基队改为让右手投手应对盎格鲁队的“神鳟”麦克·卓奥特,与使用原来的投手不变动相比,扬基队有多大可能让他出局?这又将如何影响其整场比赛的胜利概率?

棒球运动特别适合建立预测性数学模型。正如迈克尔·刘易斯在其畅销书《点球成金》中所写的,棒球运动一直以来都是数据痴迷者的热门话题。过去几十年,球迷们仔细研究棒球运动员卡片背面的数据,分析C. 雅泽姆斯基的全垒球模式,或者比较罗杰·克莱门斯和杜威·古登的出局总数。但是,从1980年开始,专业的统计学家开始分析这些数字以及大量新数据的真正意义:如何将这些数据转化为胜利,球队主理人如何用最少的钱使获胜的可能性最大化。“点球成金”现在指针对长期被认为仅受直觉控制的领域开发的统计方法。但是,棒球模型是有益模型,与我们生活中很多领域涌现出来的有害模型即数学杀伤性武器作用相反。棒球模型之所以公平,部分原因在于其模型是透明的。每个人都可以获取作为模型根据的数据,并且或多或少能够理解模型的结果应该怎么解读。确实,一个队的模型中也许本垒击球手的表现权重更高,而另一队的模型则可能没那么看重本垒击球手的作用,因为该队的强击手经常会打出三振出局。但无论如何,在这两种情况下,全垒打和三振出局的实际次数都将展示在大家的眼皮底下。

棒球的统计也比较严谨。棒球专家手中掌握大量数据,而且几乎所有的数据都和球员的表现直接相关。可以说,他们的数据和他们根据模型预测的结果高度相关。这听起来也许平淡无奇,但读完本书我们就会看到,建立数学杀伤性武器的人通常在他们最感兴趣的行为方面缺乏相应的数据。所以,他们将本应通过调查获得的数据替换成间接变量。他们在一个人的邮政编码或语言模式和此人偿还贷款的能力或者胜任工作的潜力之间建立联系。这些联系绝大部分具有歧视性,有些甚至是不合法的。而大多数棒球模型则不使用间接变量,它们只利用最直接的相关信息,如坏球、好球和安打的次数。

最重要的是,新的棒球数据还在不断涌入,每年的4~10月,每天都有十二三场比赛的新数据涌入记录系统。统计学家可以将这些比赛结果和他们开发的模型的预测结果进行比较,以找出模型哪里出了问题。比如,他们可能预测一个左手投手会多次把击球机会让给右手击球手,但在实际的比赛中,左手投手自己击了球。这样的话,统计分析小组就得调整模型,研究哪里出错了。投球手的新曲线球会影响他的数据吗?投球手在傍晚进行的比赛中会有更好的投地表现吗?统计学家可以把了解到的任何信息纳入模型以完善模型。这就是可靠模型的运作方式。可靠模型的开发者会对自己想要理解或者想要预测的所有事情进行反复的核实查证,并且模型必须随着具体情况的改变而改变。

棒球模型中有成千上万个不断变化的量,你也许会好奇,我们为什么能把这种模型和华盛顿特区的教师评估模型进行比较。棒球运动模型追求细节,并且不断更新;不透明的教师评估模型则似乎建立在少量的考试成绩数据之上。后者真的是模型吗?

教师评估模型确实是模型。模型只不过是某个过程的抽象表示,它可以表示棒球比赛结果、石油公司供应链、外国政府的行动或者电影院上座率。不管是电脑模型还是人脑里的模型,模型都会吸收我们知道的相关信息,并据此预测各种不同情况下的反应。我们每个人的大脑中都有成千上万个模型,这些模型告诉我们什么是我们可以期待的,并指导我们做决定。

下面是我每天使用的信息模型。作为三个孩子的母亲,家里的饭由我来做,我丈夫就不说了,他连要往煮意大利面的水里加盐都记不住。每天晚上当我开始做饭时,我的大脑就不自觉地开始分析每个人的口味。我知道我的一个儿子喜欢吃鸡肉(但是讨厌吃汉堡),另一个儿子只爱吃意大利面(最好是加一些弄碎的帕尔玛奶酪)。同时我还得考虑他们每天的口味变化,调整我头脑中的模型。显然,我的模型中有一些不可避免的不确定因素。

输入到我内在家庭饮食模型的是这些信息:我的家人的偏好,我现在有的或者我知道可以买到的食材,还有我自己的精力、时间和决心。输出的是我该如何做这顿饭以及具体做什么。我根据我的家人在吃完饭后的满意程度、他们这顿饭的饭量以及食品的健康程度来评估一顿饭做得是否成功。根据饭的受欢迎程度和被吃掉的量,我会更新可以用于下次做饭的饮食模型。这些更新和调整让我的饮食模型成为统计学家所说的“动态模型”。

我可以很骄傲地说,这么多年以来,我已经非常擅长给家人做饭了。但是,如果我和丈夫准备外出一周,而我想给我妈妈解释我的模型,让她代替我给孩子们做饭,那我该怎么办呢?或者,如果我的那些初次为人父母的朋友想要知道我的做饭方法,那我又该怎么办呢?这时候,我就应该将我的模型具体化、形式化和系统化,也就是说使其更加数学化。如果我有野心的话,我也许可以把它做成电脑程序。

一个理想的程序将包含所有可获得的食品、食品的营养价值和成本,以及一个关于我家人口味的完整数据库:每个人对食品的好恶。但是,我很难坐下来一一列出所有的信息。我有很多关于他们争抢芦笋、不要豆角的记忆,但我很难用一个可理解的公式把它们表述出来。

较好的解决办法就是随时间发展不断地训练模型。每天输入买了什么、做了什么的相关数据,记录家里每个人的反应。我也会录入其他的参数或者约束条件。比如,我会限定只吃当季水果和蔬菜,尽量少做果酱馅饼,但不至于少到遭到家人公开反抗的程度。我还会给模型增加一些规则:这个喜欢吃肉,这个喜欢吃面包和意大利面,这个能喝很多牛奶,还总是吃什么都喜欢抹巧克力酱。

如果我把这件事当成首要工作来做的话,许多个月以后我也许就可以提出一个非常好的模型。我将把脑子里的食品管理系统、我的内部信息模型转化成一个具象化的外在模型。在建立模型的过程中,我扩大了自己对世界的影响力。我构建了一个自动化的“凯西烹饪系统”,任何人都可以操作它,即使我不在场,它也能照常工作。

但是错误总会出现,因为模型的本质就是简化。没有模型能囊括现实世界的所有复杂因素或者人类交流上的所有细微差别。有些信息会不可避免地被遗漏。我也许会忘记在模型中加入一些规则,比如生日当天时垃圾食品的限制可以放松,或者比起用各种方法烹制出来的胡萝卜,我的家人更爱吃生胡萝卜。

因此,要建立一个模型,我们需要对各个因素的重要性进行评估,并根据我们选出的那些重要的因素将世界简化成一个容易理解的玩具,据此推断出重要的事实和行动。我们期待模型能较好地处理一种工作,同时也接受模型偶尔会像一个愚蠢的机器一样存在很多信息盲点。

有时候,这些盲点不重要。当我们在谷歌地图搜索如何去往目的地时,谷歌给出的世界模型就只有道路、隧道、桥梁,而忽略了建筑物,因为建筑物和我们想要的答案无关;当利用航空电子软件指导飞机飞行时,该软件给出的世界模型就只包含风、飞行速度和地面的着陆带,而不会显示街道、隧道、建筑物和人。

一个模型的信息盲点能够反映建模者的判断和优先级序列。谷歌地图和航空电子软件对于信息的选择似乎已经是固定不变的了,但其他模型的信息选择则存在着严重的问题。回到之前那个例子,华盛顿特区学校的教师评估增值模型主要依据学生考试成绩评价教师的教学质量,而忽视了教师对学生的投入度、在专业技能上的钻研度、教学管理方面的成果以及在帮助学生解决私人和家庭问题上的表现等。该评估模型过于简单,为追求效率牺牲了精确性和洞察力。但是,在学校领导层看来,该模型是把业绩明显不佳的几百位老师找出来的有效工具,他们并不介意这意味着模型可能会误解其中一部分人。

我们可以看出,尽管被普遍认为是不公正的,该模型还是能反映出建模者的目标和思想观念。当我在模型中排除了每餐吃果酱馅饼的可能性时,我也是在把我的思想观念强加到我的烹饪模型里。我们会毫不思索地做这件事。我们自己的价值观和欲望会影响我们的选择,包括我们选择去搜集的数据和我们要问的问题。而模型正是用数学工具包装出来的各种主观观点。

一个模型是否奏效也见仁见智。毕竟,不管是正式模型还是非正式模型,关键要素都是其对某事成功或符合标准的定义,这一点在我们探讨数学杀伤性武器的典型特征时还会讲到。我们不仅要问是谁设计的模型,还要问设计模型的人或者组织机构要达成什么目的。比如说,如果是由某个贫困国家的政府来为我的家庭饮食建立模型,则该模型的成功可能指在我们现有食物储备的基础上,以保证我们一家不至于陷入饥饿为前提,尽可能地降低成本。个人饮食偏爱将被很少考虑或者根本不予考虑。相反,如果是由我的孩子建立模型,则成功的特征可能就是每餐都可以吃冰激凌。而我自己的模型会综合考虑资源管理和我孩子们的开心程度,还将参考我自己所确定的健康—方便—丰富—可持续性这一优先级序列。因此,我的饮食模型更为复杂。但是我的饮食模型确实反映了我的个人实际。另外,适用于今天的模型在明天的效果就不一定有那么好了。如果不经常进行更新的话,我的饮食模型就会被淘汰。食品价格会变动,家人的口味也会改变。在孩子们六岁时制定的饮食模型肯定不适用于他们进入青少年阶段的饮食习惯。

内在模型也是如此。你可能会看到这样的现象,祖父母隔了较长的一段时间再去探望孙子或孙女时往往就会出问题。上一趟来时,他们收集了孩子们知道什么、什么会让他们笑、他们喜欢什么电视节目之类的数据,然后在无意识中建立了和五岁的孩子们有关的模型。而一年后再见到孩子们,会面的最初几小时会让他们感到困惑,因为他们的模型失效了。孩子们不再觉得汤姆斯小火车头有意思了。他们需要花些时间重新收集有关孩子们的数据来调整自己的内在模型。

这并不是说,好的模型不可能简单。一些非常有效的模型可能只有一个变量。最常见的家用或办公室火灾探测模型就只测量一个与火灾密切相关的变量:烟的出现。通常来说,这就足够了。但是当建模对象是我们的人类同胞时,只考虑简单的变量就会出问题,或者说会使我们遭遇麻烦。

种族主义在个人层面上可以被视为在全世界数十亿人的大脑中快速运转的预言模型。这种模型是基于有缺陷的、不完整的或是笼统的数据建立的。无论是来自经验还是来自传闻,这些数据都是用来表明某一类人行为恶劣的。这种模型产生了一种二元论的预测,即某一种族的所有人都行为恶劣,非该种族的人则没有这一特点。

不用说,种族主义者不会花大量时间搜集可靠数据修改他们扭曲的模型。他们的模型一旦变成一种信仰,就从此固定不变了。这种模型会生成有害假设,而且很少检测这些假设的有效性,反而满足于那些确认并巩固这些假设的数据,同时忽视反面例证。因此,种族主义是最欠考虑的预测模型,它由随机的数据采集和假性相关所驱动,被制度不公平加以强化,又被证实性偏见加以进一步劣化。这么说来,种族主义和我要在本书里探讨的所有数学杀伤性武器十分相似。

1997年,非裔美国人杜安·巴克,一个已被定罪的杀人犯,在得克萨斯州哈里斯县法庭接受审判。巴克已被证实杀了两个人,陪审团必须要决定最后的裁决是死刑还是终身监禁、保留假释机会。检察官一方奋力争取死刑判决,理由是巴克如果被释放还会再杀人。

巴克的辩护律师带来了一个专家证人,心理学家瓦特·基哈诺,不过对于巴克,他一点儿忙也没帮上。基哈诺曾经研究过得克萨斯州监狱系统的累犯率,在法庭上,他提及巴克的种族与累犯率的相关性。在盘问证人时,检察官抓住了这一点。“你断定,种族因素,黑色人种,会因为各种各样的原因带来社会上危险行为的增多。对吗?”检察官问道。“是的,”基哈诺回答说。于是,检察官在做案件总结陈述时强调了这一证词。最终陪审团判定巴克死刑。

三年后,得克萨斯州检察长约翰·康奈发现,上面那位心理学家在另外6个死刑案件中给出了同样的种族论证词,大多数案件发生于他在检察机关工作期间。康奈——其后来于2002年当选美国参议院议员——下令为涉案的7名犯人重新召开不带有种族偏见的听证会。在媒体发布会上他声明:“刑事司法体系中,将种族因素纳入考虑范畴是不合理的……得克萨斯州人希望,也值得拥有人人平等的司法体系。”

这7名犯人中的6名重新接受了审判,但他们再次被判处死刑。法庭裁决,基哈诺的带有偏见的证词不是决定性因素。巴克没有得到重新审判的机会,也许是因为提出种族论证词的己方证人。他仍是死刑犯。

不管在审判时包含种族因素的证词是否被明确提出,很长一段时间里,种族都是影响审判结果的一个主要因素。马里兰大学的一项研究表明,在哈里斯县,包括休斯敦市,对于犯下同等罪行的犯人,检察官判非裔美国人死刑的概率比白人高3倍,判拉美裔美国人死刑的概率比白人高4倍。这种情况并不是得州独有的。美国公民权利联盟的调查显示,犯同样的罪,黑人罪犯的刑期比白人罪犯的长20%。黑人只占据美国总人口的13%,但黑人罪犯占据了美国40%的牢房。

你可能会认为,利用电子化、数据化的再犯风险模型辅助判决能减少偏见对判刑的影响,更有利于实现公正判决。美国24个州的法院正寄希望于此,于是其采用了所谓的再犯模型作为辅助工具。再犯模型被用于帮助法官评估每一个罪犯的危险性。从很多方面来说,再犯模型的开发是一种进步,它使得审判更具一致性,更少被法官的情绪和偏见所影响。另外,再犯模型减少了罪犯的平均刑期,节省了政府开支。(关押一个犯人一年平均需花费31000美元,在康涅狄格和纽约州,该项成本还要翻一倍。)

但问题是,我们是彻底根除了人类偏见,还是只不过用技术包装了人类偏见?再犯模型的开发是一个非常复杂的数学问题,而再犯模型的框架是由大量的假设构成的,其中一些假设本身就带有偏见。而且,瓦特·基哈诺的公开证词在被转录成文字之后,还可以供他人在法庭上阅读和质疑,但一个再犯模型的运作完全是由算法独立完成的,只有极少数专业人士能理解。

一个更普及的用于评估罪犯危险性的模型,叫作LSI–R(水平评估量表),其中包含一个需要罪犯填写的冗长的问卷。其中一个问题,“你之前被定罪过几次”与再犯风险高度相关。其他问题也非常相关,比如“其他人对你这次犯罪起了多大的作用?”“毒品和酒精对你这次犯罪起了多大作用?”

但是,当问题延伸到深挖罪犯的个人生活时,我们很容易想到,有特权背景的罪犯和来自治安差的城市贫民区的罪犯,他们的答案肯定不一样。问一个在舒适郊区长大的罪犯“你第一次遭遇警察”的原因,他也许会告诉你这次入狱就是第一次。相反,生活在贫民区的年轻黑人男性很可能已经被警察拦截过许多次了,即使他们什么错事也没做。纽约公民权利联盟2013年发表的一份研究报告显示,14~24岁的黑人男性和拉丁美洲男性仅占该市总人口的4.7%,但其占被警察“拦截—盘查”总人数的40.6%。在这些被盘查的少数族裔中,超过90%的人都是无辜的,还有一些也许只是犯了未成年酗酒或者携带大麻的轻罪。不像大多数富人孩子,他们总会因为这些小事遭遇麻烦。所以,如果曾在早期“遭遇”过几次警察就表示一个犯人是惯犯,这对穷人和少数族裔是很不公平的。

该问卷还没有结束。罪犯还会被问及他们的朋友和亲戚是否有过犯罪记录。同样,问在中产阶级社区长大的罪犯这个问题,得到否定回答的可能性很高。调查问卷确实回避了种族问题,因为问种族问题是非法的,但是有了每个罪犯提供的大量生活背景细节,这个非法的问题也没必要再问了。

自1995年LSI–R调查问卷投入使用以来,已经有成千上万个罪犯做过这张问卷了。统计师利用所收集的答案设计出了一个模型,其中与再犯率高度相关的问题答案权重更高。罪犯在答完调查问卷之后,模型会基于他们的分数将其划分为高、中、低三种风险等级。在美国的有些州,比如说罗得岛州,这一测试仅用于找出那些正被监禁的罪犯中风险等级高的人,将其送入强化的劳改项目。但是在其他州,包括爱达荷州和科罗拉多州,法官会用模型给出的评分指导量刑。

这是不公平的。这份调查问卷涉及罪犯的出生地和成长环境,还包括他的家庭、所在街区和朋友,而这些细节不应该被视为和刑事案件或者量刑存在相关性。如果检察官企图通过提及被告兄弟的犯罪记录或者其所在街区的高犯罪率去判定被告的话,正义的辩护律师就会大喊:“法官大人,我反对!”而严肃的法官会判定反对有效。这是我们法律系统建立的基础。我们应该因为我们所做的事情而接受相应的审判,而不应该因为我们的身份而被审判。虽然我们不知道这些问题在问卷中所占的确切比重,但可以肯定地说,任何大于零的比重都是不合理的。

很多人会说,像LSI–R这样的数据模型有助于评估罪犯的再犯风险,或者说至少比法官的随意猜测要更精确一些。但是,即使我们暂且不谈重要的公平问题,我们也已经陷入数学杀伤性武器创造的恶性循环之中了。得到“高风险”评分等级的人很可能本来就是失业人员,在其所生活的社区里,他的许多朋友和家人都触犯过法律。得到这一评级是导致其刑期变长的一个原因,而多年和一群罪犯关在一起又增加了他再次犯罪的可能性。等他出狱之后,他又会回到同样的贫穷社区,而这一次还有了犯罪记录,对他而言,找工作变得更难了。如果他因生活所迫不得不再次犯罪,再犯模型就又一次得到了成功验证。但事实上,正是这一模型本身导致了犯人陷入恶性循环,并且进一步巩固了犯人的恶劣处境。这是数学杀伤性武器的典型特点。

这一章,我们已经研究了三种模型。棒球模型基本上是一种健康模型。这种模型信息透明,不断更新,假设和结论大家都可以看到。棒球模型仰赖比赛进行过程中积累的真实数据,而不是替代性的间接变量。而且模型涉及的球员都明白比赛过程,且和模型的目标一致:赢得世界职业棒球大赛。(当然,这并不是说合同期内的球员不会对模型的评估结果发牢骚:“没错,我确实出局200次,但是请看看我的全垒打……”)

就我个人而言,我们讨论的第二种模型,家庭饮食模型,绝对是一种良性模型。如果我的孩子们要质疑模型涉及的某个假设,不管是经济上的还是饮食上的,我都会很乐意回答他们。即使有时候他们看到盘子里的绿色蔬菜会摆臭脸,但他们仍然会承认,大家在家庭饮食上的共同目标是方便、省钱、健康、美味,只不过在每个人自己的模型里,各要素的分量有所不同。(当他们开始自己做饭之后,他们就可以建立自己的模型了。)

我要补充说明的是,我的饮食模型绝对不可能规模化。我并不乐于看到沃尔玛、美国农业部或其他任何大型机构拥护我的模型,并强行将其施加到亿万人的生活中,就像应用那些我们在本书中要讨论的数学杀伤性武器一样。不,之所以说我的饮食模型是良性的,极其重要的一点是因为我的饮食模型永远不会离开我的大脑,不会变成一串固定的代码。

但是,本章最后的再犯模型则与前两者完全不同。让我们迅速做一个简单的数学杀伤性武器判定练习,看看它是否属于此类模型。

第一个问题:如果参与者知道自己是被模型评估的一个对象,或者知道模型的目的是什么,那么该模型还是不透明,甚至是隐形的吗?绝大多数填写强制调查问卷的罪犯都不是蠢蛋。他们多少都会怀疑自己提供的信息将被用来安排自己的监狱生活,比如会被关押更长的时间或更短的时间。他们知道游戏规则。但是监狱官也知道。因此,他们对LSI–R调查问卷的目的只字不提。否则的话,他们知道很多罪犯会弄虚作假,在离开监狱的那天做再犯风险调查问卷时回答得像个模范市民。所以,罪犯需要被尽可能地蒙在鼓里,不被告知自己的风险等级评分。

再犯模型远非个例。不透明、隐形成了这类模型的规则,清晰、透明的模型倒成了例外。我们被模型分类为购物者、沙发懒虫、病人和贷款申请者,而我们自己对此知之甚少,甚至仍在愉快地注册各种把我们当成评估对象的应用程序。即使这些模型是良性模型,不透明还是给人一种不公平的感觉。如果你在进入一个露天音乐会现场之后,导引员跟你说你不能坐在前十排,你会觉得这很不合理。但是如果导引员跟你解释前十排是为行动不便的人保留的,那你的感觉就大不一样了。所以,透明很重要。

然而现实是,许多公司竭尽所能地隐藏它们的模型运算结果,甚至隐藏模型的存在。常见的一个辩护理由就是模型算法包含对它们的业务至关重要的“商业机密”。这是知识产权,如果有必要,公司必须在大批律师和说客的协助下为其维护算法机密性的行为进行辩护。比如谷歌、亚马逊和脸书这样的互联网巨头,它们为自己的业务量身定做的算法价值高达数十亿美元。数学杀伤性武器是个深不可测的黑盒。因此,明确回答第二个问题特别困难:模型违反国民主体的利益吗?简单来说,模型是不是不公平的?它会破坏或毁灭一些人的生活吗?

根据对于这个问题的回答,LSI–R再一次成为数学杀伤性武器的典型。毫无疑问,20世纪90年代建立该模型的人认为,LSI–R是提高刑事司法系统的公平和效率的一个有效工具。它能帮助没有威胁性的罪犯缩短刑期,而这部分罪犯将因此获得更多年的自由时间,同时这也将大大节省美国纳税人的钱,毕竟每年用于监狱运营与管理的财政开支高达700亿美元。但是,再犯风险调查问卷是根据犯人的生活背景细节信息评判罪犯的危险等级的,而该细节信息在法庭上是不被允许作为证据出现的,因此这个模型是不公平的。虽然很多人可能会因此受益,但另一些人也因此受苦。

导致一部分人受苦的关键原因是模型造成的恶性循环。我们看到,再犯模型会根据一个人的成长环境来描述这个人的基本情况,它会自行创建一种使假设合理化的环境。而模型则在此恶性循环的过程中变得越来越不公平。

第三个问题:该模型是否有应用场景呈指数增长的潜力?用统计学家的话来说就是,该模型能否规模化?这听起来可能像是一个书呆子数学家的较真,但是规模化的确增强了数学杀伤性武器的破坏力,使其逐步转变为我们生活中的决定性因素。我们将会看到,不断发展的数学杀伤性武器在人力资源、健康、银行等数不尽的行业快速确立普适准则,继而对我们产生一种非常类似于法律的权威性影响。比如,如果你被银行的模型认定为高风险贷款者,那么所有人都会把你当成赖账不还的人,即使你完全不是这样的人。当这个银行的模型规模化后,就像现在的信贷模型那样,你的一生都将生活在其阴影下,你能否买到公寓、找到工作或者买到车等,都将由这一模型来决定。

就规模化而言,再犯模型再次成为一个典型。大多数州已经投入使用这一评估模型,而LSI–R是其中最常见的一个,至少已在24个州中投入使用了。罪犯为数据科学家提供了一整个活跃的市场。刑罚体系积累了大量数据,因为罪犯比平常人享有更少的隐私权。而且,刑罚体系因为太过于臃肿、低效、高成本、缺乏人性而亟待改进。谁不想要这样一个低成本的模型应用场景呢?

刑罚改革在今天这样一个极化政治世界是一个极为罕见的议题,自由党和保守党在这一议题上有着共同的利益。2015年年初,保守党的科氏兄弟,查尔斯和大卫,与自由党的智库“美国进步中心”合作推进监狱改革,致力于减少监狱人数。但是,我对两党合作加上其他一些团队的共同努力,是否一定能够提高用于监狱的评估模型的效率和公平依然持怀疑态度。即使其他的工具取代LSI–R成为监狱中的主要评估模型,监狱系统仍然是大规模数学杀伤性武器的强大孵化器。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载