智能的本质 人工智能与机器人领域的64个大问题(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-14 10:18:02

点击下载

作者:(美) 皮埃罗·斯加鲁菲(Piero Scaruffi)

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

智能的本质 人工智能与机器人领域的64个大问题

智能的本质 人工智能与机器人领域的64个大问题试读:

前言

当越来越多的作家、发明家以及企业家不断折服于多个科技领域——尤其是人工智能领域所取得的巨大技术进步时,他们也在争论,是否人类正在迈向超人类智能机器兴起的“奇点”时代。而与此同时,各路媒体也热衷于报道那些能够执行复杂任务的机器的新闻,从击败国际围棋大师到驾驶汽车,从准确识别出视频中的猫再到在电视问答节目中表现得超越人类专家。这些故事重新燃起了人们对于创造出像人类一样聪明的人工智能机器的热情,但是同时,公众也不免对此感到担忧,害怕这些智能机器会伤害到人类,至少可能会抢走人类的饭碗。

首先,我写这本书是为了使各种人工智能的形式接受“现实的检验”。我认为,当社会不断被功利性的爆炸性新闻所充斥,而学术界日益追逐用研究成果成立硅谷式的初创企业的时候,一般意义上的技术进步,尤其是计算机科学上的进步,往往处于被高估的境地。所以,我要纠正一些激进的观点和错误的概念,在你理解我的解释之前,我抛出的这些言论有可能会产生争议。我认为,自其问世以来,(真正的)人工智能所取得的所谓(真正的)进步始终微不足道,而其中颇具讽刺意味的是,计算机(的计算能力)却日新月异。

一般情况下,人类经历的每个时代都倾向于夸大当时这个时代的独特性。技术正以前所未有的速度进步,而这正是奇点理论提出的前提。我相信之前的人类历史上肯定存在过其他加速技术进步的时代,所以没有必要争论我们所处的时代是否真的特殊。我们对过去了解越少,就越有可能被当前时代的发展所蒙蔽。

当然,我们的时代的确有很多变化。但变化并不一定总意味着进步,或者说,并不意味着每个人都能取得进步。相比普通创新而言,颠覆性创新往往意味着破旧立新,为消费电子行业创造更为巨大的新市场。而这与机器智能没有太多的关系,有时甚至可以说与创新无太多关系。

另外,还有一个更加形而上学的理论认为,人类智能从某种形式上看已经发展到了进化的顶点。若果真如此,我们就需要格外警惕:非人类智能已经出现,并且正在以异常迅猛的速度增长。不过,这种智能并不只是机器:无数的动物都具备最聪明的人也不具备的本领。执行“超人类”任务的机器由来已久。想想大约1000年前发明的时钟吧,它能够完成人类不能完成的任务:方便地告诉人类两件事情中间到底间隔了多少小时、多少分钟甚至多少秒。

所以,一旦认识到非人类智能其实一直存在于我们周围,而且我们早已在数百年以前发明了超人类的机器,从历史和生物学的角度重新审视超级智能机器就显得非常有必要了。

如今的年轻一代以及他们的上一代人没有经历过几十年前人工智能领域的唇枪舌剑(譬如“图灵测试”“机器中的幽灵”“中文房间”等)。因此,新的人工智能专家更容易在年轻一代的心中留下深刻印象。在我撰写的《Thinking about Thought》一书中,我已经总结出了若干类针对机器智能的不同哲学论点,既有赞同,也有批判,在此不再赘述。但至少有一点我会提醒刚刚接触人工智能的年轻人,在我“成长”的年代(基本与认知科学的发展平行),“智能”一词在大众书籍中就已不再代表“炫酷”,它被这些书籍过度滥用,词意暧昧不清、定义界限不科学,它也慢慢不再适合学术研究。令人遗憾的是,如今,这个词再一次被滥用,而且,和当年的情况一样,对“智能”依然没有明确的定义。如果你用这个问题问一百位心理学家,你会得到一百个不同的定义。问哲学家,他可能会扔给你一本异常晦涩难懂的大部头书,让你自己体会。而问神经生物学家,他们可能会完全置之不理。

这就是我们在讨论“奇点”时面对的所有问题的根源:“奇点”和“超人类智能”是在非科学语境下诞生的非科学术语。

而“人工智能”一词则更加混乱,衍生出许多千变万化的含义。在本书中, Artificial Intelligence(首字母大写)指的是人工智能这门学科,用artificial intelligence(全部小写)指的是智能机器或者智能软件。同样的,人工智能专家们也使用强人工智能(Artificial General Intelligence,简称AGI,也被译作通用人工智能)这个词指代能够执行人类智能行为的机器,而不仅仅局限于单纯某一项智能化的本领。

而且,我认为任何与机器智能相关的讨论都应该以人类智能的重要进步(更重要的?)作为补充,而这些人类智能的发展则是以机器智能的发展为原因。相对于机器智能的发展,人类智能的这种转变可能会对人类文明进步产生更大的影响。也就是说,机器人类化的计划尚未成功,而人类(通过无数的规则)机器化则成果斐然。

我的观点与很多曾经或者正在撰写人工智能书籍的作家稍有不同:我是一个历史学家,而非未来学家。所以我可能无从知晓未来,但至少我通达过去。

另外,我对从社会学/人类学角度解读这一问题深感兴趣:人类似乎先天倾向于相信某种更高形式的智能存在(例如神、圣人、不明飞行物等),而奇点(Singularity)可能仅仅是这些形式在后宗教的21世纪的最新表现。

然而,大多数人其实并不真正关心如何称呼它:他们不惧怕那些可能会杀死人类的机电怪物,只是对那些可能会抢夺他们的工作、越来越聪明的机器战战兢兢。这在我看来也是夸大之词。新型机器总会创造更多的就业机会并且带来薪酬更丰厚的工作。我始终没看出来这次与以往的变革有什么差别。单纯地从理性角度看,很显然更智能的机器肯定会创造更多的就业机会,提供更丰厚的工作报酬。

所有这一切都充分说明了我不害怕人工智能的原因:

1.实际情况证明人工智能的大多数成就并没有那么可怕;

2.大多数机器表现出来的智能化水平实际上取决于人类为它们建立的环境的结构化程度;

3.我们感受到的这种高速发展在历史上并不罕见;

4.我们周围始终不乏超人类(或者更恰当的说法是“非人类”)智能;

5.相对于机器智能,我更关心人类智能的未来。

实际上,人类是需要智能机器的。技术上的进步已经帮助人类解决了很多问题,但仍有很多人死于疾病和危险的工作。而且,随着社会不断地步入老龄化,人类会比以往更加依赖技术革新。所以说我并不害怕“智能”机器的到来,我害怕的是他们来得太晚。

本书从2013年9月开始写作,2016年6月正式完成此修订版。

注:本书中很多关于奇点的叙述与雷·库兹韦尔(Ray Kurzweil)的某些理论有很多联系,在此声明此书并非针对他本人的公然驳斥。虽然我不同意雷·库兹韦尔在人工智能方面的某些乐观言辞,但我非常钦佩他,他是目前人工智能领域能作出经得起检验的预测的为数不多的科学家之一。第一章人工智能的起源——历史、社会学与大脑1.人工智能的社会学背景

历史学家、科学家、哲学家和诗人都曾记载了人类对无限性的追求。这在过去(或多或少)意味着他/她努力追求与创造和主宰世界的神融为一体。后来,随着无神论在西方文明中逐渐占有一席之地,亚瑟·叔本华将此概念重新定义为“权力意志”(will to power)。弗里德里希·尼采(Friedrich Nietzsche)认为西方社会的神已死,他们对于无限性的追求从神秘存在转向数学以及科学研究。大约一个世纪以前,伯特兰·罗素(Bertrand Russell)和大卫·希尔伯特(David Hilbert)等欧洲数学家建立了一套逻辑程序,意在简化对事物的可能存在的证明和发现过程。因而人类开始转变看待事物的视角:无限不再是人类必须努力获得的目标,转而变成了人类可以通过创造变为现实的事物。

人类对无限论的一系列的研究产生了诸多影响甚广的成果,其中一项就是数字电子计算机的出现,它是英国数学家阿兰·图灵(Alan Turing)的实验思想的具体实践。阿兰·图灵随后发表了他在机器智能领域的经典论文《计算机器与智能》(Computing Machinery and Intelligence,1950),几年之后,“人工智能”一词开始在科学家及哲学家的圈子中流行开来。

1956年,约翰·麦卡锡(John McCarthy)在麻省理工学院的科学家马文·明斯基(Marvin Minsky)等人的帮助下,在新罕布什尔州的达特茅斯学院成功组织召开了人工智能领域的首届研讨会,这距离世界上首部通用性计算机ENIAC问世刚刚超过10年。自此,电子计算机开始流行并被媒体称为“电脑”。

奇点的概念通过雷·库兹韦尔的著作《智能机器时代》(The Age of Intelligent Machines,1990)以及随后一系列异常成功的公关活动得到普及。这本书认为我们即将迎来机器时代:机器的智能程度远远超过人类,以至于人类既无法控制机器,也无法理解它们的想法。

诚然,人工智能学科在20世纪90年代和21世纪最初10年的短暂沉寂之后再次复苏,重新赢得大众及大企业的青睐。人工智能领域所取得的技术成就被主流媒体誉为人类迈向机器主导时代途中留下的脚印,对人工智能初创企业的投资也史无前例地成倍增长。

在这个时代,人们失望地看到人类太空探索的终结、唯一商用超音速飞机的落幕、人类核能源使用率的下降,以及互联网的商业化(它将强大的科技工具彻底转变为营销工具和某种轻娱乐形式),但机器智能似乎至少能让我们确信人类不会进入下一个黑暗时代;与之相反,我们正在迎接超人类时代的曙光。当然,几十年的科幻小说和电影的洗礼已经为这种场景打造了非常理想的受众群。

不过,那些赞成奇点理论的论调和(非常微弱的)论证的确让我们想起了宗教预言,只不过这一次来拯救人类的弥赛亚不再是受外在神圣力量差遣而来的,而是我们自己制造的产品。所以,从某种意义上说,这是一门信仰人类自己创造的神的宗教。

奇点理论的魅力在于它用倒叙法讲述了宗教的历史。传统意义上的宗教会力图从源头上解释神秘的宇宙复杂性、生命的奇迹,以及意识产生的目的。甚至当今一些非常杰出的科学家也赞成“神创论者”的观点,相信世界是由超人类智慧创造出来的。这种理论通常被称为智能设计(intelligent design),但其更合适的叫法应该是超智能设计(super-intelligent design),因为智能(intelligent)一词仅仅指人类智能。宗教的重点恰恰在于相信有人类智能永远无法制造的东西存在,它会设想人类能够发现的所有自然法则都不足以解释宇宙、生命以及灵魂所蕴含的奥秘。任何可以借由数学规律解释的事物,人都能完成和制造,因此也不需要超自然力量的存在。相反,上帝是一种先于人类智能产生并创造人类智能的奇点,而且无限优于人类智能。

幸运的是,这个至高的神有能力,同时也愿意给予我们永生的机会。通常意义上,这种永生就是信徒最终希望从其信仰中得到的东西。而目前的假设——由于超智能机器的发展即将出现奇点——几乎就是这个故事的翻版。过去的奇点(神)被用来解释那些令人费解的问题,而新的奇点(智能机器)却无法解释。人类智能既无法理解过去上帝在创造人类智能时的方式,也无法理解将来人类智能创造超智能机器的方式。

因此,奇点分为两个阵营:乐观派和悲观派。乐观派认为机器最终会将人类带入永生,悲观派则认为机器可能会将人类带向毁灭。我至今还未曾听说有人在这个问题上与大多数宗教人士持相同的观点:好人去天堂,坏人下地狱。显然,奇点理论不会去区分好人和坏人:它要么会杀死所有人,要么将每个人都带入永生(所以,将来金钱可能比善举更容易让人得到永生,因为就我的理解,永生终将成为一种待价而沽或是可租可借的服务,就像目前的云计算服务一样)。

其实,我时常会觉得很难与奇点理论的拥趸们争论,因为他们没有意识到他们探讨的一些问题是老生常谈,其实哲学家和科学家们早已抽丝剥茧地分析过这些问题的利弊。奇点理论最坏的影响无疑是它逐渐成为既不研究历史和哲学,也不学习科学,甚至连计算机科学都不曾涉猎的高科技怪人的宗教信仰。然而,奇点最大的功劳莫过于让普罗大众相信(软件和硬件)机器人时代肯定会到来,尽管对其危害性存在严重夸大的成分。

奇点理论兴起于2000年的美国,这绝非巧合。根据1582年教皇格里高利(Pope Gregory)颁布的历法,2000年这一年含有三个零,而许多人预言恰恰是这三个零,即使不是象征世界结束,也表明它本身就是一个重大的历史断点。曾有一段时间,每年关于世界将遭受灾难性毁灭的预言都不绝于耳。其中,(在美国)最为著名的就是哈洛尔德·肯平(Harold Camping)根据《圣经》计算出2011年10月21日是世界末日,以及根据玛雅历法计算出世界末日是2012年12月21日。幸运的是,事实证明他们都是错的。但是这些形形色色的预言培养了公众意识,使他们对技术版本的相同情节的故事(人类社会的终结)着迷。

我绝无讽刺之意,看到硅谷在全新的基础上重新创造一门宗教真是太有趣了。2.人工智能简史(一):二进制、专家系统与逻辑派

从普遍意义上来讲,人类对机器智能的研究历史可以追溯到两千年以前古希腊和中国就出现的自动装置,或是一个世纪以前世界首部机电设备的出现。然而对于我来说,机器智能的历史则始于1936年阿兰·图灵提出的“通用机”(universal machine)。虽然图灵本人并没有真正参与制造这种机器,但他意识到,通过模拟逻辑问题的解决方式——处理符号,人类就能创造完美的数学家。其实最早出现的计算机并不是通用图灵机(Universal Turing Machines,UTM),但自1946年ENIAC问世以后的大部分计算机,其设计理念都源自图灵机,这其中也包括现在使用率非常高的笔记本电脑和手机等设备。另外,由于这种机器是基于逻辑运算设计出来的,只支持“真”(true)和“假”(false)两种数值,目前所有智能机器的核心处理器都采用二进制逻辑(1和0)。

1943年,数学家诺伯特·维纳(Norbert Wiener)、生物学家阿图罗·罗森布鲁斯(Arturo Rosenblueth)以及工程师朱利安·毕格罗(Julian Bigelow)合作发表了论文《行为、目的和目的论》(Behavior,Purpose and Teleology),首次提出了“控制论”的概念,阐述了机器与生物体之间的关系:机器既可以被看成某种形式的生命体,反之亦然,生物体也是某种形式的机器。

然而,通常情况下,“智能”只是被认为比仅仅“活着”高出一个或多个阶段:(人类)通常认为人类属于智能范畴,而虫子则反之。

另外,阿兰·图灵在他的论文《计算机器与智能》(Computing Machinery and Intelligence,1950)中还提出了可以通过测试确认机器具备“智能”的机器思维概念——“图灵测试”,即:如果一个人类测试者在向其测试对象询问各类问题后,依然不能分辨测试对象是人还是机器的话,就可以认为机器是智能的(或者,更乐观地认为,机器的智能水平与人类不相上下)。此后,人工智能领域的专家迅速分为两个派别。

一派是以艾伦·纽厄尔(Allen Newell)和赫伯特·西蒙(Herbert Simon)为代表,他们基本上倾向于智能已经达到数理逻辑的最高形式,并将符号处理作为研究重点,他们共同发表了著名论文《逻辑理论家》(Logic Theorist,1956)。这一派取得的第一个大的突破当属约翰·麦卡锡发表的文章《常识性程序》(Programs with Common Sense,1959),他认为:“将来随着科技的发展,机器对重复性工作及计算类任务的处理能力会轻松地超越人类,拥有‘常识’的智能才能被称为智能,常识主要源自世界的知识积累。”这篇文章催生了“知识表达”学科:机器如何从世界中汲取知识,并利用这些知识作出判断。这种方法后来被诺姆·乔姆斯基(Noam Chomsky)的理论证实存在一定的合理性。他在语言学巨著《句法结构》(Syntactic Structures,1957)中指出,从理论上理解,语言能力源自语言中规定句式表达正确的语法规则。语法规则是表示语言组织方式的“知识”,并且,一旦你具备了这些知识(以及一定的词汇),你就可以用这种语言说出任何句子,包括你以前从来没有听说过或是阅读过的句子。

计算机程序设计的快速发展极大地促进了人工智能领域的突飞猛进,随着计算机符号处理能力的不断提高,知识可以用符号结构表示,推理也简化为符号表达式的处理。这一系列的研究推动了“知识库系统”(或“专家系统”)的建立,例如爱德华·费根鲍姆(Ed Feigenbaum)等人在1965年开发的专家系统程序DENDRAL,这套系统由“推理引擎”(融合了全球数学家所公认的合理性推理技术)和“专家库”(“常识性”知识)组成。在这项技术中,为了创造出专家的“克隆”系统(和人类专家一样专业的机器),就必须从该领域专家那里汲取特定知识。专家系统的局限性在于它们只在某个特定领域拥有“智能”的表现。

而人工智能的另一派则采用截然不同的方法:从神经元和突触的物理层面模拟大脑的工作。以约翰·麦卡锡和马文·明斯基为代表的“逻辑派”相信可以利用数学逻辑方式模拟人类大脑思维的运行方式;“神经网络(或联结)派”则认为可以通过对大脑结构的仿真设计来模拟大脑的工作原理。

20世纪50年代左右,人们对于神经科学的研究刚刚起步(直到20世纪70年代才出现研究生物大脑的医疗机器)。那时候的计算机科学家只知道大脑是由数量庞大的相互连接的神经元组成,而神经学家愈发坚信,“智能”源自神经元之间的连接,而非单个的神经元。可以将大脑看做是相互连接的节点组成的网络,借助于上述连接,大脑活动的产生过程为:信息从感觉系统的神经细胞单向传递到处理这些感觉数据的神经细胞,并最终传递到控制动作的神经细胞。神经系统间连接的强度可以在零到无穷大之间变化,改变某些神经连接的强度,结果可能截然不同。换句话说,可以通过调整连接的强度,使相同的输入产生不同的输出。而对于那些设计“神经网络”的人来说,问题在于连接的微调,能够使网络整体作出与输入相匹配的正确解释。例如,当出现一个苹果的形象时,网络就会反应出“苹果”一词,这种方式被称为“训练网络”。又例如,当向此系统展示很多苹果并最终要求系统产生“苹果”的回答时,系统会调整联结网络,从而识别多个苹果,这被称为“监督学习”。所以,系统的关键是要调整连接的强度。因而人工智能学科中此分支的另一种叫法是“联结主义”(connectionism)。弗兰克·罗森布拉特(Frank Rosenblatt)在1957年发明的感知机(Perceptron)模型以及奥利弗·塞尔弗里奇(Oliver Selfridge)在1958年提出的“万魔殿”(Pandemonium)理论是“神经网络”的开路先锋:摒弃知识表达和逻辑推理,独尊传播模式和自动学习。与专家系统相比,神经网络是动态系统(可以随着系统的使用场景改变配置),并倾向于自主学习(他们可自主调整配置)。“无监督”网络,特别是感知机,可自主给事物归类,例如,系统能发现若干图像所指的是同一类型的事物(猫)。

通常有两种破案方法。一种方法是聘用世界上最聪明的侦探,他们能利用自身经验,通过逻辑推理,抓到真正的罪犯。另一种方法是我们在案发区域安装足够多的监控摄像头,通过摄像记录发现可疑行为。上述两种方式可能得出同样的结论,只是一种方式使用了逻辑驱动方法(符号处理),而另一种方式使用了数据驱动方法(视觉系统归根到底是一种联结系统)。

1969年,马文·明斯基(Marvin Minsky)和塞缪尔·帕尔特(Samuel Papert)发表了有关神经网络的评论文章《感知机:计算几何学》(Perceptrons: An Introduction to Computational Geometry),成为压倒神经网络学科的“最后一根稻草”。与此同时,专家系统开始在学术界崭露头角,赢得科学家的青睐。其中,比较有代表性的是1972年布鲁斯·布坎南(Bruce Buchanan)开发的用于医疗诊断的Mycin专家系统以及1980年约翰·麦克德莫特(John McDermott)开发的用于产品配置的Xcon系统。到了20世纪80年代,随着知识表达取得诸多创新性发展,专家系统在工业及商业领域迅速得到普及和应用。1980年,第一家重要的人工智能初创公司Intellicorp在硅谷成立。

在与联结方法的较量中,符号处理方法凭借着其在算法上的简洁特性逐渐占据了优势,因为联结方法需要占用大量的计算资源,而这些资源在当时是非常稀缺和昂贵的。3.人工智能简史(二):深度学习

基于知识的系统没有按照人们的预期扩展:专家们对构建克隆人类自身(知识)的理念并不怎么感到兴奋。并且,无论如何,“专家系统”的可靠性都不容乐观。

专家系统的失败还由于万维网的出现:成千上万的人类专家随时随地可以在网上解答各类问题,专家系统因此也就失去了存在的价值。现在,你只需要一个强大的搜索引擎。搜索引擎再加上那些世界各地成千上万的网民所发布的数以百万计的信息(免费)就实现了“专家系统”本来应该完成的工作。专家系统是知识表达与启发式推理的高难度智力演练。而万维网远远超越所有专家系统设计者所梦想的知识库规模。搜索引擎虽没有故弄玄虚的复杂逻辑,但仰赖计算机和互联网的速度,它“能”从万维网上找到问题的答案。在计算机程序世界中,搜索引擎简直就是一位“巨匠”,它可以胜任原本专属于艺术家的工作。

不过,需要注意的是,虽然万维网表面上的“智能”(指其能够提供各种类型答案的能力)来源于成千上万的网友的“非智能”贡献,这种方式与无数蚂蚁的非智能贡献缔造了智能的蚁群是一个道理。

回想过去,许多基于逻辑的复杂软件不得不在速度缓慢、价格昂贵的机器上运行。随着机器的价格不断降低,运行速度不断加快,体积不断缩小,复杂逻辑已经过时:仅仅依靠很简单的技术就能实现同样的目的。打个比方,试想一下,假如汽车、司机和汽油都非常便宜,数百万人免费提供商品,那么计算通过哪种方式将商品运送到目的地最划算就显得没有任何意义了,因为可以让多个司机送货,这样可以保证至少有一件货物被准时送达目的地。路线规划和那些训练有素、经验丰富的司机的存在价值将会明显降低,这种情况在目前的消费型社会的很多专业领域已经悄然发生:你上一次找人修鞋或修表是什么时候?

对于人工智能领域的科学家来说,提出颇具创造性的想法完全是出于对当时运行缓慢、体积臃肿以及价格昂贵的机器的妥协。而随着目前机器制造技术的不断改进,他们提出创造性想法的动力就没有原先那么强劲了。所以现在这些科学家最大的动力就是使用数以千计的并行处理器运行数月。创新的重点也逐渐转向协调这些处理器,实现大数据检索。廉价计算机世界需要的机器智能不再是逻辑智能(logical intelligence),而逐渐转向“后勤”智能(“logistical”intelligence)。

同时,在20世纪80年代,概念上的突破也推动了机器人技术的切实发展。瓦伦蒂诺·布瑞滕堡(Valentino Breitenberg)在他的著作《车辆》(Vehicles,1984)中写道,智能根本不需要以“智能”行为的产生为前提,而只需要一组传感器和执行器就足够了。随着“车辆”复杂程度的不断提高,车辆本身也会表现出日益发达的智能行为。大约从1987年开始,罗德尼·布鲁克斯开始设计很少或是根本不依赖周遭世界知识的机器人,这种机器人可以什么都不懂,也没有任何常识作为参考,但如果装配有一套合适的传感器和执行器,它仍然能够做有趣的事情。

从20世纪80年代开始,神经网络理论又重新开始流行,并在21世纪初实现指数增长。1982年,约翰·霍普菲尔德(John Hopfield)基于对退火物理过程的模拟,提出了新一代的神经网络模型,正式开启了人工神经网络学科的新时代。这些神经网络完全不受明斯基批判理论的影响。霍普菲尔德的主要成就在于发现其与统计力学之间的相似性。在统计力学中,热力学定律被解释为大量粒子的统计学特性。统计力学的基本工具(很快就演变为新一代神经网络的工具)是玻耳兹曼分布,这种方法可用来计算物理系统在某种特定状态下的概率。站在霍普菲尔德的巨人肩膀上,杰弗里·辛顿(Geoffrey Hinton)与特里·谢泽诺斯基(Terry Sejnowski)在1983年发明了玻尔兹曼机(Boltzmann),这是一种用于学习网络的软件技术;1986年,保罗·斯模棱斯基(Paul Smolensky)在此基础上进一步优化,并发明出了受限玻尔兹曼机(Restricted Boltzmann Machine)。这些都属于经过严格校准的数学算法,可以确保神经网络理论的可行性(考虑到神经网络对于计算能力的巨大需求)与合理性(能够准确地解决问题)。这里我插播一个历史花絮:约翰·冯·诺依曼和斯塔尼斯拉夫·乌拉姆(Stanislaw Ulam)等人在1946年的一项绝密军事项目中发明ENIAC计算机,模拟蒙特卡罗方法是约翰·冯·诺依曼随后用ENIAC编写的第一批程序之一。

人工智能神经网络学派逐渐与另一个以统计和神经科学为背景的学派融合。朱迪亚·珀尔(Judea Pearl)对此功不可没。他成功地将贝叶斯思想的精髓引入到人工智能领域来处理概率知识。托马斯·贝叶斯(Thomas Bayes)是18世纪著名的数学家,他创立了我们今天还在应用的概率论。不过颇为讽刺的是,他从未公布他的主要研究成果,如今我们称之为贝叶斯定理。

隐马尔可夫模型(Hidden Markov Model)——贝叶斯网络中的一种形式——已经在人工智能领域,特别是语音识别领域得到了广泛的应用。隐马尔可夫模型是一种特殊的贝叶斯网络,具有时序概念并能按照事件发生的顺序建模。该模型由伦纳德·鲍姆(Leonard Baum)于1966年在美国新泽西州国防分析研究院建立,1973年被卡内基·梅隆大学的吉姆·贝克(Jim Baker)首次应用于语音识别,后来被IBM公司的弗雷德·耶利内克(Fred Jelinek)采用。1980年,杰克·弗格森(Jack Ferguson)发表的《蓝皮书》(整理自他在国防分析研究院讲课的讲义)在语音处理领域普及了隐马尔可夫模型的统计方法的应用。

与此同时,瑞典统计学家乌尔夫·格雷南德(Ulf Grenander,1972年成立了布朗大学模式理论研究组)掀起了一场概念革命,计算机应用模式(pattern)而不是概念(concept)来描述世界知识。

乌尔夫·格雷南德的“通用模式论”为识别数据集中的隐藏变量提供了数学工具。后来,他的学生戴维·芒福德(David Mumford)通过研究视觉大脑皮层,提出了基于贝叶斯推理的模块层次结构,它既能向上传播,也能向下传播。该理论假设,视觉区域中的前馈/反馈回路借助概率推理,将自上而下的预期与自下而上的观察进行整合。芒福德基本上将分层贝叶斯推理应用于建立大脑工作模型。

1995年,辛顿发明了Helmholtz机,实际上实现了以下设想:基于芒福德和格雷南德的理论,用一种无监督学习算法发现一组数据中的隐藏结构。

后来,卡内基·梅隆大学的李带生(Tai-Sing Lee)进一步细化了分层贝叶斯框架。这些研究也为后来Numenta建立的广为人知的“分层式即时记忆”模型提供了理论基础。Numenta是2005年由杰夫·霍金斯(Jeff Hawkins)、迪利普·乔治(Dileep George)以及唐娜·杜宾斯基(Donna Dubinsky)在硅谷成立的创业公司。此外,人们还可以通过另一种方式建立同样的范式:分层贝叶斯信念网络。

直到2006年,杰弗里·辛顿开发了深度信念网络(Deep Belief Networks,DBN)—— 一种用于受限玻尔兹曼机的快速学习算法,此领域才真正开始腾飞。20世纪80年代到21世纪初,真正发生改变的是计算机的运行速度(和价格)。当辛顿的算法被应用于成千上万的并行处理器上时,其取得了惊人的效果。也就在此时,媒体开始大肆宣传机器学习领域取得的各种巨大成就。

深度信念网络是由多个受限玻尔兹曼机上下堆叠而组成的分层体系结构,每一个受限玻尔兹曼机(简称为RBM)的输出作为上一层RBM的输入,而且最高的两层共同形成相连存储器。一个层次发现的特征成为下一个层次的训练数据。

辛顿等人发现了用多层RBM创建神经网络的方法。上一层会将学会的知识向下一层传递,下一层利用这些知识继续学习其他的知识,然后再向更下一层传递,以此类推。

不过,深度信念网络(DBNs)仍存在一定的局限性:它属于“静态分类器”(static classifiers),即它们必须在一个固定的维度进行操作。然而,语音和图像并不会在同一固定的维度出现,而是在(异常)多变的维度出现。所以它们需要“序列识别”(即动态分类器)加以辅助,但DBNs却爱莫能助。所以扩展DBNs到序列模式的一个方法就是将深度学习与“浅层学习架构”(例如,Hidden Markov Model)相结合。“深度学习”的另一条发展主线源于邦彦福岛(Kunihiko Fukushima) 1980年创立的卷积网络理论。在此理论基础上,燕乐存(Yann LeCun)于1998年成功建立了第二代卷积神经网络。卷积网络基本上属于三维层级的神经网络,专门用于图像处理。

与此同时,大卫·菲尔德(David Field)和布鲁诺·奥尔斯豪森(Bruno Olshausen)在1996年共同发明了“稀疏编码”(sparse coding),一种用于神经网络的无监督学习方法,可以学习数据集的固有模式。稀疏编码帮助神经网络以一种有效的方式来表示数据,并且还能用于其他神经网络。

2007年,约书亚·本吉奥(Yeshua Bengio)发明的“栈式自动编码器”(stacked auto-encoders)进一步提高了数据集中捕获模式的效率。在某些情况下,神经网络会由于数据训练的特点而变成非常糟糕的分类器,这时一个被称为“自动编码器”的神经网络就能通过无监督的方式学习到数据的重要特征。所以,自动编码器属于无监督神经网络的特殊情况,比稀疏编码的效率更高。自动编码器的设计初衷是为了重建输入,因而迫使其中间(隐藏)层对输入形成有用的表达。然后,这些数据表达被神经系统用来完成分类等监督任务。换言之,栈式自动编码器会学习一些数据分布的知识,并提前训练进行数据操作的神经网络。

因此,深度学习的“发明”以及神经网络理论的重振旗鼓与许多科学家的努力分不开。但其中最突出的贡献当属摩尔定律:20世纪80年代到2006年,计算机以极快的速度朝着更快速、更便宜、更小巧的方向发展。人工智能领域的科学家能够处理比以前复杂数百倍的神经网络,而且还可以使用数以百万计的数据训练这些神经网络。这在20世纪80年代简直无法想象。因此,从1986年(受限玻尔兹曼机刚刚问世)到2006年(深度学习理论发展成熟)之间,正是摩尔定律将人工智能领域的天平从逻辑方法向联结主义方法转移的过程。如果没有计算机在速度和价格方面的日新月异,深度学习将不会变为现实。另外,拥有超级动力的GPU(图形处理器)在2010年以后的价格迅速降低也对深度学习的发展起到了推波助澜的作用。

2012年,深度学习神经网络领域取得了里程碑式的成就,亚历克斯·克里泽夫斯基(Alex Krizhevsky)与其他几位多伦多大学辛顿研究组的同事在一篇深度卷积神经网络方面的研究论文中证实:在深度学习训练期间,当处理完2000亿张图片后,深度学习的表现要远胜于传统的计算机视觉技术。

2013年,辛顿加入谷歌,而燕乐存加入Facebook。

花絮:有意思的是,虽然在深度学习领域做出杰出贡献的专家并非生于美国,但是他们最终都来到美国从事相关的工作。其中,燕乐存和约书亚·本吉奥是法国人,辛顿是英国人,吴恩达是中国人,亚历克斯·克里泽夫斯基和伊利亚·苏特斯科娃是俄罗斯人,布鲁诺·奥尔斯豪森是瑞士人。

深度信念网络是由多层概率推理组成的概率模型。托马斯·贝叶斯在18世纪提出的定理迅速成为历史上最有影响力的科学发现之一(万幸的是贝叶斯生前从未发表的手稿,在他死后被发现)。贝叶斯的概率理论将知识解释为一组概率(不确定的)表述,而把学习解释为改善那些概率事件的过程。随着获得更多的证据,人们会逐步掌握事物的真实面貌。1996年,发展心理学家珍妮·萨弗朗(Jenny Saffran)的研究表明,婴儿正是通过概率理论了解世界,而且他们能在很短的时间内掌握大量事实。所以,贝叶斯定理在不经意间揭示了关于大脑工作方式的基本原理,我们不应将其简单地当做数学理论。

自2012年以来,世界上几乎所有的主要软件公司都纷纷投资人工智能领域的初创公司,其中重要的有:亚马逊(Kiva,2012),谷歌(Neven, 2006;Industrial Robotics,MEKA,Holomni,Bot & Dolly,DNNresearch, Schaft,Boston Dynamics,DeepMind,Redwood Robotics,2013—2014), IBM(AlchemyAPI,2015;还有 Watson 项目),微软(Adam 项目,2014),苹果公司(SIRI,2011;Perceptio 与 VocalIQ,2015;Emotient,2016),Facebook(Face.com,2012),雅虎(LookFlow,2013),Twitter (WhetLab,2015)等。

2012年以后,深度学习的应用范围迅速扩大,应用于大数据、生物技术、金融、医疗……无数的领域希望在深度学习的帮助下实现数据理解和分类的自动化。

而且,目前多个深度学习平台开放成为开源软件,譬如纽约大学的Torch,加州大学伯克利分校彼得·阿布比尔研究组的Caffe,加拿大蒙特利尔大学的Theano,日本Preferred Networks公司的Chainer,以及谷歌的Tensor Flow等。这些开源软件的出现使得研究深度学习的人数迅速增加。

2015年,德国图宾根大学的马蒂亚斯·贝特格团队成功地让神经网络学会捕捉艺术风格,然后再将此风格应用到图片中去。

从深度学习理论诞生起,围棋一直是最受钟爱的研究领域。2006年,雷米·库伦(Remi Coulom)推出了蒙特卡罗树形检索(Monte Carlo Tree Search)算法并将其应用到围棋比赛中。这个算法有效提高了机器战胜围棋大师的概率:2009年,加拿大阿尔伯塔大学研发的Fuego Go战胜了中国台湾棋王周俊勋;2010年,由一个多地区合作团队研发的MogoTW战胜了卡塔林·塔拉努(Catalin Taranu,罗马尼亚棋手);2012年,Yoji Ojima公司研发的Tencho no Igo/ Zen战胜了武宫正树(Takemiya Masaki);2013年,雷米·库伦研发的“疯狂的石头”(Crazy Stone)击败石田芳夫(Yoshio Ishida);2016年,隶属于谷歌的DeepMind公司研发的AlphaGo击败李世石。各路媒体关于DeepMind获胜的报道铺天盖地。DeepMind采用了稍作修改后的蒙特卡罗算法,但更重要的是,AlphaGo通过跟自己对弈增强自身的学习效果(所谓的“强化学习”)。AlphaGo的神经网络通过围棋大师的15万场比赛得到训练。

AlphaGo代表了能够捕捉人类模式的新一代神经网络。

出乎意料的是,很少有人注意到,2015年9月,马修·莱(Matthew Lai)推出了一个名为Giraffe的开源围棋引擎,能通过深度强化学习在72小时内自学掌握下棋。这个项目完全由马修·莱独自设计,运行于伦敦帝国理工学院他所在的系里的一台性能平庸的计算机上(2016年1月,马修·莱受邀加入谷歌的DeepMind公司,2个月后,AlphaGo打败了围棋大师)。

2016年,丰田公司向外界展示了一种能自我学习的汽车,这是AlphaGo以外深度强化学习实际应用的再一次尝试:设置好必须严格遵守的交通规则,让很多汽车在路上随意驰骋,过不了多久,这些汽车就能自学掌握驾驶本领。4.人工智能简史(三):机器人来了

机器人的故事总是相似的。计算机大幅下降的价格和迅速提高的计算速度,使依据老套的理论设计的机器人成为可能,例如辛西娅·布雷西亚在2000年设计的情感机器人Kismet,Ipke Wachsmuth公司在2004年设计的会话代理“Max”,本田公司2005年设计的人形机器人Asimo,长谷川修2011年设计的能学习超出编程设定范围的功能的机器人,以及罗德尼·布鲁克斯2012年推出的“可用手编程机器人”Baxter——虽在视频中声音美妙但外形却如古老的夏凯(Shakey,1968年的一款机器人)一样原始。

相应的生产厂家也发展迅猛,它们能够制造成本低廉的微型传感器以及过去无法制造出来的各式各样的设备,这些设备令机器人的动作大大改观。不过,自从1969年理查德·菲克斯(Richard Fikes)和尼尔斯·尼尔森(Nils Nilsson)设计出STRIPS(Shakey机器人用到的“问题解决程序”)以后,机器人在概念上的突破几乎为零。真正算得上新进步的只是更高的制造技术和GPU的速度。

事实上,在人工智能领域中,机器人的进步几乎是最微不足道的(或最乏善可陈的)。第一辆汽车制造于1886年,47年后(1933年),在美国已经有2500万辆汽车,全世界的汽车大概超过了4000万辆,而且这些汽车的性能远远超过了第一辆汽车。第一架飞机试飞于1903年,47年后(1950年),有3100万人乘坐飞机出行,而且这些飞机的配置比第一架飞机好得多。第一次公共的无线电广播出现在1906年,47年后(1953年),世界上收音机的数量超过了1亿台。第一台电视机制造于1927年,47年后(1974年),美国家庭拥有电视机的比例是53%,而且大部分是彩色电视机。第一台商用计算机于1951年问世并投入使用,47年后(1998年),美国有4000万家庭拥有计算机,而且这些个人计算机的性能要远远优于第一台计算机。第一部(移动)机器人(Shakey)于1969年被演示,47年后(2016年),有多少人拥有机器人?在大街上或办公室里,你能看到多少个机器人?

据Tractica估计,目前占280亿美元市场份额的机器人产业中,大部分是工业机器人——用于生产线的机器人,完全跟智能不沾边。这些机器人永远不会在大街上挺进,攻克华盛顿或巴黎。它们的智能水平(和移动能力)就像你家的洗衣机一样。

柳树车库(Willow Garage),于2006年由谷歌早期的设计师斯科特·哈桑(Scott Hassan)创立。它可能是近十年来最有影响力的机器人实验室。2007年,柳树车库在斯坦福研发出机器人操作系统(Robot Operating System,ROS)并使之得到普及;2010年,他们制造了PR2机器人。ROS和PR2构建了一个规模庞大的机器人开发者的开源社区,极大地促进了新型机器人设计的发展。柳树车库在2014年倒闭,离开柳树车库的科学家们在旧金山湾区成立了多个创业公司,继续致力于“个人”机器人的研发。“遗传算法”,或者更恰当地说是“进化计算”,和神经网络算法的发展齐头并进,前者的发展是后者发展的真实写照。值得注意的是,2001年,尼古拉斯·汉森(Nikolaus Hansen)推出名为“协方差矩阵适应”(Covariance Matrix Adaptation,CMA)的演进策略理论,主要对非线性问题做数值优化。目前,这个理论已被广泛应用于机器人应用程序领域,这将有助于更好地校准机器人的动作。

目前,在全世界的医院中,大约有超过3000个达·芬奇机器人。从2000年桑尼维尔的Intuitive Surgical公司被允许在医院配置机器人设备开始,这些机器人已参与近200万例外科手术。达·芬奇机器人仅仅充当的是手术中的助手:它由外科医生操控。不过,2016年,在位于华盛顿的国家儿童健康系统部门(Children’s National Health System)工作的彼得·金(Peter Kim)推出了一款机器人外科医生——智能组织自动机器人(Smart Tissue Autonomous Robot,STAR),它能够单独执行大部分的手术操作任务(不过所用时间大约为人类外科医生的十倍)。2015年,谷歌和强生公司联合成立了Verb Surgical公司,旨在打造真正的机器人外科医生。

事实上,最先进的机器人是飞机。人们很少会把飞机看做机器人,但它是货真价实的机器人:它能自主完成从起飞到降落的大部分动作。2014年,全球航班数超过850万架次,载客人数达到了8.384亿。根据2015年波音777的飞行员调查报告显示,在正常飞行过程中,飞行员真正需要手动操纵飞机的时间仅有7分钟,而飞行员操控空中客车飞机的时间则还会再少一半。

因此,机器人已经非常成功地担当了“副驾驶”(增强,而非替代人的智能)的角色。

2016年最流行的机器人莫过于谷歌的自动驾驶汽车了,但差不多30年前这项技术就已经问世:1986年,恩斯特·迪克曼斯(Ernst Dickmanns)展示了其制造的机器人汽车“VaMoRs”。1994年10月,他改装的奔驰自动驾驶汽车在巴黎附近川流不息的1号高速公路以130公里的时速前行。2012年,谷歌的联合创始人谢尔盖·布林(Sergey Brin)表示,谷歌有望在5年之内(即2017年)推出面向公众的自动驾驶汽车。有时你以为你看到了未来的模样,但是实际上你甚至对过去一无所知(顺便说一句,谷歌的工程师仍在使用封建时代发明的里程单位“英里”,而不是公制单位里的“公里”,这在我看来真算不上“进步”)。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载