智能语音时代:商业竞争、技术创新与虚拟永生(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-08 07:21:42

点击下载

作者:苑东明,胡伟松

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

智能语音时代:商业竞争、技术创新与虚拟永生

智能语音时代:商业竞争、技术创新与虚拟永生试读:

作者简介

詹姆斯·弗拉霍斯(James Vlahos)《纽约时报》《连线》《大众科学》《科学美国人》《大西洋》《智族GQ》和《国家地理》等杂志著名记者,美国鬼才科普作家,以妙趣横生、发人深省的方式来讨论复杂难懂的科学问题见长。

弗拉霍斯从20世纪80年代开始跟踪和报道语音技术,30多年来,他零距离地见证和细致地观察了这一领域的研究进展,曾与这一领域中的许多杰出人物直接对话,本书中的许多观点都来自他对一手访谈资料的提炼。

苑东明

企业高管,独立译者,已出版译著近二十部。

胡伟松

中国农业大学博士,在地方政府经济部门工作,案牍劳形之余,译海寻珠为乐。其 他

献给我的父亲约翰,因为他没来得及看到本书完稿。献给我的妻子,因为她见证了本书的整个写作历程。出版前言

作为一个见证者,我非常庆幸自己亲历了波澜壮阔的互联网时代、大数据时代、人工智能时代,深切感受到了接踵而至的技术浪潮是如何快捷地改变我们的工作和生活的,如果未来有闲暇时间追根溯源,那一定是一件非常美好的事情。

作为一个出版人,我也非常高兴能够遇到今天正式呈献给各位读者的这样一部优秀的科技人文作品,对于这本深入浅出、充满趣味又可能引领一个新的时代到来的科普著作,能够先睹为快,实在是一件令人赏心悦目的事情。

关于智能语音时代,我们大部分人已经多多少少有了一些直接或间接的感受。比如我们手机上的Siri或者

其他

语音软件,这曾是苹果手机最令人瞩目的新功能之一;又比如我们经常在用的语音导航软件里传出的林志玲的“娃娃音”,还有微软小冰展现自己诗歌“别才”的诗集《阳光失了玻璃窗》;当然,还有电子鸡、旅行青蛙这样风行一时的电子宠物。

对我来说最新的例子是,我在 2019 年春节期间购买了一台小米智能音箱(“小爱同学”)作为礼物送给父母。“小爱同学”的乖巧能干,可着实把他们惊呆了。“小爱同学”为他们做的第一件事是播放花鼓戏《浏阳河》,这是现代技术与古老文化碰撞出的新奇体验。

与我们直接的生活经验不同,被称为美国鬼才科普作家的本书作者詹姆斯·弗拉霍斯(James Vlahos),给我们带来了对语音技术这样一个蔚为大观的科技发展趋势的深入洞察。作为智能语音领域的开山之作,作者确实出手不凡,他把语音技术、应用与产业的讨论引向了难得的高度,非常清晰地给我们展现了智能语音时代的新场景。

詹姆斯·弗拉霍斯是一位长期追踪研究语音技术和语音人工智能领域的专题记者,30多年来,他零距离地见证和细致地观察了这一领域的研究进展,曾与这一领域中的许多杰出人物直接对话,本书中的许多观点就是来自他对第一手访谈资料的提炼。

更难能可贵的是,本书作者还是这一领域的深度涉猎者和亲身参与者。他从十几岁起就对人与机器的对话产生浓厚兴趣,并曾尝试用BASIC语言开发了自己的文本对话游戏(虽然只能运行寥寥几步),他还开发出了以自己父亲为蓝本的聊天机器人,让自己的父亲实现了“虚拟永生”。

因此,本书不管是观察与思考的深度和广度,还是研究资料的广泛和翔实等,各个方面都令人钦佩,也让人感到“解渴”和过瘾。读这样一本书,从实用的角度说,花费的时间有更高的性价比,它能让我们真切地感受到一个新的产业生态的发展趋势,启发我们从经济、社会和文化等角度来思考语音技术和语音人工智能已经或即将带来的影响。

翻开这本书,你首先就会被作者这样的话语所吸引:每十年左右,人与技术的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些定义了新的时代范式的公司,而落伍者将破产倒闭。在计算机的大型机时代,IBM是主宰者;微软公司是桌面时代的王者;谷歌公司靠搜索引领了互联网时代;苹果公司和脸书公司则在移动互联网时代一飞冲天。

最近的一次范式转移正在进行中。

最新的平台之战已经打响。

最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所未见的。

我们正在迈入智能语音时代。

语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的手段。语音能够让我们指挥各种数字产品助理——“行政助理”“门房”“主妇”“管家”“顾问”“保姆”“图书管理员”“演艺人员”等。语音打破了世界上一些最有价值的公司的商业模式,为新的应用创造了机会。语音把对人工智能的控制权交给了用户。很久之前科幻作品就预言过这样的关系模式,在这样的关系模式中,拟人化的人工智能成为我们的“助手”“看门人”“预言者”“朋友”。

作者这样言之凿凿,显然并非空穴来风。了解作者的思考逻辑,把握这样一个大趋势,并以此指导我们的工作和生活,必然有利于我们做出更多正确的选择。书中提到,当Siri 在2010年刚刚被开发出来时,先知先觉的苹果公司前CEO乔布斯曾经连续17天每天给开发者之一的吉特劳斯打电话,有时甚至深更半夜也打,终于把Siri收入苹果公司囊中。

远见从来都是人类最宝贵的品质之一,作为智能语音领域的第一本书,这也可以视为一本“远见之书”。

除了具有经济性含义的远见,本书还非常重视这项新技术对人类精神和感性世界的影响,甚至作者也把自己和自己的家庭带入了与语音人工智能的互动过程中,这大大增强了本书的故事性。本书有文采、有温度、有趣味,展卷在手,没有同类书的枯燥和沉重,反而有一种引人入胜、不忍释卷之感。

正如作者在书中所言:智能语音时代的到来是人类历史的转折,因为运用语音是我们人类这个物种的特质——这一能力把我们和其他物种区分开来。人类的内部意识的中心不在肺部的空气里,也不在血管里的血液中,而是在大脑的语言区里。语言调整着我们的关系,它能塑造思想、表达感受、沟通需求;它能发起变革、挽救生命、激起爱恨情仇;它把我们所知道的一切记录下来。

不管语言是由人说出来还是由机器说出来的,尤其是当“你应我答”的模式出现,在人与人之间、人与机器之间,交谈就绝不只是一种纯粹依靠逻辑展开的过程。语言永远不是脱离内容的外壳,人都会被语言影响或打动。作者在书中讨论的种种事例和情境,都让我们领悟到人和机器之间的语言交流对我们的情感世界带来的影响和改变。未来,我们与无处不在的机器构成的世界,将是一个前所未见的更加丰富多彩的感性世界。在云时代,“只要简单地加上一个麦克风和一个 Wi-Fi 芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。”这几乎意味着“万物能言”的童话世界真的实现了。

基于这样的前景,作者指出:当聊天机器人同时作为工具和准生命进入我们的生活时,它们模糊了人与机器人的界限,模糊了隐私、自主权和亲密感的界限,还模糊了人际关系与数字关系、现实与虚拟、生与死的界限。

可以想象当这些界线模糊之后,在我们的生活中将会发生多少故事。这些故事肯定不会按照单一的模式进行,必定会有更多“人机情未了”式的故事演绎。

除了上述简单提到的精彩内容,还值得一提的是本书中充满浓厚的中国元素,从另外一个侧面拉近了中国读者与这一话题的距离。

作者在书中用很大篇幅讨论了亚马逊公司主办的亚历克莎奖竞赛,他这样介绍在比赛中拔得头筹的华盛顿大学团队,“这种方法是由该团队 28 岁的学生领袖郝方提出的。郝方来自中国宜春市,他活力四射、性格开朗。他和他的团队成员希望让他们的聊天机器人的评审用户也能感到快乐。”正是这位郝方同学带领的团队所开发出的聊天机器人创造了交谈长度20分钟的记录。“当华盛顿大学团队的成员上台后,普拉萨德把那份令人满意的奖品发给了他们——一张金额达 50 万美元的巨额奖券式支票。郝方大笑着拿过支票,对着镜头竖起了大拇指。”

此情此景也让我们为这位郝方同学高兴。

在由 10 万个问题组成的斯坦福问答数据集测试中,真人平均能答对82%的问题。微软公司、阿里巴巴公司在2018年1月公布,它们所开发的系统得分和普通人得分一样高,这成了当时的头条新闻。

另外,还有在微软公司负责 Zo 聊天机器人项目的王颖,以及大家所熟悉的微信,都是书中屡屡提及的对象。这些中国元素让我们看到,我们与这一项划时代科技突破的关系从来没有像今天这样接近过。这令我们感到自豪,也让我们与本书的主题产生了千丝万缕的关系。更何况,我们的人工智能领域的标杆企业——科大讯飞,经过在智能语音领域的勇敢探索,已经成为全球智能语音产业的主力军和技术领先者。

作为一项具有重大颠覆性的技术,语音技术和语音人工智能带来的影响是非常深远的,我们难以给出一个简单判断。作者对此的认识非常深刻,他指出:“从鱼钩到火星探测器,我们一直在制造工具。虽然我们制造出了很多对我们有用的东西,但它们在更深层次上都不像我们。即使是类人机器人,它们能做的也只是笨拙地移动。使用语言是人类这个物种真正与众不同的地方。语言把我们连接起来。因此,教机器掌握语言不同于通过编程让它们学会进行衍生品交易、做手术、进行海底航行或其他事情。我们正在“共享”人类的核心特征。”

我们应该看到,“就像历史上的其他给人带来便利的新技术一样,人工智能也可能会让我们付出新的代价。我们可能在智力活动上变得更加消极,我们将更少自主地寻找答案。寻找答案是一种激发好奇心、激发思考的过程。有了人工智能,答案会来找我们。与打开水龙头放水相比,从井里费力地打水明显过时了,而费力地寻找答案也正在变得过时。”

这显然可以视为其消极的一面,但人类从未因为其消极的一面而排斥过任何一项能够带来巨大便利的新技术。

因此,作者又向我们指出:如果应对得当,语音技术有可能成为我们发明的最有感情的技术。认为人工智能只能是冷冰冰的算法的观点是错误的。我们可以将最好的价值观和同理心注入其中。我们可以让它变得聪明、令人愉快、精灵古怪,并且善解人意。有了语音技术,我们最终可以制造出不那么陌生、更像人类的机器。

未来已来,一场智能语音科技大秀的帷幕正在拉开。随着 5G 时代的到来,包括语音技术在内的人工智能技术,一定会让世界更美好。

本书在出版过程中,得到了工业和信息化部信息化和软件服务业司副司长董大健先生,科大讯飞董事长刘庆峰先生,以及北京市科学技术协会、科大讯飞的大力支持,特此致谢。我们相信,本书的出版发行,能够更好地助力我国语音智能产业的发展。我们期待,各位打开这本书,能更加全面地把握语音技术与人工智能的发展态势,激发起创新创业的强烈愿望。让我们积极迎接智能语音时代到来! 电子工业出版社总编辑

推荐序

智能语音,开启万物互联时代的大门,让AI闪耀人性光芒

一位被诊断为患有晚期肺癌的父亲,在生命末期,为孩子留下了91970 个单词的口述。孩子打造了一台爸爸机器人,让父亲在声音的世界里“永生”——这个孩子就是本书的作者。

这个令人动容的故事让我们感受到语音的温度和科技的温暖。

在中国,科技也在创造着这样的温暖。2018年年初,在全球首部利用人工智能配音的纪录片《创新中国》中,我们合成了中央电视台已故配音大师李易的声音,用技术向艺术致敬。在首映式上,李易老师的弟子们集体起立、热泪盈眶。

语音,是人类呱呱坠地后最早使用的沟通方式,也是现代人际交流最基本的方式,更是未来人机交互最重要的方式。人工智能跌宕起伏发展60多年,智能语音是发展到今天最为成熟、也是最重要的板块之一。“最近的一次范式转移正在进行中。” 作者在书中提到,这次转移正是关于智能语音的。

语音,开启万物互联时代的大门。

在互联网发展的下半场,我们将进入万物互联的新时代。随着越来越多的设备在无屏、移动、远场状态下被使用,作为人类最自然、最便捷的沟通方式,语音将会成为所有设备至关重要的入口。未来,我们将迎来以语音交互为主、键盘触摸为辅的全新的人机交互时代,人和机器之间的沟通,可能完全是基于自然语言的,你不需要去学习如何使用机器,只要对机器说出你的需求即可。

比如在导航软件中,你能听到各种明星的合成声音,可以用他们的声音为你指路;在电视上,你能看到虚拟主播播报的多语种新闻,与真人相比不仅相似度高,而且 24 小时无休;在居家生活中,你能通过语音控制音乐、灯光、温度,实现智慧家居;甚至在医院里、社区里,你能用语音调动机器人帮你办理事项,节省时间……人工智能已经在为我们的日常生活服务,智能生活的大门正缓缓打开。

语音,让时代更具人性温度。

智能语音是通向万物互联时代的必经之路,它的存在让交互方式拥有无限的可能,也让这个时代更具人性的温度。

20世纪90年代,我在就读于中国科学技术大学时被选进人机语音通信实验室,研究“如何让机器像人一样开口说话”。那时,团队的一个梦想是研发一台能自动翻译的电话,即使交流时语言不通,通过人工智能技术也能让我们无障碍地交流;20多年后的今天,我们自主研发的翻译机已经支持中文与 50 种语言的实时翻译,每个月总共为全球提供超过 5000 万次服务。智能语音让被地域、文化等因素隔离的人们也能无障碍地沟通。

此外,我们通过技术在听障和视障人群间搭起沟通的桥梁,让听障群体通过语音识别技术“看得见”声音,让视障群体通过语音合成技术“听得见”文字。2017 年我们发布了“三生有幸”公益计划,目前已有几十万残障人士受益。语音转写、语音朗读为他们获取信息带来了极大便捷。我们希望,随着语音技术的使用与发展,未来每个人都将因 AI而能。

语音,在万物互联时代技术门槛将会更高。

在以语音为主、键盘触摸为辅的万物互联时代,人们对语音交互提出了更高的技术期待与需求。今天,虽然在安静、发音标准的情况下,中文的语音识别准确率已经可以达到98%,英文的语音识别准确率可以达到95%,但在有方言、噪音、口音和远场的情况下,距离语音识别高准确率或许还有很长一段路要走。

以2018国际语音识别比赛CHiME-5为例,它是世界上最权威的语音识别比赛,考察在噪声和远场环境下的语音识别效果。但是让人意想不到的是,比赛主办方用最新的算法和深度学习模型做了参考系统,在测试中语音识别错误率竟高达81.14%,可以说是“史上最难语音识别任务”。科大讯飞虽然在这次比赛中取得全部四个项目的第一名,将错误率降低了35个百分点,但是距离高准确率仍有不小的差距。可以看到,在万物互联时代,语音识别技术还有非常大的提升空间,语音识别的门槛不是降低了,而是提高了。

20年前,我和实验室的同学们一同创立科大讯飞,就是认定了智能语音巨大的潜力和广阔的前景,它会让人机信息沟通无障碍。今天,看到这本《智能语音时代》,我非常高兴。作者对语音技术的发展趋势有着深刻洞察,从Siri诞生到谷歌助理、亚历克莎的规模化应用,以翔实的资料、细致的文笔讲述智能语音时代的到来及其可能带来的影响。这本书不仅是对智能语音的科普,更让读者对智能语音未来的发展有了更多的了解。“他山之石,可以攻玉。”人工智能正在成为全球化发展的关键力量,中国的语音技术和产业也必将在其中发挥更大力量。相信本书的出版,会让更多人重新认识神秘且熟悉的语音世界,让我们一起携手,让世界聆听我们的声音,让沟通从AI开始。 科大讯飞董事长

译者序

因为幸运地托庇于一家优秀的企业,因为有家庭这个稳定的大后方,我四十岁后的生活,显得波澜不惊,也因为有稳定的预期而变得无忧、无惧。

这是不可否认的幸福生活。

我为此而深深感恩。因为这样的生活能够让我以一种从容的心态去超越生活,而不必以剑拔弩张的姿态去与生活争斗,更不必“赋到沧桑句便工”。

与电子工业出版社(以下简称电子社)的相遇和相知与我而言就是这样一种从容而幸福的超越,是在不知不觉中,漂流到了一处未曾意料过的“桃花源”,自己的生命也因此在有意无意之间变得更加丰盈起来。

第一次接触电子社的书是在 1988 年,那时我正读大学二年级,从此便对这家出版社有了印象。

成为电子社的译者则始于 2015 年翻译《学会学习》一书,从此,电子社成了与我的生命有最多交集的文化机构。四年过去了,本书已经是我为电子社翻译的第 11 本书,在这四年间,这 11 本书成为我这段生命航程中虽不耀眼,但足以让我感到小小满足的一份成绩。

这 11 本书的翻译是在工作之余完成的,它们不是我生活内容的主体,也不是我发力死磕的对象,一切似乎都是很自然地生发出来。赶工的辛苦自然是有的,译完一本书的那个瞬间所体会到的轻松畅快也沉淀在记忆中,但让我印象更深的是那种一本书译完之后大约十几天到一个月就会产生的虚空感,仿佛一切已经归零,又该继续“战斗”了。这个时候,当电子社的刘声峰老师、黄菲老师问“有本书愿不愿意翻译”时,我真仿佛如闻“纶音”,肾上腺素会陡然升高,对生活的意义似有了更明显的感知。

毫不夸张地说,与电子社合作的翻译事业,在无意中丰富甚至改变了我的人生。这固然不是什么了不起的大事,但作为一个普通人,我们的人生本就平淡无奇。电子社的 11 本书,加上为中国人民大学出版社翻译的9本书,把我这四年的闲暇时光填充得满满当当,有力地提高了我生命的密度,驱走了许多可能是庸人自扰的无聊。人生的陀螺旋转得更顺畅、更自信,生活也在运动中达到了更理想的平衡。四年来,当生命和时间像流水一般逝去,在一片琐碎的生活汪洋中,还分布着这样一些属于真诚努力和用心探讨的“岛屿”,这让我深感幸运。

还要说说电子社的刘声峰老师、孙学瑛老师和黄菲老师,其中只是与刘声峰老师有过一面之交,但感觉与各位老师都神交已久。他们的豪爽与真诚,质朴与平易,让我产生了要与电子社风雨同舟的亲切感和使命感,推动我突破理性的界线,夸张地想以对历史负责的态度,对一本译作视若己出、尽心用情。

最后说一下这本《智能语音时代》。译罢本书我有一种如饮醇醪的感觉,感觉十分幸运。在我的阅读范围之内,在我国,无论是对一个产业的观察还是对企业史的写作,还从来没有出现过本书的样态,因此,我认为,它对我国此类文体的写作,具有教科书般的意义。作者对智能语音有着全面的、深刻的见解,本书作为该领域的首部专著,为围绕智能语音这个主题的讨论确立了一个相当高的标杆。“匹夫而为百世师,一言而为天下法”。与书中讨论的乔布斯、贝佐斯等行业大咖比起来,本书作者也许只能瞠乎其后,但他对这一行业的“超然远览,奋其独见,爬梳剔抉,参互考寻”之功也绝对值得珍视。

很高兴能够与胡伟松先生合译本书,合作的缘分来自一次共同海钓的经历。一起海钓、一起翻译,实在是件快乐的事情。能够把这样一本书介绍给读者也是一件幸事。苑东明

引言

洞 见 者“我们为什么要让大家秘密行事?”穿着绿衬衫的人说,“因为这可是个‘大招’。”

在纽约百老汇大街 25 号一处通风的阁楼里,有 8 个人围着他团坐在沙发或椅子上。他们不断地点头,表示发自肺腑地认同他的高论,穿着绿衬衫的人的思想让他们浮想联翩。“这个‘大招’最有趣的地方是,”这人继续说道,“和其他所有‘大招’一样,它道理简单,简单到人人都能想得到,但还是我们先想到了。”

正在说话的这个人是彼得·利瓦伊,他是一家名为Active Buddy的高科技初创企业的首席执行官。这是在2000年3月,公司正有400万美元的风投资金存在银行,公司的墙上挂着镖靶,接待区还摆着昂贵的艺术品。参会的人相信新的历史即将被创造,一个拍摄纪录片的剧组正在办公室里忙碌着,他们要把这一切记录下来。

这个“大招”来自公司总裁罗伯特·霍夫和首席技术官提姆·凯的灵感。这个灵感是这样产生的——霍夫和凯都是互联网资深人士,曾在20世纪90年代中期创建了一个电话网页的在线版本。在20世纪90年代末期,正在为寻找新思路而大伤脑筋的霍夫和凯有一天通过美国在线公司的即时信息平台(AOL’s Instant Messaging Platform)下围棋,该平台的英文缩写恰好是AIM(目标),于是霍夫让凯查询苹果公司的股价。

凯在查阅完信息准备回复霍夫时,产生了一个想法。作为一名天才程序员,他花了几分钟时间写了几行代码,这段代码能够让计算机充当代理人,能设计出机器人,还能替他自动给霍夫回信。他成功了,霍夫收到了股价信息。

在霍夫和凯看来,这次简短的“联系”预示着良好的前景。那时,整个世界正为互联网着迷。在网络浏览器的争夺战中,网景公司正在奋力开发 IE 浏览器。在搜索引擎领域,愿景公司、雅虎公司和一家名叫谷歌的新公司正在争夺公众的“芳心”。在网上搜索信息已经成为一种文化现象,人们还用“网上冲浪”来描述这项活动。

霍夫和凯没有被“网上冲浪”的热潮打动。倒是能够查询股票行情的机器人程序让他们感到新奇,他们觉得这个程序能够让人与计算机之间的互动更加自然、强大,并且富有乐趣。如果人们仅通过用日常语言与计算机像朋友一样交谈,就能轻松获取数字世界的“宝藏”,那么这该是怎样的一番情景呢?

当然,计算机不可能变成真人,而只能模仿人。聊天机器人是一个能交谈的机器人,或者说,它能通过 AIM 或其他短信平台用文本与人沟通交流,人们只需要像加好友一样把它加入自己的通讯录即可。这样人们就可以利用它了解股价、最新的新闻资讯、体育比赛比分、电影上映时间、字典上的词条等。人们能够利用聊天机器人玩游戏、处理琐事,甚至能够进行网上搜索。

通过技术开发,Active Buddy公司在2001年3月推出了它的第一款产品。这是一款名为“伶俐小孩”的聊天机器人。虽然公司没有花钱进行营销,但不可思议的是,这款产品“火”了。用户们对能与计算机进行基本对话,能够分享他们的在线聊天记录感到十分高兴,纷纷鼓励自己的朋友也去与“伶俐小孩”聊一聊。到了同年5月,公司获得了一个推广产品的机会,利瓦伊视之为天赐良机。名为“电台司令”的乐队成员希望公司能为他们设计一台名为“曲线球牛头怪”的聊天机器人,目的是推广他们即将发表的新专辑《健忘症患者》。

不久之后,“伶俐小孩”和它的设计者就开始在全国范围内的各类报纸上露面,并且设计者还接受了像泰德·科佩尔这样的名流所主持的电视访谈。麦当娜和其他音乐家也希望拥有这样的聊天机器人,雅虎公司、微软公司来与设计聊天机器人的公司商讨并购事宜。不到一年的时间,“伶俐小孩”就积累了 900 万用户。据估计,在全美国的即时通信流量中,有5%是发生在用户和“伶俐小孩”之间的,这个数字令人惊叹。

不过,这种成功只是表象而已。“伶俐小孩”与用户的对话记录显示,发明者设想的那种能助人一臂之力,能够提供丰富信息的聊天机器人还尚未完成。在这个数量达几百万的用户群体中,关心股票行情的总经理和想了解影讯的用户只占很少的比重。用户中相当一部分是百无聊赖的年轻人,他们常常在“伶俐小孩”上说脏话,甚至进行谩骂。

这让人深感失望。但是对话日志所显示的一种模式也证实了发明者对可对话计算机最终发展前景的一个宏伟设想。或者,至少可以说,存在着这样的尝试。人们愿意去谈论他们的爱好,比如自己喜欢的乐队。他们感到孤独,只是想与“伶俐小孩”聊聊——有时甚至一聊就是几个小时。

霍夫被迷住了。科幻作品中不乏对走火入魔的人工智能生物的描述,如自我毁灭者、哈尔、魔鬼终结者,但他还是对那些富有浪漫色彩的情节更有共鸣。他尤其喜欢拍摄于 1999 年的影片《机器管家》。在这部影片中,罗宾·威廉姆斯饰演了一个想成为真人的敏感而足智多谋的机器人。霍夫由此意识到,既然人们真的想与“伶俐小孩”交谈,他就应当以实现人们的愿望为使命。他后来回忆道:“从一开始,我就怀有这样一种梦想,互联网上应该有人们最好的朋友。”

问题在于,如何实现这种想法。从数字数据库中检索一些事实性信息,如电话号码、体育比赛比分,并反馈给用户,这不足以让“伶俐小孩”成为一个讨人喜欢的朋友。“伶俐小孩”还必须会聊天。因此Active Buddy公司雇用了一群对话设计师,由他们事先编写上万条回复信息,当在聊天中遇到合适的时机时,“伶俐小孩”便能够“搬来即用”。

对话设计师中有一个人名叫帕特·吉尼,他放弃了摇滚音乐家的生活,选择到新媒体去开辟事业。他为“伶俐小孩”创建具有一致性的人格特征,把它那些枯燥无趣的对话变得妙趣横生。他赋予聊天机器人一丝幽默感,这其实就是他自己的那种谈话风格,所以同事们开玩笑说,当人们与“伶俐小孩”闲聊时,实际的谈话对象其实是吉尼。他和其他对话设计师还构建起聊天机器人的知识库,因此,面对用户喜欢的任何谈话主题,如棒球或电视上的真人秀节目,“伶俐小孩”都能说出有见地的话。“伶俐小孩”甚至能记住一些片段性的信息,如A用户喜欢白色条纹乐队,而B用户偏爱Jay-Z乐队。

对霍夫来说,这只是个开始。他相信经过进一步开发,聊天机器人在语言能力、情绪感知和人格发展方面的可能性其实是没有边界的。人和聊天机器人的关系可能会持续几十年,聊天机器人将成为人一生的朋友。

遗憾的是,霍夫的梦想被发生在 2001 年的互联网企业倒闭潮摧毁了。向Active Buddy公司提供了400万美元的投资者不想考虑那么久远的事情,他们只想知道公司在当下如何才能赚钱。霍夫和利瓦伊相信,一旦用户基数发展到足够大,就会带来经济回报。但是他们也不知道究竟如何做才能赚钱。来自凯和投资者反驳的理由是,数百万的年轻用户根本不会为此付费。经过几次激烈的辩论后,霍夫的阵营输了。在2002年年初,他和利瓦伊都离开了公司。

后来,斯蒂芬·克莱因担任了公司的CEO,Active Buddy公司最终才涅槃重生,改名为Colloquis,这个名字很容易让人联想到类似《上班一条虫》这部影片所反映的那种死气沉沉的公司风格。公司业务转为生产能够用于公司客户服务应答的聊天机器人,其中的大用户包括时代华纳有线、万迪奇及康科斯特公司。三年之后,Colloquis公司被微软公司收购。对原来的投资者而言,这是一次成功的退出。但奇怪的是,微软公司很快就对自己新的“战利品”失去了兴趣,在 2007 年年末传出来的一桩丑闻更是雪上加霜。

到了 2008 年,最后一个聊天机器人生产者被解雇了。霍夫更是在很早之前就离开了,但他从未忘记初心,即使这个愿景现在已经付诸东流。聊天计算人沦为一个异想天开的“大”创意。

***

2018 年,拉斯维加斯举办了一年一度的国际消费类电子产品展览会,参会者数量高达 180,000 人,大家都在谈论有关计算机的话题。展览会上的产品有手掌大小的计算机,花瓶形状的计算机,还有看起来像是印上了品牌 Logo 的香烟打火机。有的装置带屏幕,也有的不带。还有其他产品,如汽车、屋顶吊扇、电源插座、相机、门锁、花洒和咖啡机等。如果在 2008 年,霍夫曾经拿着一本《睡谷传奇》垫在脑袋下沉沉睡去,那么在 11 年后的今天醒来,他可能会觉得自己这一觉像睡了30年。

在“伶俐小孩”的年代,人们只是通过打字输入信息。如今,在展览会250万平方米的展位间,回荡的是人与机器对话的声音,机器在执行人的指令,而且还会回话。这是一股嘈杂的声浪,有人在发送指令让百叶窗关闭,有人在让空调启动,有人在让音箱播放歌曲。还有人对着柜台上的屏幕请教做小酥肉的菜谱,指挥冰箱把猪肘子加入购物清单中,并控制监控摄像头、扫地机器人、打印机、烤箱,也有人询问邮箱是否有来信,汽车是否需要加油,草坪是否需要浇水。

总之,在展览会上展出的数以千计的装置,都有对话和帮助功能,它们看起来几乎无所不能。想象一下,在你开车时,它们能为你做些什么。它们能为你启动汽车、检查油箱、找到最近的加油站。为了让你在驾驶时不感觉无聊,它们能帮你打开美国国家公共电台、美国有线新闻网和《华尔街日报》的音频。它们能帮你选择播放慢音乐或敲击摇滚乐——事实上任何音乐家的任何曲目它们都能替你找到。它们能制造出波浪的声音,祖父时代老古董闹钟的滴答声,或雨滴打在铁皮屋顶的声音。

与语音助理交谈可以得到给孩子起名的建议,你可以用它们订购尿布,还可以让它们读睡前故事。它们能监控孩子的睡眠时间和大便次数。它们能提醒孩子清理自己的盘子,打扫自己的房间,在横穿马路前要先向两边看。它们能提醒老年人按时吃药,老年人还能用它们玩提升记忆力的游戏以保持头脑清醒。

展览会上的用于浴室中的电子产品也五花八门,比如有能说话的镜子分享化妆建议,它们为早晨要通勤的人提供交通信息,而且还能与用户互动。浴室里的花洒在听到声音指令后会自动打开。盥洗室会自动开门,会为用户加热他们的座位,甚至会和他们闲聊几句。

在卧室里,当你醒来后,语音助理会询问你感觉如何,向你报告你的睡眠质量,而且还会给你提出一些放松心情的建议,比如做做操振奋一下。这些语音助理能够帮助你挑选徒步旅行路线,监控你的步数。或者,如果你计划做一些更安静的事情,那么它们会引导你在家里做瑜伽。

如果做瑜伽激起你的食欲,那么语音助理就会告诉星巴克在柜台上为你准备一份拿铁和田园南瓜面包,或者让丹尼斯餐厅准备一份丰盛的早餐——比萨和6听啤酒。语音助理能追踪冰箱里的剩饭情况,并提醒你刷盘子。

如果你的家人出去了,语音助理能告诉你他们现在的动态。在他们回来之前,语音助理会像真正的朋友一样伴你度过这段时间。它们能向你建议母亲节买什么礼物,还会给你的约会之夜提出建议。它们能指导鱼缸如何喂鱼,猫碗如何喂猫,喂鸟器如何喂鸟。如果你出去了,那么它们会通过安装在狗项圈上的喇叭,主动告诉狗狗你非常爱它。

在提高工作效率方面,语音助理能够通知你的银行付款,要求保险公司更新索赔请求,还能搜索航班。它们能帮助你找到水管工人、房地产经纪人,还有修缮屋顶的人。只要是能制造出来的产品,它们就能帮助你下订单。

展览会上这些有对话功能的机器人不但用途广,而且它们的智能水平也有无限的发展空间。它们能回答很多关于日常生活的问题:“我下次会议安排在什么时间?”“I-80公路的通行情况如何?”或者“Gordo Taqueria 餐厅什么时候打烊?”并且,它们也能回答很多需要有广博知识储备的问题:“亚历山大·汉密尔顿是什么时候出生的?”“哈利·法塔有多高?”或者“一个牛油果包含多少卡路里的热量?”

在推出这些语音助理的公司中有许多我们熟悉的名字:福特、丰田、宝马、索尼、LG、霍尼韦尔、科勒、西屋电器、惠普和联想等。但这些公司的特色是生产语音助理的“身体”,而它们的人工智能“大脑”,在美国大部分是由亚马逊公司或谷歌公司生产的。亚马逊公司人工智能的产品叫亚历克莎(Alexa),它的对手是谷歌助理(Google Assistant)。

这两家公司在展览会上以不同方式广泛地宣传自己的产品。谷歌公司占领了所有的营销位置,仿佛在昭示这就是属于它的展览会。在整个拉斯维加斯,确实有两个词铺天盖地地存在,这就是“Hey,Google”。这两个词也在提醒谷歌助理,要通过任何已经连接上的装置来倾听用户的声音。

这两个词出现在列车上、墙体上、滑梯上、糖果机上……这两个词就像不断重复的“咒语”,同时也像是对一种技术的推介和对其主导地位的宣示。

亚马逊公司倒是没有用这样的品牌宣传阵势来吸引参会者,也许是它觉得自己没有太多需要去证明。在参加展览会时,亚马逊公司已经占据了美国智能家居音箱(语音助理是其产品特色)市场75%左右的市场份额。在展览会召开的同时,又有 1200 家不同种类的公司把亚历克莎整合进大约 4000 种智能家居产品中,而谷歌公司声称它与 225 个品牌的1500种产品建立起了伙伴关系。

虽然亚马逊公司不借助任何大型的糖果机之类的东西来吹嘘自己,但它也并非低调。亚马逊公司的名字几乎挂在每个产品代表和媒体记者的嘴上。亚马逊公司多次主办为时一天的讨论会,总是冠以诸如“亚马逊要让亚历克莎无处不在”之类的会议名称。

作为这次展览会上的双明星,这两家公司并没有叫卖任何具体的产品。相反,它们在传达一种观点:这是一个被语音控制的世界。在一次演讲会上,亚马逊公司亚历克莎产品的传道人大卫对主题做了归纳,他说:“我们正生活在一个未来世界,我们可以把机器当成像人一样的谈话对象。”第一部分竞争CHAPTER01范式转移

每十年左右,人与技术的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些定义了新的时代范式的公司,而落伍者将破产倒闭。在计算机的大型机时代,IBM是主宰者;微软公司是桌面时代的王者;谷歌公司靠搜索引领了互联网时代;苹果公司和脸书公司则在移动互联网时代一飞冲天。

最近的一次范式转移正在进行中。

最新的平台之战已经打响。

最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所未见的。

我们正在迈入智能语音时代。

语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的手段。语音能够让我们指挥各种数字产品助理——“行政助理”“门房”“主妇”“管家”“顾问”“保姆”“图书管理员”“演艺人员”等。语音打破了世界上一些最有价值的公司的商业模式,为新的应用创造了机会。语音把对人工智能的控制权交给了用户。很久之前科幻作品就预言过这样的关系模式,在这样的关系模式中,拟人化的人工智能成为我们的“助手”“看门人”“预言者”“朋友”。

智能语音时代的到来是人类历史的转折,因为运用语音是我们人类这个物种的特质——这一能力把我们和其他物种区分开来。人类的内部意识的中心不在肺部的空气里,也不在血管里的血液中,而是在大脑的语言区里。语言调整着我们的关系,它能塑造思想、表达感受、沟通需求;它能发起变革、挽救生命、激起爱恨情仇;它把我们所知道的一切记录下来。

得益于最近出现的一系列突破,教计算机用自然语言说话的浪漫构想在现实世界中有了市场——这个领域被称为智能语音领域。随着按照摩尔定律能够预测到的计算能力以指数级提升,一系列进展开始出现。手机崛起——事实上我们随时携带着的是一台强大的袖珍计算机,它是语音技术发展的重要推动者。

机器学习使得计算机能通过分析数据就能获得能力——这非常关键,能够让开发者一举克服那些已经纠缠了几十年的问题。而云计算是一个决定性的(但经常被忽略的)因素。语音技术需要巨大的算力支撑。尝试把所有的算力都在手机上实现十分困难,并且其代价极高。在如今的云时代,只要简单地加上一个麦克风和一个Wi-F i 芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。

以上述所有这些进展为后盾,语音正在引领着“环境智能”的实现,它最终可能会让我们现在手中的这些智能手机过时。到目前为止,计算机还是计算机,是我们能放在案头或拿在手里的一件独立性装置。但是当大部分技术设备都能放在很远的地方而不需要放在现场,可以用声音而不是笨重的外围设备来实现控制时,那么这些设备的重要性就降低了。正如谷歌公司的首席执行官桑德尔·皮蔡在致股东的一封信中所言:“未来将要迈出的一大步是,‘装置’这个概念本身就要消亡。”有了语音助力,计算机将变成一个无处不在的‘存在’。数字智能也将无处不在,正如我们呼吸的空气一样。

语音也解决了一个已经困扰人类几千年的大问题。人类的发明总是要求我们去适应它们。无论是飞机、吉他、割草机还是电子游戏,我们都不得不去学习那些不够自然的命令和动作,以便让这些装置听我们指挥——我们来决定按哪个按钮,滑动哪根操纵杆,转动哪个轮子,踩哪块踏板。

在计算机上,我们需要弯着手指在键盘上的一堆字母键、数字键和符号键之间游走——当标准的计算机键盘在 1867 年获得专利时,这可是一项高科技,当然现在已经不是了。当手持鼠标滑来滑去时,我们可以通过点击进行操作。在智能手机上,我们的操作是敲击、滑动、缩放。于是,我们坐着或者站着不动,脊梁弯曲、眼睛发涩,成了屏幕的“俘虏”。

然而运用语音,计算机最终能以我们的方式工作。它们正在学习人类偏爱的沟通方式:运用语言进行沟通。当运用得好时,语音的优势非常明显,以至于你几乎难以感觉到它也是一层介质。人类知道如何说话,因为我们终其一生都在说话。

在智能语音时代,台式计算机和智能手机不会消失,这就像喷气式飞机没有把汽车淘汰一样。语音技术会和其他新兴技术整合到一起,例如增强现实技术。但是在使用很多应用程序时,人们会抛弃键盘和触摸屏,而选择更自然、更让人自在的语音界面。计算机将随我们起舞,而不是让我们趋奉它们。

这只是时间问题。

从根本上说,语音技术正在引领人类走入智能语音时代。人工智能技术已经“潜藏”在一大批应用程序中——不管是网络搜索还是自动刹车系统。但语音技术把人工智能推到了我们面前——我们对它说话,它也会以人的口吻来回复我们。以前只有诸如军事部门、世界上最先进的公司才能获取的“能力”,现在已经向每个人开放。

更令人惊喜的是,智能语音并不像学者一直以来给我们定义的那样(这个术语被他们说得面目可憎、讨人嫌弃),而是像科幻作品中描绘的那样。像亚历克莎这样的语音助理是以聪明的、活生生的人的面目出现的,它们能够听从有着血肉之躯的主人差遣。它们被设计得能够传递幽默感、友谊和支持,还具有同理心。同样地,人们也会反射性地(通常还是无意识地)向它们传递自己的感受。我们和语音助理的关系不可避免地会达到一定深度,情感会变得更加丰富、复杂,这是智能手机和台式计算机永远难以达到的。

说实话,语音技术的成熟应用尚需时日,毕竟我们都有过因手机连一句简单的话都听不懂而十分生气的经历。新技术总是会遭到质疑,包括手机在内的很多新发明都是如此。在公共场合和语音助理说话可能会让人有些尴尬,但是要知道以前人们觉得行走在街上时打电话也有点傻。语音技术现在的状况和人们在 1993 年刚接触互联网时的情景有些类似,和 2007 年 1 月乔布斯首次发布 iPhone手机时的情景也相似。智能语音革命已经开始,它将改变我们的生活方式。***

让我们用数字说话。

世界上大约有20亿台台式计算机和笔记本电脑,还有50亿部智能手机。在使用中的智能语音设备,包括谷歌家庭和亚马逊回声音箱,用户数量虽然少但正在迅速攀升之中,全世界估计有1亿台。现在这些在国际消费类电子产品展览会上展出的五花八门的产品又加入进来——灯泡、电视、坐便器,还有许多其他东西。上述所有这些产品都能成为智能语音技术的入口。这意味着智能语音设备的潜在市场规模要比手机市场大得多,全世界不同种类语音产品的数量会超过千亿种。

在商业世界,从脸书公司到鲜花网,这些公司都在关注语音技术的发展,并且急切地想知道智能语音革命会给我们带来哪些影响。语音技术创新了从人们的注意力上获利的方式。在营销和客户方面,语音技术创新了与客户互动的方式,还创新了收集数据并以此创造利润的方式。

智能语音市场是一个巨大的市场,因此本书的第一部分将专门从商业角度来讨论语音技术。第一部分主要介绍苹果公司、亚马逊公司、谷歌公司和微软公司争相开发智能语音平台,欲主导这一新兴商业模式的角逐故事。开发智能语音平台有可能使公司的业务陷入危局,也有可能把公司的事业推向新的高度。

Active Buddy公司的愿景包含了两个重要方面。首先,人们能够通过自然语言与计算机进行对话。其次,人们不必再在线上付出这么多工夫,将有别的事物代替人来完成数字搜索和开展行动。

这一愿景的两个方面在苹果公司的Siri这个由语音驱动的语音助理身上得到很好地结合。2011年,在苹果公司将它公之于众之前,Siri已经经过了25年的研发——狂热的技术专家们对这个项目倾注了大量心血。

在Siri出现之前,世界上绝大多数人还从来没有和人工智能对过话,Siri 的横空出世让人们大吃一惊。但当时间久了,人们很快意识到Siri并非超级人工智能,它所掌握的技能还达不到人的境界。它的大多数功能都是由一些基本功能组成的,例如设置定时器、查询天气预报、发信息等。由于当时技术的一些局限,在它的早期版本中存在的漏洞让很多用户感到失望。

Siri 的缺陷意味着它未能让更多的人体会到它所引发的这场变革的剧烈程度。但苹果公司的对手并未大意。事实上,当Siri公之于众时,苹果公司的竞争对手们也都正在忙着开发自己的语音助理产品。微软公司是紧随苹果公司之后第一个把自己的产品推向市场的,这就是诞生在 2014 年春天的名字甜美的微软小娜。亚马逊公司在同年 11 月发布了由被命名为亚历克莎的人工智能驱动的回声音箱,在科技界引起了很大反响。谷歌公司从 2008 年开始提供语音搜索,又在2016年推出了成熟的智能语音产品谷歌助理。

目前正在进行的是一场教科书式的平台之战,这场斗争既存在现实风险,又展现了诱人的机遇,这些顶尖公司是在为万亿美元规模的市场而战。从历史上看,谷歌公司和脸书公司的绝大多数财富是从广告业获取的,亚马逊公司有着世界上最大的数字商城,苹果公司依赖零售业务,微软公司为商业应用提供服务和软件。所有这些商业模式都被语音技术打乱了。***

由于市场衰退和管理上的纷争等原因,Active Buddy公司沦为了历史的产物,但也许最重要的原因是技术的不完善,计算机的“听力”还不够好,还不能自然地表达思想。

事实上,几个世纪以来,人们一直在努力让机器学会说话,这个探索过程是本书第二部分讨论的内容,从技术的角度来讲述智能语音的故事。在数百万年前,民间经常流传着一些无生命的物体突然有了生命并开口讲话的传奇故事。在中世纪,人们记录下了一些所谓Brazen Heads的故事,它们能够为“圣人”提供一些睿智的建议。在随后的 18 世纪,发明家发明出精妙的装置,这些装置的功能虽然简单,但也独具特色,能够模仿人类讲话。但是发明这些装置的人大多被视为“疯子”或“江湖骗子”,而不是堂堂正正的发明家。无论如何,这些能“讲话”的装置激发了一代又一代人的灵感,其影响一直延续到了数字时代。

从20世纪中期计算机出现以来,人们就开始致力于如何教会它们用自然语言说话。但是,在一开始,人们对于这件事情的预期可能过于乐观了。

人们原以为对话是一个简单的过程,其实完全不是这样。对话包含着一些子过程,这些旁生的子过程包含着复杂性。声波必须被转换成语言,这个过程被称为自动语音识别。理解这些语言被称为自然语言理解。想出如何回复这一过程被称为自然语言生成。最后,语音合成是指让计算机能表述出来。

从20世纪70年代至今,绝大多数研究者都专注于以上某个分支领域的研究,一些不太受约束的研究者开始创建简单的基于文本的聊天机器人。他们这样做主要是为了在电子游戏中吸引玩家,或娱乐自己。他们创建聊天机器人的目标是让人们觉得计算机可以像人类一样能说会道。

这些专攻某个领域的研究者和聊天机器人创建者的研究都已经取得了很大进展。借助机器学习领域的最新成果,语音技术最终得以快速发展。从根本上说,语音技术要适应人类对话的复杂性和多样性。

虽然这个光明未来已经昭示了很久,但是在最近5年左右语音技术才进入收获成果阶段。这些成果的取得,是科学家们坚持不懈地进行研究攻关的结果。研究者在机器学习算法研究方面投入了几十年的心血,甚至当同行对他们冷嘲热讽时,他们也未曾言弃。

高科技公司现在争相吸纳机器学习方面的专家,并且为他们提供高额薪资——攻克了诸如语音识别等难题的专家值得公司这样做。其他难题,例如如何让计算机进行智能回复,还仍在摸索之中。当我们讲话时,计算机要能够揣摩我们的意思和情感,可以写电子邮件,能够写广告词和诗歌,还可以用逼真的语音交谈,甚至可以模仿某个具体的人物说话。

然而,创建语音界面还需要更多硬科技。在早期阶段,Siri、微软小娜及其他语音助理产品都让科学家们意识到,如果人们不能自然愉快地与聊天机器人沟通,那么研发得再深入也等于是做了无用功。于是,有着语言学、人类学、哲学背景的人士加入个性和界面设计者的团队中来,甚至一些懂剧本创作的人士,也加入了设计团队。

瑞安·格米克说:“当你听到有人说话时,你会自动做出判断和假定。”他负责谷歌助理的个性设计。他需要就它在个性上应该如何友善、如何有同情心、如何有智慧等方面给出意见,并需要设定它的年龄、性别、种族和社会背景。

对设计者来说,基本的设计理念是让语音助理更像人而非机器人。由此出发,很多设计者开始为语音助理设计性格特点和思想倾向。他们让语音助理有偏爱的影片和食物——比如微软小娜爱吃豆薯。设计者们在它的大脑中储存了大量笑话和语句。如果有人和Siri说:“请重复我的话。”那它可能回复你:“我是你聪明的助理,可不是鹦鹉啊!”设计师还可能给某个语音助理设定宏观的描述,比如“一名消息灵通、追求时尚的图书管理员”。

个性设计这项工作很有吸引力但也非常棘手,而且有时还会引起争议。生动的个性特征可能会迎合某些用户,但也有忤逆和疏远其他用户的风险。当给语音助理设定关于性别或种族的一些观念时,尤其如此。人类设计师想赋予语音助理哪些隐含的判断准则呢?

借助于个性设计和机器学习,聊天机器人正在变得越来越能干,尤其是在发挥实际作用方面。但和“伶俐小孩”的情况一样,人们与这些聊天机器人的聊天记录表明,用户更愿意与机器进行社交性对话,就像他们与家庭成员或朋友进行的交谈一样。

从技术上说,聊天机器人还没有为真正的交谈做好准备。但这并没有阻碍一些公司去实现这一目标。亚马逊公司设置了亚历克莎奖,并组织不同大学的学生团队进行国际性比赛。这场为期一年的比赛任务是开发出一台聊天机器人,它要能与人进行一段时长达到20分钟的自由对话。获奖团队能够得到100万美元的奖励,而亚马逊公司则能够得到大量的精彩创意和对话数据。

亚马逊公司希望通过这样一场比赛收获有价值的见解,但公司也理解这一挑战有很大难度。正如主持这项竞赛的科学家阿斯温·拉姆所言:“据我所知,对话也许是人工智能领域最难的问题。”***

有了语音、个性和闲聊的技能,计算机就成了一个奇特的新角色。语音将可能在人和人工智能之间建立一种以前从未有过的关系,也就是说,人可以和一台烤箱建立关系。这项技术可能会催生一个类生命实体——一种尚不如人类但高于机器的存在物。正如微软小娜会这样介绍自己:“我可是有生命的呀。”

当在熟悉的环境中——汽车、卧室、浴室——出现了类生命实体时,智能语音改变了隐私、自主权和关系。智能语音改变了人们接触知识的途径和知识的控制者,也改变了长久以来对生命与死亡的定义。所有这些都是本书第三部分讨论的内容,第三部分会聚焦语音技术是如何改变生命之道的。

人工智能正在变成我们的朋友。美泰公司的哈啰芭比娃娃,一位粉红色的塑料智能美女是这方面的先驱。它可不是“有颜无脑”之辈,它强大的大脑建在云端,它能够与孩子们讨论音乐、时尚、情感、职场等话题。而微软小冰的人物设定是少年和成年人共同的朋友。公司对它的描述是提供通用型对话服务,由先进的机器学习系统加以支持。

虚拟友谊提出了一些以前只是假设的问题。是不是“人工合成”的友谊开始取代真正的友谊了?这会不会让人产生错误的联想,让人以为这个亲密的对象就是个活生生的人?会不会诱导我们认为机器有真正的同理心和理解力?

语音不但改变了我们建立关系的方式,而且改变了我们获取信息的方式。霍夫和凯曾经设想用自然语言直接从计算机得到帮助,而不用费力地通过网络引擎来获取。但事与愿违的是,我们把数字世界变成了我们不是那么喜欢的样子:互联网充斥着各种各样的信息,十分复杂,并且充满了各种文字内容。在我们的手机上,各种应用程序堆积在那里,一个页面接着一个页面。要想完成任务或得到信息,用户必须用搜索引擎在互联网中搜索、寻觅。

但是传统的互联网正在走下坡路,在智能语音时代,我们对数字生活的诉求不再停留在通过打字和点击在网页中搜索的阶段。取代传统互联网的将是人与人工智能之间的对话,这是新文明到来的征兆。

由此带来的好处是效率的提高,代价则是独立性的减弱。人们不必再亲自去寻找答案,而是由计算机来完成。不可否认,计算机对人类有很大帮助,但这也进一步强化了那些互联网公司的权力,特别是谷歌公司,它会从中获益。传统的出版商和内容制造商正在为此担忧。不仅如此,语音还打破了谷歌公司以广告为基础业务的模式,但至少语音为像亚马逊这样的公司提供了机会和线索。

无处不在的语音——作为助理、朋友——推动技术担起“监督”人类的多重角色。从出于好意到令人不安,语音助理已经开始在很多方面监督人类。语音助理正在成为孩子和老人的看护者、治疗专家。它们有可能遭遇黑客攻击,导致我们的隐私被泄露,但它们也有可能成为执法者进行案件调查的工具之一。

窃听语音装置是反乌托邦科幻作品中的“主角”,在那些作品中,人工智能经常变为人类的敌人。有时候,语音技术也能摇身一变被塑造成解救人类的“英雄”。这些作品中鲜有提及的一个事情是,人工智能既不是智慧超常,也不是恶意满满,它只是通过模仿真实的普通人而被创造出来的。

但当语音技术被应用在真实世界中,人的复制品可能会是最有趣的应用之一。计算机科学家正在创建“克隆体”,它能交互式地分享爱因斯坦及凯蒂·帕瑞等名人的故事。此外,刚开始出现的应用是一个被称为 Doppelgängers 的对话产品,它可以在日常的商业交易中和社交媒体上代替人来做一些事情。

这类“虚拟人”甚至能在人类死亡后继续代表他们,代替他们与心爱的人交谈。其实在做好这些事情上,我们可能还不如这些“虚拟人”做得好。由于技术已经得到了长足发展,所以“虚拟永生”不再只是纯粹的幻想。这样的前景既让人向往,也让人不安。在本书的最后一部分,我们将对此进行讨论,我和大家一样十分关注这件事,这是因为我自己就想为我深爱的某人创建一个复制品。***

菲利普·利伯曼是布朗大学的一名认知科学家,他曾经说:“讲话对于智力而言是非常必要的,因为拥有讲话的能力实质上就具备了人的特质。”

能够讲话的机器最终将成为改变我们这个世界的发明之一。语音技术能够让“虚拟人”完成各种不同的任务——从日常性的到复杂性的,从实际的到情感的——以前这些都属于人类的特有行为。语音技术能够使数字智能应用到我们环境的各个方面,它正在影响我们的商业世界。它在机器之间,创造出史无前例的关系类型。它促进了一个无所不在的操作体系的形成。

我们正在获得巨大的新的便利,但为此而付出的代价可能是丧失一些“自主”,新的“预言家”和“监督者”正在崛起。如果我们不能妥善处理,那么“虚拟人”将不仅是我们的仆人,也将是我们的主人。它将越来越多地替代我们完成写、说和思考的工作。

语音把人工智能置于我们的掌控之下,危险也伴随而来。但是语音不应该激起人们下意识的恐惧——每当谈到有关人工智能这样的

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载