人机对话系统(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-26 13:26:31

点击下载

作者:曹均阔,陈国莲

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

人机对话系统

人机对话系统试读:

前言

加拿大传播学者麦克卢汉曾说,媒介是人的延伸。然而,人类正在通过人工智能来延伸自己。早在1950年,计算机科学之父阿兰·图灵在Mind杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。这就是后来鼎鼎有名的人工智能图灵测试。

图灵测试的概念极大地影响了人工智能对功能的定义,在这一时期,科学家们也将语音识别比作“机器的听觉系统”,该技术可以让机器通过识别和理解,把语音信号转换为相应的文本或命令。1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。

然而,在接下来的10年,科学家们在语音识别领域也走上了与人工智能其他领域同样的弯路。他们认为,让机器具备智能必须先让计算机理解自然语言,即电脑模拟人脑,导致研究局限在人类学习语言的方式上,这期间人机对话研究进展几乎为零。直到20世纪70年代初,转机出现在统计语言学的创立上。这不得不提到一个关键性人物——德里克·贾里尼克,他领导的IBM华生实验室创新地使用统计方法,奠定了今天自然语言处理的基础,也使得人和机器的对话逐渐成为现实。

2017年4月,中国科学技术大学智能机器人“佳佳”担任新华社特约记者,与全球人工智能大咖展开“人机对话”,引发媒体和网民们广泛关注。这是全球首次由机器人担任记者开展采访活动,标志着新的内容生产模式的诞生。在与美国著名科技观察家、《连线》杂志创始人凯文·凯利、脸书公司人工智能专家田渊栋等人工智能领域专家的交互中,机器人“佳佳”依靠语音图像识别、语义理解等新技术,展示了应对采访实践中多轮对话的能力。“佳佳”开展名家采访活动,是一次关于人工智能如何改变人类生活的成功科普,表明人机对话系统开始从科学家的实验室飞入“寻常百姓家”。这次成功的人机对话,显示了中国人工智能和机器人研究能力的飞跃。然而,正如开发“佳佳”的中国科技大学机器人实验室主任陈小平教授所说,虽然中国相关领域科研团队的水平已完全可以匹敌世界一流技术,但中国人工智能和机器人研究的顶尖团队,从数量上和基础研究上,与美国相比还有相当大的差距。

人机对话作为自然语言处理的集成应用,涉及的研究内容非常广泛,包括语音识别与语音合成、语言理解与语言生成、信息检索与信息抽取及对话管理等。虽然从每一个研究模块来看,都有较多的相关论文和专著。然而,将人机对话系统的基本概念、基本理论和技术研究作为一个整体范畴,这方面的专著在国内尚处于空白。鉴于此,笔者结合自身多年的教学与科研心得,特编撰此拙著,以期抛砖引玉。

全书分为六章。第1章是绪论,围绕人机对话系统的基本概念,阐述了人机对话的发展历史、基本构成和前景应用。第2章围绕对话系统中的语音处理过程,介绍了语音的产生与特性,以及语音识别和语音合成的基本原理。第3章从对话理解的基本概述开始,继而讨论对话中的词法分析、句法分析和语义分析。第 4章根据对话中的信息处理过程,着重阐述了知识表示、信息检索,以及信息抽取技术。第5章首先叙述语言生成的文档规划、微观规划和表层实现的基本原理,然后继续介绍文本自动生成技术。第6章先针对对话管理的工作流程、基本原则和系统结构进行介绍,随后分别对基于专家知识的方法、基于任务的方法、基于智能Agent的方法、数据驱动方法四种对话管理模型展开讨论。

本书在创作的过程中,从各种论文、书刊及网络中引用了大量的资料,有的在参考文献中列出,有的无法查证,在此谨向所有作者表示衷心的感谢!此外,本书的研究与撰写工作获得了国家自然科学基金项目(编号:61363032,61462025,61463012)、海南省重大科技计划课题(编号:ZDKJ2017012)、海南省教育规划课题(编号:QJY13516014)、海南师范大学专著出版基金等研究项目的资助。此外,围绕项目研究,本书的编写也得到了海南师范大学信息科学技术学院的大力支持,特别感谢何书前博士、张瑜博士、罗自强博士的支持与帮助。

作者

2017年5月第1章 绪论

语言作为工具,对于我们之重要,正如骏马对骑士的重要。最好的骏马适合于最好的骑士,最好的语言适合于最好的思想。

——但丁1.1 对话系统概述

语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,语言是人类智慧的一个重要组成部分,甚至是核心部分。人类对话不仅是语言馈赠、思想碰撞、感觉交换,同时也包含了人类生存方式的相互参照。人机对话系统(Spoken Dialogue System,SDS)则是模仿人际间对话方式,与用户进行自然对话,从而实现人与计算机之间的信息交流。提到人机对话系统,自然就联想到人机界面与人机交互。1.1.1 人机界面

人机界面(Human Machine Interaction,HMI)是系统和用户之间进行交互和信息交换的媒介,又称用户界面或使用者界面,是人与计算机之间传递、交换信息的媒介和对话接口,是计算机系统的重要组成部分。

人机界面是指人和机器在信息交换和功能上接触或互相影响的领域,是人机系统中的中心环节,大量运用在工业与商业上,简单地区分为“输入”(Input)与“输出”(Output)两种。输入指的是由人来进行机械或设备的操作,如把手、开关、门、指令(命令)的下达或保养维护等,而输出指的是由机械或设备发出来的通知,如故障、警告、操作说明提示等。好的人机接口会帮助使用者更简单、更正确、更迅速地操作机械,也能使机械发挥最大的效能并延长使用寿命。

根据计算机系统用户与界面的输入方法,人机界面大致经过了如下四代的演变:(1)命令语言界面。在图形显示、鼠标、高速工作站等技术出现之前,现实可行的界面方式只能是命令和询问方式,通信完全以正文形式并通过用户命令和用户对系统询问的响应来完成。这种方式使用灵活,便于用户发挥其创造性,对熟练的用户有很高的工作效率,但对一般用户来说要求高,易出错,不友善并难于学习,它的错误处理能力也较弱。(2)菜单选项界面。这种方式与命令行方式相比不易出错,可以大大缩短用户的培训时间,减少用户的击键次数,可以使用对话管理工具,错误处理能力有了显著提高。但使用起来仍然乏味,可能出现菜单层次过多及菜单选项复杂的情形,必须逐级进行选择,不能一步到位,导致交互速度显得太慢。(3)面向窗口的点选界面。此类界面亦称WIMP界面,即窗口(Windows)、图标(Icons)、菜单(Menus)、指示器(Pointing Device)四位一体,形成桌面(Desktop)。这种方式能同时显示不同种类的信息,使用户可在几个工作环境中切换而不丢失几个工作之间的联系,用户可通过下拉式菜单方便执行控制型和对话型任务,引入图标、按钮和滚动杆技术,大大减少键盘输入,对不精于打字的用户无疑提高了交互效率。(4)自然语言交互界面。使用自然语言与应用软件进行通信,把第三代界面技术与超文本、多任务概念结合起来,使用户可同时执行多个任务(以用户的观点)。随着文字、图形、语音、视频等技术的进一步发展,多媒体技术在人机界面开发领域内的功能进一步凸显,自然语言风格的人机界面将得以迅速发展,最终走向实用化。1.1.2 人机交互

人机交互(Human-Computer Interface,HCI)又称人机互动,是一门研究系统与用户之间的互动关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互本质上是人与计算机的交互,具体来说,是人机交互用户与含有计算机的机器之间的双向通信。而人机界面是指用户与含有计算机的机器系统之间的通信媒体或手段,是人机双向信息交互的支持软件和硬件。

人机交互与人机界面是两个有着紧密联系而又不尽相同的概念。人机交互是人与机—环境作用关系/状况的一种描述,界面是人与机—环境发生交互关系的具体表达形式。交互是实现信息传达的情境刻画,而界面是实现交互的手段。然而,在大的产品设计系统中,交互和界面都只是解决人机关系的一种手段,不是最终目的,其最终目的是解决和满足人的需求。

人机交互系统是伴着计算机的诞生而发展起来的。在现代和未来的社会中,只要有人利用通信、计算机等信息处理技术,为社会、经济、环境和资源进行活动,人机交互都是永恒的主题。鉴于它对科技发展的重要性,研究如何实现自然、便利和无所不在的人机交互,是现代信息技术、人工智能技术研究的至高目标,也是数学、信息科学、智能科学、神经科学以及生理、心理科学多科学交叉的新结合点,并将引导着21世纪前期信息和计算机研究的热门方向。

1.基于键盘和字符显示器的交互阶段

这一阶段所使用的主要交互工具为键盘及字符显示器,交互的内容主要有字符、文本和命令,交互过程显得呆板和单调。这一阶段可称为第一代人机交互技术。

2.基于鼠标和图形显示器的交互阶段

这一阶段所使用的主要交互工具为鼠标及图形显示器,交互的内容主要有字符、图形和图像。20世纪70年代发明的鼠标,极大地改善了人机之间的交互方式,在窗口系统大量使用的今天几乎是必不可少的输入设备;应该说,鼠标和窗口系统的出现,是人机交互技术发展历史上的一次技术革命。这一阶段可称为第二代人机交互技术。

3.基于多媒体技术的交互阶段

20世纪80年代末出现的多媒体技术,使计算机产业出现了前所未有的繁荣,声卡、图像卡等硬件设备的出现,使得计算机处理声音及视频图像成为可能,从而使人机交互技术开始向声音、视频过渡。

4.第四代人机自然交互与通信

第四代人机自然交互与通信是一种以多模信息交互为输入/输出,以Agent为交互通信界面,具有基于知识对话的网络信息交互和检索能力,并具有二维和三维虚拟交互环境可视化显示的人机交互技术。在“计算机文化”到来的社会里,语言已不仅是人与人之间的交际工具,而且是人机交互的未来方向。自然语言处理(Natural Language Processing,NLP)是人类使用自然语言同计算机进行通信的技术。1.1.3 人机对话

人机对话系统利用语音识别/合成、语言理解/生成等技术,进而模仿人际间对话方式,实现人与计算机之间的信息交流。人机对话系统研究的出发点和最终归宿,在于最大限度地寻求人与人对话这种智能行为的模拟和逼近,其核心的问题就是探讨如何合理地形式化对话现象,尽可能从对话过程中抽取出最基本的结构规律,使得系统所采用的形式框架既能够满足各种情况下语言的表现需要,具有充分的表达能力;同时又可以计算,在工程上具有有效的实现手段。一般而言,表达能力越强意味着形式框架越复杂,因而如何在两者的矛盾中做出权衡是对话系统形式设计的关键问题,实践中可以根据具体的软件需求做出相应的取舍。

人机对话系统具有两个重要特点:(1)采用语音作为系统输入/输出。(2)系统具有语言能力。

语音交流是一种最自然的人际沟通、协作方式。对话系统采用语音输入或输出,较键盘、鼠标和显示器等输入/输出方式更友好。在一些远端接近的情况下,语音更是具有不可替代的作用。人机对话系统的语言能力包括语言理解能力和语言生成能力。语言理解能力使交互双方能够在交互过程相互调整,达到对同一事件的共同理解。语言生成能力使计算机能够根据上下文和知识库查询,用人类可以理解的方式进行应答。目前,对话系统主要完成一些较简单的人机交互任务,大多数的口语系统集中在命令和控制功能,使计算机具有一定的智能,能够在问题解决过程中主动合作。

人机对话系统的结构彼此有很大的差别,从具有孤立词识别(Isolated Word Recognition)的系统主动交互声音响应IVR(Interactive Voice Response)系统,如“查询天气情况,请按#键”,到允许用户主动的基于自然语言理解的对话系统,如“请告诉我今天的天气情况”。基本的人机对话系统包括语音处理、自然语言处理、信息处理和对话管理四大模块,其基本框架如图1-1所示。图1-1 人机对话系统基本框架

1.语音处理模块

语音处理技术包括语音识别技术和语音合成技术。

语音识别(Speech Recognition,SR)是实现人机对话的信息输入,是利用计算机自动对语音信号的音素、音节或词进行识别的技术总称。语音识别的理论研究已经有40多年的历史,但是转入实际应用却是在数字技术、集成电路技术发展之后,现在已经取得了许多实用的成果。语音识别一般要经过以下几个步骤:(1)语音预处理:包括对语音的幅度标称化、频响校正、分帧、加窗和始末端点检测等内容。(2)语音声学参数分析:包括对语音共振峰频率、幅度等参数,以及对语音的线性预测参数、倒谱参数等的分析。(3)参数标称化:主要是时间轴上的标称化,常用的方法有动态时间规整(Dynamic Time Warping,DTW)或动态规划方法(Dynamic Programming,DP)。(4)模式匹配:可以采用距离准则或概率规则,也可以采用句法分类等。(5)识别判决:通过最后的判别函数给出识别的结果。

语音合成(Text To Speech,TTS)又称语音生成,是实现人机对话的信息输出,它是通过机械的、电子的方法产生人造语音的技术。TTS技术隶属于语音合成,它是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的人类语言输出技术。和语音识别相比,语音合成的技术相对来说要成熟一些,并已开始向产业化方向成功迈进。语音合成能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音,然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。

2.自然语言理解模块

利用人类自然语言实现人与计算机之间的通信交流,意味着要使计算机能理解自然语言文本的意义,这也是自然语言理解的根本目标。自然语言理解(Natural Language Understanding,NLU)是一门新兴的边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。自然语言理解的研究,综合应用了现代语音学、音系学语法学、语义学、语用学的知识,同时也向现代语言学提出了一系列的问题和要求。

计算机理解的自然语言可分为两个方面:(1)口语的理解(如语音识别、语音合成、语音分析等)。(2)书面语的理解(如机器翻译、自动文摘、信息过滤等)。

从计算机处理的角度,对自然语言的研究和处理,一般划分为如下四个层次:

第一层次是语音和文字,即基本语言信号的构成。

第二层次是语法和句法(合称“语法”),即语言基本运用单位的构成和组合的形式规律。

第三层次是语义,即语言所要表达的概念结构。

第四层次是语用,即语言与语言使用环境的相互作用。

相应地,语言的分析和理解过程也应当是一个层次化的过程。许多语言学家把这一过程分为四个层次:语音分析、语法分析、语义分析、语用分析。其中,语法分析又可分为词法分析和句法分析。语音分析是根据音位规则,从语音中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。句法分析是对句子和短语的结构进行分析,分析的目的就是找出词、短语等相互关系,以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系和语法功能关系。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。语用分析,就是对语言符号与语用符号使用者之间联系的研究分析。

目前,自然语言理解研究已经取得了令人瞩目的成绩,在某些方面,有的研究成果已达到了实用化的程度,例如,根据数据库中的信息回答问题或处理事务,按照自然语言的命令做一些简单的事情等。但自然语言理解并未取得根本性的突破。研究人员甚至认为“整个自然语言理解获得成功的例子,不过是解决了一个极为微小的积木世界的问题”。要使计算机达到人的理解力,目前在技术上还面临着很大的挑战。首先,自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如,但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接收的方式彻底说清楚。传统的语言学是在没有计算机参与的条件下发展起来的,真正要让语言学知识变得在计算机上可操作,绝不是那么简单,也不能那么模糊。其次,自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多音、一音多字的问题;在词法和句法层次上,有词类词性、词边界、句法结构的不确定性问题;在语义和语用层次上,也有大量的因种种原因造成的内涵、外延、指代、言外之意的不确定性。语言学上把这些不确定性称为“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决,而必须借助于更大的语言单位乃至非语言的环境、背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性的能力和常识推理能力,要想使计算机获得同样强大的能力,还有很长的路要走。另外,自然语言不是一成不变的,它在社会生活中发展,在讲不同语言和同一语言的不同变体的人们之间相互影响变化。一个词、一个说法可能在一夜之间突然流行起来,特殊的人群结构变化会导致新的语言或新的语言变体(如方言)的出现,这需要计算机程序具有对外界语言环境的应变能力。最后,自然语言是人们交流思想的工具。既然交流的是思想,那么思想本身在计算机中的组织结构就显得格外重要。在人工智能中,这就是“知识表示”的问题。可以说,在知识表示问题上的突破,对于自然语言理解的进展将产生决定性的影响。

3.自然语言生成模块

自然语言生成也是自然语言处理的一部分,自然语言处理大体包括自然语言理解和自然语言生成两个部分。自然语言理解是需要消除输入语句的歧义来产生机器表示语言,而自然语言生成的工作过程与自然语言理解相反,它是从抽象的概念层次开始,决定如何用语言来表示这个抽象的概念,通过选择并执行一定的语义和语法规则生成文本。很显然,自然语言生成是人机对话系统的信息输出过程。

语言生成系统是基于语言信息处理的计算机模型,其工作过程与语言分析相反,是从抽象的概念层次开始,通过选择并执行相应的语义规则和语法规则来完成的。通常,语言生成的研究有两个实用目标。其一,作为人们实际生活中的交际工具而生成各种信息。譬如,天气预报、文献摘要、信息查询等。其二,作为检验特定语言理论的一种技术手段。从这一角度来看,无论是在理论上还是在描述上,其工作过程与自然语言本身的研究都有着密切的关系,涉及语言理论的诸多方面。例如,语法分析、语义表达、语言教学、语言对比、话语结构乃至文学研究。

语言学理论对这些研究课题具有重要的指导作用。同时,计算语言学也不断地为理论语言学提供反馈,推动语言学的研究向纵深发展。语言生成模型应该使用什么样的语法理论?在设计语言生成模型的实践中,总体上分为形式的和功能的两大类。生成语法为基础的语言生成模型强调对语言能力、语言习得及语言结构的探讨。生成语法学派的学者们不断提出对语言生成研究颇具研究价值的问题,例如,为什么人类所具有的语言能力表现为其现有的特性?学习母语与学习外语有哪些不同?对不同语言的知识,人是如何在大脑中进行存取的?结构与词序的关系如何?词法处理是否应区别于句法处理?与生成语法相比,功能语法理论的应用似乎更显活跃。从某种程度上来说,这是因为功能语法不像形式语法那样抽象,句法和语义的关系比较直接,便于用计算机程序来处理。此外,许多人认为功能语法的理论模式与人脑中的语言模式更加相似。在这方面,系统功能语法理论的应用最具代表性。

目前语言生成的研究侧重于几个方面。其一是在特定的语法理论框架中更加广泛深入地处理语言现象,生成结构更加复杂的句子,如 Fawcett 的 GENESYS生成系统。此外,面向实际应用的尝试也不鲜见。英国 Edinburgh 大学 Michael O'Donnell所设计的在线文件剪接系统就是一个典型的代表。

今后语言生成的研究方向主要是以下几个方面:首先,自然语言生成的研究将从注重研究规范语法转至注重揭示语言形式在交际中的合理有效性。近期的研究已经将侧重点放在参与者的交谈对话方面,并将其视为信息策划过程中应重点解决的主要问题。由于现有的语言生成程序与信息策划程序之间缺乏必要的交互作用,从现在到今后的一段时期内,文本信息的策划仍是重点研究课题之一。其次,为检验特定语言理论而研制的语言生成模型仍将得到发展。在信息策划和句法词汇两个层次进行压缩合并的研究也具有不可低估的重要性。

4.信息处理模块

信息处理模块属于应用功能部分,主要实现信息语料库建立、知识的表示和信息搜索算法。

语料库的建立首先要考虑语料库的目的。根据用处区分,可分为通用语料库和特殊用途语料库;根据语言形式区分,可分为口语语料库和书面语语料库。人机对话系统是一个复杂的系统工作,往往需要同时建立通用语料库和特殊用途语料库,也要建立口语语料库和书面语料库。早期大多数人机对话系统回避语料库口语的诸多问题,然而遗憾的是,相当多的语言学者和语言老师相信口语形式的语言要比书面形式的语言更能反映语言最基本的组织形式。1961年的第一个口语语料库只有135000字(Jones和Sinclair,1974)。到1980年,人们为了研究才设计建立了一个35000词的口语语料库,现在已经成为人机对话研究的基础。目前,口语语料库虽然取得了巨大进步,但是与书面语研究相比,仍然有相当大的差距。

为了使对话系统能够准确、自然、智能、友好地进行,合理的知识表示和如何准确有效地查询是对话管理系统的两大主要任务。知识表示是人工智能(Artificial Intelligence)中最重要的问题之一,如何表示和管理知识以便使智能系统最好地利用是知识工程的关键问题。在早期的 AI 系统中,知识表示并不是明确作为一个重要的问题来考虑的,大多数系统将知识间接地插入规则和数据中。随着 AI 的发展,研究人员才逐步开始直接考察知识表示的问题。人机对话系统是一个庞大的系统工程,而这一切都需要一项最基本的基础工作,那就是知识库的构建和知识的有效表示。通过知识的有效表示,使人工智能程序能利用这些知识做出决策、制订计划、识别状况、分析景物及获取结论等。知识工程为语言处理技术和语言服务技术方面取得突破奠定了基础,必将产生一系列具有重要学术意义和应用价值的重大成果。这些成果的获得,将为正在到来的“全球性语言信息技术革命”奠定良好的基础,并产生深远的影响。

多数搜索引擎采用关键词进行匹配,返回大量信息和链接,其中,返回结果中的大部分不是用户需要的信息。问答式信息检索系统即问答系统,可以接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该问题的准确答案。问答式信息检索系统的研究大致可以分为三类(见图1-2):基于常问问题集的问答式信息检索系统、限定领域的问答式信息检索系统及开放领域的问答式信息检索系统。其中,开放领域的问答式信息检索进一步演变成具有对话化功能的人机对话系统。问答式信息检索系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。问答式信息检索系统能够提供用户真正有用、精确的信息,将是下一代搜索引擎的理想选择之一。问答式信息检索系统由问题处理模块、检索模块和答案抽取模块三部分组成。其中,问题处理模块负责对用户的提问进行处理;生成查询关键词;确定提问答案类型,以及提问的句法、语义表示等。检索模块根据提问处理模块生成的查询关键词,使用传统检索方式,检索出与提问相关的信息。返回的信息可以是段落,也可以是句群或者句子。答案抽取模块则从检索模块检索出的相关段落或句群或句子中抽取符合提问答案类型的准确信息,根据某种原则对候选答案进行打分,把概率最大的候选答案返回给用户。图1-2 问答式信息检索系统研究的分类

5.对话管理模块

对话管理在对话系统中处于核心地位,是整个系统对话流程的控制部分,它的设计优秀与否关系到整个对话系统性能。对话管理的任务是控制对话流程,帮助用户高效、自然地完成对话。在对话过程中,用户的回答或提问可能是含糊不清或者是不完整的,对话管理必须引导用户说明自己的意图,并提供完成任务所需要的信息。为了完成和用户的交互行为,对话管理应该根据对话历史建立对话上下文,并根据对话上下文正确理解用户输入。在此基础上,对话管理需要决定如何响应用户,并根据响应的内容修改上下文。对话管理的基本问题主要有对话策略、领域的可移植性、系统健壮性和校验。对话管理系统要做到能够在与用户多次交互的情况下保持回答的连续性和合理性,并且能够处理用户在交互过程中转变提问目的的情况。在已经实现并应用的对话管理的设计中,主要有基于状态图的结构、填充槽结构和基于任务的结构。采用基于状态图的结构处理速度快,但灵活性较差;而基于任务的设计则与之相反。在基于任务结构的基础上提出了基于逻辑表达式的结构,进一步提高了系统的灵活性,并采用状态图/逻辑表达式双层管理结构,使其与基于状态图的结构相结合,得到相辅相成的效果。1.2 人机对话的发展历史

早在1950年,计算机科学之父阿兰·图灵在Mind杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。这就是后来鼎鼎有名的人工智能图灵测试。图灵测试的概念极大地推动了人机对话的发展。1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。直到20世纪70年代初,德里克·贾里尼克和他领导的IBM华生实验室,创新性地使用统计语言学方法,奠定了今天自然语言处理的基础,也使得人和机器的对话逐渐成为现实。那么什么是人机对话呢?

对“人机对话”一词,不同的机构和人都有不同的理解,我们给出的参考定义如下:人机对话是计算机的一种工作方式,即计算机操作员或用户通过控制台或终端显示屏幕,以对话的方式与计算机进行类似人际间的对话,使得计算机顺利执行某一任务。

人机对话在一般情况下都是指人与计算机之间的语言交流,但在某些特殊情况下也可以指具有一定计算机特征的终端设备,如智能手机、PDA等。关于人机对话,经历过三代不同的观念,最早是由亚略特公司的知名生物识别专家杨若冰提出来的,第一代人机对话指的是字符命令时代,即以DOS和UNIX为代表的字符操作时代;第二代指的是苹果OS和微软Windows操作系统出现后的图形操作时代;第三代人机对话才是真正意义上的人机对话系统,也是本章所研究的内容。

第一代人机对话时代:人机交流使用的语言全部是经过定义并有数量限制且由字符集组成的被双方牢记的密码式语言,在此体系外的人基本不了解语言含义。

第二代人机对话时代:采用的是接近人类自然思维的“所见即所得”的图形式交流方式,可以说在交流的内容上已经非常接近人类的自然交流习惯(以类似人类书写形式的视觉交流为主),但其交流方式仍主要是通过按键(键盘、鼠标等)实现,而不是按照人类本来的交流方式进行的。

第三代人机对话时代:完全与第一、第二代人机对话方式不同,人机交流的内容主要是人习惯的自然交流语言,交流方式也是人习惯的自然语言交流方式(包括智能语伴、语音和手写等,甚至包括人的表情、手势、步态等)。

人机对话被看做语言学的研究领域始于20世纪70年代初,许多研究项目得到了美国和欧洲政府的大力资助。到了20世纪80年代后期,人机对话系统的研究日趋活跃。美国国防部高级研究计划局(DARPA)发起口语系统计划,参与项目的各个研究组针对空中旅行信息服务(Air Travel Infomation Services,ATIS)开发了一个语音输入的理解系统。由于当时没有通用的基于语义表达理解的评价方法,只能通过静态数据库的回答来评价系统。而且,对不同域的系统评价机制没有一致的意见,当不同的研究组采用不同的对话策略时,便会产生不同的用户反应,因而,当时系统没有重点强调人机对话。1996年美国政府启动了一个新的DARPA 项目,它强调基于对话的人机界面,包括语音输入和输出技术。新系统的特点在于:参与者使用相同的系统结构,并鼓励在不同域之间共享单元,参与者既研究自己的对话域,同时又研究一个共同的复杂旅行任务。

人机对话系统的重要性在科研界可以说家喻户晓,在过去的几十年中,许多国家投入了大量的物力、财力和人力来研究人机对话系统,同时在自然语言处理技术和语音技术等方面也取得了很大的进展,已经陆续出现了很多具有实用意义的系统。在国外比较有名的人机对话系统研究组织有卡耐基梅隆大学的语音研究小组、麻省理工学院的口语会话组、美国电话电报公司的贝尔实验室、BBN公司、奥立冈州立大学商学研究院的口语研究中心、加拿大国立科学研究所、法国科学研究中心、瑞典皇家工学院、斯坦福国际研究所、日本的东芝等。在欧洲,也有几个大的人机对话研究项目,比较知名的项目 SUNDIAL(Speech Understanding and Dialog)赞助包括英语、法语、德语和意大利语四种语言的研究,系统提供列车和航班时刻表信息。而 ARISE (Automatic Railway Information System for Europe)项目针对荷兰语、法语和意大利语,研究人员开发出可提供不同的对话策略选择的四个原型,并执行了真实的测试和评价。

目前,国外的人机对话系统研究已经进入了一个比较成熟的阶段。比较早的聊天机器人都是基于在语料库中进行模式匹配的,并不进行语义的理解。继而系统慢慢添加了自动学习功能(对话时间达到一定程度,会有用户的个性特点)、记忆功能(记住用户说过的邮箱、电话等信息),更好的系统会有针对客户的定制化功能。后来才逐渐引入句法分析、语义分析和知识推理等技术,其中比较著名的有伍兹(W.Woods)的LUNAR系统、维诺格拉德(T.Winograd)的SHRDLU系统等。

在国内,由于中文本身存在的语言复杂性、虚词较多且位置自由、语义变换灵活等特点,20世纪90年代才开始对人机对话系统的研究进行尝试。早期开展人机对话研究的科研单位主要有中科院自动化研究所(Automation of Chinese Academy of Sciences)模式识别实验室语音组、清华大学语音技术中心(Speech Technology Center of Tsinghua University)等。基于中文的人机对话系统,从应用原理上基本分为两类:基于模板库的对话系统和基于语义的问答系统。前者依赖于大规模模板库,着重于技巧;后者从语法和语义上进行理解,着重于自然语言技术处理。

目前,国内的人机对话系统多是分析研究了 ALICE 系统的机理,改写了ALICE系统的接口,并使用AIML语言编写知识库。英文的AIML语料有了很多积累,然而,中文的AIML语料就比较少,移植到中文的应用环境下,很多标签的深层功能并不能得到充分使用和表达。近年来,国内口语对话系统研究有了长足发展,如笨笨鸟、腾讯的小Q机器人、新浪的UC等,已经可以实现基本意义的对话。另外,中科院自动化研究所开发的LODESTAR系统,含有约1600多个中文词语,具有可连续自然语言输入、全部口语化、非限定人的特点,可以用自然语言对国内53条旅游线路、400余个景区进行咨询。清华大学计算机系现在也已经有多个成型的产品,如校内导游系统Easy Nav和电话航班订票与信息查询系统Easy Flight。其中Easy Nav不限定询问句型,可对清华校内路线、办公、服务等的信息进行查询,是一个启发式的应答方式查询服务系统。而Easy Flight通过公用电话网络向系统发出问题,以语音的方式提供订票服务和航班信息查询,他们以这个系统为平台,主要研究对话管理、自然语言理解等问题,在这些方面做了大量的有益尝试。2017年4月,由中国科学技术大学智能机器人“佳佳”担任新华社特约记者,与全球人工智能大咖展开“人机对话”,引发媒体和网民的广泛关注。机器人“佳佳”依靠语音图像识别、语义理解等新技术,展示了应对采访实践中多轮对话的能力,显示了中国人工智能和机器人研究能力的飞跃。然而,正如开发“佳佳”的中国科技大学机器人实验室主任陈小平教授所说,虽然中国相关领域科研团队的水平已完全可以匹敌世界一流技术,但中国人工智能和机器人研究的顶尖团队,从数量上和基础研究上,与美国相比还有相当大的差距。1.3 人机对话的应用

对话系统的本质是在领域的知识库外围包装一层应用,使得用户能够更好地获得知识库的信息服务。比较常见的信息服务有客户服务、航班查询、股票查询、天气查询,等等。和信息服务相关的应用程序通常会涉及数据库查询、网络搜索引擎、专家系统,等等。信息咨询是目前对话系统研究的主要热点。人们通过自然语言向计算机表达自己想要咨询的内容,计算机理解之后按照用户的要求查询数据库,并把查询结果反馈给用户。这类人机对话系统的最突出的特点是面向特定任务(Task-Oriented)和特定领域(Domain-Dependent)。

众所周知,我们处在一个信息技术高度发展的时代,人们面对的信息量呈几何级数迅速增长,在浩如烟海的数据和信息中,以自然对话的形式与机器进行交流必将大大提高信息交互的速度和自然度。另外,随着通信技术和网络技术的发展,手机、平板电脑等移动通信设备逐步普及,人们希望随时随地获取信息。但是在这些移动设备上,使用传统的人机输入方式(如键盘、鼠标、手写笔等)很不方便,在这种情况下,具有自然语言理解能力的语音接口自然就成为最方便的人机接口。

在早期,MIT计算机科学实验室研制的用于机票预订的对话系统ATIS (Air Traffic Information System)中,机器需要在与用户的对话过程中获取用户的机票预订信息,如出发地、出发日期、航班号等,从而帮助用户实现订票功能。以下是ATIS与用户的一个对话片段:

User:I'd like to fly from Philadelphia to San Francisco.

ATIS:What data will you be travelling on?

User:Next Tuesday.

ATIS:These are the flights from Philadelphia to San Francisco on Tuesday January 16.

User:Do any stop in Dallas?

ATIS:I'm sorry I got stuck just before the word stop in.

User:Is there a flight which stops in Dallas?

ATIS:This is the with-stop flight from Philadelphia to San Francisco stopping in Dallas on Tuesday January 16.

目前,国外的人机对话系统研究已经进入了一个成熟的阶段,应用非常广泛。其中比较著名的有CommandTalk、ITSPOKE 和 NICEl51 等,它们分别来自于军事、教育和游戏娱乐领域。下面分别介绍这三个有代表性的对话系统。

CommandTalk主要应用于军事领域,用户可以建立军队,选择控制方式,然后通过分派任务给士兵、指挥士兵的方式进行练习。该系统响应的方式简单但却具有很高的效率,使用不同的声调表达不同的意思:升调表示任务执行成功,降调表示任务执行失败。CommandTalk在处理的过程中根据用户的发音状况进行处理。首先按正常的用户发音情况处理,当出现不匹配的时候,会按用户发音变调的情况处理,仍然无法匹配的情况下,则考虑用户的说话为一个新的命令或者问题。CommandTalk系统在对话管理的过程中使用堆栈数据结构,可以使系统根据需要快速回溯当前对话的背景内容。另外,CommandTalk产生下一步操作的方式是根据系统设定和用户意见相混合的方式,从而实现较为精准的控制。

ITSPOKE(Intelligent Tutorial Spoken Dialogue System)主要应用于教育领域,是在Why2-Atlas的基础上升级为基于语音的对话系统。由于该系统主要面对的是学生,所以,它拥有一个漂亮并且人性化的界面。当学生使用该系统时,可以用自然语言与系统进行交流。通过麦克风把学生的声音录入,Sphinx2 自动语音识别器将其转换成相对应的XML数据,然后Why2-Atlas先后进行句法和语义分析、叙述与分类处理和有限状态对话管理,再根据需要从数据库中检索答案,最后通过Cepstral语音合成器回答学生问题。在辅导的过程中,系统坚持启发学生思考的原则,诱导学生进行思考,直到最后得到问题的答案。在 ITSPOKE 中,对话管理的每一步都是预先设定的。如果不能识别用户的声音,则要求用户重复要说的内容,如果用户长时间没做出反应,系统将会返回前一个问题。

NICE 项目的目标是使游戏玩家能够与游戏中的角色进行直接对话。在传统的电子游戏中,用户只能通过鼠标和键盘对游戏中的角色进行控制。尽管有些游戏允许使用麦克风,也仅是局限于这些游戏用户与其他用户在游戏中进行交流,而不是与游戏中的人物角色进行交流。NICE 项目可以允许用户与游戏中的角色进行口语会话,并且对游戏中的角色下达某些命令,如“向前走”“向右”“拿起武器”等。游戏中的角色能够对玩家的语音命令进行正确响应。除此之外,游戏中还有三种不同类型的游戏角色,它们与玩家的交互方式也完全不同。在系统中,针对不同的游戏角色需要不同的对话管理器,而NICE设计了一个通用的核心模块应用于所有的角色对话管理,然后该通用模块结合不同的脚本代码产生各种游戏角色的对话管理。

除了以上信息服务的人机对话系统之外,纯粹的日常对话机器人也引起了人们广泛的关注。Do-Much-More 系统是国外日常对话系统中比较优秀的一个典型代表。David Levy在2001年创办了Intelligent Toys Ltd公司,Do-Much-More就是该公司的一个产品。该系统获得了2009年度的“Loebner Prize”比赛冠军。作者Dr.David Levy早期写过的一个程序Converse,获得了1997年度的“Loebner Prize”比赛冠军。之后,公司又开发了一个区别于 Converse 系统的聊天机器人Do-A-Lot,它的对话方式类型与 Converse 不同,显得有点古怪和反复无常。在2008 年 12 月到 2009 年 3 月,Do-A-Lot 得到了性能提升,并重命名为Do-Much-More。在 2009 年 4 月,Do-Much-More 获得了 2009 年度的“Loebner Prize”。Do-Much-More的娱乐价值是其最重要的特色。它通过愉快、有趣的对话吸引用户,用户会花费更多时间来与它聊天,并把它介绍给周围的朋友来扩大其影响范围。相比于其他聊天机器人,Do-Much-More 更加自然有个性,拥有丰富的知识。然而,2009年获奖的这个Do-Much-More版本并没有使用特别的数据来表示特别的知识。相反,它更具有通用性,推动整个对话过程在一个愉快的氛围中进行,并且交谈的内容没有话题限制。

另一个比较令人关注的聊天机器人——小i机器人,早期出现在MSN上,随着小 i 机器人跨平台的部署逐渐成为全球用户量大的中文聊天机器人。小 i 是一款颇为实用的生活服务型自动问答机器人,它在生活服务信息方面有良好的表现。小i机器人成立于2001年,是全球领先的智能机器人技术提供和平台运营商,用户超过1亿,100亿次以上的交互覆盖100多个国家,建立了全球最大的智能机器人云服务平台。小 i 机器人的创新平台和产品及其专业服务体系,使得智能机器人在市场上得到了广泛应用,形成了智能客服、智能知识库、智能微应用和智能语音交互等诸多成熟的解决方案,业务涉及通信、金融、电子政务、电子商务、智能家电和汽车交通等多个行业,已经发展成为全球最大的跨行业语言知识库和业务知识库。小 i 机器人不但已经实现了智能人机交互(文本、语音等)的全渠道多媒体整合应用,而且凭借大数据、深度语义理解等前沿技术上的研究与积累,以及商用领域的不断拓展,小 i 机器人正朝着未来十亿级企业和用户规模的智能云服务平台迈进。

最近,北京邮电大学智能科学与技术中心研制的会议室预订系统(Meeting Room Booking System,MRBS),机器可以通过与用户对话,获取用户要预订的会议室的时间、大小、人数、价格等信息,从而帮助用户实现会议室预订功能。以下是MRBS系统的一个工作记录片段。

User:我想在北京找一个300人的会议室。

MRBS:有300人在北京开的会议,对吗?

User:嗯,对的。

MRBS:还有其他需求吗?

User:下周三开会。

MRBS:日期初步定在下周三,要开多长时间呢?

User:还是下周五吧,开两天。

MRBS:是下周五开,开两天,您预算多少呢?

可以看到,人机系统都是在对话过程中逐步获取相关的任务信息。应该说,面向特定任务的人机对话系统,可以通过对用户不断询问和确认来获取特定信息,从而完成特定任务。而开放性的人机对话系统没有在对话过程中获取特定任务信息的要求,更多的是对用户输入进行响应,自由交互,具有某种聊天的性质,因此也常称为聊天系统。这类系统可以对用户的各种话语进行响应,进行没有目标限定的闲聊,等等。早期的ELIZA系统、Siri、小黄鸡系统都曾经成为热点话题,有很多用户测试的记录。从已有的记录来看,完全开放的聊天系统需要面对的任务是非常具有挑战性的,目前的系统还难以达到人们的预期。第2章 语音处理技术

口音是语言的核心,它使语言具有情感的真实感。

——卢梭2.1 语言处理概述

随着信息技术的发展,语音信号处理技术不断融入到各个领域。作为21世纪信息技术领域最重要的科学技术之一,它成为人机接口的关键技术,并且越来越受到人们的重视。

语音处理研究可以追溯到20世纪50年代,AT&T贝尔实验室研制了第一个可以识别10个英文数字的语音系统。但真正取得实质性进展研究则是在20世纪60年代末70年代初,这首先得益于计算机硬件和软件的飞速发展,语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,以及矢量量化(VQ)和马尔可夫模型(HMM)理论的深入研究。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽。直到20世纪80年代末,研究人员才将大词汇量、连续语音和非特定人这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学的Sphinx系统。

这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。统计方法将研究者的视线从微观转向宏观,从刻意追求语音局部特征细化,到从整体统计的角度来建立最佳的语音识别系统。在语言层面上,通过统计真实大规模语料库的同现概率,即利用N元统计模型来区分识别模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了广泛的应用。

我国语音处理研究工作起步于20世纪50年代,但近年来发展很快。从1987年开始执行国家“863计划”后,国家863智能计算机专家组为语音识别技术研究专门立项。目前中科院自动化所、声学所、清华大学、北京大学等高校及研究单位,在大词汇连续语音识别系统上的研究方面,已经接近国际上先进的指标。此外,中科大讯飞输入法在语音信号处理方面也达到了国际先进水平。2.2 语音的产生与特性2.2.1 语音的产生

语音的产生要经过三个阶段:发音、传递和感知,分别对应于生理、物理和心理三个方面的属性。

1.发音

语音是人类发音器官发出的含有一定意义的声音,是语言的物质外壳(表现形式),是由可离散的单位按一定的规则组织起来的。一切声音的产生都源于发音体的振动。发音体振动时,会扰动周围的空气或其他媒介,使之产生波动,这样就形成了声波。对言语声来说,声音可以由两种方式产生:声带振动或声道狭窄部所产生的涡流。声音经过气流通道所形成的共鸣系统或经过滤波器以后,频谱发声改变,在经过口唇和鼻腔时频谱又发生改变。

2.传递

声波发生后经过一个共鸣系统,其频谱可以发声变化。这样的共鸣系统相当于一个声学滤波器,滤波器的作用可以用频响曲线,即各个频率的增益或输出来表达。滤波在言语的产生过程中起到了重要的作用。咽喉、口腔、牙齿、口唇、鼻腔组成了一个声道,此声道即为一个共鸣腔,对从气管或声带发出的声波进行滤波。之后,通过外部空气的传导,到达人的耳朵里,就产生了语声的感觉。

3.感知

当听话人的耳朵接收到说话人的言语声时,听觉神经系统便把内耳转化成的电信号传导至大脑皮层,被大脑感知。感知的内容包括语音的音高、音强,音长、音色和语调等复杂信息,听话者从而能明确地判断说话人的意思。2.2.2 语音的特性

1.语音的自然属性与社会属性

语音具有自然属性、社会属性的双重属性。

自然属性:语音是一种声音,具有物理属性(物体振动:物理性);语音又是由人的发音器官(生理性)发出的,具有生理属性。从自然属性出发,针对所有人类语言的语音研究为语音学(Phonetics)。

社会属性:语音是语言的物质载体,用于交际,含有一定意义——社会性(本质属性)。从社会属性出发,针对语音在某一个具体语言的系统中起什么作用的研究为音系学(Phonology)。

2.语音的基本特性

声源:因振动而发音的物体称为声源,物体处于静止状态时不会发音。

媒介:传播声音的物质,传播声音最重要的媒介是空气、水、金属、木头等,这些都是声波传播的良好媒质。声音在固体、液体中传播比在空气中传播得更快,水传声音的性能更好。一口半吨重的大钟在水中敲响声音可传到35千米以外,比空气和金属传得要远。

音质:声音的特色、个性,也可以说是声音的本质。它是由音波波纹的曲折形式不同造成的,是一个音素区别于其他音素的基本特征。每个人声带的长短、松紧、厚薄不同(发音体),各人的口腔、鼻腔的大小形状不同(共鸣器),各人说话时用气的强弱、运气的方法、口腔舌头控制的情况等不同(发音方法),从而形成了各人的声音特色,这正像乐器的音乐一样。

音调:是声音的高低,取决于声波的频率,即声波每秒振动的次数。声波振动的波长越短,频率越高,声音也高。人耳所能听到的声音频率范围为 20~20000Hz,超过这个范围人耳就听不到了。频率超过20000Hz的声波属于超声波,低于20Hz的称为次声波。

音强:即声音的强弱,又称响度,由声波的振幅决定。振幅是空气质点的振动幅度,即空气质点在振动时离开平衡位置的最大偏移量。声音强的时候,空气质点振动的幅度就大;声音弱时,幅度就小。声音在传播过程中,振幅逐步变小。振幅减小到零,声波也就完全消失了。计算振幅的单位是分贝(dB),普通谈话时声音的强度为60~70dB,120~130dB的声音听起来会使人感到声音太大,振得耳朵痛。

音长:声音的长短。它取决于发音体振动时持续时间的长度。振动时间长,声音就长,反之就短。音长在一些语言里可以区别意义,如英语的eat、it。广州话:三[sa:m]、心[sam]。普通话“啊”音短则表应答、惊讶,音长则表沉吟、迟疑、感叹。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载