花园幽径句行进错位的计算语言学研究(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-22 00:27:22

点击下载

作者:杜家利,于屏方 著

出版社:商务印书馆

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

花园幽径句行进错位的计算语言学研究

花园幽径句行进错位的计算语言学研究试读:

 版权信息书名:花园幽径句行进错位的计算语言学研究作者:杜家利,于屏方[著]排版:昷一出版社:商务印书馆出版时间:2015-10-01ISBN:9787100114400本书由商务印书馆有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —序  言教育部语言文字应用研究所  冯志伟

杜家利副教授曾是我的博士生,多年来,他一直在研究花园幽径现象(Garden Path Phenomenon)。此前,他曾出版了《非对称性信息补偿假说——花园幽径模式的困惑商研究》一书,提出了“非对称性信息补偿假说”(Asymmetric Information Compensation Hypothesis),尝试利用“困惑商”(Confusion Quotient)这一概念来解释语言理解过程中出现的花园幽径现象。现在,他和于屏方教授合写的新著《花园幽径句行进错位的计算语言学研究》就要在商务印书馆出版了,我对他们表示热烈的祝贺。

本书的重点是研究花园幽径现象中的“行进错位”。那么,什么是花园幽径现象中的行进错位呢?

我这里举一个汉语的例子来说明。

我们知道,“小王研究鲁迅的文章发表了”这个汉语句子是一个花园幽径句。这个句子的前一个部分“小王研究鲁迅的文章”是有歧义的,这一部分可以分析为“小王/研究鲁迅的文章”,其中,“小王”是主语,“研究鲁迅的文章”是谓语,形成一个主谓结构;这个部分又可以分析为“小王研究鲁迅的/文章”,其中,“小王研究鲁迅的”是定语,“文章”是中心语,形成一个定中结构。语料统计发现,把整个句子的前一个部分理解为主谓结构比之于把它理解为定中结构更为优先,也就是说,大多数人倾向于把前一个部分理解为主谓结构,而不倾向于理解为定中结构。可是,当出现了后一个部分“发表了”的时候,就必须把前一个部分“小王研究鲁迅的文章”理解为定中结构,而不能把它理解为主谓结构,原来居于优先地位的理解被抛弃,而原来居于非优先地位的理解却成为了正确的理解结果,整个句子的理解过程发生了转折,出现了原先预想不到的错位,这就是花园幽径句的行进错位。这种行进错位,在汉语和英语中并不罕见,在理论上和应用上都有研究价值。

关于花园幽径现象中的这种行进错位,国内外学者曾经从心理学和认知科学的角度进行过研究,有丰富的研究成果。杜家利和于屏方另辟蹊径,从计算语言学的角度进行研究,这是他们的创新之处。

在数据结构方面,他们采用良构子串表(Well Formed Substring Table, 简称WFST)来描述行进错位。在良构子串表中,每一个子串在结构上都是合格的,因而也都是良构的,但是这些良构子串形成的整个结构不一定是完全的,这些良构子串甚至不能结合为整个的结构,它们只是形成一个表(table),因此良构子串表可以表示完全结构,也可以表示不完全结构,还可以表示歧义结构。良构子串表能够把剖析过程中那些在局部上良构的中间结构保存下来,不至于因为它们不能形成完全结构而轻易地把它们抛弃,这样就可以有效地描述花园幽径现象中的行进错位。

在算法方面,他们采用递归转移网络(Recursive Transition Network, 简称RTN)来表达行进错位的动态过程。由于语言符号具有递归性,类别相同的语法结构会多次在语言中出现,在语言研究时可以把语法结构加以抽象化,用有限的语法结构和规则来描述无限的、千变万化的句子。递归转移网络正是根据语言符号的这种递归特性研制出来的。在递归转移网络中,主网络可以分解为若干个附属于它的子网络,句子的剖析要经过主网络和子网络之间多次的下推(PUSH)和上托(POP)操作,往往下推了还要再下推,上托了还要再上托,这样就可以把花园幽径现象的行进错位过程生动地、具体地表示出来。注1

他们还使用Stanford Parser进行自动句法剖析。Stanford Parser是美国Stanford大学开发的一个自动剖析器,可以用来做短语结构分析和依存关系分析,打开网址之后,点击 try out our parser online,就可以进行自动句法剖析了。Stanford Parser是用Java实现的,它把优化的概率上下文无关语法(Probabilistic Context Free Grammar,简称PCFG)剖析器、词汇化的依存语法剖析器(lexicalized dependency parser)和词汇化的概率上下文无关语法剖析器(lexicalized PCFG parser)结合在一起。Stanford Parser还开发了图形界面(GUI),可以让用户直接看到剖析输出的短语结构树(phrase structure tree)。Stanford Parser大大减轻了两位作者的程序设计工作量,使得他们可以集中精力来研究花园幽径现象行进错位中的理论问题。对于语言学背景的计算语言学研究者来说,这不失为一个非常明智的做法。

本书是杜家利博士出版的第三部关于花园幽径现象的专著。现在,于屏方博士也加入了花园幽径现象的研究。他们的研究力量越来越强大了,我希望他们再接再厉,在已经取得的成果的基础之上更上一层楼。2015年4月1日杭州钱塘江畔引  言

Garden Path Phenomenon被译作“花园幽径现象”“花园路径现象”或“花园小径现象”,又称Garden Path Effect(花园幽径效应)注2,主要指一种特殊的心理认知反应,包括对初始模式的理解缺省化和后期回溯的理解认知化。例1是不出现理解回溯的正常句,而例2则会出现认知折返的花园幽径现象。这种不同可在系统运行中得到体现。在下面的分析中,我们采用美国的stanford parser(http://nlp.stanford.edu/software/lex-parser.shtml)具体讨论花园幽径模式和其他模式的解码异同。The Penn Treebank和stanford parser 代码请见附录一和附录二。

例1:The horse raced past the barn.马疾驶过谷仓。

Tagging

The/DT  horse/NN  raced/VBD  past/IN  the/DT  barn/NN  ./.

Parse(ROOT

  (S

    (NP(DT The)(NN horse))

    (VP(VBD raced)

      (PP(IN past)

        (NP(DT the)(NN barn))))

    (..)))

Typed dependencies

det(horse-2,The-1)    nsubj(raced-3,horse-2)    root(ROOT-0,raced-3)

prep(raced-3,past-4)    det(barn-6,the-5)    pobj(past-4,barn-6)

该例的系统解码比较容易。

首先词类得到细化:The/DT(限定词);horse/NN(名词);raced/VBD(动词过去式);past/IN(介词);the/DT(限定词);barn/NN(名词)。

句法剖析中,(NP(DT The)(NN horse))剖析为名词词组NP。 动词词组VP构成为(VP(VBD raced)+(PP(IN past)+(NP(DT the)(NN barn)))),主干是VP(VBD+PP)。

依存分析中,关系较明确。det(horse-2,The-1)为限定关系,即the限定horse。nsubj(raced-3,horse-2)为nominal subject,即 horse为名词性主语。root(ROOT-0,raced-3)表示根源于起始位。prep(raced-3,past-4)为prepositional modifer,即past为raced的介词限定成分。det(barn-6,the-5)为限定关系,即the限定barn。pobj(past-4,barn-6)为object of preposition,即名词 barn是介词past的宾语。关系图如下:图1  例1普通句依存关系图

根据上面的句法和依存关系分析,系统可以较容易地得到“马疾驶过谷仓”的结果。如果在句尾添加fell,句法结构和依存关系都发生变化,花园幽径效应产生。

例2:The horse raced past the barn fell.疾驶过谷仓的马摔倒了。(Bever,1970)

Tagging

The/DT  horse/NN  raced/VBD  past/JJ  the/DT  barn/NN  fell/VBD  ./.

Parse(ROOT

  (S

    (NP(DT The)(NN horse))

    (VP(VBD raced)

      (SBAR

        (S

          (NP(JJ past)(DT the)(NN barn))

          (VP(VBD fell)))))

    (..)))

Typed dependencies

det(horse-2,The-1)    nsubj(raced-3,horse-2)    root(ROOT-0,raced-3)

amod(barn-6,past-4)    det(barn-6,the-5)    nsubj(fell-7,barn-6)

ccomp(raced-3,fell-7)

该例是解码困难的花园幽径模式。首先请看系统行进错位产生的分类、句法剖析和依存关系。

错位的词类细化如下:The/DT(限定词);horse/NN(名词);注3raced/VBD(动词过去式);past/JJ(形容词);the/DT(限定词);barn/NN(名词);fell/VBD(动词过去式)。

错位的句法剖析中,(NP(DT The)(NN horse))与例1一致,剖析为名词词组NP。 动词词组VP结构发生变化。主干由VP(VBD+PP)变化为VP(VBD+SBAR)。根据系统提示,我们可以得到SBAR的解释“Clause introduced by subordinating conjunction or 0,top level labelling apart from S,usually for complete structure”。系统默认(NP(JJ past)(DT the)(NN barn))和(VP(VBD fell)构成了一个从句。

错位的依存分析如下:det(horse-2,The-1)为限定关系:The限定horse。nsubj(raced-3,horse-2)为nominal subject,即 horse为名词性主语。root(ROOT-0,raced-3)表示根源于起始位。amod(barn-6,past-4)为adjectival modifer,即错位后的系统认为past/JJ(形容词)是名词barn的形容词修饰成分。det(barn-6,the-5)为限定关系:the限定barn。nsubj(fell-7,barn-6)为nominal subject,即 barn为名词性主语。ccomp(raced-3,fell-7)为clausal complement with internal subject,即具有内在主语的从句性补语关系。这种关系表示类似“He says that you like to swim” 中的 ccomp(says,like)。

系统在花园幽径模式的自动剖析中,产生了行进错位,无论是词类细化、句法剖析,还是依存分析,都出现了与正确剖析不符合的解码。根据错位形成的依存关系构图如下:图2  例2行进错位的依存关系图

由上图的行进错位依存关系可知,词类细化、句法剖析和依存分析均出现了错误,系统无法正常解读。人工干预下的正常剖析如下:

正确的词类细化中,错位的raced/VBD(动词过去式)应更正为raced/VBN(动词过去分词);错位的past/JJ(形容词)应更正为past/IN(介词)。

正确的句法剖析中,主干结构应该是NP+VP,其中NP应该是the horse raced past the barn,VP应该是(VBD fell)。

正确的依存分析中,amod(barn-6,past-4)应更正为pobj(past-4,barn-6),即object of preposition,名词 barn是介词past的宾语。nsubj(fell-7,barn-6)应更正为nsubj(fell-7,horse-2)为nominal subject,即 horse为名词性主语。nsubj(raced-3,horse-2)应更改为vmod(horse-2,raced-3),即过去分词raced将作为名词horse的动词修饰成分(verb modifier)。

系统得到纠正后形成的依存关系图如下:图3  例2花园幽径效应依存关系图

根据以上正确的词类、句法和依存分析,我们可以得到经过人工干预后的花园幽径句正确的剖析结果,具体如下:

Tagging

the/DT  horse/NN  raced/VBN  past/IN  the/DT  barn/NN  fell/VBD

Parse(ROOT

  (S

    (NP

      (NP(DT the)(NN horse))

      (VP(VBN raced)

        (PP(IN past)

          (NP(DT the)(NN barn)))))

    (VP(VBD fell))))

Typed dependencies

det(horse-2,the-1)    nsubj(fell-7,horse-2)    vmod(horse-2,raced-3)

prep(raced-3,past-4)    det(barn-6,the-5)    pobj(past-4,barn-6)

root(ROOT-0,fell-7)

在例2中,过去分词“raced past the barn”的嵌套使用起到了定语作用,但是也带来了认知上的回溯,形成了花园幽径现象。“The horse that was raced past the barn fell”是例2完整形式,理解上不会出现折返。所以说,例2的理解相对例1和完整的定语从句形式要困难一些,原因就在于这种现象的出现加重了认知负担。

花园幽径现象在不同层面都存在,如语素、词、短语、句、篇章和超文本。它不同于传统的歧义现象,其独有的特点已引起不同领域学者的关注。这种源于句法分析的特有现象,带来了计算科学、语言学、心理学、认知科学、语义学等多学科研究方法的融合。

花园幽径现象由著名心理语言学家贝弗(Bever)于1970年在针对花园幽径句分析时提出。句法花园幽径现象在加工过程中受句子组成成分语法关系的不确定性影响,极易造成解码者的语言解码困难,而随之产生的认知重新建构又加大了认知难度。简单地说,句法花园幽径现象是由语言解码顺序更迭导致的一种特殊语言现象,是对社会习俗、规定语法、社会语义和认知逻辑等知识解码产生的非习惯性反叛。尽管这种非习惯性反叛不易被人们接受,但这种反叛带来的解读是唯一的可行性解码。很多学者对这一比喻说法给予了解释:

花园幽径现象是语言处理过程中一种特殊的局部歧义现象,并为语言学家和心理语言学家所关注。(蒋祖康,2000)

花园幽径现象指的是对一个句子按一种方式理解,如果先期理解比较顺畅但到后期却发现错了,并迫使解码者回到分叉点重新理解的过程。就像沿着花园幽径向前走,走到头了,却发现路不对,又返回来,因而得名。(王冬玲,2001)

花园幽径现象正如我们走进一个风景如画的花园,要寻找这个花园的出口,大多数人都认为出口应该在花园的主要路径的末端,因此,可以信步沿着主要路径自然而然地、悠然自得地走向花园的出口。正当我们沿着花园中的主要路径欣赏花园中的美景而心旷神怡的时候,突然发现这条主要路径是错的,它并不通向花园的出口,而能够通向花园出口的正确路径,却在主要路径旁边的另一条几乎被游人遗忘的、毫不起眼的、荒僻的幽径。(冯志伟、许福吉,2003)

花园幽径现象的理解过程首先源于对话语关联性的追求,并遵循最小努力原则,通过对明示内容、语境假设和认知效果的相互调节,最终满足关联期待。(徐章宏,2004)

花园幽径现象在语素、词、短语、句、篇章层面都可出现。语义短路(semantic short circuit)存在与否是鉴别花园幽径现象的有力工具。“短路”有两重含义:(1)路短。认知节俭(cognitive economy)和内部检索(intersection search)原则决定心理词汇中接点最近的内容首先被提取,接点远近与言语语音特征(语音效应)、开放词类词频高低(语用效应)、句法结构(语法效应)、歧义有无(语义效应)、短时记忆激发与否(认知效应)相关;(2)流断。语义流进入缺省车道(默认模式),遇禁行标志(认知顿悟点)时,阅读速度减慢,视固区间(fixation duration)变窄,折返后变道通过,此类似于物理学中的电流短路,闸跳流断。(杜家利,2006)。

花园幽径现象是一种局部的语言歧义现象,涉及语义、句法和语用等多方面因素。听话者的理解过程如同在花园中寻路,经过重新分析不同的歧义结果来选择合理的解释。花园幽径句的研究过程,不仅有助于揭示语言歧义的触发性因素,而且能够深化人们对语言认知规律的认识。(姜德杰、尹洪山,2006)

在花园幽径句的分析理解中,需要多层次共同作用,诸如句法、语义和语用等方面。起初,句法结构的分析和理解可以独立于语义和语用层面,然而当句法结构分析不能有效地解决问题时,分析者必然应用语义和语用层面的知识对花园幽径句进行分析和解释,每一个层面都起着各自的作用。(张殿恩,2006)

对花园幽径句的解码普遍反应是句子不可接受。句子前部已形成完整的句法结构,但后续的成分无法处理,就如同走上了一条错误的分析路径(花园中的岔道)。一般认为,这类歧义会对语言的处理过程造成较大的困难。可是,如果要求重新考虑,分析者基本上可以重构句子的结构,并做出正确理解。花园幽径句的分析尽管存在困难,但给予一定的时间分析者仍能做出正确的分析。这说明此类结构符合语法,是可能的英语句。造成此类句子理解困难的根本原因是:分析者在正常情形下根据制约条件排列等级做出习惯性选择;第一次选择分析崩溃后,需要花费更多时间和精力进行重新分析;在时间有限的情形下,部分分析者甚至放弃重新分析,简单地认为句子不合语法,这一点已为实验所证明。值得注意的是,花园幽径句还充分显示了句子理解除了语法外还涉及其他因素,如有时词汇意义也起决定性作用。(吴红岩,2006)

花园幽径现象与幽默话语解读具有伴生性。受话人在幽默话语解读过程中会遇到花园幽径现象,这是一种受话人对幽默进行语用推理而产生的心理反应。从认知科学和语用学的角度进行分析,则能得到较为满意的诠释。在关联理论框架下,幽默话语的花园幽径现象产生过程遵循最佳关联原则。它在话语的命题信息、语境假设和语境效果等因素的相互调节中完成:即第一阶段的最大关联折绕到达第二阶段的最佳关联。(黄碧蓉,2007)

花园幽径现象得名于认知理解过程中的迷途知返,就好像在花园中走入了一条不能通达的幽径,径绝路封,须原路返回,重择顺路。花园幽径现象是语义流中途折返、另路通过的特殊语义排歧现象,是认知主体在信息处理过程中的休克现象,是认知意识流的语义短路。花园幽径现象不是歧义。歧义不会造成理解上的龃龉,是“多车道单向通行”。而花园幽径现象是在理解初期通达顺畅,但随着信息处理的深入,理解中、后期会出现中途折返的现象,就好像在行车过程中原车道遇到无法逾越的障碍,不得不调转车头重新变更车道,是“单车道单向通行”。花园幽径现象是有区别性特征的语义短路,它所具有的特点与歧义有着明显的不同。(杜家利、于屏方,2008)

花园幽径现象是特殊的语言暂时歧义现象。花园幽径句从整体看是没有歧义的,它常涉及含有多重意义的词汇或者蕴含搭配复杂的结构。理解时,常规语言知识图式和世界知识图式率先被激活,导致误读;但在遭遇语义短路后读者会意识到原来的理解错误,并构建出新的图式以达到正确的认知。(李瑞萍、康慧,2009)“花园幽径现象”反映了人类大脑在叙事语篇中处理句子过程的语言认知机制。花园幽径句的认知与认知框架、脚本及读者的主要优先规则紧密相连。这些第一优先规则置于包含着第二、第三以及补足性优先规则的更大的优先规则系统内,而这个系统又是框架、脚本配置的一部分。由于每一个主要的优先规则都能在合适的语境里生成花园幽径路,所以出现于口头或书面文本、虚构或事实文本特别是叙事文本中的花园幽径现象可以为进一步分析和研究提供丰富的材料。(刘莹,2009)

第二语言花园幽径句理解常出现消歧与曲解残留并存的现象,产生不完整的最终理解表征。工作记忆容量和第二语言水平都影响花园幽径句歧义的消解,却都与曲解残留无关。个体因素在句子理解中的作用应该是一个随具体任务而改变的动态过程。(顾琦一、程秀苹,2010)

花园幽径现象可以通过原型模式先被提取再被弃用的形式得到体现。这种否定之否定的认知过程容易使解码者迷失在曲径通幽的认知花园中。认知顿悟在引发行进式错位的同时能带来对原认知模式的反叛。基于“语言理解源自多分工模块合作”的Fodor观点在花园幽径现象的层级存在中得到彰显。(杜家利、于屏方,2011)

总之,花园幽径现象的讨论呈现百花齐放、异彩纷呈的局面,就其根本而言,主要分成两类:(1)歧义类:花园幽径现象是歧义的表现形式,两者无区别性特征;整体歧义观侧重认知结果的通畅性;局部歧义观强调歧义解读的暂时性。(2)非歧义类:花园幽径现象与歧义具有显著不同,前者蕴含两次甚至多次认知图式的重新建构;行进式错位是产生新图式的动力和根源;花园幽径现象理解轨迹呈现否定之否定的螺旋上升态势,其认知过程具有折返后的跨越解码特点。本书中的观点秉承后者,即区别对待歧义与花园幽径现象。

花园幽径现象研究在国内外正从单一向多维过渡,即讨论中心由单纯的句法、心理、语义和计算科学等领域向具有综合理解的多维认知领域转换。这个趋势可由国内外花园幽径现象研究的焦点变化来印证。第一章花园幽径现象研究综述

花园幽径现象研究综述主要分为国外和国内两部分。国外研究者具有英语优势,讨论中心曾一度集中在英语的花园幽径句方面。在句法层面,国外学者对这一特殊语言现象的认识已有较广泛的讨论。在国内,部分学者认为花园幽径现象和歧义等不确定现象的关联较多且不宜拆分讨论,但两者的区别性特征正受到越来越多的研究者的关注。“花园幽径现象是一种独特认知现象而不是歧义代名词”的这种观点也随着认知科学的发展得到印证。第一节  花园幽径现象国外研究综述

1968年4月11~12日,位于美国匹兹堡(Pittsburgh)的卡内基梅隆大学(Carnegie-Mellon University)召开了《第四届发展语言学年会》(Fourth Annual Symposium on Developmental Linguistics),会议议题是发展语言学,并主要讨论了儿童语言认知这一话题。这些与会专家学者的论文在1970年由约翰威力父子出版公司(John Wiley and Sons)以《语言认知和发展》(Cognition and the Development of Language)为名结集出版。长达370页的文集囊括了发展语言学和儿童语言认知的多个方面,如《儿童言语中的派生复杂性和认知顺序性》(Derivational complexity and order of acquisition in child speech),《话语协议:儿童如何回答问题》(Discourse agreement:How children answer questions),《儿童关系概念的原始本能》(The primitive nature of children’s relational concepts)等。其中《语言结构中的认知基础》(The cognitive basis for linguistic structures)从认知角度阐明了贝弗的语言结构观。

在贝弗学术观点发表之前,哈佛大学认知研究中心(Center for Cognitive Studies,Harvard University)的米勒和麦基恩曾提出了句子表层结构先于处理,然后在转换规则影响下投射到深层结构的复杂性派生理论DTC(derivational theory of complexity)(Miller,1962;Miller & McKean,1964)。

复杂性派生理论是有关句子理解的理论,它认为句子在认知记忆中是以简单的主动核心外加一系列转换(a simple active “kernal” plus a list of transformations)构成的,句子解读的难易程度与句子理解过程中的转换次数成正相关,也就是说从深层结构向表层结构转换的过程中涉及的转换越频繁句子越难以理解。例如在下列三个句子 “The frog ate the bug”“The bug was eaten by the frog”和“Was the bug eaten by the frog?”中,核心部分都是ate,frog和bug,不同在于后两句是核心部分的变体,即(ate,frog,bug)+passive和(ate,frog,bug)+passive+question。这三个句子随着转换次数的增多,理解难度也逐渐加大。尽管这种理论由于无法得到系统性验证而淡出视线,但对句子理解需要借助句法分析的观点却是无可置疑的。

与此不同,贝弗提出了非转换性的句子解读策略,并尝试分析了为什么某些句子(如花园幽径句)需要耗费较长时间来理解以及为什么解码者容易陷入困境的原因。尽管贝弗的理论并不完整而且也不能提供一个较为系统的解决花园幽径句认知障碍的策略,但他从认知角度阐释了感知策略(perceptual strategies)取代复杂性派生理论的可能性,为后来感知策略理论的提出奠定了基础。

感知策略(Fodor,Bever & Garrett,1974)是针对复杂性派生理论的不足而提出来的。句子表层结构、底层句子表征和基于语义的表征解释是理解句子通常要涉及的三个方面。该理论认为在句法转换过程中复杂性派生理论无法解释句子理解中的很多情况。例如,“The police kicked the door down”比“The police kicked down the door”复杂,理应在认知中产生较长的感知时间,但在实际运用中却不产生认知解码的区别性。感知策略提倡者认为句子解码时,转换规则并不是必需的过程,有时可以根据浅表结构中的外显提示对深层结构进行推论,由于这些启发性推论(heuristic inference)具有认知层面的感知性,感知策略由此得名。例如,外显提示词“that”在“Fat people eat accumulates”中的缺失导致了它的感知难度要比“Fat that people eat accumulates”加大了许多。

1973年10月,《言语学习和言语行为杂志》(Journal of Verbal Learning and Verbal Behavior)发表了美国得克萨斯大学奥斯汀分校(University of Texas at Austin)福斯(Foss)和詹金斯(Jenkins)共12页的文章《歧义句理解的语境效应》(Some effects of context on the comprehension of ambiguous sentences)。文章利用实验进行歧义句的语境效应检验。首先他们挑选出80个被试并把歧义句分成可进行推断的语境组和无特殊语境关系的中性组。然后要求各组被试对歧义句的指定目标音素(a specified target phoneme)进行识别,并对反应时间RTs(reaction times)进行登记。当目标音素出现在歧义词之后时,两组被试的反应时间都要比同等情况下出现在非歧义词之后的反应时间要长(In both neutral and biased contexts the RTs were longer when the target phoneme occurred shortly after an ambiguous word than when it occurred after an unambiguous control word)。由此说明无论有无语境支持,歧义句都要比非歧义句占有更多的认知资源。作为特殊歧义现象的花园幽径句的解读需要多认知协调的假设得到实验支持。

与侧重实验的福斯和詹金斯不同,美国印第安纳大学(Indiana University)金博尔(Kimball)则提出了表层结构的句法分析理论。1973年发表于《认知》(Cognition)第二卷的论文《自然语言表层结构剖析七原则》(Seven principles of surface structure parsing in natural language)代表了金博尔的理论精髓。

金博尔认为,生成语法(generative grammar)在句子接受度方面有着传统区分(there is a traditional distinction between sentence acceptability),涉及语言行为(performance)、句子语法性(sentence grammaticality)和语言能力(competence)。通过对英语中哪些句子是可接受句(acceptable sentence)的描述,金博尔尝试建立一套模式来对输入句的表层句法树配列进行有效归约(to be operative in the assignment of a surface structure tree)。他重申这些句法剖析技术在某种程度上说是来源于计算机科学家为适用于机器语言所开发的程序技术(To some extent,these principles of parsing are modeled on certain parsing techniques formulated by computer scientists for computer languages)。金博尔的语言理解计算观点是较早讨论计算科学和语言进行结合的学者,实际上这种观点与计算语言学的发展形成了暗合。

简单来说,金博尔的七条原则包括:(1)自上而下原则(top-down principle);(2)右侧连接原则(principle of right association);(3)新兴节点原则(principle of new nodes);(4)双句饱和原则(principle of two sentences);(5)尽早闭合原则(principle of closure);(6)固定结构原则(principle of fixed structure);(7)即时处理原则(principle of processing)。

金博尔的自上而下原则认为通常情况下语法分析是从抽象向具体的转换,也就是说语法分析器从S节点开始并利用短语结构规则进行扩充。请见下例:

例3:The poor record the music.穷人录制音乐。

record具有一对二的关系(即名动两状态的认知关系),其解读可借助上下文无关文法CFG(context-free grammar)进行:

G={Vn,Vt,S,P}

Vn={S,NP,VP,Det,Adj,V,N}

Vt={the,poor,record,music}

S=S

P:

  S→NP VP              (a)

  NP→Det Adj(b)

  NP→Det N(c)

  NP→Det Adj N(d)

  VP→V NP(e)

  Det→{the}(f)

  Adj→{poor}(g)

  N→{record,music}(h)

  V→{record}(i)

上例花园幽径句的解读可以从两个方向展开,即自底向上剖析(bottom-up parsing)和自上而下剖析(top-down parsing)。

在自底向上剖析中,语法分析器从最具体的输入句开始在语法范围内不断向上归约,最后到达句法分析的终点S,句法分析成功。如果在归约过程中偏离了语法范畴,剖析系统会因无相关语法规则支持而被迫返回,形成回溯(backtracking)。例如,如果解码者开始就将record看成是动词,自底向上剖析的路径就是:1-2-3-10-11-12-13-14-15-16-SUCCESS。如果解码者首选record为名词就会产生花园幽径现象,解码者经过回溯后剖析成功,完全路径为:1-2-3-4-5-6-7-8-8-7-6-5-4-3(9)-10-11-12-13-14-15-16-SUCCESS。

1:The poor record the music

2:Det poor record the music  (f)

3:Det Adj record the music(g)

4:Det Adj N the music(h)

5:NP the music(d)

6:NP Det music(f)

7:NP Det N(h)

8:NP NP(c)

9:Det Adj record the music(g)

10:NP record the music(b)

11:NP V the music(i)

12:NP V Det music(f)

13:NP V Det N(h)

14:NP V NP(c)

15:NP VP(e)

16:S(a)

SUCCESS

自上而下剖析与自底向上剖析路径正好相反,语法分析器初始位置不是具体的句子而是句法树的最顶端S,然后在语法规则的限定范围内向下扩展到句子。如果超出了语法规则的范畴或是采用的语法规则无法下行到具有语法、语义和语用意义的句子,剖析失败,系统产生回溯。该例record的动词词性如果得到选择,系统将顺利完成自动解码,请见下面系统解码的过程。#

1:S#

2:NP VP    (a)#

3:NP V NP(e)#

4:Det Adj V NP(b)#

5:Det Adj V Det N(c)#

6:The Adj V Det N(f)#

7:The poor V Det N(g)#

8:The poor record Det N(i)#

9:The poor record the N(f)#

10:The poor record the music(h)

SUCCESS

当record的名词词性首先得到确认,系统将按照语法规则下行至无法解读为止。这时,系统回溯到正确的record动词词性的选择,重新进行句法分析。﹡

1:S﹡

2:NP VP      (a)﹡

3:Det Adj N VP(d)﹡

4:The Adj N VP(f)﹡

5:The poor N VP(g)﹡

6:The poor record VP(h)﹡

7:The poor record V NP(e)﹡

8:The poor record V Det N(c)﹡

9:The poor record V the N(f)﹡

10:The poor record V the music(h)

FAIL

由上面的句法分析过程可以看出,如果record作为名词出现,整个句子就缺失了动词V,系统无法按照既有的语法规则进行分析(试比较拥有动词过去式read的句子“The poor record read the music”),所以系统中止运行。record作为名词的错误剖析路径为:1﹡*﹡﹡﹡﹡﹡﹡﹡﹡  -2  -3  -4  -5  -6  -7  -8  -9  -10  - FAIL。

在自上而下的剖析中,当系统首先将record默认为名词,遇到中止运行后重新将record解码为动词,则会产生具有回溯性特点的花园﹡﹡﹡﹡幽径现象,这种折返性句法分析的路径为:1  -2  -3  -4  -5﹡﹡﹡﹡﹡﹡﹡﹡﹡﹡﹡﹡﹡  -6  -7  -8  -9  -10  -10  -9  -8  -7  -6  -5  -4  -3﹡﹡#########  -2(2)-3  -4  -5  -6  -7  -8  -9  -10  -SUCCESS。

由上面分析可以看出,基于语言计算观点的金博尔提出的自上而下原则,便于解码者在初期就能意识到不符合语法情况的存在并及时调整,从而减轻认知负担。例如,同样是错误剖析(将record视为名词),自底向上剖析在第5步“NP the music”能察觉到动词缺失,而在自上而下剖析中第2步“NP VP”就能看出由于record作为名词的中心语,VP不可能由the music扩展得到。所以金博尔认为,在认知承载范围内,自上而下剖析比自底向上剖析具有更高的效率。

在花园幽径句例3的自动剖析中,行进错位也带来了解码困难。系统的错位剖析如下:

Tagging

The/DT    poor/JJ    record/NN    the/DT    music/NN    ./.

Parse(ROOT

  (NP

    (NP(DT The)(JJ poor)(NN record))

    (NP(DT the)(NN music))

    (..)))

Typed dependencies

det(record-3,The-1)    amod(record-3,poor-2)  root(ROOT-0,record-3)

det(music-5,the-4)    dep(record-3,music-5)

错位的词类细化中,record被标注为NN,即名词。这直接导致该句没有动词支撑,解码失败。

错位的句法剖析中,源于词类的标注产生的不是S,而是NP,即该句不是完整的句子,而是一个名词词组。与基于规则的解码不符。

错位的依存分析中,amod(record-3,poor-2)表示形容词 poor作为名词record的修饰语,形成adjectival modifer。dep(record-3,music-5)表示名词record和music形成的是依附关系dependent,即当系统由于各种原因无法在两词间判定它们清晰的依存关系时采用的标注关系。如“Then,as if to show that he could,…” 可表示为dep(show,if)。这些依存分析是基于record被标注为NN时的错位分析,无法实现系统的正确解码。错位形成的依存关系图如下:图4  例3行进错位依存关系图

如图所示,该句不是完整的句子结构,错位形成的是无法判定关系的(NP(DT The)(JJ poor)(NN record))和(NP(DT the)(NN music))名词词组并列关系。对行进错位人工干预后的正确剖析结果如下:

Tagging

The/DT    poor/JJ    record/VBP    the/DT    music/NN    ./.

Parse(ROOT

  (S

    (NP(DT The)(JJ poor))

    (VP(VBP record)

      (NP(DT the)(NN music)))

    (..)))

Typed dependencies

det(poor-2,The-1)    nsubj(record-3,poor-2)    root(ROOT-0,record-3)

det(music-5,the-4)    dobj(record-3,music-5)

如上剖析可知,词类细化中动词record的标注为VBP,即动词非第三人称单数现在时(Verb,non-3rd ps.sing.present)。句法剖析中形容词poor和限定词the形成集合名词(NP(DT The)(JJ poor)),为完整S结构NP+VP。依存关系中,nsubj(record-3,poor-2)表示形容词poor结构形成名词性主语结构(nominal subject),dobj(record-3,music-5)表示名词music是动词record的直接宾语(direct object)。图5  例3花园幽径效应依存关系图

通过行进错位和花园幽径句依存关系图对比可知,两图之不同在于限定词the的限定范围。在行进错位依存关系图中,限定词限定的是名词record,所以形成的是名词词组结构(NP(DT The)(JJ poor)(NN record))。在花园幽径句依存关系图中,限定词限定的是形容词poor,形成的是集体名词结构(NP(DT The)(JJ poor))。

金博尔的第二个原则是右侧连接原则。这个原则的提出和英语的使用习惯相关联。他认为向右扩展的语言节点通常习惯于和在语法树中最低的、非终点的节点进行连接,有时称之为相邻原则。这样的处理模式是由认知省力原则所决定的。

例4:I confirm that,as agreed,I have arranged for your Mr R.Simpson to deal with any matters arising in connection with the 注4above during my absence on leave from 7-21 August 1993. 正如约定的那样,我确认已经安排你们的辛普森先生在我于1993年8月7日至21日离开度假之际,全权处理与上面所提事情相关事宜。

按照金博尔的右侧连接原则,例4中的两个with 都与相邻的动词deal 或名词connection相关联,理解符合英语习惯,认知负载较小。

例5:I have arranged for Mr R.Simpson to deal with any complaints about National Health Service and the matters arising in connection with the problem of homelessness in the city during my absence on leave.我已经安排辛普森先生在我离开度假之际,全权处理对国家卫生服务的投诉和与城市无家可归问题相关事宜的投诉。

例5中,the matters引导的短语部分既可以是complaints about的邻接部分,也可以是deal with的邻接部分,金博尔认为处于语法树较低节点的部分更容易被解码者认知接受,所以,右侧连接原则决定了the matters引导的短语更应该是about的投射范围。如果违背右侧连接这种认知省力原则,容易产生花园幽径现象。

例6:I have arranged for Mr R.Simpson to deal with any complaints about National Health Service and the matters arising in connection with the problem of homelessness in the city must be discussed by the board meeting during my absence on leave. 我已经安排辛普森先生在我离开度假之际,全权处理对国家卫生服务的投诉,但与城市无家可归问题相关的事宜必须经董事会会议讨论。

例6中the matters的引导短语根据右侧连接原则优先与complaints about相关联,在must be discussed出现前,与例5的解读没有区别。但是,must be discussed出现后,语法要求主语不能缺失,认知系统出现回溯,产生花园幽径现象。回溯后,the matters的引导短语被确定为并列句的主语,句法分析结束。

通过以上分析可知,右侧连接原则源于认知省力和语言习惯,而且语法成分具有附着句法树中较低节点的优先性。对这种特性的违背,容易产生花园幽径现象。

金博尔的第三个原则是新兴节点原则。

引导词(限定词)的存在帮助认知理解回归原位。

例7:The tycoon sold the offshore oil tracts for a lot of money 注5wanted to kill JR. 那个被迫花了一大笔钱购买了近海油田的财阀想杀死JR.

G={Vn,Vt,S,P}

Vn={S,NP,VP,Det,N,Pron,Adj,SC,V,PP,AuxP,Aux,Prep}

Vt={the,tycoon,sold,offshore,oil,tracts,for,a lot of,mony,wanted,to kill,JR}

S=S

P:

a.S→NP VP

b.VP→VP NP

c.NP→Det NP

d.NP→N N

e.NP→Det N

f.NP→Pron

g.NP→Adj NP

h.NP→NP SC

i.SC→V NP PP

j.VP→V AuxP

k.AuxP→Aux V

l.PP→Prep NP

m.VP→V NP PP

n.Det→{the,a lot of}

o.N→{tycoon,oil,tracts,money}

p.Pron→{JR}

q.V→{sold,wanted,kill}

r.Aux→{to}

s.Prep→{for}

t.Adj→{offshore}

上下文无关文法CFG(Context-Free Grammar)中,G={Vn,Vt,S,P}表示该文法包括非终极符号Vn、终极符号Vt、起始符号S和程序符号P。程序P中表示系统解码需要的规则。由此,系统左角解码的具体程序如下:

The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR   Rules

Det tycoon sold the offshore oil tracts for a lot of money wanted to kill JR   n

Det N sold the offshore oil tracts for a lot of money wanted to kill JR   o

NP sold the offshore oil tracts for a lot of money wanted to kill JR   e

NP V the offshore oil tracts for a lot of money wanted to kill JR   q

NP V Det offshore oil tracts for a lot of money wanted to kill JR   n

NP V Det Adj oil tracts for a lot of money wanted to kill JR   t

NP V Det Adj N tracts for a lot of money wanted to kill JR   o

NP V Det Adj N N for a lot of money wanted to kill JR   o

NP V Det Adj NP for a lot of money wanted to kill JR   d

NP V Det NP for a lot of money wanted to kill JR   g

NP V NP for a lot of money wanted to kill JR   c

NP V NP Prep a lot of money wanted to kill JR   s

NP V NP Prep Det money wanted to kill JR   n

NP V NP Prep Det N wanted to kill JR   o

NP V NP Prep NP wanted to kill JR   e

NP V NP PP wanted to kill JR   l

NP V P wanted to kill JR   m

S wanted to kill JR   a

BREAKDOWN AND BACKTRACKING

动词sold过去式和过去分词同形是产生行进错位的根本原因。如果作为过去式解读,规则VP→V NP PP则被采纳,系统产生行进错位(breakdown)。错位后,由于表示解码终结的符号S已经出现,而字符串wanted to kill JR仍未得到有效解码,系统产生回溯(backtracking)。回溯节点是规则SC→V NP PP,即在对动词sold过去式和过去分词的同形选择中,不再选择过去式而选择过去分词。过去分词sold引导结构的依存关系由原来的nsubj(sold-3,tycoon-2)转变为vmod(tycoon-2,sold-3),即由tycoon作为过去式sold的名词主语(nominal subject)变化为过去分词sold是tycoon的动词修饰语(verb modifier)。回溯后的解码程序如下:

NP V NP PP wanted to kill JR   l

NP SC wanted to kill JR   i

NP wanted to kill JR   h

NP V to kill JR   q

NP V Aux kill JR   r

NP V Aux V JR   q

NP V Aux P JR   k

NP VP JR   j

NP VP Pron   p

NP VP NP   f

NP VP   b

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载