辞书研究与辞书发展论集(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-06 23:47:05

点击下载

作者:王铁琨,李清山

出版社:上海辞书出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

辞书研究与辞书发展论集

辞书研究与辞书发展论集试读:

辞书规划

辞书强国

[1]———辞书人任重道远的追求张志毅(鲁东大学中文系)

辞书大业,惠及天下,功在当今,利在千秋。它是民族思想、科学、文化和语言的结晶,是国运兴盛的标志。我国的辞书事业伴随国运,走过了一条漫长而曲折的路。大致可以分为五个阶段:(一)辉煌阶段;(二)新兴阶段;(三)辞书小国阶段;(四)辞书大国阶段;(五)走向辞书强国阶段。最后一阶段,还有一段遥远的路要走。(一)辉煌阶段,指先秦至清末。这是一段漫长的历史,那时候国学独秀,国学的广袤沃土培育了近千种辞书。除去专书辞书,普通辞书也有600多种,而且形成了六大族群:1. 词书,主要有《尔雅》、《广雅》及《尔雅义疏》等雅系词书20多种,《方言》及《方言类聚》等方言系列词书10多种,《释名》及《释名疏证》等释名系列词书多种。这些词书,不仅对释义、解经、读书有辅助作用,而且对全民族向共同语的核心意义靠拢有着恒久的维系作用。2. 字书,主要有《说文解字》及《康熙字典》等系列字书200多种。这些字书,对单字、单音词、语素的定形、定义、定音,对书面语的标准化,都有久远的规范作用。3. 韵书,主要有《广韵》及《中原音韵》等韵书系列40多种。它们既是韵文用韵的总结和指导,也是读书音和共同语标准音的规范。4. 目录,主要有《四库全书总目》及《增订四库简明目录标注》等目录系列书20多种。利用这些书,不仅能检索图书的名称和要点,而且能指导阅读。5. 类书,主要有《艺文类聚》和《永乐大典》等类书系列50多种。利用这些书,不仅能检索辞藻典故和诗词文句,而且能查考史实和事物掌故。6. 政书,主要有《册府元龟》、《文献通考》和《清会要》等政书50多种。利用这些书,不仅能检索古代政治经济等制度史,而且能查考文化、学术史料。

在漫长的世界辞书历程中,神州九域筑起了光辉夺目的里程碑。与英伦三岛相比,中华大地在早期辞书跑道上领先了1 800年,汉语大型辞书《字汇》(明梅膺祚,十四卷)与几本英语小辞书几乎同时出现在17世纪初。(二)新兴阶段,指1911年至1949年。这一阶段,平均每年出版38部辞书,掩映着国学余晖和西学晨曦。一方面,《说文解字诂林》(正续1 530卷)、《词诠》、《辞通》、《诗词曲语辞汇释》等掩映着一缕缕国学的余晖;另一方面,《中华大字典》、《辞源》、《辞海》、《国语辞典》等折射出一条条西学的晨曦,这预示着中国辞书事业从古老的辉煌转向现代的新兴。只是这条道路上的障碍太多,在马拉松赛中,我们被远远地抛下了。(三)辞书小国阶段,指1950年至1977年。这一阶段,平均每年出版辞书125部,是前一阶段的3倍。然而,其中缺乏耀眼的传世之作,只有《新华字典》作为新中国辞书的代表,在联合国辞书展览厅里摆放在西方多部巨型辞书的一侧。(四)辞书大国阶段,指1978年至2000年。这一阶段,平均每年出版600多部辞书,差不多是前一阶段的5倍,且不乏传世之作,如《现代汉语词典》、《辞海》(1979)、《辞源》(1979)、《汉语大字典》、《汉语大词典》、《中国大百科全书》、《英汉大词典》、《俄汉详解词典》等。(五)走向辞书强国阶段,指从2001年至21世纪50年代前后。这一阶段,前十年已经有了良好开端,后几十年需要做大量艰苦的工作赶超辞书强国,主要有以下三大方面:一、要成为辞书强国,人才必先强

辞书强国,首先强在人才。各辞书强国都拥有一批世界一流的博学的编纂专家。近三百年以来,辞书界人才辈出,数不胜数。仅举其中的领军人物(以生年为序)为例:

S. 约翰逊(Samuel Johnson,1709—1784),牛津大学肄业,英国文学家,词典之父,1755年出版《英语词典》(2 300页,4万多条)。

N. 韦伯斯特(Noah Webster,1758—1843),1778年毕业于耶鲁大学。他的《美国拼写课本》至今已销售1亿册以上,被誉为“美国文化独立宣言书”,他还写过多篇英语论文。1828年出版了《美国英语词典》上下卷,收词7万条,比当时约翰逊词典的最新增订版多收词目1.2万余条,释义也更准确、细致。

P.A. 拉鲁斯(Pierre Athanase Larousse,1817—1875),法国语言学家,百科全书编纂家。他的著述比巴尔扎克、雨果还多,影响最大的是《19世纪万有大词典》(1866—1876,15卷,后有补编2卷)。

K. 杜登(Konrad Duden,1829—1911),德国语言学家,辞书编纂家。1880年出版《德语正词法大全词典》(收词2.7万条,17版收词16万条,至今已出23版)。后来,出版了一系列杜登词典。

Д.Н. 乌沙科夫(Дмитрий Николаевич Ушаков,1873—1942),苏联语言学家,院士,莫斯科大学教授,主编《俄语详解词典》(4卷)等词典。

С.И. 奥热果夫(Сергей Иванович Ожегов,1900—1964),苏联语言学家,词典编纂家,莫斯科等大学教授。谢尔巴、维诺格拉多夫的高足。《俄语详解词典》的主要编写者,《俄语词典》主编,《现代俄罗斯标准语词典》(17卷)编委,还与他人合编了其他一些词典。

P.C.J. 罗贝尔(Paul Charles Jules Robert,1910—1980),法国文化学者,辞书编纂家。1945年以后,编纂了著名的《大罗贝尔词典》、《小罗贝尔词典》和《微型罗贝尔词典》。

中国只有吕叔湘等几位先生是现代语言学者兼词典编纂家。我们要培养出这样一流的人才,至少需要40年。为什么要40年?跟这些世界名家相比,中国学者的差距在哪里?下面从三个方面加以阐述:(一)知识结构、数量和水平。上列编纂专家首先是学者,他们精通语言学、语文学、文学、文化学、历史学或科学技术。他们在辞书之外,大多数都有重要论著传世。我国的许多辞书编纂者,高水平的论著几乎没有。(二)创造能力。个人的创造能力,一部分靠天赋,一部分靠社会。近几百年,中西个人的创造能力的差异,主要在于社会。《英语词典》(1755年)产生前后的时代,正是文艺复兴之后,启蒙思想兴起之时。当时的社会,给科学创造提供了六个社会性的基石:①民主自由的环境;②多派新兴哲学共存互补;③多元先进文化互惠互利;④多种新的自然科学和社会科学竞相发展;⑤科学的理论思维处于主导地位;⑥以创新性为本的教育普遍展开。因此,许多领域取得了重大成就,辞书界也不例外。在宏观上,辞书界出现了实用主义、规定主义和描写主义三种主要思潮,同时也创造了百科、语文和专科等不同类型的现代辞书。在微观上,他们把词义分解为基本义、附属义和语用义,韦伯斯特把约翰逊的贡献和牛顿在数学上的贡献相提并论。而韦伯斯特则被誉为“美国语言之父”。当时的中国,著名学者有戴震、钱大昕、桂馥、段玉裁、王念孙、王引之、朱骏声等,他们正处于国学的乾嘉初期,崇尚实学、朴学或考据,轻视义理、推理,无视新科学。因而当时他们那一代的成果只限于国学继承类的,如《康熙字典》、《十三经注疏》、《大清会典》、《说文解字义证》、《说文解字注》等。(三)大业精神。约翰逊、韦伯斯特等学者不仅仅是将辞书研究和编纂作为一种谋生的职业,更将其视为一生的事业,甚至将其作为几代人的大业。职业精神,对大业稍有帮助;事业精神,对大业大有帮助;只有大业精神,才能确保完成经国济世的千秋大业。例如《牛津英语词典》,自1858年筹备,26年后即1884年出版第1卷,再过44年即1928年才出齐10卷,6年后即1934年出版1卷《补编》,四五十年后即1972年、1976年、1982年、1986年分别出了4卷《补编》,1989年出版《牛津英语词典》第2版,共20卷。最终编成2.1万页,60多万个词条,240万条书证的超大规模词典,历时131年,数易主编,五代接力,千余人参编。唯此,方铸就千秋伟业!二、要成为辞书强国,理论必先强

在多种现代科学,特别是语言学的推动下,20世纪60年代前后,欧美词典学进入了现代科学行列。仅仅是《法语宝库》到1969年就用现代理念和手段搜集相关语言学资料5万多篇/部。现代辞书科学新理论的产生,主要通过五条途径:升华、继承、借鉴、移植、创造。

辞书强国的辞书编纂理论起码具有下列六个特性:①理性;②本质的整体性;③内在的逻辑性;④多维的系统性;⑤结构的和谐性(这是爱因斯坦强调的);⑥多元论(奥地利籍伯克利加利福尼亚大学教授P.K. Feyerabend的主张),而不是一元论(托马斯·库恩的观点)。从编纂实践上升为辞书学理论,必须经过范畴化(categorization)。Lakoff(1987:5)认为:“对我们的思维、感知、行动和言语来说,再没有什么东西比范畴划分更基本的了。”范畴是知网的网结,是认知的枢纽,是理论的支撑点阵。范畴体系,就是理论。如何范畴化?辞书强国主要通过六种程序:经典范畴化,原型范畴化,提取最主要的区别特征,用最简明的词语、公式或模型表达范畴特征或属性,借助多种思维方式,尽可能杜绝一切直觉、内省的简单枚举。

辞书理论研究的成果,可以概括为四类:①综述型。对前人(古今中外)理论予以介绍、归纳、概括、总结,并举例说明。②跟踪型。对前人(主要是外国的)某一理论予以阐释、分析、应用———描写、解释某些现象。③创新型。在前人基础上提出新观点(如理念演绎辞书、同场同模式等)、新原理、新规律或新法则等。④引领型。提出新理论,被国内外学者引用、赞同。相较而言,我国综述型、跟踪型研究成果较多,创新型很少,引领型尚未出现。

在这般情况下,必须极力倡导:理论先行。

辞书理论,是辞书科学动力的第一要素。只有不断创新的辞书理论,才能增加辞书科学的知识总量。正如一位哲人说过的:“科学从根本意义上说就是理论。”

要成为辞书强国,辞书原创理论必须先行,尤其是必须输出领先的辞书理论。

必须树立新观念:理念演绎辞书,理念领跑辞书,理念提升辞书。否则,辞书只能在低层次上循环。现代辞书编纂,首先不属于经验范围,而属于理性范围。《法语宝库》主编伊姆勃斯认为,“搞不好词汇学也不能搞好词典学”。当前辞书强国研究的热点理论有12个:(1)实用主义、规范主义、描写主义三种主导思想及其有机结合问题;(2)解码词典和编码词典的对比和融合问题;(3)传统释义方法、新兴释义方法及其综合问题;(4)辞书元语言研究及其应用;(5)语料库研究及其应用;(6)辞书的信息处理与计算词典研究;(7)辞书编纂现代化和辞书的电子化研究;(8)辞书网络化研究;(9)语言和各种知识词典化研究;(10)国际辞书比较研究;(11)读者需求研究;(12)各国辞书史研究,先进经验吸收和借鉴研究。限于篇幅,这里简单谈谈前五个问题。(一)实用主义、规范主义、描写主义三种主导思想及其有机结合问题

辞书强国研究和词典编纂者,对这三种思想,都应有清醒的认识。

先说实用主义。世界各国最早的辞书“难词词典”、“双语词典”都凸显了实用主义,后来的以“学习词典”为代表的一些辞书也在不同方面和程度上体现了实用主义。辞书的“实用”有多种:读经、释难、翻译、正音、正形、辨义、识字、用词、选词、查考、推广标准语……一本辞书最好突出一两个“实用”目的,适当兼顾其他。

次说规范主义(或规定主义)。规范,就是标准化,是对实用、描写的积极规约,是各国古今共同语的社会性需要。《英语词典》(约翰逊)、《法兰西学院词典》、《俄语详解词典》、《俄语词典》(奥热果夫)、《俄语词典》(科学院)等等辞书都贯彻了规范主义的思想。它们显示了多种规范原则:非逻辑原则(不能用狭义的逻辑苛求活生生的语言),历史原则(承认语言的历时演变),习惯原则(从俗从众),系统原则(兼顾个体及相关系统),科学原则(合于历时和共时学理或规律),功能原则(最能体现语言的功能的单位是首选),权威原则(权威的文本、用法常被公认),刚柔原则(语言要素的取舍、推广范围等都要注意刚柔),民族原则(外来词多民族化),国际原则(术语宜国际化),准确原则(能指应无偏差),经济原则(用较短的形式反映较多的内容)。历史告诉我们,上述这些原则,都是互相关联的。少数是双向关联,多数是多向关联。一本辞书应兼顾几个原则,适当照顾其余。

再说描写主义。韦伯斯特《美国英语词典》和《韦氏第三版新国际英语词典》等词典以描写为主,兼顾实用和规范,描写给实用提供了多种可能性,给规范提供了标准化的广泛基础。强国辞书中的描写,都尽可能地反映语言单位的五方面情况:①词音———语音常体及变体、现代标准音、古旧音、方俗音、书面音、口语音、重音、轻音、变音;②词形———词形常体及变体、古旧形、方俗形、常用形、罕用形、讹误形;③词义———词义常体及变体,现代语言义、古旧义、方俗义、常用义、罕用义、言语义;④语法———词的语法常体及变体、词性及其活用、常规及变异形态、句法标准功能及变异;⑤语用———词的语用常体及变体、音形义的修辞用法、从言语向语言的过渡用法。

一本好的辞书,不可能同时贯彻三个主义,而是以一个为主,兼顾其他。(二)解码词典和编码词典的对比和融合问题

比起解码词典,编码词典至少有九个要素:①二语习得的新理念;②词目、义项的常用性;③义项划分的精细性;④释义中心的凸显性———词的用法;⑤元语言的可控性;⑥释义的综合性;⑦例证的语用性;⑧语料库的本源性;⑨读者本位性。本节只简要论述①、②、③、④、⑥、⑨各要素(余者容后文论及)。1. 吸收了二语习得新理念

双语词典是学习词典的前奏。促使学习词典产生的第一个理念,就是二语习得的新理念。二战以后,学习英语成了当务之急,因而产生了学习英语的新理念———把词作为语义、语法、语用统一体,突出语用,提示惯用法。二语习得的转向,强调在正确性(correctness)基础上更突出得体性(appropriateness),于是1948年演绎出世界上第一部外向型、学习型词典———The Advanced Learner's Dictionary of Current English(《高阶当代英语学习词典》,Hornby主编)。20世纪70年代进入信息时代,英法美德俄等国涌现出了十多套编码词典。中国至今仍没有一部理想的编码词典。2. 词目、义项的常用性,编码词典中的常量、变量和足量

词汇是变量,词汇核心是常量。各类、各层次的语言交际,都共有一个基础词汇常量———约三五千个词。这个量,基本可以读懂、听懂书面语和口语。例如,根据Fries统计,英语常用词4 000~5 000个占书面语用词的95%,最常用词1 000个占书面语用词的85%(兰多2005:301)。掌握汉语3 000常用词,就能懂得一般语言材料的86.7%(北京语言学院语言研究所1986:1490)。由此演绎出《基础法语词典》、《基础英语词典》、《教学词典》等。这些常量,是学习词典的主体或核心。

词的基本语言意义是词义的常量,词的言语意义即语境意义是词义的变量。学习词典以描写词义的常量为主,也要照顾词义的变量。

义素也有常量和变量之分。义素常量指核心基本义素,义素变量指非核心、非基本义素,即次要并受语境制约的义素。对一个个词位及其义位来说,这个变量常因人、因时、因地、因事而变。就一个义位来说,义素少的有两个,多的有五六个,再多的有十来个。从变量义素中找出常量,这是学习词典编写者的责任。义素在学习词典里有三个量:超量,足量,非足量。超量,就是给出的义素过多;只有释文中提供必要的语义特征,那才是足量;没有满足释义必要的语义特征,那就是非足量;义素变量中的常量,多数情况下只有三个左右语义特征。

足量,就是最显著的、最具有区别性的、最容易感知的语义特征。其中既有事物本身特征的显著性因素,也有人们认知时注意点的因素,更有义位自身的义素特征。学习词典编写者应注意同时提取这三个因素,并同时赋予最佳的表述。3. 义项划分的精细性———吸收现代语义学成果

从19世纪20年代以来,洪堡特、密尔、索绪尔、萨丕尔、奥格登/理查兹、布龙菲尔德、吕叔湘、兹古斯塔、利奇、诺维科夫、莱昂斯等,对词义渐渐产生了二分观、三分观、四分观、七分观等。义位主要包含五个要素:第一是所指或外指意义(指物、指概念/观念等),第二是系统价值或内指意义(跟相关词的义差、用差等相区别),第三是各种附属意义(理性、感情、语体、语域、时空等),第四是语法意义(词性、结构、变化、功用等),第五是语用意义。这些现代语义理念,不仅先后演绎出《简明牛津英语词典》(1911)、《小拉鲁斯词典》(1906)、《俄语词典》(1949)、《现代汉语词典》(1960)、《小罗贝尔词典》(1972)等,而且被编码词典充分吸收并全面推进。4. 释义凸显词的用法———吸收语用学成果

20世纪,从房德里耶斯到克鲁斯,有些人主张词义就是用法。乌尔曼仅仅称其为“操作定义”(operational definitions)。大哲学家维特根斯坦到后期对自己主张的“用法说”也产生了怀疑。现代语用学主流学者认为,用法不等于词义,仅仅是词义多要素之一,有的是词的语言义,有的是词的言语义。以此为中心,编码词典吸收了语用学的许多成果。诸如:适当增加词、语、小句等内词条,必须交代词语的语境义及义位变体,凸显词语及其意义常用项(舍弃罕用项),提示话语结构、礼貌用法等。5. 例证的语用性,编码词典的新组合理念

组合所指的范围比搭配广,除了指词语搭配,还可以指语素之间、短语之间、句子之间及其内部语义的组合。解码词典给出的组合多是短语;已有的编码词典给出的组合多是句子。要强调的是,编码词典不仅必须配以例句,而且必须给出例语。而例语又必须给出两类:常见的组合、特殊(习惯、受限)的组合。

组合理念的中心,主要考虑非离散语法所谓的语句的合格度和可接受度,此外还有常用性和完整性。而语境理念主要考虑自然完整语句的语境,即语句的语言语境和非语言语境。最佳语境给被释词的“待填空白”,只能是一值(即被释词),不能是二值或多值(即被释词以外的词)。6. 编码词典的读者本位性

编码词典把读者对象置于前所未有的高度,置于前所未有的中心地位。例如,选词立目、释义配例,学习词典都是以读者的编码及解码需要为轴心,首先是频率原则,其次才是词汇、词义系统原则。

解码型、综合性词典向积极型、学习型词典靠拢,吸取其释义优点。《简明牛津英语词典》新版和《朗文当代英语大辞典》就是尽量吸收了学习词典的优点,因此获得了极大的成功。(三)传统释义方法、新兴释义方法及其综合问题

一般说来,释义方法有下列七种:①同义对释;②反义对释;③素义对释;④短语对释;⑤个性义征+上义/类义义位;⑥叙述/描写物征、义征;⑦用自然语言完整句子表述义征。①②③④式注重的是被释词和解释词的共性,惯用于解码词典,如《钱伯斯20世纪词典》许多地方用同义对释。而在编码词典及类似的词典中很少用或完全不用同义对释,如旧版《小罗贝尔词典》中,同义对释只占15.02%,《现代法语词典》占3.7%,《柯林斯COBUILD英语词典》则全部采用完整句释义。⑤⑥式属于分解释义,注重的是被释词的个性,对于解码词典和编码词典都是适用的,但是使用的限度不同:一般用于解码词典的主条,广泛用于编码词典的主条和副条,但是在副条中还必须注明副条语义、语用个性。⑦式一般不用于解码词典,而用于编码词典,如《BBC英语词典》、《钱伯斯基础英语词典》、《朗文当代高级英语辞典》(第三版)、《柯林斯COBUILD英语词典》(占该词典释义总量的99%),但是不宜过多使用,因为用于自然语言完整句子中的词和被释词在许多情况下是不等值的,也就是语言系统的词位常常不等于“语段词”(言语语境中的词),个例遮蔽了类型,单一遮蔽了多样(多样信息、结构、搭配),基义遮蔽了陪义。总之,解码词典和编码词典的早中近期显示出的释义趋势是:从单一、分解、句子转至多式(①②③④⑤⑥⑦)综合。《麦克米伦英语学习词典》正向综合释义靠拢。(四)辞书元语言研究及其应用

元语言,一是指用来释义的自然语言中的两三千个常用词,叫“释义元语言”或“义元”;二是指代表义素的人工设计的语言,叫“形式语言”、“符号语言”、“语义标示语”等。

前一理念即“释义元语言”的研究,主要有两个问题:一是定量研究,即选取多少个常用词释义较妥当,二是用少量的常用词如何表达复杂的释义内容,释文中的非常用词如何转化成常用词。辞书强国在解决这两个问题的基础上,演绎出了一系列词典,较早的有:1932年奥格登和理查兹《基础英语词典》(释义词850个),1935年威斯特《新方法英语词典》(释义词1 779个,1961年版1 490个),1971年《法语宝库》(有限度地使用了元语言,见其《导言·释文的语言》),1978年的《朗文当代高级英语辞典》(及以后各版释义词都是2 000多个),1995年《柯林斯COBUILD英语词典》(释义词2 000个),2000年《牛津高阶英语词典》(释义词3 000个以内),2002年《麦克米伦高阶英语词典》(释义词2 500个)。总之,用少量元语言释义,已经成为以学习词典为代表的词典释义的主流趋势。未来理想的汉语学习词典,用4 000个左右常用词释义较为合适。在这方面,我们落后了80年。(五)语料库研究及其应用

语料库理念萌生于1959年伦敦大学语言学教授R. Quirk:几年间建起涵盖多种语体的上百万字的“英语用法语料库”。1961年美国布朗大学建起第一个机读的逾百万字的“布朗语料库”。从20世纪80年代起,柯林斯等出版社和伯明翰等大学合作,创建了“COBUILD语料库”,由此开发了《柯林斯COBUILD英语词典》。《牛津高阶英语学习词典》、《朗文当代高级英语辞典》、《钱伯斯基础英语词典》等的最新版本,也都是以语料库为依托编写而成。

语料库与人工卡片相比具有许多优越性:不仅省时、省力、省钱、省物、便捷,而且具有鲜活性和广阔性,它提供了广阔空间,使编者能够选择自然语言中完整、典型的例句。因此,编者不需要自造例句,必要时只需适当改动例句即可。

就规模而言,词典编纂用的理想语料库,其字节数量跟词典条目数之比,较合适的量应为10 000∶1。例如,4亿字的平衡语料库,对于编一部收词4万条的辞书较为适用。就内涵而言,语料库必须含书籍和报刊,而且是多地域、多语域、多语体(以上三项至少包括10多个子项)、多作者(至少1 000多个)、多学科(70个左右)的,一个或各个断代的。它们代表活语言的真实文本,由此产生的词典才能是活语言的真实体现。可惜,到目前为止,中国既没有理想的语料库,也没有一部来自语料库的真实文本的词典。在这方面,我们比辞书强国晚了近40年。

以上述五个方面为代表的辞书热点理论的十二个方面的研究,不是孤立的,它们受制于现代哲学、文化学、语言学、数理逻辑学、数学、计算机科学以及其他科学技术。因此,在这些方面要想赶超辞书强国,至少需要二三十年。三、要成为辞书强国,必须牢固地竖起主体标志———辞书文本

我国现在的辞书品种、系列、数量、规模等,较辞书强国还有很大的距离。

以古今兼收的大型语文辞书为例,我们的《汉语大词典》比《牛津英语词典》起步晚了120年,收词少了13万条,订补和检索方式也落后了。

大型现代语文辞书,我们至今还没有一部,而每个辞书强国都不止有一部这样的辞书。例如:法国早就有《法兰西学院词典》,20世纪50年代以后还有《大罗贝尔词典》、《大拉鲁斯法语词典》、《法语宝库》(1971年始出);德国有1915年始出的《杜登词典》;俄国有1950年始出的《现代俄罗斯标准语词典》;美国有1961年出版的《韦氏第三版新国际英语词典》;日本有1972年始出的《国语大词典》。平均比我们早50多年。

中型现代语文辞书,论数量,仅法国跟《现代汉语词典》规模相当的就有近10本。论时间,《法语通用词典》、《简明牛津英语词典》,比《现代汉语词典》分别早出版78年、67年。更令人瞩目的是,他们早已具有辞书品牌意识,牛津系列250多年,柯林斯系列190多年,韦伯斯特系列180多年,麦克米伦系列170多年,拉鲁斯系列150多年。如果我们的《新华字典》、《新华词典》等,算作“新华”系列,也只有几十年的历史。可见,国外的品牌意识,平均比我们早100多年。

现代英语语文辞书,在1940年前产生了一个全新的理念———以用词为主的学习词典,并于1942年出版了第一部学习词典———《英语习语及句法词典》(即《现代英语高级学生词典》前身)。近70年以来,学习词典经过了三代发展,至今在英国已经出现了五大学习词典家族分庭抗礼的兴盛局面:牛津、朗文、柯林斯、剑桥、麦克米伦。以其起步的年代而论,比我们接近合格的“学习词典”早了60多年。

我们虽然在1992年、1995年、2005年、2006年分别出版了几部“学习词典”,但是都不完全符合学习词典的要求,大多徒有虚名,跟《现代汉语词典》的相似率超过50%。

纸本辞书之外,辞书强国在电子辞书、网络辞书、现代编纂技术方面,也领先50年。强国的纸本和电子辞书等产业规模远远超过我们,英国一个名社甚至一部名典的销售额,真可谓“富敌一国”。这“富”跟高稿酬是互为良性循环的物质条件,他们的稿酬平均是我们的60倍。这样优越的物质条件塑造了一群群顶尖人才,催生并滋养着一个个新理论,雕刻出一套套杰出的辞书文本。

总之,从人才、理论、辞书文本以及产业规模四方面综合来看,我们离辞书强国还有50年左右的距离。

好在我们国运正隆,盛世鼎新。盛世修典史不绝,辞书强国梦定圆。只有强国梦圆,才能适应“应用力”居世界第二的汉语(联合国2005年“调查报告”)和持续升温的“汉语热”[近100个(2009年底为88个)国家的500多个孔子学院(含孔子课堂270多个)、4 000多所大学以及1万多所华文学校共有6 000多个班次、4 000多万人(其中注册学员13万)在海外学汉语]。汉语的广泛传播,必定从多方面反哺中国的辞书事业。参考文献

1. 阿普列相著. 语言整合性描写与体系性词典学. 杜桂枝译. 北京:北京大学出版社,2011.

2. 北京语言学院语言教学研究所. 现代汉语频率词典. 北京:北京语言学院出版社,1986.

3. 程依荣. 法语词汇学概论. 上海:上海外语教育出版社,2007.

4. 黄建华. 法国词典学一瞥. 辞书研究,1980(2).

5. 兰多. 词典编纂的艺术与技巧(第二版). 章宜华等译. 北京:商务印书馆,2005.

6. 罗贝尔. 词典编纂问题. 辞书研究,1980(2).

7. 汪榕培等. 英语词汇学教程. 上海:上海外语教育出版社,1997.

8. 徐祖友等. 中国工具书大辞典. 福州:福建人民出版社,1991,1996.

9. 杨迈. 现代俄语词汇学讲义. 北京:北京师范大学出版社,1992.

10. 章宜华等. 当代词典学. 北京:商务印书馆,2007.

11. 郑述谱. 词典·词汇·术语. 哈尔滨:黑龙江人民出版社,2005.注释[1]《人民日报》2010. 10. 12发表过《“辞书强国”究竟有多远》,在此基础上扩充成此文。

要有一部收字量大的面向社会公众的字典

苏培成(北京大学中文系)一

学习汉字和使用汉字都离不开汉字字典。字典从收字量(即大字头的数量)看,有大、中、小不同的类型。《新华字典》是社会影响最大的小字典,包括繁体字、异体字在内,共收1万多字,累计发行量多达4亿多册。中型的如《新华多功能字典》,在通用字之外还收一些常用的文言字和生僻的专业用字,不包括繁体字和异体字,共收字14 245字,累计发行量已经超过了20万册。《现代汉语词典》收的字头,不包括繁体字和异体字,也有1万多个,实际是中型字典。大型的字典如《康熙字典》,收字47 035个;《汉语大字典》(第二版)收字60 370个。

中小型字典是面向中小学学生和社会一般公众的字典,可是读者有时遇到一些生僻字,在中小型字典里查不到,就要去求教大型字典。

例如,清末民初的语言文字学家章太炎给他的三个女儿起名字,用的都是生僻字:一个叫章叕,一个叫章,一个叫章。许多人不认识这三个字,就要去查字典,可是这三个字在《新华字典》和《现代汉语词典》里都查不到。后来到《新华多功能字典》里去查,查到了“叕”和“”,可是还查不到“”。《新华多功能字典》中:“叕”读zhuó,意思是“使连接起来”;“”读jí,有两个意思,一个是“众口”,另一个是“喧哗”。在《康熙字典》“工”部中找到了“”。注音和释义是:“《玉篇》:古文展字。《六书正伪》:四工,有展布义,会意。隶作,中从。俗作展。”看来像《康熙字典》这样的大型字典有时还必须要用。

又如,有一天我读报纸,看到山东省文登市埠口镇嶅山村有姓,这个“”字我不认识。《新华字典》、《现代汉语词典》和《新华多功能字典》都没有收录这个字,只好去查《康熙字典》。《康熙字典》中:“《唐韵》:亡苋切,人姓,见《姓谱》。”“亡苋切”怎么读?多数读者不懂反切,虽然查到了这个字,可是仍旧不知道怎么读。这表明反切注音,不适合现在的读者使用。再者,《康熙字典》的释义和书证用的都是文言,现代读者很难读懂。

再如,明末清初有一位著名的书画家叫朱耷(dā),别号“八大山人”,谱名统。这个字怎么读?查《新华字典》、《现代汉语词典》和《新华多功能字典》都查不到,连《康熙字典》都未收录。最后在《汉语大字典》中查得:“,juàn,人名用字。”因为《汉语大字典》用汉语拼音注音,比反切更适合当今读者的需要。可是这样的多卷本大字典,定价高,篇幅大,又有多少人会买呢?

根据上面的分析,可以看出社会需要一部收字量大、面向社会公众的大型字典。二

这样的字典是给什么样的人使用的呢?答案是:以中等文化及中等文化程度以上的各界人士为读者对象,帮助他们解决在阅读和写作中遇到的常用字、通用字,特别是生僻字方面的问题。

这样的字典应该具备什么特点呢?

第一,收字要多,以便解决人们在学习和使用汉字时遇到的生字问题。收字要多,这是与中小型字典相对而言的,但收字多并不是越多越好,因为还必须考虑到字典的篇幅和定价。篇幅不宜过大,定价不宜过高。因此只说收字要多还不能解决问题,关键要看收哪些字。现代汉语常用字和通用字自然要收,这和中小型字典是一致的,此外还必须收一大批使用频度较低或很低的字,也就是我们常说的生僻字,而生僻字主要是文言字。古代流传下来的字书、韵书里有许多生僻字,有些字没有书证,也就是没有实际用例。这样的字可以不收,因为人们在阅读中遇不到,当然也就不会去查。不收这样的字不会降低该字典的使用价值。

第二,释义要简明,使读者一看就懂。这与《汉语大字典》不同。《汉语大字典》是供研究用的查考型字典。它要汇集众多的文献资料,提供给研究者,以省却他们的翻检之劳。而我们现在谈到的大字典,是供社会一般公众使用的。这样的读者对注音和释义的要求比较简单,不需要过多的征引和论述。请比较以下的释义:鸻 héng (1)荒鸟。《玉篇·鸟部》:“鸻,荒鸟。”(2)飞鸟。《字汇·鸟部》:“鸻,飞鸟。”(3)现代鸟类学鸻科、燕鸻科部分种类的通称。鸻科为小型涉禽,翼、尾短促,脚无后趾,群居海滨。燕鸻科尾羽呈剪刀状,能于飞行中捕食昆虫,又能在地上觅食,兼具燕与鹬二者特性。(《汉语大字典》)廧(一)qiáng 同“牆”。《玉篇·嗇部》:“牆,墙垣也;廧,同上。”《墨子·经说上》:“廧外之利害,未可知也。”毕沅注:“廧字,牆俗写。”《战国策·赵策一》:“公宫之垣,皆以狄蒿苫楚廧之,其高至丈余。”《汉书·邹阳传》:“今人主沈谄谀之辞,牵帷廧之制。”(二)sè 通“嗇”。《篇海类编·宫室类·广部》:“廧,音嗇。”《字汇补·广部》:“廧,与嗇同。”《战国策·东周策》:“因令人谓相国御展子、嗇夫空曰:‘王类欲令若为之,此健士也,居中不便于相国。’”郭希汾辑注:“廧,通嗇。嗇夫,小臣;空,名。”(《汉语大字典》)

我们设想的大字典,这两个字的注音和释义可以简化如下:鸻 héng 现代鸟类学鸻科、燕鸻科部分种类的通称。廧(一)qiáng 同“牆”。《墨子·经说上》:“廧外之利害,未可知也。”(二)sè 通“嗇”。《战国策·东周策》:“因令人谓相国御展子、廧夫空曰:‘王类欲令若为之,此健士也,居中不便于相国。’”(廧夫:小臣。)

第三,扩大词义的概括性。王力说:“一般字典辞书总嫌义项太多,使读者不知所从,其实许多义项都可以合并为一个义项,一个是本义,其余是引申义。本书以近引申义合并,远引申义另列,假借义也另列。”(《王力古汉语字典·序》)例如:侯 hóu (1)古时用布或兽皮制成的箭靶。《诗经·齐风·猗嗟》:“终日射侯,不出正兮。”(2)古代五等爵位的第二等。《左传·襄公十五年》:“王及公、侯、伯、子、男、甸、采、卫、大夫,各居其列,所谓周行也。”《礼记·王制》:“王者之制禄爵,公、侯、伯、子、男凡五等。”(又)秦汉以后仅次于王的爵位。《史记·陈涉世家》:“王侯将相宁有种乎?”(3)君主。《诗经·大雅·抑》:“质尔人民,谨尔侯度。”(郑玄笺:“侯,君也。”)(4)封侯,封官。《史记·高祖本纪》:“项氏败,利几为陈公,不随项羽,亡降高祖,高祖侯之颍川。”李白《赠张相镐》诗之二:“苦战竟不侯,当年颇惆怅。”(5)古时士大夫之间的尊称。犹言君。杜甫《与李十二白同寻范十隐居》诗:“李侯有佳句,往往似阴铿。”李硕《送陈章甫》诗:“陈侯立身何坦荡,虬须虎眉仍大颡。”(6)美丽。《诗经·郑风·羔裘》:“羊羔如濡,洵直且侯。”(7)乃,于是。《诗经·大雅·文王》:“上帝既命,侯于周服。”(8)表疑问,相当于“何”。《史记·司马相如列传》:“君乎君乎,侯不迈哉!”《法言·先知》:“法无限,则庶人田侯田,处侯室,食侯食,服侯服?”(9)助词。相当于“惟”。①用于句首。《诗经·小雅·四月》:“山有嘉卉,侯栗侯梅。”②用于句中。《诗经·小雅·十月之交》:“择三有事,亶侯多藏。”(10)语气词。相当于“兮”。《史记·乐书》:“高祖国沛诗三侯之章。令小儿歌之。”(司马贞索隐:“沛诗有三‘兮’,故云三侯也。”)(11)通“候”。迎。《周礼·春官·小祝》:“掌小祭祀,将事侯禳祷祠之祝号。”(郑玄注:“侯之言候也。”贾公彦疏:“设祈祷候迎之。”)(12)姓。(《古代汉语词典》“侯”字注)

侯 hóu (1)箭靶。《诗·小雅·宾之初筵》:“大侯既抗,弓矢斯张。”(2)君。《易·屯》:“利居贞,利建侯。”(3)五等爵的第二位。《左传·文公十二年》:“于是晋侯不见郑伯。”(《王力古汉语字典》“侯”字注)

我们的释义要像《王力古汉语字典》那样有概括性,而不是像《古代汉语词典》那样立许多义项,给出许多书证。

第四,要标明义项的语体特点。要联系汉语研究汉字。汉语书面语自古至今大体可以分为三类:一是源自先秦两汉的文言文,中经唐宋八大家,直到清末桐城派的方苞、姚鼐等。语言特点是用了“之、乎、者、也”等虚字。二是源自魏晋的古代白话文,由隋唐至宋元。明清的四大名著《三国演义》、《水浒传》、《西游记》、《红楼梦》,几乎无人不晓。语言的特点是用了“吧、吗、啊、呢”等虚字。三是自清末至今的现代白话文,语言的特点是新创了许多新的词语和句式,同时吸收了西方语言的许多有用成分。伴随这三类不同文体的产生和发展,汉字也出现了一批批的新字,有的传承字增加了新的用法。我们要编的字典应该注明义项的文体特点,这样做还可以帮助读者深入了解该义项的时代特征。我们用〈古〉表示古代汉语,用〈近〉表示近代汉语,用〈方〉表示现代汉语方言。不加标注的是现代的书面语和口语。按照义项出现的文体不同,释义分为以下六种类型:(1)只用于文言文里,要引用文言文书证,义项前标〈古〉。例如:伾 pī 〈古〉(1)[伾伾]有力的样子。《诗·鲁颂· 》:“薄言者,有骓有 ,有骍有骐,以车伾伾。”(2)古山名。《尚书·禹贡》:“东过洛汭,至于大伾。”彲 chī 〈古〉同“螭”。兽名,传说为无角的龙。《史记·齐太公世家》:“所获非龙非彲,非虎非罴。”(2)只用于古白话里,要引用古白话文书证,义项前标〈近〉。例如:始 shǐ 〈近〉仅只。唐·李白《梁园吟》:“天长水阔厌远涉,访古始及平台间。”(始及:仅及。)捧 pěng 〈近〉搀扶。唐·元稹《莺莺传》:“俄而红娘捧崔氏而至。”(3)只用于现代白话文里,用现代的例词或例句,不注明出处,也可以不用例词或例句。义项前不加标注。例如:搞 ɡǎo 做:搞革新。甩 shuǎi (1)抡;扔:甩袖子|甩手榴弹。(2)抛开;抛弃:被甩在后面。啤 pí [啤酒]用大麦作主要原料制成的酒。(4)只用于现代方言,用现代方言的例词或例句,不注明出处,也可以不用例词或例句。义项前标〈方〉。例如:凼 dàng 〈方〉塘;水坑:凼肥。囡 nān 〈方〉(1)小孩。(2)女儿。(5)古今通用义,先出现代的例词或例句,后出古代的书证。义项前不加语体标注。例如:俑 yǒng 用于殉葬的木偶或陶人:陶俑|兵马俑|《孟子·梁惠王上》:“始作俑者,其无后乎!”伐 fá 出兵攻打:征伐|口诛笔伐|《左传·僖公五年》:“晋侯复假道于虞以伐虢。”(6)古白话和现代白话文里的意义,先出现代的例词或例句,后出古白话里的书证。义项前不加语体标注。例如:篷 péng (1)遮蔽风雨日光的顶盖:船篷|敞篷汽车|宋·汪元量《湖州歌》:“靠着篷窗垂两目,船头船尾烂弓刀。”(2)船帆:扯起篷来|《三国演义》四十九回:“箭到处,射断徐盛船上篷索。”又代指船|唐·皮日休《寄怀南阳润卿》:“何事对君犹有愧,一篷冲雪返华阳。”娆 ráo [娇娆]娇艳妖娆:体态娇娆|金·元好问《古意》:“桃李弄娇娆,梨花淡丰容。”

第五,正文的编排。

1. 正文如何排列,是用部首序还是用拼音序?从道理上说,收字多的字典,因为其中收录了许多生僻字,最好用部首查字法查字,可是实际上,人们还是愿意使用音序法。《辞海》原来使用的是改革后的部首法,在全书的后面附音序检字表。1999年出版的第五版,有部首排序版和音序版两种版本。到了2009年出版的第六版,放弃了部首检字表,改为按音序排列。其中透露的信息值得关注。

词典正文按汉语拼音音序排列。声韵相同的音节按声调阴、阳、上、去的顺序排列。同音字按照《GB13000.1字符集汉字字序(笔画序)规范》里的《汉字字序定序规则》排序。

2. 非一对一的繁简字要分列字头,分别注音释义。例如:1获(獲) huò 得到,取得:俘获|《周易·解》:“田获三狐”(田:田猎)。2获(穫) huò 收割庄稼,所得到的成果:收获|《诗·豳风·七月》:“八月剥枣,十月获稻。”1斗 dǒu (1)市制容量单位,1斗是10升。(2)量粮食的器具,容量是1斗。(3)像斗的东西:漏斗|熨斗。(4)二十八宿之一。2斗(鬥)[鬪鬦鬭] dòu (1)对打:斗争|搏斗|《史记·商君列传》:“民勇于公战,怯于私斗”。(2)比赛胜负:争斗|《史记·项羽本纪》:“吾宁斗智,不能斗力。”1△发(發) fā (1)放射:发炮|发光|《孟子·公孙丑上》:“射者正己而后发。”(2)交付,送出:发货|《史记·廉颇蔺相如列传》:“使人发书至赵王。”……2△发(髮) fà 头发|怒发冲冠|令人发指。

3. 多音字的几个音项集中在第一音项处注音释义,在其他音项的音韵位置上出现参见。

第六,编制字形索引。字形索引的编制主要有三种方法,就是部首法、四角号码法和笔画笔形法。部首法是汉字的传统排检法,但的确十分复杂,使用者难于掌握,不受欢迎。2009年国家语委发布了《汉字部首表》(GF0011—2009)和《GB13000.1字符集汉字部首归部规范》(GB0012—2009),作为统一部首查字法的规范,但是实际效果尚待观察。四角号码法是一种不错的字形查字法,在民国时期一度甚为流行,后来转归沉寂,能够使用的人数不多,在市场上失去了竞争力。目前《汉语大词典》使用的《单字笔画索引》和《汉语大字典》使用的《笔画检字表》实际都是笔画笔形查字法。这种方法的要点是先按整字的笔画数排列,实际就是第一次分组。《汉语大词典》1~26画及26画以上共分为37组,《汉语大字典》1~37画及37画以上共分为38组。这两部辞书由于收字量很大,笔画数相同的字很多,尤其是8画至18画的字,所以笔画数相同的字必须第二次分组,也就是按照笔顺和笔形(横、竖、撇、点、折)来分组。使用时先数笔画数,在同一个笔画数下再根据笔顺笔形去查检。这种方法表面看比较笨拙,可是由于规则简单明确,因此便于掌握,查字的准确率(命中率)也较高。

第七,是一卷本,而不是多卷本。全书字数为300万字左右。定价要适中,最高不超过百元,以适应一般读者的购买能力。

编一部全球华人都适用的字典

汪惠迪(新加坡联合早报)

华语的字典和词典同属工具书,但是二者功能不同。字典收录的是一个个的汉字(Chinese character),如《新华字典》和《现代汉语规范字典》;词典收录的是一个个的词(word)或词组(短语,phrase),如《新华词典》和《现代汉语词典》。字典里的字在释义和介绍用法时,往往会以词或词组为例,编者甚至会附带解释一些词语,所以字典多少兼有词典的功能。词典里所收的条目分单字条目和多字条目,单字条目(单字词或称字词)均有释义和用法介绍,跟字典大致相同,所以词典所兼有的字典功能,比字典所兼有的词典功能要大得多。甚至可以这么说,一般人学习或使用华语华文,如果只备一部高质量的词典而不备字典,也许就够用了,反之,只备一部高质量的字典而不备词典,肯定不敷应用。如此说来,岂不是词典几乎包容了字典,字典就无足轻重了吗?不然。字典自有其独特功能,是词典所不能取代的。

汉语辞书研究中心专家所做的初步调查统计显示,从1949年至今,中国出版各类字典1 377部,其中1 314部是中小型字典,1 360部是以儿童或青少年为读者对象的。笔者发现在这1 377部字典中,没有一部是以寰球汉字文化圈内的华人,特别是境外和海外华人为读者对象的。中国的字典编纂者和出版社也许觉得,没有必要专门为境外和海外的华人编纂、出版一部适合他们的字典;或者认为,在已经出版的字典中,已有适合境外和海外华人的字典了。恕笔者直言,在汉语大步流星地走向世界的今天,中国的字典编纂者和出版社不应将视野局限于大陆,而应放眼世界,树立编纂或出版的全球观。北京商务印书馆组织编纂并出版《全球华语词典》是一个令人激赏的良好开端。笔者衷心地希望中国的辞书编纂者和出版社能够为促进汉语的国际传播,编纂和出版更多适合境外和海外华人的优质语文工具书。

就个人所见,在中国大陆之外,台湾的字书出版业比较发达,但大多立足本土,所出版的字典主要以台湾读者为对象;香港和澳门出版了几部字典,也都以当地读者,主要是学生为对象。在东南亚,华文教育最发达的国家是新加坡和马来西亚,可是目前还没有一部由当地专家编纂、出版的有影响的字典。原因之一是无论港澳或新马,辞书市场都被中国大陆出版的字典或中国字典的当地版所占据。中国字典的港澳版或新马版大多是换个封面,或将简体字转换为繁体字而已。有的虽然补充了一些“当地特色”,且以此为卖点,但大多不过是点缀而已。

以收录全球主要华人社区的特有词语,以及异名同实词语为特色的《全球华语词典》,已于2010年5月由北京商务印书馆出版,新加坡同步出版了新马版。该词典面市后,当地读者反应热烈,卖得很火,可见新马读者是欢迎这部词典的。由此,笔者联想到,作为配套,最好编一部全球华人都适用的《全球华语字典》。

各地华人社区有不同用字习惯。笔者长期从事文字工作,以咬文嚼字为生,对港澳、新马华人的语文生活略知一二。在日常工作中,时常碰到一些用字问题。先讲一个切身经历的故事。

1999年秋,我从新加坡退休回到香港。一日前往人民入境事务处申领特区护照,我递交申请书后,即被退回。我问有何不妥,对方反倒问我:“乜你唔识写自己嗰名咩?”(你怎么不会写自己的名字呢?)我愕然,忙问错在何处。承办人指着申请书上的“迪”字。我还是愕然。他看着我一脸不解的神色说道:“拿身份证出来对吓。”一对,原来身份证上印着的是“廸”字。我成天揣着张香港身份证,居然还不知道自己的名字是汪惠廸,而不是汪惠迪。翌年回大陆,一天带着香港身份证到银行开户,只见三个职员凑在一起忙乎了半天还没把手续办好。一问,才知电脑打不出“廸”字来,因为大陆以迪为规范字形。最后他们决定手写,然后由经办人加盖私章作证。2003年7月,我到台湾旅游,入台证件上用的是“ ”字,而香港特区政府社会福利署发给我的“长者卡”上,用的也是“ ”字。

廸、迪、,没点、一点、两点,一字三形,大陆和港澳台地区,字形标准各不相同,谁也规范不了谁。尤其是香港地区,衙门各行其是,字形不一,令人莫衷一是。他如“雨”字,最后四笔中国大陆、台湾和新马都是四点,香港地区则是点、提、撇、点,跟泰字的最后四笔一样。“步”字,大陆、香港、新马下面一竖均不带钩,台湾地区以带钩的“步”为标准。香港地区以“祕”为正体,“秘”为异体,标准跟大陆相反却跟台湾地区一致。

新加坡常用的“峇”字见于人名、物名、地名、路名、山脉名、湖泊名等,而且当地华人对“峇”字似有一份特殊的感情,对这个字的认同比其他华人社区强烈得多。然而此字在中国罕见罕用,所以小型字典不收。有的词典收了,举“峇厘”为例,但紧跟着说“今作巴厘”。新、马、印尼、文莱的华人能接受吗?“梿”在东南亚是常用字,在中国则为非常用字,不过辞书大多收录,释义是清一色的“梿枷”。若在新加坡,人们马上就会想到“榴梿”。

台湾地区常用的“糗”字,《全球华语词典》释作(例证略去):“①〔形〕形容当场出丑的窘相。②〔动〕嘲笑;使人出丑。③〔名〕丑事。”这种用法在中国大陆、港澳和新加坡已经广为流通。中国大陆的辞书虽大多收录此字,释义却都是“干粮”之类。除《全球华语词典》外,还没有一部字典有上述三个义项。“咭”字,是英语card的粤语音译,读kat(阴入),如卡片、信用卡。“咭”在普通话中读犼ī,《全球华语词典》注犽ǎ音。这类常用的方言字,华语字典该不该收,收了之后如何注音,都值得探讨。

即使是中国发布的规范汉字,有的也颇有争议。例如“林阴道”的“阴”字,多年来,反对的声音不绝于耳。《现代汉语词典》(第5版)把“树荫”和“树阴”、“林荫道”和“林阴道”当做异形词处理,语用导向(推荐标准)是“树荫”和“林荫道”。人们的语用心理表明,语言用户对“林阴道”是很反感的,所以新加坡华文报采用“林荫道”。新加坡的华文课本则严格执行中国大陆的规范标准,如果笔者没有记错,课本仍用“林阴道”。“身份证”的“份”字,中国大陆都用“份”,《现代汉语词典》(第5版)以“身份”做主条,释义后说“也作‘身分’”。台湾地区的工具书都以“分”为规范。新加坡华文报曾用“分”字,后向中国大陆倾斜,改用“份”。马来西亚也用“份”。

我在新加坡工作时,有位读者来电询问“小”字怎么写。一问才知她为了左边是点还是撇跟人家争论。宋体是撇,楷体是点,华文课本用楷体排印,所以是点,字典多以宋体排印,所以是撇。点撇之争是无谓的争论。如果字典提供“楷宋辨异”知识,这类争议当可避免。

上举数例涉及字形、字音、字义、写字问题,规范的刚柔相济问题,汉字的规范与协调问题,字用的地区差异问题,等等。笔者认为可以参照编纂《全球华语词典》的经验,编纂一部能够妥善解决这些问题的、对全球华人普遍适用的字典。

汉语辞书编纂

[1]

《新华字典》方言字条目的历时考察

吕永进 姜晓彤(鲁东大学)“所谓汉语方言字,是指在特定的方言区内通行、专门用以记录汉语方言口语的文字。”(林寒生2003)方言字作为记录方言词汇的文字,在社会生活中必不可少,收录方言字是字书收字任务中不可或缺的内容之一。

至今,关于我国各种字书收录方言字的系统调查和理论研究还不多见,有关方言字在语文辞书中收录的研究,更多还限于词典的范围,于字书所见不多。本文选取我国最具代表性的小型语文字典———《新华字典》作为考察对象,调查《新华字典》从初版到最新版总共[2]十版的方言字条目收录、注音、释义和举例等几方面情况,以期对《新华字典》方言字条目有一个系统的认识,借以窥视我国小型语文字典方言字条目的编纂理念和编纂实践。一、《新华字典》方言字的收录1. 方言字收录的标准问题

目前,我们还没见到关于字典方言字收录标准的系统论述。有的学者认为,“有影响的方言字应当酌情收列”(赵振铎2001),这仅是个原则性的标准,其尺度不容易把握。何况,语言是变化发展的,“有影响”的标准也会随着社会的发展而有所不同。

我们当然也可以借助词典方言字收录的理论,来理解字典的相关问题。如晁继周(1982)认为:“(一)通行地区过于狭小的俚语成分不应收录;(二)作品中较常见、口语中经常使用的词语可以考虑收录;(三)普通话里没有相应同义词的,可以考虑收录;(四)普通话里虽然有它的同义词,但它们之间存在着风格、情味、色彩上的明显区别的,可以考虑收录。”

闵家骥(1982)认为:语文词典应该适当收录已经进入普通话或有可能进入普通话以及在书籍报刊上经常出现的、或在某些大方言区里常用的方言词。为了提高收取方言词的质量,首先要做好方言调查;其次要对方言词进行分类,选择可能进入普通话的、普通话中无合适的词代替的、有较大影响的方言词;另外要处理好方言词在形音义方面的问题。

总之,在语文辞书方言字(词)的编纂方面,典型性、实用性、互补性、前瞻性等是目前学界已经较多地注意到的问题,但还有一些方面的研究显得相对薄弱,比如时效性、科学性、区别性、规范性等。2. 《新华字典》方言字收录的数量

由图一可知,《新华字典》收录方言字的总量在逐版增加。据统计,从1957年版到2011年版共增加了230个方言字,末版比初版增加了4倍多。

由图二可以看到,《新华字典》收录的方言字(方言义项)数量有三次相对集中的增加。一是从1959年版到1962年版,新增61个方言字或方言义项,如“煲、俵、嗲、腚、蔸”等;二是从1962年版到1971年版,新增了70个方言字或方言义项,例如“拗、浜、甏、炖、掇、奀、畈”等;三是从1992年版到1998年版,新增了42个方言字或方言义项,例如“瞅、噇、撺、脆、矬”等。图一 各版收录方言字数量柱状图图二 两版所收方言字差值

具体来看,1962年版有11个方言字条目或义项在1959年版中未标为方言字或方言义项;有59个方言字条目或义项1959年版未收录;有7个方言字条目去掉了〈方〉的标志,它们是“坝、脊、磡、佬、噜苏、茓、脊”。1971年版有41个方言字条目或义项1962年版未收录;有35个方言字条目或义项在1962年版中未标为方言字或方言义项;在1971年版中,有7个方言字条目去掉了〈方〉的标记,它们是“罢、绷、幢、尴尬、箐、厦”;此外,“”字在1971年版中不再收入。1998年版有28个方言字条目或义项在1992年版中未标为方言字或方言义项;有20个方言字条目或义项1992年版未收录;1992年版有6个方言字条目在1998年版去掉了〈方〉的标记,它们是“呗、簕、蹊、率、龌、舁”。2011年版和2004年版相比,有28个方言字条目在2004年版出现,而2011年版不再收录,如“篗、塮”等;另有两个条目“聊”和“拧”取消了〈方〉的标志;2011年版新增了53个方言字条目,其中有29个是新增方言字条目,即在2004年版没有出现,有24个条目由2004年版的非方言字条目变为方言字条目。

以上数据表明:第一,《新华字典》总条目数由开始的8 000左右上升为1万多,方言字的收录量也随之增加,而且所占总条目数的比例也多呈上升状态。(据我们初步统计,从1957年版到1998年版,方言字条目所占总条目数的比例约为:0.93%、1.04%、1.79%、2.51%、1.98%、2.11%、2.12%、2.77%)。第二,新增方言字的词性多为名词和动词;第三,先后有40多个方言字或方言义项去除了〈方〉字标志,进入到普通话词汇;第四,方言字条目和非方言字条目有互相转换的情况,这说明在某些方言字的界定方面还需要下功夫。

另外,新增的部分地名用字,其中有一部分有〈方〉的标记,作为方言字条目出现。如“堨:〈方〉堤坝,多用于地名:富~(在安徽省歙县)|~头(在浙江省建德)”;“涌:〈方〉河汊。多用于地名:霞~(在广东省惠阳)|鲗鱼~(在香港)”等。但还有一部分没有〈方〉的标记。如“岙:浙江、福建等沿海一带把山间平地叫做‘岙’”。而我们检索到“岙”在《现代方言大词典》中解释为吴语和湘语,在浙江和湖南一带使用。该字恐怕也应归为方言字范围。

由此可见,对于地名用字是否应归于方言字范围,《新华字典》的处理还缺乏统一的标准。据考察,这方面的例子比较多,可见这是字典编纂的难点之一。3. 《新华字典》方言字收录的字头形式

经调查,《新华字典》收录的方言字条目的字头分为两类,一类是单纯的方言字字头,一类是方言义项与其他非方言义项共用一个字头,各版的各类数量如表一所示:表一 各版《新华字典》方言字条目字头形式统计

由表中数据可以看出,《新华字典》收录的方言字条目独用的比例基本稳定,从1990年版到2011年版,大致保持在60%左右。方言字条目独用字头的比例略高于合用字头条目。在建国初期的1957年和1959年,方言字独用的比例相对较低,1959年达到最低点。而在新时期开始的1979年,方言字单独使用的比例达到最高值,接近66%。

基于以上数据,我们有如下几方面的思考:一是方言字独用和合用的收录数字是否会受语言政策、语言应用等因素的制约;合用的比例少于独用的比例,是主观的安排,还是客观的反映;从方便读者的角度看,合用的体例是否可以有所改变。4. 《新华字典》方言字“用字词”和“连字词”条目的收录

据考察,《新华字典》除了收录单纯的方言字外,还收了部分与字头有关联的方言词,我们分别称为“用字词”和“连字词”,具体收录情况如表二所示:表二 《新华字典》各版收录“用字词”和“连字词”情况统计

表二中的“用字词”是指词条中既有对单个字的解释,也有对用该字组成的某个方言词的解释,如“褟:tā〈方〉在衣服上缝缀花边:~一道绦子。[汗褟儿]贴身衬衣”。“连字词”表示在对字头字没有释义,只解释包含该字头字的某个方言词,如“蕰:wēn[蕰草]〈方〉指水中生长的杂草,可作肥料”。表二中的“‘连字词’所占比例”是指“连字词”条目在所收方言字条目总数中的比例。

由表二可以看出,《新华字典》收录的“用字词”和“连字词”在收录的方言字总条目中所占的比例变化不大,“连字词”在1957年版和1959年版中稍多,占22%左右,之后一直在18%左右,直到2011年版减少到13%左右。

作为一部小型语文字典,因为汉字和汉语特殊的离合关系,合理收录少量含字头的方言词,可便于解释和读者理解方言字,但字典毕竟不是词典,所以,方言词的数量在字典中应予控制。《新华字典》显然在这方面有自己的收录标准,其合理性也可以通过读者意见的反馈,以及与其他同类字书的对比等得到评价。5. 《新华字典》方言字收录的调整

从历时的角度看,《新华字典》方言字的收录除了体现为字条的增加和减少外,还表现为对同一字条收录和删除的反复,我们称之为调整。

如“嬷:mó[嬷嬷](-mo)2. 〈方〉称呼老年妇女”,1962年版收录该字,但不是方言字,而1971年版和1979年版没收录该字,在1990年版中,它又作为方言字被收录。还有“摳”字,1957年版和1959年版收录了此字,1962年版没有收录,1971年版重新收录了简化后的字形“抠”,并作为方言字条目。

工具书要体现为读者服务的宗旨,就必须适应社会用字的实际,及时调整条目的收录。《新华字典》对有关方言字条目的修订,一方面反映了这样的指导思想,另一方面也说明在编纂过程中,对具体条目的性质判断,还应更严谨,要尽量减少误差。6. 《新华字典》方言字条目字形的变化

方言字字头在字形上的更替,我们称为方言字字形的变化。随着我国汉字形体国家标准的更新和调整,《新华字典》对方言字字头的字形进行了适时的更新和调整。如在1957年版和1959年版中,方言字条目还收录了部分繁体字和异体字作为字头,到后来的版本中则逐渐换成了规范的简化汉字。如“餑餑、摜、摳”,在1971年版改以简化字“饽饽、掼、抠”为字头。

字头字形的标准化和规范化,不仅体现了字典编纂整体上对标准化和规范化的追求,而且可以在引导作者自觉遵从国家标准方面起到独特的作用,同时,也减少了读者不必要的疑惑,方便了读者对字典的使用。《新华字典》在字头字形标准化、规范化方面,为同类字典树立了榜样。二、《新华字典》方言字的注音1. 注音工具《新华字典》1957年版采用注音字母和文字改革委员会1956年11月修正的《汉语拼音方案(草案)》的第一式拼音字母两种形式注音。自1959年版开始,字头全部根据《汉语拼音方案》标注字音,同时附有注音字母注音,以供读者参考。

双式注音的好处是可以更广泛地满足不同读者的需求。2. 《新华字典》方言字注音的类型

我们把《新华字典》的方言字条目的注音分成四种类型来考察,即“独音独用”、“合音独用”、“独音合用”和“合音合用”。各类注音的数量及比例见下表:表三 《新华字典》各版方言字条目各注音类型的数量和比例“独音独用”就是方言字条目只有其方言读音,只作为方言字条目使用,不与其他读音和义项共用一个字头。如“粑:bā〈方〉饼类食物(叠):玉米~~”;“浜:bāng〈方〉小河沟”;“甏:bèng〈方〉瓮、坛子一类的器皿”;“煲:bāo〈方〉①壁较陡直的锅:沙~|瓦~|电饭~②用煲煮或熬:~粥|~汤”等。这些字都只有一个读音,而这个读音是方言读音,在这一字头下,有的只有一个方言义项,如“粑、浜、甏”;有的有两个及以上的方言义项,如“煲”等。

由表三可以看出,“独音独用”在各类中所占比例最大,平均在45%左右。

这里有一个特例:“垭”字有两个方言读音,但表示同一个方言义项,属于方言异读,我们把它归入“独音独用”。“合音独用”是指方言字条目与其他义项共用一个字形,单列字头,在本读音下只做方言字和方言义项存在。如“眯:mī②〈方〉小睡:~一会儿。另见mí”;“拗:ǎo〈方〉弯曲使断,折:竹竿~断了。另见ào、niù”;“孱:càn[孱头](-tou)〈方〉软弱无能的人。另见chán”等。

由表三可以看出,此类所占的比例最少。在1959年版和1957年版中,所占方言字条目的比例不足5%,从1962年版增加到接近10%,自1971年版开始接近15%,从1979年版开始都在15%以上,2011年版所占比例最高,达到17.10%。

值得注意的是如下三种情况:

一是2011年版新增的部分“合音独用”的方言字条目,有的是新增了一个读音,以前没有这个读音和这个方言义项。如“涌:chōng〈方〉河汊。多用于地名:霞~(在广东省惠阳)|鲗鱼~(在香港)。另见yǒng”;“怔:zhèng〈方〉发愣,发呆:发~。另见zhēng”。在2004年版中,这二字分别只有“yǒng”和“zhēng”的读音,也没有方言意义。

二是有的条目以前有这个方言义项,但是和原字合用一个读音,如“挼:ruó〈方〉①(纸、布等)折皱,不平展:纸~了。②(布)快要磨破:裤子穿了好多年,都~了。另见ruó”。在2004年版中,是“ruó”的读音兼有第一个方言义项,第二个方言义项没有被收录。而在2011年版中,新增了一个读音,方言义项被分化出来,并且新增了一个方言义项,使这个方言字的解释更加详细,方言字条目更加完整准确。

三是有的条目以前不作为方言字条目出现,在2011年版成为方言字条目,如“蹲:cún〈方〉腿、脚猛然着地,使腿或脚受伤:他跳下来~了腿了。另见dūn”。“合音独用”所占的比例总趋势是逐版增加,由此可见,这种方言字的形成方法正逐渐受到人们的重视。用一个已有的字代表方言字,降低了人们识记的难度,但同时这部分字应控制在一定的比例内,如果合音独用字太多,就会导致混淆,不利于方言区的人学习普通话。“独音独用”与“合音独用”都是在这一读音下只对应方言字,前者是只有这一个读音是方言读音,后者是这一读音是表示方言字条目,表示其他非方言义项有其他读音。方言字条目专有自己的读音,这类用法从1962年版以后,一直保持在60%左右,而前面的1959年版在45%以上,1957年达到了50%。“独音合用”是指字头只有一个读音,但有若干义项,其中有一条或几条是方言义项。如“甸:diàn②〈方〉甸子,放牧的草地,多用于地名”;“掉:diào③〈方〉遗漏,遗失:文章~了几个字;钱包~了”;“毁:huǐ③〈方〉把成件的旧东西改造成别的东西:这两个小凳是一张旧桌子~的”等等。这些字除了表示方言义项外,还有其他的常用意义,如“掉”一共有八个义项,方言义项为第三个义项。“独音合用”在这四类中所占比重位于第二位,仅次于“独音独用”。在1957年版和1959年版中,“独音合用”所占的比例接近40%,从1962年版开始,所占比例在25%上下,从1998年版开始一直在30%左右。基本占了全部方言字总数的三分之一弱。“合音合用”是指某个字有两个及两个以上的读音,在其中一个读音下,除了方言义项还有其他的义项。如“得:děi③〈方〉满意,高兴,舒适:躺着听音乐挺~。另见dé、de”;“斗:dòu③〈方〉拼合,凑近:那条桌子腿还没有~榫|用碎布~成一个口袋。另见dǒu”;“谷:gǔ④〈方〉稻,也指稻的籽实:糯~|粳~|轧~机。另见yù”等。“合音合用”在1971年版之后,是这四类中所占比例最小的一类,大都在10%左右。在前期的1957年版、1959年版和1962年版中,所占比例多于“合音独用”一类。“独音合用”与“合音合用”都是与其他义项同用一个读音,在1957年版和1962年版中,所占比例都在50%左右,基本上和独音独用类型的比例持平。在1962年版以后,一直在35%至40%左右浮动。3. 注音的修订《新华字典》的注音修订首先表现为根据实际情况增加新的读音,或删掉已有的读音。如“棹”在1992年版中有两个读音,一为zhào音:2. 〈方〉划(船)。二为zhuō音:见“桌”,而在1998年版中只有第一个读音,第二个读音已被删除。我们认为,当“棹”字现在已经很少作为“桌”的异体字出现时,这样的处理是符合实际的。

其次,对某些读音根据国家字音标准进行修订,也是《新华字典》采取的手段之一。如,慰帖:yù[熨帖][熨帖](-tie)。在1992年版中,这个方言词的第二个字的读音是轻声,在1998年版中改读阴平。又如,“拎”在1979年版中读作“līng”,在1990年版中改读作“līn”。

根据语用实际和国家标准,及时调整和修订方言字的注音,符合字典科学化、规范化的原则。三、《新华字典》方言字释义的修订和完善

释义是一部字典的灵魂。《新华字典》为了更科学、准确地进行词语的释义,从第二版开始,就不断地对方言字的释义进行修订和完善。

经考察,《新华字典》大致从以下四个方面对释义进行了修订和完善,即义项的扩增,义项的删减,释义的修订和义项的调整。1. 义项的扩增

义项的扩增是指扩大和增加方言字的义项。

扩大方言字的义项,是指字典中某字原来有某个义项,但不是方言义项,后来该义项被标注成为方言义项。如2004年版的“蹩”字只有一个方言义项,“bié,扭了脚脖子。[蹩脚]〈方〉质量不好,本领不强:~~货”,至2011年版,原来不是方言义项的普通义项,也成为了方言义项,“蹩bié〈方〉扭了脚腕子或手腕子。[蹩脚]〈方〉质量不好,本领不强:~~货”。

增加方言义项,是指字典中原来没有的方言义项,在修订改版时新增加了一项。如“掼”在2004年版中只有一个义项,“掼guàn〈方〉掷,扔:往地下一~”,在2011年版新增加了一项:“掼guàn〈方〉①掷,扔:往地下一~。②跌;使跌:~了一跤|把他~倒在地。”又如,“贼”在1992年版只有一个方言义项:“贼:zéi④〈方〉狡猾:老鼠真~。”在1998年版中,又新增了一项:“贼:zéi④〈方〉狡猾:老鼠真~。⑤〈方〉很,非常:~冷|~亮。”

方言义项的扩大是因为有部分常用义项,随着语言的发展,只在部分地区继续使用,成为了方言义项。而方言义项的增加,是因为该义项在使用过程中,发现了新的用法,增加了新的意义。字典对方言义项的扩增,表现了辞书及时反映现实语言生活的适时性。2. 义项的删减

义项的删减包括义项的删除和义项的减少。

义项的删除,在《新华字典》中一般表现为方言字条目的删除。如“塮”在2004年版中有方言义项“xiè〈方〉猪羊等家畜圈里积下的粪便”,在2011年版中,这个方言字不再收录,当然,该义项也就删除了。

义项的减少,是指在字典中,某个义项不再作为方言义项出现。如“棒”在1992年版中有方言义项“②〈方〉体力强,能力高,成绩好等:这小伙子真~|画得~”,但到了1998年版,该义项已经不作为方言义项,而成为普通义项。3. 释义的修订

释义的修订包括释义的修改和释义的完善。

释义的修改,是指为了使释义更加准确、通俗、明了,便于读者理解而做的修改。如1992年版的“爿”的解释为“②〈方〉量词,指商店等:一~水果店”。这个释义不准确。该义项在1998年版中做了修改:“〈方〉量词,用于商店等:一~水果店”。又如,在1979年版中“貔”解释为“pí[貔子](-zi)〈方〉黄鼬”,这个解释过于专业化,可能会影响一般读者的理解。1998年版改为“[貔子](-zi)〈方〉黄鼠狼”,用民间通俗的名称释义,便于读者理解。

释义的完善,是指对原来释义不够明确和完整的条目进行补充和修改,使释义精准明确。

如1992年版“拆”的释义是:“〈方〉排泄(大小便):~烂污(喻不负责任)”,而1998年版修订为“〈方〉排泄(大小便):~烂污(喻不负责任,以致把事情弄糟)”。增加了结果补充语,使释义更准确到位。

又如1959年版的“巴”解释为“bā②粘贴(方):~在墙上|饭~锅了”,1962年版修改为“〈方〉粘贴,依附在别的东西上:~在墙上|饭~锅了”,对释义进行了补充,使释义更加形象,便于理解。

再如2004年版“疙”字头下收入的方言词只解释为“gē[疙瘩](-da)5. 〈方〉量词:一~~石头|一~~糕”,在2011年版修改为“[疙瘩](-da)5. 〈方〉量词,用于球形和块状的东西:一~~石头|一~~糕”经过补充后的释义,说明了适用范围,给读者更具体、直观的感受。

另外,释义的完善还包括为某些词语增加词性标注。如2004年版,给很多较难确定词性的方言字条目增加了词性标注,如“俺、甭、蛮”等,使读者可以更加明确这些字的使用方法。4. 义项顺序的调整

义项顺序的调整是指在方言字和一般字合用一个字头的情况下,字头下多个义项中,对方言义项的位置进行重新调整。如1992年版,“鼎”的方言义项排在第二位,而在1998年版中,就调整到了第三位。1992年版“毫”的方言义项排在第四位,到1998年版,该义项排在了第五位。1979年版“饶”的方言义项是第三位,在1990年版中成为第四位。方言义项排位的降低可能有两种原因,一是该字新增加了常用义项,二是该字方言义项的使用率降低了。5. 释义模式的类化

释义模式的类化是指对同类的方言字条目在释义时力求形式统一,以体现释义模式的系统性。如在地名的解释上,就有释义类化的调整,1998年版“垭”的解释是“〈方〉两山之间的狭窄地方:黄桷~(地名,在重庆市)”,2004年版改为“〈方〉两山之间的狭窄地方。多用于地名:黄桷~(在重庆市)”。1992年版“崴”的解释为“①〈方〉(子)山、水弯曲处。多用于地名,如吉林有三道崴子。”2004年版中,依照其他同类字条的释义模式统一为“①〈方〉(子)山、水拐弯处。多用于地名:三道~子(在吉林省靖宇)”。在解释地名用字时,所举的例子不再作为释义的补充出现,而成为例证,对所属的省市在括号中补充说明。四、《新华字典》方言字条目的例证1. 例证的数量和比例

例证并不是每个条目释义必备的内容,要视具体情况而定。据我们调查,各版《新华字典》的例证数及其比例如下表:表四 各版《新华字典》方言字条目例证数及其比例

表四所显示的比例是指《新华字典》方言字有例证的条目占所有方言字条目的比例。由表四可以看出,方言字条目中有例证的条目一直在45%以上;1962年版以前均在50%以上,从1971年版到1992年版明显下降,均不足50%;自1998年版开始重新达到50%以上,且在2011年版达到了最高的60.86%。《新华字典》方言字条目例证的数量及其变化,值得我们从必要性、规律性、实用性等方面进行专题研究。2. 例证的修订

举例在方言字释义中具有重要的作用,既能帮助读者形象地理解字义,也直观地体现了方言字的用法和使用语境。

据调查,《新华字典》例证的修订可以分为增加、减少、改换和修改等四种情况。

例证的增加是指为原来没有例证的方言字条目增加例证。如1992年版的“镏”解释为“〈方〉镏子,戒指”,1998年版改为“[镏子]〈方〉戒指:金~~”。

例证的减少是指删掉了原来条目中的部分例证。如在1971年版中,“棒”的例证有三个“这小伙子真~|画得~|考得~”,1979年版去掉了“考得棒”一例。我们观察到,《新华字典》方言字条目例证的增加和减少有时是反复的。如“抠”的例证就经过了先减少后增加的过程。在1971年版中,“抠”的释义“③〈方〉吝啬”后列举了一个例子“他这人真~,一张纸也舍不得”,在1979年版中,该例被删除,至1998年版又为该义项增加了例证“③〈方〉吝啬,小气:~门儿”。

例证的改换一是指把有些过于陈旧的例证,改换成比较符合社会现实生活的例子,以便读者理解。如1992年版“煲”的例证是“沙~|瓦~|铜~”,在1998年版中将“铜煲”换为“电饭煲”。贴近社会现实生活的例子可以使辞书更具有时代性。二是指对原来较粗糙的例子进行更换。如在1992年版中,“掉”的举例是“东西~了”,而在1998年版该条目的举例更换为“文章~了几个字|钱包~了”,不但增加了“掉”字方言字释义的义域,而且例句更加具体形象,便于理解。

例证的修改是指对原来例句不恰当、不典型的部分进行修改,使之更符合方言语用的实际。如1990年版的“蹽”的举例为“他一气~了一万米”,1998年版把这个例证修改为“他一气~了二里地”,修改后的举例更符合语用的实际情况。参考文献

1. 晁继周. 《现代汉语词典》与北京方言词. 辞书研究,1982(6).

2. 林寒生. 汉语方言字的性质、来源、类型和规范. 语言文字应用,2003(1).

3. 闵家骥. 收录方言词是语文词典的一项任务. 辞书研究,1982(6).

4. 赵振铎. 字典论. 上海:上海辞书出版社,2001.注释[1]本文是国家语言文字应用“十一五”科研项目“汉语字典现状调查及其规划研究”(Yb115-30)的阶段性成果。[2]《新华字典》的版次目前尚有争议,我们通过对各版次的调查,选择1957年版、1959年版、1962年版、1971年版、1979年版、1990年版、1992年版、1998年版、2004年版和2011年版的《新华字典》作为研究对象,重点研究字典中的方言字条目。

语言四技与汉语学习者词典编撰整合

吴英成 杨延宁一、引言

学习者词典是辞书家族中出现较晚的成员,1942年才出版了第一部真正意义上的学习者词典———Oxford Advanced Learner's Dictionary of Current English。随着语言学习群体的日益壮大,学习者词典逐渐成为辞书出版业和学术界关注的重点。本文认为在编撰学习者词典的过程中,应该将学习者培养语言四技的实际需要考虑在内,同时明确不同等级的学习者对词典的不同使用需求。换言之,即是将语言技能培养和学习者词典的编撰整合。要实现这一目的,必须回答以下三个问题:(1)学习者在培养语言四技的过程中分别需要词典中的哪些信息?(2)不同等级的学习者所需要的词典信息是否相同?(3)学习者词典应该怎样提供有用信息,帮助不同等级的学习者解决实际困难?

在回答这些问题的基础之上,本文提出了一个针对不同等级学习者的整合词典编撰和培养语言四技的框架,作为未来学习者词典的编写原则。

考虑到已有的学习者词典和相关讨论大多针对英语,因此本文的讨论将专注于汉语学习者词典,以期弥补这方面研究的不足。另一方面,汉语所特有的汉字与拼音的特殊关系也使汉语学习者词典编撰变得更复杂。为方便行文,本文有关讨论中提到的“学习者”专指汉语学习者,并假定他们的第一语言为英语。二、词典信息与学习者语言四技1. 学习者语言四技的内在关系

在语言教学与研究领域,将听、说、读、写作为四大语言技能进行区分的做法已经有超过七十年的历史。人们习惯于在实际语言教学中,将四大语言技能的训练切分为不同的课程。随着20世纪80年代交际教学法的兴起,语言教学界开始倾向于将四种语言技能的培养进行整合。越来越多的课程设置针对两种或更多种语言技能的训练和提高(Brinton,Snow&Wesche 1989;Wills 1996)。本文针对的目标群体是语言学习者,关注的是语言四技在语言学习的过程中所体现出的内在关系。从信息传递的角度来看,聆听和阅读同为接收性技能,说话和写作则同属产生性技能。针对第二语言学习者,这种信息的传递又有不同的含义。这类学习者接收和产生的信息都以第二语言为载体,但他们的思维活动却借助第一语言完成。换言之,在第二语言学习者传递信息的过程中常常会出现语言之间的转换,如表1所示:表1 第二语言学习过程中语言四技的内在关系

考虑到学习者第一与第二语言技能的实际差异,他们的信息传递能力与思维水平之间存在着一定的落差。这种落差当然可以通过不断提高第二语言的水平加以弥补,但那是一个长期的过程。现实中学习者常常使用的就是工具书,包括各类型的学习者词典。我们甚至可以认为学习者词典出现的一个重要原因就是为了向学习者提供大量信息,填补信息传递能力和思维水平之间的落差。这实际上也引出了下一部分的内容,即词典信息应该怎样填补学习者培养语言四技过程中的信息落差。2. 词典信息与学习者语言四技的培养

词典主要向学习者提供四个方面的信息,即具体词条的发音、词(字)形、意义和用法。这些信息都开放式地提供给学习者,但学习者在进行不同语言技能的训练时只是选择性使用。这里讨论的是学习者针对每一种语言技能使用词典时可能做出的最大选择,依听、说、读、写的顺序进行阐述。

聆听的过程可以划分为多个步骤:从听到原始声音到界定语段,再到调用背景知识,然后猜测进而确定语义,最后完成短期记忆到长期记忆的转化,听到的声音内化为大脑内的信息(Brown 2001)。如果听者不能确定某个或某些词的含义,就会造成聆听过程的停顿,影响最后的理解。学习者可以通过词的声音使用词典来确定它们的意义。如果需要查找的词只代表整个篇章中的次要信息,使用词典确定词义的作用并不显著;相反,如果一个词承载着篇章的关键信息,而且反复出现,使用词典可以显著提高对该词语所在篇章的理解。另外,确定词义可以帮助学习者调用背景知识,提高猜测相关词词义的准确度。因此,词典中同语音和意义相关的信息对听力过程最为重要。

在进行口头表达之前,学习者需要一个思考的过程,之后才能选择合适的词语来进行表达。所以,学习者首先确定的是要说什么,要表达怎样的意思,然后才通过使用词典来确定该意义在汉语中应该用哪些词语表达,如何发音。但是,口语表达还有是否得体合适的问题,这一点对较高级的学习者显得尤为重要。学习者常常要在查到的词典信息中做出一些取舍。在这种情况下,词典中关于某词条用法的信息就显得尤为重要。由此可见,学习者借助词典完成口语表达涉及词典中语音、意义和用法三个方面的信息。

相当多的学习者使用词典的初衷就是为了完成阅读任务,甚至有初级学习者几乎每词必查。阅读过程中一个很大的特点莫过于读者同时经历“由总到分”和“由分到总”的阅读历程。前者可以视之为概念驱动型阅读,学习者读到某一概念时会调用已有知识;后者则是一种数据驱动型阅读,读者将读到的细节信息进行汇总。词典的使用也是分别针对这两个过程的,学习者查找的既有细节信息也有总体概念。阅读过程中,学习者看到的是书面语,查词典的过程也常以字形为起点,查找的目标通常是词语的意义。换言之,阅读过程中使用词典主要是为了获得词(字)形和意义两方面的信息。当然,水平较高的学习者偶尔也会查找用法信息帮助理解,这一点下文还会提及。

写的过程与说的过程有相似之处,学习者在写作之前通常有一个思考的阶段。学习者在用第二语言写作的过程中,如何写的问题永远比写什么来得麻烦。词汇量不足、句式不熟、表达方式不得体都是写作时必须面对的问题。学习者在写作过程中使用词典时,不但要确定词义,还要掌握用法,甚至要区分同义表达。另一方面,学习者还常常通过词典来确定词(字)形,这对于必须面对汉字的汉语学习者显得尤为重要。由此,学习者写的过程同词典中提供的词(字)形、词义和用法信息都密切相关。

综上所述,词典信息与学习者语言四技培养的关系如表2所示:表2 词典信息与语言四技的关系

上文中,我们一直将学习者作为一个整体进行讨论。事实上,学习者也可以按水平高低划分为不同的群体,不同等级的学习者所需要的词典信息各不相同。下一节的讨论就以此为切入点,探讨学习者词典是否应该划分为不同的等级。三、学习者词典的不同等级1. 不同等级的学习者

语言教学和研究人员常常将位于不同阶段的学习者划分为初级、中级和高级三个群体。不同研究领域、不同国家地区的划分标准差别很大。有些时候,学习时间会成为重要的考量因素。例如,中国台湾地区将学习时间介于360到480小时、超过480小时和超过960小时作为划分初、中、高级学习者的一个标准。此外,学习者的词汇量和语法能力也会成为划分的重要标准。例如中国大陆的HSK测试就依据专门的等级大纲,针对汉字、词汇及语法能力对学习者进行等级划分。

本文对初、中、高级学习者的界定依据“美国外语教学协会”(American Council on the Teaching of Foreign Languages 1986)所制订的“中文程度纲要”(Chinese Proficiency Guidelines)的基本原则。该纲要区分三个等级学习者的最重要标准是其处理语言单位大小的能力和交际能力的高低。初级学习者无论使用何种语言技能,其处理的信息都以词或词组为单位,他们还缺乏完成交际活动的能力。中级学习者则具备了组词成句的能力,语言技能的使用以句子甚至段落为单位。他们已经可以完成特定目的的交流,只是还缺乏主动性,常常处于被动地位。高级学习者的各种语言技能运用以语篇为单位,可以根据实际环境和特定场景,主动地进行交流。他们所进行的很多词句选择实际上是在语义学层面进行的。需要说明的是,有些学习者四种语言技能的水平可能不一致。有可能出现听说能力已达到较高水平,而读写能力相对较低的情况。也可能由于一些特定原因,造成读写能力强于听说能力的状态。本文所讨论的是普遍意义上的学习者类型,这些情况暂不涉及。2. 不同等级学习者对词典信息的不同需求

不同等级的学习者对词典信息自然有不同的需求。初级学习者的第二语言技能培养以词语为核心,情况较为简单。就听、说技能而言,他们受到第二语言词汇量、语法知识和语段切分能力的限制,只能处理简单且不具备特别交际目的的语言材料。基于同样的原因,初级学习者所能阅读的也只能是以词语为中心的广告、表格、菜单之类简单的语言材料。其写作的能力也仅限于填充表格、书写清单或便条等。初级学习者查阅词典通常有两个目的:1)已知特定词语的语音、词形信息,确定其词义;2)从要表达的意义出发,确定应选词语的发音和词形。词典中以学习者的第二语言呈现的词语用法说明对初级学习者没有太大的意义。

中高级学习者的情况则要复杂得多。这两类学习者具备处理句子和语篇的能力,语言技能的使用也更具交际性。大多数情况下,他们使用词典的目的是为了确定词语的用法,其中可能包括搭配关系、常用句式和使用场景。高级学习者甚至会查找同义项和反义项,从而使用最切合表达意图的词语。但是,这并不意味着中高级学习者就不会遇到词语的问题。学习者的个人学习经历、使用的教材类型,甚至身处的学习环境都有可能造成某一方面或某一类词语的缺失。即便是拥有多年学习经验、水平很高的第二语言学习者也需要查检词典以确定语音、词形或词义的情况。

将不同等级学习者对词典信息的不同要求与表2结合,就可以得到词典信息与初、中、高级学习者语言四技之间相互关系的清晰轮廓,如表3所示。表3 词典信息与不同等级学习者语言四技的关系3. 学习者词典涉及的语言选择

已有研究多专注于词典信息本身,对信息的呈现形式较少提及。任何信息都需要以特定的形式呈现,可以是声音、文字,也可以是图画和代码。具体到词典信息的呈现,就是词典中以何种语言呈现具体词条及其对应释义及用法的问题。这是汉语学习者词典编撰的核心问题,也是亟待改进之处。汉语学习者词典的编者从一开始就面临两个选择:1)词条语言与释义语言相同;2)词条语言与释义语言不同。选择的结果决定了该词典是单语汉语学习者词典还是双语汉语学习者词典。学术界对单语和双语学习者词典的区别与优劣有过诸多讨论(Underhill 1985;Thompson 1987:282—286;Amritavalli 1999:262—269):支持使用单语词典的一方强调,使用单语词典可以迫使学习者更多地接触第二语言,同时防止学习者形成词语与翻译之间的简单对应;支持双语词典一方则强调双语词典包含了单语词典的所有功能,也比较适合学习者使用。

已有的关于单双语词典的讨论实际上忽略了一个很重要的问题,即不同等级的学习者对词典信息的呈现形式有不同的需求。学习者词典中释义语言的选择应该针对不同等级的学习者进行不同的处理。另一个被忽视的问题是学习者使用不同语言技能时,大脑里两种语言的出现顺序是不同的(见表1)。对汉语学习者而言,包括聆听和阅读在内的接收性技能涉及的是汉语到英语的转换过程。相反地,说话和写作这两种产生性技能则基于英语到汉语的转化。换言之,学习者提高听、读技能时需要的是汉英字典,提高说、写技能时则要借助英汉词典。因此,编写学习者词典时,应该将这两个同语言选择相关的问题作为思考的重点。四、不同等级汉语学习者词典的微观结构: 以“生气”为例

通过上文的论述,我们已经认识到不同等级的学习者使用语言四技时对词典的不同要求。如表3所示,初级学习者的汉语语言四技运用局限于词语层。在编写初级学习者词典时,没有必要加入词语的用法说明。所以,该级学习者词典的词条应包括语音、词形和词义三方面的信息。但是具体到不同的语言技能,情况又有所不同。学习者听到某个汉语词的发音,需要使用词典确定词义的情况往往不会涉及汉字,学习者完全可以从汉语拼音入手。学习者读到某个汉语词需要使用词典则有两种情况:1)知道该词的发音;2)不知道该词的发音。相应地,学习者可能分别从拼音和部首入手查找该词。所以,该词的汉字和汉语拼音形式都必须出现。

初级学习者在说、写过程中使用词典,其脑海中首先出现的是一个英文词语。在词典中找到该词后,学习者会继续查找自己需要的特定表达。如果是为了口头表达而查字典,学习者更关心的是汉语拼音呈现的语音信息。如果是在写作过程中使用词典,对学习者而言更重要的是以汉字形式呈现的词形信息。为了深入探讨这个问题,下文以“生气”一词最常用的“因不合心意而不愉快”(《现代汉语词典》第5版)义为例,探讨不同等级的学习者词典应具备的微观结构。

表4中,针对听、说、读、写四种技能对“生气”一词分别进行了处理,同时对接收性和产生性技能进行了分类。依据第一种划分方法,一部学习者词典可以按语言技能分为四个部分;以第二种方法划分,一部学习者词典可以由汉英和英汉两个部分构成。表4 初级学习者词典的微观结构

中级学习者的听、说、读、写过程围绕句子和段落展开,已经具备了一定的交际能力。在绝大多数情况下,他们不会为确定单个词语的发音和意义而查词典。特定词条的用法信息对中级学习者来说才是最有价值的内容。一旦词典触及词语用法,就必然会给出细致的注释和例句。如果这些注释和例句的复杂程度较高,超过中级学习者的水平,就有可能造成学习者理解上的困难。所以有必要以学习者的第一语言提供注释和例句的译文。但是,这类学习者在听、读过程中使用词典,通常是因为听到或者读到不熟悉的词语搭配或特殊用法。他们在完成说、写任务时查字典,也主要是为了确定某个词的具体用法。针对接收性技能和产生性技能,提供译文的方式应当有所不同。具体到听、说、读、写四个语言技能,其情况又有所不同,如表5所示:表5 中级学习者词典的微观结构

高级学习者各种语言技能较强,而且具备依据实际环境进行主动交际的能力。但是即便是最高等级的学习者同母语使用者之间依旧存在着一定的差距。这种差距往往源自对语言情景和同义表达之间细小差异的体会。从这个意义上讲,绝不可以将高级学习者词典简单等同于服务于母语使用者的第一语言词典。两者的根本差异在于第一语言词典用于确定特定词语的发音、词(字)型或词义,使用者很少关心词语的用法。而高级学习者使用词典主要是为了了解自己尚不熟悉的特殊用法。实际上这一点也区分了中级和高级学习者。由此,本文认为“生气”一词在高级学习者词典中应具备以下信息:表6 高级学习者词典的微观结构五、语言技能与学习者词典编撰整合框架

通过上文的论述,我们已经厘清:1)学习者培养听、说、读、写技能时分别需要词典中的哪些信息;2)初、中、高级学习者分别需要哪些词典信息。本文还以“生气”一词为例,分析了有关信息的呈现形式。将这些内容汇总,可以得到一个整合学习者词典编撰和培养语言四技的框架,如表7所示:表7 语言技能与学习者词典编撰整合框架

字典应将理据说解作为汉字诠释的重要内容

李大遂(北京大学对外汉语教育学院)一、汉字理据及其在汉字教学上的意义

汉字是理性的文字,其形、音、义都是有理据的,至少在造字初期是这样。汉字的理据,指汉字构形、读音、辨义的依据或道理。也就是一个字之所以有某种写法,读某个音或某些音,表某个义或某些义的依据或道理。例如“木”,甲骨文写作,是按照树木形状造出来的象形字,上为枝叶,下为树根,根据字形可以判断“木”的本义是树木。又如“理”,《说文》:“理,治玉也。从玉,里声”,从表义偏旁“王(玉)”可知“理”的本义与玉石有关,从表音偏旁“里”可知“理”的读音与“里”相同或相近。

汉字的理据是怎么来的呢?是以仓颉为首的无数造字者赋予的,是经许慎《说文》一书的归纳揭示而凸显的。从系统论来说,汉字是一个庞大的人造系统,造字者造字,都是有理据的,说汉字无一字无来历,并不为过。只不过有个别字的理据失传了,少数字记载下来的理据可能与本来的理据有偏差,还有些字的理据发生了变异。具体来说,每个汉字具有什么样的理据,取决于造字者采用的造字方法。造字法不同,造出来的字理据就不同。在象形、指事、会意、假借、转[3]注、形声这六种造字方法中,假借法没有造出新的字形,某个字因[4]同音而被借来表示与自己字形无关的意义时是假借字,没有理据。所以,除了假借字以外,象形、指事、会意、转注、形声五类文字都是有理据的。

在汉字的早期阶段,主要是象形、指事、会意三种方法所造的字,这三类字没有表音成分,其理据主要体现在形义方面,即只有构形理据和意义理据。象形字是据物构形表义,如:“(木)”、“(鱼)”。指事字用两个符号构形表义或在象形字基础上添加指事符号构形表义,如:“(二)”、“(刃)”。会意字是把两个或两个以上物象放在一起构形表义,如:“(林)”、“(休)”。汉字发展到转注、形声阶段,开始出现表音成分,即转注字(会意兼形声或形声兼会意字)、形声字有了读音理据。转注字半边表义半边表义兼表音,如:“(婚)”的偏旁“(女)”表义,“(昏)”表义兼表音。形声字半边表义半边表音,如:“(洋)”的偏旁“(水)”表义,“(羊)”表音。由于转注、形声两类合体字都有表音成分,就使汉字的理据性从形、义两方面扩展到形、音、义三方面。

在小篆(包括小篆)以前的古文字时期,以形表义是汉字理据的主要特点。小篆以后,以偏旁表示合体字读音、意义是汉字理据的主要特点。在隶变的冲击下,汉字字形消除了象形性,汉字的性质发生了根本的改变,汉字体系由表意文字转变为意音文字。在隶变楷化后,以象形、指事方法造出来的独体字,因象形性消失,其构形理据也大体消失,往往要采取溯源方法才能发现它们的构形理据,一个没有学习过古文字的人,很难根据字形判断出“日”表示的是太阳,“月”表示的是月亮。以会意、转注、形声方法造出来的合体字,虽失去象形性,却仍能通过构字偏旁表义,如:会意字“明”的偏旁“日”、“月”都表义,转注字“洲”的偏旁“氵(水)”表义、“州”表义兼表音,形声字“湖”的偏旁“氵(水)”表义、“胡”表音,等等。

繁体字有理据,大部分简化字也有理据。例如:“態”的简体是“态”,“心”表义,“太”表音。显然,造简化字“态”的人必是有感于会意字“態”没有表音成分,表义偏旁“能”笔画复杂,且表义不明,于是另造“态”字,让“心”表义,让“太”表音。归纳历史上的汉字简化方法,大体有行草书楷化、采用古字、更换偏旁、局部删改、同音音近或异音代替、另造新字和简化偏旁类推等七种。其中更换偏旁、另造新字(指抛开原字字形而造新字)和简化偏旁类推三类是理据性最强的。其他除同音、音近或异音替代简化字外,行草书楷化、采用古字、局部删改三类简化字也有大约一半尚有一定理据。

汉字已经有五六千年的历史,古代汉字构形理据比较强,读音、意义的理据也比较明显。近现代汉字构形理据因彻底脱去象形色彩而尽失,读音、意义的理据也因语音演变、字义发展,不像造字之初那么直接、那么强。有人甚至悲观地认为“汉字的‘六书字理’早已消失殆尽了,或者说早已不起多大作用了”(孙剑艺1992)。那么,现代汉字理据总体上到底还残留多少?笔者曾对HSK《汉字等级大纲》和《现代汉语常用字表》所收现代汉语常用字,做了文字学意义上的分类考察,考察结果显示:即使不将通过形体溯源才可以看到理据的独体字计算在内,有理据的现代汉语常用汉字仍接近90%(李大遂2011)。

我们常常听到有人说汉字难学。学习者觉得汉字难学,归结到一点,就是汉字的形音义难记。如何帮助学习者加强记忆?怎样缩短学习者记忆汉字的时间?心理学实验表明,理解记忆的效果大约是机械记忆的25倍(艾宾浩斯1965)。所以,最根本的办法,是让学生在理解的基础上记忆。所谓理解,就是学习者对所学知识知其然,亦知其所以然。就汉字教学而言,“知其然”指学习者知道一个汉字的写法、读音、意义,这是汉字教学的目的;“知其所以然”指学习者知道一个字之所以这样写、这样读、这样用的依据,这是科学理解记忆汉字的基础和前提。利用理据是教学的一般规律。在汉字教学中,教师希望了解汉字的理据,学生也迫切希望了解汉字的理据。理论和实践也都证明利用汉字理据可以有效减轻汉字教学难度,提高汉字教学效率。因此,作为母语教学的汉字教学也好,作为第二语言教学的汉字教学也好,都应当利用理据。

一方面,利用理据可提高单字教学的效率,减轻汉字学习难度。利用构形理据,主要指展示古文字形体,可以提高象形字、指事字、会意字的教学效率。例如:我们在讲独体象形字山、水、人、口的时候,展示出它们的古文字形体(甲骨文),学习者很容易就能记住这几个字的字形和字义。在讲指事字本、末、朱、寸的时候,写出它们的古文字形体(金文),学习者自然会对这几个字的形义记忆深刻。在讲会意字冠、寇、步的时候,写出它们的古文字形体(小篆),讲清构字偏旁的意义以后,再讲会意字字义,学习者就可以较好地把握这几个字的字义,不会混淆“冠”、“寇”二字,也不会在写“步”的时候写成“歩”。

利用意义理据进行汉字教学,主要是指明某个合体字的表义偏旁,说明它表示什么意义,与所学合体字字义有什么联系。这可以使会意字、转注字、形声字以及义系半符号字的学习记忆变得轻松容易。例如:讲胞、抱、饱、泡、孢、炮、袍、疱、雹等转注字的时候,即可以分别利用月(肉)、扌(手)、饣(食)、氵(水)、子、火、衤(衣)、疒、雨这些表义偏旁,也可以利用这些字共有的表义兼表音偏旁“包”,来教学习者较为轻松地记忆这些字的意义。在讲盯、盲、泪、相、省、冒、看、盼、眨、眉、眠、眶、睁、眯、眼、督、睛、睹、睦、睡、睬、瞒、瞎、瞥、瞧、瞩、瞪、瞻、盹、眷、瞄、瞭、瞬、瞳这些常用字时,通过字理的揭示,“目”就可以成为学习者掌握这些字字义的得力“把手”。即使像素、雷、鸡这样的字,字形的一半“”、“田”、“又”已经成为纯构形符号,但另一半“糸”、“雨”、“鸟”也还与字义有密切的联系,可以有效提示字义的类属。会意字就更不用说了。

利用读音理据进行汉字教学,就是指明某个合体字的表音偏旁,说明它读什么音,与所学合体字字音有什么联系。转注字、形声字都含有携带读音信息的偏旁,是学习者记忆字音的“把手”。例如:芭、把、吧、爬、爸、疤、笆、耙、靶等字都有表音偏旁“巴”,芭、疤、笆读音与“巴”完全相同,把、吧、爸、耙、靶与“巴”声韵相同,爬与“巴”韵同声近。此外,有一些在一般人看来不能表音的偏旁,如“途”的偏旁“余”,实际上也携带着宝贵的读音信息,不过比较隐蔽。因为现代汉语韵母u、ü过去是同一个韵(鱼韵),后来才分为两个韵。所以,在11个以“余”为表音偏旁的通用合体字中,除、蜍音chú,荼、途、涂、酴音tú,徐、叙分别音xú和xù,狳、馀音yǘ,斜音xié,除“斜”以外,韵母不是u就是ü。可见,略懂一点音韵学知识,许多偏旁的隐性读音信息,就能被发掘出来。而因声母分化而形成的含有隐性读音信息的偏旁就更多了。

另一方面,利用理据可以迅速提高学习者系统掌握汉字的能力。汉字的理性,不仅体现在每个汉字都有自己的理据,更体现在具有同一表音偏旁的字读音相同、相近或相关;具有同一表义偏旁的字字义相同、相近或相关。这就是我们所说的汉字的系统性。对学习者来说,能根据教师讲授的理据学习掌握单个汉字是汉字学习的低级阶段,能根据汉字的理据有系统地学习掌握汉字,是汉字学习的高级阶段;对中小学语文教师和对外汉语教师来说,对单个汉字进行理据说解,是汉字理据教学的初级形式;引导学习者以偏旁为纲系联形系、音系、义系字族,促进学习者系统地掌握汉字,是汉字理据教学的高级形式。一旦学习者掌握了汉字的系统性,汉字学习就能触类旁通,有些字甚至可以无师自通。例如:教放学的“放”时,告诉学生偏旁“方”在“放”字中是表音的,以“方”为表音偏旁的字,读音都与“方”相同或相近,声母不是b就是p,韵母都是ang。学生了解“方”字音系字族读音的系统性以后,就能轻松地学习掌握“仿”、“访”、“防”、“坊”、“芳”、“妨”、“纺”、“肪”、“房”、“旁”等音系字族的读音。汉字义系字族一般都比较大,以表义偏旁“水(氵)”系联现代通用汉字中的义系字族字,有多达400多个。即使在常用字范围内系联,也有200多个。凡以“水(氵)”为表义偏旁的合体字,字义都与“水”相近或相关。学生了解“水(氵)”字义系字族意义的系统性,字义学习记忆难度无疑会大大降低。二、字典对汉字理据说解的历史与现状

从现有的文献来看,《说文》是最早全面说解汉字理据的字典,几乎对每一个字都有字理说解。如《说文·人部》:“人,天地之性最贵者也。此籀文象臂胫之形。”《说文·又部》:“秉,禾束也,从又持禾。”《说文·玉部》:“琀,送死口中玉也,从玉从含,含亦声。”《说文》问世至今已近2000年,依然是我们了解汉字理据的最权威著作。如果没有《说文》,我们今天对汉字字理可能知之甚少。宋代徐铉校注的《说文解字》、徐锴的《说文解字系传》以及清代段玉裁的《说文解字注》、桂馥的《说文解字义证》、王筠的《说文解字句读》、《说文解字释例》等著作,是研究注释《说文》的最重要的著作。这些论著在提高汉字字理说解的科学性方面,在字理知识普及传承方面,都做出了卓越的贡献。

在古代的字典中,除《说文》以外,晋吕忱《字林》大体仿《说文》,有字理说解的内容。如:《字林》对“符”字的说解:“符,信也,谓分而合之曰符。字从竹。汉制以竹,长六寸,分而相合为信。[5]竹取岁寒不变,以布德也。又用铜,君臣同心也”。此字《说文》解作:“信也。从竹。汉制以竹,长六寸,分而相合”。相比之下,吕忱对字理的说解更详细,更丰满。宋王安石的《字说》也有一些字理说解的内容。如:“位者人所立”;“典,典之字从册,从丌。从册则载大事故也。从丌,则尊而丌之也”(胡双宝1998)。但此后通行范围广、影响较大的字典似乎都没有字理说解。如:梁顾野王的《玉篇》,宋司马光的《类篇》,明梅膺祚的《字汇》,明张自烈的《正字通》,清张玉书、陈廷敬等人的《康熙字典》,近现代陆费逵、欧阳溥存等的《中华大字典》,等等。

当代,特别是改革开放以后,国内出版的字典繁多,数量可观,有字理说解的字典却屈指可数。在大型的字典中,只有《汉语大字典》(1986—1990)和高树藩的《中文形音义综合大字典》(1989)有字理说解。对于《说文》所收的字,前者主要是引述《说文》的说解,个别字条会在引述《说文》说解后,增加一些后人研究的意见;后者在说解后,引《说文》及古文字研究著述加以论证,分析深入。对于《说文》所无之字,前者不加说解;后者则字字有说解。在中型字典中,有理据说解的是吕景和等人的《汉字古今形义大字典》(1994),曹先擢、苏培成主编的《汉字形义分析字典》(1999),谷衍奎的《汉字源流字典》(2008)和新华大字典编委会的《新华大字典》(2006)。各书的理据说解均建立在《说文》和近百年古文字研究成果的基础上,学术性较强。《汉字古今形义大字典》的理据说解居于字条释义开头,简洁明了,如:“拄zhǔ从手,主声”。《汉字源流字典》专设“构造”一栏进行理据说解,如:“衫,形声字,篆文从衣,彡声。隶变后楷书写作衫”。《汉字形义分析字典》、《新华大字典》则分别在所设“解析”、“文字源流”栏进行理据说解,如“济……【解析】形声字,从氵齐声。繁体作濟”。又如:“补(補)……【文字源流】补是形声字,繁体写作補,衣为形,甫为声。简化后以卜为声符。……”。

从发行量可知,上述有字理说解的大中型字典未成为绝大多数从事基础汉语汉字教学教师的案头常备字典,更不会成为普通中小学生和外国留学生的必备字典,可以认为在基础汉语汉字教学领域影响不大。对基础汉语汉字教学影响大的是小型字典。

在小型字典中,从发行量大、影响范围广的《新华字典》、《中华字典》到大量以中小学生为对象的字典,几乎都没有字理说解。在我所见到的小型字典中,从基础汉语汉字教学出发编纂的注重字理说解的小型字典,只有杨洪清、朱新兰编著的《现代说文解字字典》(1997)。该字典作者根据现代汉字的具体情况,在传统六书的基础上,增加“存意字”、“存音字”、“部件字”、“笔画字”,使成“十书”。又将形声字分为“同音”、“异调”、“双声”、“叠韵”四类。依此对常用汉字进行字理说解:如:“谦,从言,兼jiān声。字和声旁叠韵(同iān)”。又如:“强(強、彊),从弓。虽suī是部件(本为畺jiāng,畺,古彊字)。存意字”。该字典曾分别以《多功能解形说文字典》、《快速识字字典》之名出版,后又更名《新编快速识字字典》再版。但是近二十年间该字典加起来仅发行了四五万册,在语文教育领域的影响十分有限。此外,笔者还见到过三本对汉字理据进行说解的小型字典,一是卢锡福的《常用汉字字理词典》(1998),如:“傲……形声。‘敖’,出游。因出游放浪不受拘束,故引申为自高自大,后人为区别而加‘亻’旁成‘傲’,故‘敖’、‘傲’在自高义上是古今字”。二是赵进的《汉字的来龙去脉》(1992),如:“泡……从氵从包包亦声。泡状隆起如包,故从包”。三是国家教育部人文社会科学重点研究基地华东师范大学中国文字研究与应用中心编《常用汉字字源手册》(2002),如:“窜(竄)……【字源意义】《说文》:坠也,从鼠在穴中”。从说解语言来看,这三本字典都不是以中小学生为对象,而且发行量都只有两三千册,几乎谈不上对基础汉语汉字教学有什么影响。可见,就当代服务于基础汉语汉字教学的主流小型字典来说,无一例外,都缺少汉字理据说解内容。极个别有理据说解的小型字典,有继小字典字理说解于绝世之功,难能可贵。但在理论和说解方法方面也还存在可以商榷之处,有待进一步提高。三、字典应将理据说解作为诠释的重要内容

从上文可知,字理是汉字最重要的信息之一,理据说解在汉字教学上有重要的作用。因此,说明阐释汉字理据的意义不可低估。阐释字理这一工作,应该主要由谁来承担呢?作为以诠释汉字为己任的字典来说,当然是责无旁贷的,尤其是汉字教学用字典。无论是以中国人为读者对象的汉字教学字典,还是以外国人为读者对象的汉字教学字典,都需要字理说解的内容。然而,魏晋以后直到现当代,字理说解的内容基本被排斥在字典之外。这是为什么呢?是否可以就此得出字典就不应该有字理说解内容的结论呢?回答是否定的。因为在古代,语文教育是由小学来完成的,那时的小学即今世所谓语言文字之学,一部小学史大体上是以说文学为主导的。《说文》成书以后,文字的运用与规范,一律以《说文》作为准绳。加上唐宋以来,开科取士都将《说文》纳入必试范围。不难想见,《说文》在传统语文教学中的地位和作用。有《说文》这样权威的理据说解,其他字书大可以只起查检形、音、义的作用。所以,魏晋后的字典没有汉字理据说解的内容是自然的,是可以理解的。不过,现当代新式的语文教学,内容与方法早已与《说文》彻底脱离,汉字教学日渐薄弱。时至今日,不要说学生,就是作为中小学语文教师、对外汉语教师,能恰当地说解汉字理据者占多大比例?恐怕不能高估。虽然语文教育界也在推广字理教学、字族教学等识字教学经验,但似乎并未进入主流教材和课堂。

汉语是以字为本的,本固则枝荣。如果学习者不了解字的理据,学习就慢,识字就少,何以固本?本不固,语言之树岂能繁荣?这一点,可能是当局者迷,旁观者清,外国人看这个问题似乎比我们还清楚。瑞典人林西莉(《汉字王国》的作者)就曾对此感到吃惊:“六十年代我在北京大学学习汉语,后来又在音乐学院学习古琴。作为一个瑞典人,我惊奇地发现,即使是受过很高教育的中国人对自己的语言之根也知之甚少,人们从小学到大学机械地进行着汉语教学,却不加以解释”(林西莉2003)。她这里指出的中国人“知之甚少”的东西,教师“不加以解释”的东西,指的就是汉字的理据和汉字的文化。

一般来说,古代汉字以形表义,象形色彩浓厚,因而其构形理据大体上是显性的,读音、意义的理据是隐性的,需要揭示说解。隶变以后,读音、意义的理据不待说,构形理据也因彻底脱去象形意味而隐晦,若不通过字形溯源,是难以通过现代字形发现其构形理据的。因此,现代汉字的理据,无论是构形理据、意义理据,还是读音理据,都需要有人揭示传授才能为人所知。

造成人们昧于汉字理据的状况,首先,新式语文教育负有责任。其次,现当代字典也有责任。在现行语文教育体制下,语文教学不讲或讲不好汉字的理据,非短时间内可以解决。字典却是可以发挥补偏救弊作用的。然而,绝大多数现当代字典,没有对促进学习者理解记忆汉字的理据进行说解,却常常充斥着大量意义不大甚至添乱的信息,实在令人遗憾。例如:很多字典的说解中有部首、起笔笔画、笔画数、部件数、结构类型等信息,有的甚至为了追求所谓多功能,把五笔字型码、表形码、区域码、相对应的英文单词、短语、谚语、歇后语等信息都罗列其中。读者已经能使用字典查到这个字,你再告诉他这个字的部首是什么,起笔笔画是什么,由几个笔画组成,由几个部件组成,结构类型是什么,有什么意义?把五笔字型码、表形码、区域码、相对应的英文单词、短语、谚语、歇后语等信息也都收进来,这样的字典不是成了大杂烩了吗?

如何改变人们昧于汉字理据的状况呢?当然要汉语教育界提高对汉字教学的重视程度,增加汉字教学的内容与时间,改善汉字教学方法,其中加强字理说解教学是重中之重。在校学生需要了解字理,各级语文教师、对外汉语教师需要了解字理,新式语文教育培养出来的许多人或许也想补上字理这一课。这方面,字典应该与时俱进,有所作为。在当今汉字教学薄弱,汉字理据教学普遍缺失的情况下,字典应将理据说解作为汉字诠释的重要内容。至于内向型字典和外向型字典在理据说解方面是否需要区别,鄙意以为,无论是内向型字典,还是外向型字典,都应该有理据说解内容,而且都应该深入浅出。只不过为减轻外国读者使用的困难,外向型字典的说解语应在深入浅出方面下更大的功夫,并适当增加外文翻译。参考文献

1. 艾宾浩斯著,曹日昌译. 记忆. 北京:北京科学出版社,1965.

2. 胡双宝. 《字说》辑佚. //胡双宝. 汉语·汉字·汉文化. 北京:北京大学出版社,1998.

3. 李大遂. 汉字理据的认识、利用与维护. 华文教学与研究,2011(2).

4. 林西莉. 一个瑞典人眼里的汉字. 人民日报·海外版,2003-03-17(11).

5. 孙剑艺. 评“识繁写简”. 语文建设,1992(2).注释[3]汉字造字法发展的大体顺序是:象形、指事、会意、假借、转注、形声。汉字发展到假借阶段,以形表意的文字逐渐符号化,表意能力大大削弱。同时,文字在使用过程中大量出现引申义和假借义,造成一字兼义过多的现象,也极大地影响了文字表意的明确性。为了维护汉字的表意性,人们发明了转注造字法。许慎《说文解字·叙》对转注的界说是“建类一首,同意相受”。其含义是:建立一系列表示事物类别的类符(表义偏旁),以一个旧有的形、音、义兼备的文字为字首(表义兼表音偏旁),遇到类符字表示的意义与字首字表示的意义相同或相通时,就互相接受,组合成新字。由于用这种方法造字,是把类符字的形、义和字首字的形、音、义同时转移到一个新字中去,类符与字首在表示新字字义方面,互相灌注,互相标识,故名之为转注。简单地说,转注是一种为原来使用的文字添加表义偏旁的造字方法。用这种方法造出来的字就是转注字,如:“蛇”、“溢”、“婚”等。转注字的类符是为了明确标识字首字的本义、引申义或假借义才添加上去的。转注字造出以后,或标识字首字的本义,或标识字首字的引申义,或标识字首字的假借义。在表意方面,转注字比字首字更全面、更精密、更明确。在转注字中,类符表示事物的类别属性,字首所表示的一般都是该转注字的核心意义;类符在转注字中只表义,而字首字则既表义又表音。从语言学角度说,形、音、义是文字的三个要素。如果说字首在形、义两方面与类符对比,二者地位不相上下,而加上字首兼表音这一因素,就使它在转注字中处于主导的地位了。故字首是转注字的根本,是转注字的源头。考虑到以上这些情况,在考虑文字系统的时候,应当以字首为转注字孳乳的主要线索,称由某字首转注而成的一系列新字为某字首的转注字,如:“授”是“受”的转注字,“慕”、“漠”、“谟”、“幕”、“寞”是“莫”的转注字。可见,转注字就在一般所谓的形声字之中。也就是说,一般所谓形声字是由两种不同造字方法造出来的,一部分是用“建类一首,同意相受”的转注造字法造出来的,表音偏旁兼表义;一部分是用“以事为名,取譬相成”的形声造字法造出来的,表音偏旁只表音不表义。详参李大遂《转注之名的探讨》,《北京师范大学学报》1990年增刊102—106页。[4]某些字在表示其自身的本义和引申义时,具有构形、表义理据,有些也有表音理据。只在表示假借义时无构形理据和意义理据。如:繁体“無”的本义是“舞动、舞蹈”(这一意义后来写作“”),原来是象形字,甲骨文写作,摹画的是人持牛尾之类的舞具跳舞的样子,既有构形理据,也有意义理据。小篆写作,已经开始专门表示假借义“没有”,本义“舞动、舞蹈”,由新造的转注字“(舞)”表示。在表示“没有”这个假借义时无理据可言。小篆又写作“”,增加了表音偏旁“(亡wáng/wú)”,成为形声字,增加了读音理据。隶变楷化后写作“無”,形、音、义理据均已缺失。现在采用古字,“無”简化为“无”,也毫无理据可言。[5]参见清任大椿. 《字林考逸》,清乾隆四十七年(1782)。

关于汉语辞书的两点想法

———谈一组同义词的释义与收录问题郭曙纶 王美馨(上海交通大学国际教育学院)

有一天在看电视的时候,听到“qǐ pàn”一词,但是屏幕下方打出来的字幕却是“祈盼”。职业的敏感和直觉告诉我,这个词读错了。翻查《现代汉语词典》(第4版,2002),发现只有“企盼”,再查《现代汉语词典》(第5版,2005),不但有“企盼”,还有“期盼”和“祈盼”。

这三个音义相近的同义动词引起了我的兴趣。为此,查找了许多相关资料,对以下两个问题进行了一些思考。一、关于同义词的释义

首先看看这三个词在《现代汉语词典》(第5版)中的释义:表1

从这三个词的释义看,它们都有“盼望”之意,其中“企盼”只有“盼望”的意思,而“祈盼”则是程度更深的一种“盼望”,“期盼”的释义给人感觉是除了“盼望”之外,另有“期待”之意。从它们的示例来看,这三个同义动词都能带谓词宾语。此外,“企盼”还能带体词宾语,而“祈盼”则还有名词用法,能充当宾语。根据我们后面举出的例句,这三个同义动词在句法上的用法是相同的:都是既能带名词,也能带谓词宾语,也都有名词用法,可以充当宾语。这就反映出该词典中这三个同义动词的示例不够全面,也不够一致。

再看这三个词的释义,三个释义都涉及一个词“盼望”。为了更清楚地了解这个共有的释词,我们又查了“盼望”的释义,其中又涉及“期望”,再查“期望”,其中又涉及“希望”和“等待”,再查这两个词。另外也查了“期盼”释义中的“期待”和“祈盼”释义中的“恳切”。上述诸词的释义见表2:表2

从表2,我们可以看到,“期盼”、“祈盼”和“企盼”这三个同义动词的意思,说白了,就是等待,“盼”其实是表达一种等待的心情,希望某种好的事情发生。这三个同义动词就释义而言,“期盼”与“企盼”是相同的,“祈盼”则多了“恳切”这个表示态度的修饰语。

为了进一步弄清楚这三个词的意义差别,我们又从它们的构词方式入手进行了考察。

首先,从这三个词的释义来看,“期盼”的释义类似一个并列式复合词,“祈盼”的释义类似一个偏正式复合词(因为“恳切盼望”是一个偏正式的动词短语),而“企盼”的释义则为同义词释义。

其次,再查它们组成成分的释义,得到的相关义项(排除了一些无关的义项)释义如表3:表3

由这些释义可以看出,这三个词从某种角度看,都可以看作是并列式复合词,因为“期、祈、企、盼”这四个字都有“盼望”的意思。这里之所以把“祈”的“祈祷”义也列出来,是因为我们发现“祈盼”也可以理解成如其释义所显示的偏正式复合词(理由在后面会讨论到)。

再次,通过例句的简单分析,发现这三个词既有不少共同点,也还有一些明显的差别。我们从北京大学CCL语料库查得以下例句:(1)和“杨百万”一样,数以千万计的中国股民都期盼2004年出现“牛市”的身影。(2)党中央在去年提出了振兴东北老工业基地的举措,这是家乡人们期盼已久的大事。(3)二〇〇二年十一月八日,中国共产党第十六次全国代表大会在亿万人民的期盼中召开了。(4)海峡两岸的声声祝福,都是祈盼早日实现全面“三通”的声声呼唤。(5)从初三开始,不少居民到路环妈祖文化村天后宫上香参拜,祈盼家人身体健康、万事如意。(6)唯一能做的只有默默的等待,默默的祈盼。(7)他又说:“我听到了救援人员的声音,企盼他们最终能发现我。”(8)武汉某报一女记者就属此列,她特企盼再有一位女同行到来,那样她们就可以“合伙”,分担房费了。(9)一本厚厚的书,蕴含着风光无限的中华文化,折射出中国人的智慧与企盼。

从这九个例句基本上可以看出,“期盼”、“祈盼”和“企盼”这三个同义动词都是既可以带体词宾语,又可以带谓词宾语的,从意义理解来说,体词宾语也都可以理解成是谓词宾语,而且这三个同义动词还都有名词用法,可以做动词宾语或介词宾语。从例(5)看,“祈盼”一般会有某个具体的“祈祷”形式(在本例中是“到路环妈祖文化村天后宫上香参拜”)来表达“盼望”之情。所以,我们前面说,“祈盼”中的“祈”也可以理解成“祈祷”,因此“祈盼”的意思就是“祈祷并且盼望”,词典中的释义“恳切盼望”就是从“祈祷并且盼望”的意思来的———以“祈祷”的行为来表达“恳切”的心情。

除此之外,就我们讨论的这九个例句而言,看不出这三个同义动词还有什么意义和用法的差别。因此个人认为,这三个同义动词可以释义如下:

理由主要有:1. “期盼”与“企盼”的意义没有明显差别,释义应该相同,而“祈盼”的释义应该有所区别。2. 在示例方面,应该体现它们既能带谓词宾语,也能带体词宾语的特点;虽然它们还有名词用法,可以充当宾语,但由于这是不少双音动词具有的共同特点,可以不必举例。二、关于词条的收录

词条收录问题,也就是词典中词条的收录标准问题。哪些词应该收录,哪些不应该收录,收与不收的标准是什么?作为当代一部以词汇规范为目标的现代汉语词典,常用性应该是其词条收录标准之一。然而奇怪的是,在《现代汉语词典》第4版中,只收录了“企盼”,而第5版中“期盼、祈盼、企盼”都收录了。我们对北京大学CCL现代汉语和古代汉语语料库中的语料,以及现在通行的搜索引擎百度和GOOGLE的语料进行调查。发现,这三个词中使用频率最高的是“期盼”,其次是“企盼”,最后是“祈盼”(具体数据参见表4)。表4

从这些调查数据可以看出,“期盼”是最常用的,理应优先收录,然而在第4版中,只收录了“企盼”,显然不妥。好在第5版增收了最常用的“期盼”。不过最不常用的“祈盼”是否应该收录其中,或许也是一个值得探讨的问题。在我们看来,作为一部中型词典,是不必收录“祈盼”这一词条的。三、小结

本文从讨论一组同义动词“期盼”、“祈盼”和“企盼”的释义开始,对相关释义进行了分析,而后又举例说明了这三个同义动词具有基本相同的意义和用法,最后通过调查语料库中这三个同义动词的使用频率,认为《现代汉语词典》第4版在词条收录方面存在一些失误。在分析讨论之后,本文提出了一些不成熟的看法,建议修改“期盼”、“祈盼”和“企盼”的部分释义及其示例,使之更能体现出这三个同义动词的异同,而考虑到它们使用频率的明显差异,“祈盼”可以不必收录。参考文献

韩敬体. 《现代汉语词典》编纂学术论文集. 北京:商务印书馆,2004.

吕叔湘,胡绳等. 《现代汉语词典》学术研讨会论文集. 北京:商务印书馆,1996.

章宜华. 语义学与词典释义. 上海:上海辞书出版社,2002.

中国社会科学院语言研究所词典编辑室编. 现代汉语词典(增补本). 北京:商务印书馆,2002.

中国社会科学院语言研究所词典编辑室编. 现代汉语词典(第5版). 北京:商务印书馆,2005.[6]

我国语文词典时间词释义状况调查

宋 婕 解海江(教育部语信司与鲁东大学共建汉语辞书研究中心)一、时间词语义分析

时间是无限延伸的线性过程。时间词要表达时间的位置和长短,首先就要确定一个基准,然后进行定量和定位描述。我们对时间词进行语义分析之后总结出以下四个语义要素:基准、域、指向、指量。1. 基准

时间基准即以某一确定的时间长度或时间位置作为基本标准来确定时间的相对长度和相对位置(李向农1997:11)。我们根据作用不同将基准分为“定量基准”和“定位基准”。

定量基准是量度时间长短的基本标准,即时间单位。人类根据自然界中日月星辰的周期性变化、物候气象的轮回显现等,确定度量时间长短的基本单位,如“日、月、年”等。随后根据实际需要又制定出其他各级单位,如“星期、小时、分、秒”等。分析表示时间长短的词都要用到定量基准。

定位基准是确定时间位置的基本标准,即在时间轴上的参照点。定位基准按照性质可分为“习惯基准”、“当前基准”和“事件基准”。(1)习惯基准是指人们为了方便推算和指定时间的位置和顺序而人为规定的标准。历法、年份、四季、十二个月份、一周之内的七天、时刻等等的时间序列都是根据习惯基准确定的。(2)当前基准是指人们以自身所处的现实时间即说话时间为基准点,将说话时定为“现在”,已经经历过的时间为“过去”,将要经历的时间为“将来”,并由此确定事件在时间流中的相对位置。(3)事件基准是指人们以某个事件或动作发生的时候为基准点来确定其他时间的位置。例如“后来”就是以过去某件事为基准点,指这件事发生之后的时间。2. 域“域”是借用数学里的概念,这里指的是词义的指称范围。有些时间词的“域”表现为具体的时间长度,如“小时”的“域”是“60分”,“片刻”的“域”是“几分钟或更短”;有的表现为“从某时至某时”的时间范围,如“今天”的“域”是“(说话时那日的)零点到夜里十二点”,“明年”的“域”是“(说话时下一年的)1月1日至12月31日”。3. 指向

有些时间词的指称意义是某个基准点之前或之后的时间,这里就用到了“指向”。我们这里采用数学中数轴的指向“正”和“负”来表示时间的指向。“正”表示指向基准点之后,“负”表示指向基准点之前。4. 指量“指量”是指朝着指向的方向移动的“时间量”,即确定基准和指向之后,向“正”或“负”的方向移动的时间的量。以“后天”为例,基准是“说话时”,指向是“正”,指量是“两天”,域是“从零点到夜里十二点”。

有的时间词在分析语义时要使用以上四个要素,有的只需要其中一个或几个要素,如分析“片刻”一词只需要“域”这一个语义要素,分析“现在”则需要“基准”和“域”两个要素。另外由于词义的模糊性,许多时间词的“域”、“指量”是约量的或不确定的。二、时间词释义参数赋值状况分析

释义是对词目词意义的描写,词义在词典中体现为释义。释义要准确客观,就要对词目词进行语义分析,并对各语义要素进行恰当的描写。本文中的释义参数,即时间词的语义要素在释义中的体现,是为了优化词典释义,对时间词进行语义分析而得出的结果。通过考察不同词典释义中释义参数的赋值情况,检查时间词释义的准确性和正确性。我们考察了《现代汉语词典》(以下简称《现汉》)及其他三部语文词典中时间词的释义,发现有些释义中对参数赋值不够准确,归纳出以下几种问题。1. “域”的赋值不准确

我们来看四部词典对“凌晨”的释义:凌晨 临近天亮的时候。(《现代汉语规范词典》,以下简称《规范》)凌晨 天快要亮的时候。(《商务馆学汉语词典》,以下简称《商务馆》)凌晨 天快亮的时候。(《现代汉语8 000词》,以下简称《8 000词》)凌晨 天快亮的时候。(《现汉》)

四部词典均将“凌晨”解释为“天快亮的时候”,让人想到的是四五点钟天色微亮的时候。但从语义分析的结果来看,凌晨的语义分析式为:[一日之内]+[从午夜之后至天亮之前],即“凌晨”的域是“午夜之后至天亮之前”。所以,我们认为将“凌晨”解释为“午夜之后天亮之前的一段时间”更为合适。再如:晨 早晨,有时也泛指半夜以后到中午以前的一段时间:清~|凌~|~光(《现汉》)晨 早晨,太阳刚刚升起或升起前后的一段时间。清~(《规范》)正午 中午十二点。(《现汉》)正午 中午。(《规范》)“晨”的语义分析式为:[一日之内]+[天亮]+[日出前后],域为“日出前后”。“正午”的语义分析式为:[一日之内]+[十二点]+[域:窄],相比“中午”,它的“域”较窄。相比而言,《规范》对“晨”的释义更为准确,《现汉》对“正午”的释义更准确。2. “基准”的赋值不准确往后 以后:~的日子还长着呢。(《现汉》)往后 ①以后。②向后。(《规范》)《现汉》和《规范》对“往后”的释义均为“以后”。然而,通过语义分析,我们发现“往后”的语义分析式为:[当前基准]+[说话时]+[指向:正],而“以后”为:[当前基准/事件基准]+[说话时或所说某时]+[指向:正]。可见,“往后”与“以后”的基准不完全一样,将“往后”解释为“说话后的时间”更为合适。3. “指向”的赋值不准确近日 最近过去的几天;近来:设计方案的征集工作已于~开始。(《现汉》)近日 刚刚过去的或从现在开始的几天时间(书面语):~报上一直在讨论这件事|我~要去外地出差。(《商务馆》)近期 最近的一个时期:这部影片将于~上映。(《现汉》)《现汉》对“近日”的解释中指出其指向是“过去”,但实际上,“近日”不仅可以指“刚刚过去的几天”,还可以用来表示“将要到来的几天”,如“广州非典患者将于近日出院”。近日的语义分析式为:[基准:说话时]+[指向:正/负]+[域:几天]。“近日”的指向有双向性,在释义中应该注意对其指向进行准确的描述,《商务馆》的释义就比较准确。“近期”的指向也是双向的,《现汉》的释义中没有对其指向赋值。三、时间词释义模式分析

释义模式指对词目词进行语义描写时采用的表达结构式。在英语词典学术语中,“definition(定义)”就是“释义”。从逻辑的角度来看,释义就是给词目下定义。下定义常用的是“种差+属”的方法,其公式为:被定义概念=种差+属概念。(黄建华1987:98)

时间词的释义模式可以表示为:[基准]/[域]/[指向]/[指量]+属词(时间/时候/时期……)。不同子场的时间词在释义时所采用的释义参数不同,释义模式也不一样,但是在同一子场中,特别是最小义场中的时间词应该采用统一的释义模式。“从底层义场整体观视角重新审视现代语文性辞书的代表作的释语模式,常有不统一的缺憾。”(张志毅2005:276—277)“同场同模式指同一最小义场的词,其释义模式相同。”(冯海霞,张志毅2006)以这个标准来看,《现汉》的时间词释义中存在一些释义模式不统一的情况。例如:现在 时间词。这个时候,指说话的时候,有时包括说话前后或长或短的一段时间(区别于“过去、将来”)。过去 时间词。现在以前的时期(区别于“现在、将来”)。将来 时间词。现在以后的时间(区别于“过去、现在”)。“现在”、“将来”的释义中属词是“时间”,而“过去”的释义中属词却使用了“时期”。再如:童年 儿童时期;幼年。幼年 三岁左右到十岁左右的时期。青年 指人十五六岁到三十岁左右的阶段。成年 指人发育到已经成熟的年龄,也指高等动物或树木发育到已经长成时期。中年 四五十岁的年纪。老年 六七十岁以上的年纪。晚年 指人年老的时期。

以上表示人一生中各个年龄阶段的词的释义中,《现汉》使用了“时期”、“阶段”、“年龄”、“年纪”四个属词。“青年”、“成年”、“晚年”三个词的释义中对适用对象做了说明———“指人”,其他词没有说明。我们认为在对同一义场中的词目释义时,应该使用同样的属词和统一的释义模式。四、时间词释义方式分析

我国的语文词典有使用同义对释进行释义的传统。同义对释有其简洁明了的优点,但也有其局限性。现代中型和大型词典的编写工作往往由多人合力完成。在编写中容易各自为政,统筹协调不够,前后照应不周。有些词的同义对释,单独看起来没有什么大偏差,但把相关的一组词排列起来,就会发现因照应不周而出现的一些问题。如:1. 采用多义的同义词注释

对于多义词来说,同义词可能不止一个,针对它的每个义项都有可能有对应的同义词。那么采用同义对释式的方法进行释义时,应该注意避免使用多义的同义词,或者标明与该词的哪个义项同义。如:今天 ①说话时的这一天:~的事不要放到明天做。②现在;目前:~的中国已经不是过去的中国了。(《现汉》)今儿 今天:~晚上我值班。也说今儿个。(《现汉》)“今儿”一词的“域”是“一天”,只能表示说话时这一天,不能表示现在,所以用“今天”来解释“今儿”时应该标明义项①,或者直接解释为“说话时的这一天”。2. 连环释义或循环释义

同义对释式容易产生连环释义(即A:B,B:C)或循环释义(即A:B,B:C,C:A)现象,导致读者辗转查找才能找到解释,有时最终也查不到词的意义。例如:恒久 永久;持久。(《现汉》)永久 永远;长久。(《现汉》)持久 保持长久。(《现汉》)长久 时间很长;长远。(《现汉》)

想要知道“恒久”的意思就要去查“永久”、“持久”,想了解“永久”和“持久”又要继续查“长久”。再看《规范》的释义:如今 现在。现在 现时;当前。现时 现在;此刻。当前 目前;现阶段。目前 当前;现在。

这两部词典都是内向型普通语文词典,释义要求简练。但是,这样的释义也太过简化和概括。显然不能满足读者的要求。这样的释义会占用读者过多的时间,效率不高,效果不好。在词典中这种现象太多就会使读者对词典失去兴趣。3. 没有用以区别同义词的标注或附加说明

同义对释常常只给出一个或几个同义词,并不做标注或说明,以致读者认为这些同义词都是相等的,弄不清相关的一些词目之间的区别,容易造成误解和错误的用法。如:往后 以后:~的日子还长着呢!(《现汉》)以后 方位词。现在或所说某时之后的时期:从今~|五年~|毕业~|~我们还要进一步研究这个问题。(《现汉》)“往后”和“以后”不仅“基准”不同,用法也不同,例如“往后”是不能用在“五年~”、“毕业~”等结构中的。再如:清早 时间词。清晨:明日~出发。(《现汉》)漏夜 深夜。(《现汉》)

从语料库的用例中可以看出,“清早”与“清晨”相比,更常用于口语文体中。在《规范》中“清早”标注了〈口〉,而其他三部词典没有标注。“漏夜”在现代汉语中已不常用,在释义中应该标注常用于书面语或文学作品中。五、结语

进行词义分析的目的是为辞书的准确释义提供基础。义素分析法为语义特征的提取提供了新的理论基础,有助于减少释义的任意性,使词典释义更加准确、简练,有助于优化释义模式,增强词典释义的系统性。但是,释义不能简单地写成语义要素的结构表达式,在释义时对释义要素要有所选择,凸显区别性语义特征,并进行恰当的描写,否则释义太过繁琐,反倒会阻碍人们对词义的认识。黄建华(1987:112)在《词典论》中对义素分析法在释义中的作用提出了一些疑问,同时也指出利用义素分析法去提高语词释义的精确性,“是很值得语言学家和词典编者为之努力的”。时间词在语义上具有很强的模糊性,在释义中更应该利用语义学的研究成果,完善语文词典的时间词释义。参考文献

1. 冯海霞,张志毅. 《现代汉语词典》释义体系的创建与完善. 中国语文,2006(5).

2. 黄建华. 词典论. 上海:上海辞书出版社,1987.

3. 李向农. 现代汉语时点时段研究. 武汉:华中师范大学出版社,1997.

4. 苏宝荣. 词义研究与辞书释义. 北京:商务印书馆,2000.

5. 张志毅,张庆云. 词汇语义学(修订本). 北京:商务印书馆,2005.注释[6]本文为国家语言文字应用“十一五”科研项目“我国语文辞书编纂、出版、应用状况调查、分析和研究”(YB115-08)与“汉语学习词典编纂、出版、应用状况调查研究”(YB115-40)的阶段性成果。

辞书现代化

我国计算机辅助词典编纂系统初步调查研究

亢世勇 王兴隆 谢晓艳(鲁东大学文学院)一、引言

词典编纂是一项异常繁重而又极其严谨的工作。在高科技迅猛发展的今天,传统的词典编纂方式已不能适应现代社会发展新形势的需要。早在20世纪50年代中期,国外就有专家尝试用计算机进行图书编目、资料管理等工作,如R. Busa在世界范围内首先采用卡片穿孔机来处理文献古籍,以便编制其作品的一般词汇索引与重要语词索引。自1956年起,这类工作采用了计算机技术,课题范围也有所扩大,其中包括编纂频率词典、倒排词典、为词典卡片库准备卡片、处理语言材料等。进入60年代后,法国、英国、联邦德国、瑞士等西方国家,先后开展了词典编纂自动化、计算机化的研究,将计算机引入到了词典编纂的全过程,改变了传统的词典编纂模式,极大地提高了词典编纂的效率,词典的内、外在质量得到很大的改善。(郑恩培,陆汝占1999)

今天,西方国家在计算机辅助词典编纂方面已经取得了一系列的成果,主要是一些新型词典的出版,如:“牛津”系列词典,包括《牛津儿童图解词典》、《牛津基础英语学习词典》、《牛津成人英语图解词典》等;“朗文系列”词典,包括《幼儿学习词典》、《少年学习词典》、《成人初学者词典》等;“柯林斯COBUILD系列”词典,包括《柯林斯COBUILD高级英语学习词典》、《柯林斯COBUILD积极型英语词典》等。这些词典的出版和热销,印证了计算机辅助词典编纂的重要性和紧迫性。

而在我国,20世纪80年代前,由于汉字的输入和存储技术不过关,计算机辅助词典编纂技术进展不大。80年代后,汉字输入和存储技术取得重大突破,各种汉字输入平台层出不穷,受其影响,计算机技术在汉语词典编纂中有了一定的应用,如利用计算机辅助编制资料卡片、索引等,但这种应用只是局部的,效果有限,影响也不大。

我国真正的计算机辅助词典编纂系统是从20世纪90年代开始的,至今已形成了蓬勃发展的局面。从整体来看,当前我国计算机辅助词典编纂系统的优势是:可以比较充分地利用语料库的资源和技术,比如利用语料库提供词典例证、辅助词典释义、辅助义项划分、辅助词典立目、辅助语用注释、提供句法信息、辅助语法注释、揭示文化信息、揭示同义词的分布和使用等。这些功能在章宜华的专著《计算词典学与新型词典》中曾着重介绍。二、计算机辅助词典编纂系统(工具)介绍

计算机辅助词典编纂系统是为词典的编纂、编辑、排版以及词典的修订工作而编制的专门的文字处理平台和管理软件。词典编纂的整个过程包括词典信息的录入、例句的提取、语料库信息的统计分析、语义排版以及词典文本的编辑等。目前,在词典学研究和辞书出版领域,自动化、数字化、计算机化的编辑操作已经涉及词典编纂的各个方面,如资料的收集和存储、编纂过程以及词典发布的形式等。利用计算机技术、信息技术进行词典编纂已经成为词典编纂领域发展的必然趋势。

眼下,我国的计算机辅助词典编纂已取得了长足的发展,我们将重点介绍一下目前国内比较有代表性的计算机辅助词典编纂系统(工具),由于计算机辅助辞书编纂系统是一个广义的概念,因此我们从以下几个方面分别介绍:(一)计算机辅助词典本体编纂平台或系统(1)商务印书馆与南京大学联合开发的“‘CONULEXID’词典编纂系统”

该系统采用CLIENT/SERVER的局域网结构,较好地实现了数个客户端对服务器内语料库资源不同程度的获取和共享,提高了语料资源的利用率。它包括词典编辑和词典维护两个子系统。系统的主要功能包括词典录入、例句选取、综合文章查询、文章句式统计及文章词频统计等。这个辅助编纂系统已经成功应用到了《新时代英汉大词典》的编纂、编辑和出版过程中。(章宜华2007)(2)上海交通大学的陆汝占等开发的“汉语词典编纂一体化环境”

它的功能主要包括语料的采集、加工处理、词典编纂管理、词典质量检测、词典编纂过程中的自检等。该系统主要由语料库、词典编纂、词典检测三个子系统构成。语料库子系统的主要功能是对语料库进行管理、加工和查询。词典编纂子系统致力于实现词典编纂过程的便利化。该子系统又分为词典格式转换、词典查询、词典自检、词典编辑、词典编纂项目管理五个次子系统。词典检测子系统又包括词表构成、查询、词概念关系库编辑系统三个小子系统。经试用,此汉语词典编纂系统得到了好评,其结果是令人鼓舞的。(陆汝占2001)(3)山西大学开发的“基于语料库的汉语辞书编纂辅助系统”

系统总体上分为“电子辞书数据库及其查询模块”、“现代汉语语料库及其检索模块”及“电子词典编辑模块”,各组模块可分可合,既可以独立使用,又可以联合使用。它将软件工具、语料库及其他电子词典资源有机结合,成为一个具有资源建库、语料检索、信息统计等功能的应用平台。该系统提供多种输出方式,从而为汉语辞书编纂人员提供较为强大的电子信息服务。它主要是基于静态的语料,为了保持更新,山西大学在此基础上进一步设计完成了基于因特网的汉语辞书编纂辅助系统。(张绍麒2005)(4)北京大学计算语言学研究所开发的“计算机辅助词典开发和管理系统”

该系统主要用于词典检索、编辑、排序、校订、检测、版本比较、自动翻译、任务管理等。它主要包括四个子系统:词典编辑、自动检测、自动翻译、项目管理。词典编辑子系统主要对数据库格式的词典文件进行编辑和整理。自动检测子系统保证了属性填写的正确性和一致性。自动翻译子系统可利用词法分析器,在计算机自动获取的英语译文的基础上,将编辑工作转化为校订工作。项目管理子系统可全面掌握修订信息,及时发现和防止漏校的信息。(王惠,李康年2004)(5)广东外语外贸大学词典学研究中心开发的“基于微观数据结构的双语词典生成系统”(简称DICT-Generator系统)

该系统是基于广域网环境设计开发的计算机辅助词典编纂及生成平台,适用多语种外汉词典的编纂和自动生成。它主要使用VB. NET和VC++. NET编写,采用Microsoft. SQL server 2000数据库存储词典数据库和语料库数据库。该系统主要包括语料库接口、词典编纂或数据录入、词典数据库、词典审定、词典生成和管理等几大功能模块,其中词典数据库和生成模块是该系统的核心部分,语料库、词典编纂和管理模块是为它服务的。

该系统将词典编纂中的体例结构和微观信息结构设计,以及词典信息的格式化编排和排版等繁琐的工作流程计算机化,改变了传统的词典编纂方式,提高了工作效率。此外,该系统通过互联网建立了安全、稳定的词典编纂及生成平台,实现了互联网上的词典编纂,词典编纂人员可以在世界上任何地方、任何时间使用该系统共同参与词典的编纂工作。该系统打破了现今词典编纂生成的局限,实现了词典编纂生成全过程数字化、自动化、规范化,它将语料处理、词典编纂、词典出版和工作管理等领域的操作有机融合在一起,实现了全方位、多角度的词典信息处理数字化,最大限度地利用现有资源,能高效率地完成词典编纂、修订和出版工作。(刘辉等2006)

由于该系统是在10多年前设计的,原来的开发平台和技术工具已经不适应数字化信息处理的需求;因此,在两年前广东外语外贸大学词典学研究中心就开始对该系统进行升级改造,利用C++. net2010,Sql 2005,ASP.Net,XML Edit进行词典数据和词典生成平台建设。改造后的平台界面将更加友好,数据处理能力更强大,索引更智能化。(6)教育部语言文字应用研究所承担的“基于语料库的数字化辞书编纂平台”

该系统突破了传统的辞书编纂概念,建立了一种新型的辞书编纂模式。它是国家863计划“中文信息处理基础应用研究”课题的子课题,以国家语言文字工作委员会大规模现代汉语语料库为基础,以数字化典范辞书为目标,以语义计算理论为基础,以语言信息处理的计算机技术为支撑,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台。具体研究内容包括辞书编纂的新模式研究、数字化辞书生成系统、辞书雷同检查和冲突检测技术、语料库在辞书编纂中的应用、语言处理技术应用于辞书编纂等。该系统提供了多样化的辞书编纂工具,并提倡和建立了辞书编纂的新理念、新模式,使计算机辅助辞书编纂达到了新的高度。(7)商务印书馆开发的“辞书语料库及编纂系统”

它是该馆在新的历史时期为实现辞书编纂现代化、巩固与保持在工具书出版领域的领先地位而确立的重大科技项目。项目一期工程于2004年11月通过了新闻出版总署、中国出版集团组织的专家验收。该系统建立了从语料采集、辞书编纂到编辑出版的辞书编纂现代化一体化系统,开创了一种新型的汉语辞书编纂模式,在辞书编纂现代化方面取得了突破。项目二期工程主要致力于语料的采集与加工、核心工具书数据库、中小学语文教材教辅语料库、例句查询系统、例句优选系统、辞书数据库排版系统、小学生辞书编纂平台等。

该系统已形成较完善的“三库两平台”架构,即语料库、数据库、资源库和辞书编纂编辑平台、辞书数据库排版平台(系统),以实现从语料采集、辞书编纂编辑到排版出版等环节的全过程现代化、数字化。商务印书馆在此基础上开发了跨库例句查询系统,集成了核心工具书数据库、基础语料库、例句语料库、教材教辅语料库等多库查询功能。正在开发例句优选系统,建立基于句法功能、搭配、词类、词频、句长等条件的分项组合查询功能,以提高例句选择的效率和有效性。(8)中国社科院语言研究所词典室开发的“汉语词典编辑系统”

该系统是基于《现代汉语词典》修订需求开发的词典编辑软件,包括编辑、排序、检索、汇总、排版、管理等模块。其中编辑、排序、检索、汇总模块已完成,并进行了相当长时间的多方面测试。排版、管理等模块有待进一步开发。该系统的最终目标是要建立一个综合、全面、高效的词典编辑信息化处理平台,彻底实现词典编辑的无纸化和计算机化。(张绍麒2005)(9)学者张卫国提出的“计算机辅助编纂系统设计方案”

它由语料库系统、数据库系统和编辑软件等三个子系统构成,包括现代汉语共时描写语料库、语文词典数据库、语文词典编辑应用软件三部分。

实际上,随着信息技术的高速发展,为数不少的词典编辑辅助平台已经研发出来,投入使用且取得了不错的成果。(张绍麒2005)(二)计算机辅助词典语料检索系统或软件(1)北京语言大学语言信息处理研究所开发的“汉语语料检索软件”(CCRL)

CCRL的检索目标包括字串、词串、词属性串及词与词属性的混合串,是一种面向语言教学研究的汉语语料检索软件系统。它具有自动分词、自动建立索引、索引检索速度快、可支持多用户远程检索等十个突出特点。CCRL使人们摆脱了收集卡片的体力劳动,还可以进行大规模的语言现象调查工作。使用该软件不需要进行人工标注就能对任何生语料全自动地生成索引并进行检索,能最大限度地提高准确率和查全率,大大提高了语言研究水平,促进了语言教学和语言信息处理的发展。CCRL在应用过程已经取得多项有意义的研究成果。(张绍麒2005)2003年1月,CCRL 1.0版开发成功;2003年5月,测试版正式发布;2004年1月,CCRL通过了教育部鉴定。(2)清华大学计算机系司宪策和孙茂松开发的“基于WEB的汉语例句自动检索系统”

WEB是一个动态性和时效性很强的语料来源,能及时反映新词语、新用法。随着WEB规模的扩大和信息社会的发展,网络成了语料的重要来源。传统的搜索引擎查询方式比较烦琐,效率也不高。该系统是基于WEB的汉语例句自动检索系统,可以自动地利用搜索引擎来得到与给定词汇相关的文档和信息,并从文档中提出词汇所在的句子。它分为采集和查询两层,较好地克服了开发过程中的句子分割、例句去重、术语定义的粗提取等难题。它先用网络爬虫得到词汇相关网页并从中抽取例句放在磁盘上,然后系统根据用户的配置对例句进行过滤和处理,以得到用户想要的例句。该系统在词典编纂过程中得到了现实应用,鲁东大学亢世勇在编纂《现代汉语新词语词典》的过程中就使用了它,收到了很好的效果。(3)北京大学计算语言学研究所开发的“汉英双语语料库检索系统”

该系统运行环境为微软Windows系列平台,主要采用C++语言实现。它可实现汉英语特定词的检索、汉英语特定模式的检索、检索结果的选择和筛选、检索结果的聚类排序、汉英词语的词频统计、搭配信息的统计分析等六个方面的检索和语料分析需求。该系统立足于双语语料库,通过语料索引进行加载语料、浏览语料、词频统计、语料检索、结果排序、搭配分析等方面的工作。它可以针对词典编纂专家、语言学家的特殊需求提供高效、灵活的高级检索手段,并进一步提供检索结果的经验统计数据,为词典编纂人员做出科学合理的编写或研究决策提供强有力的保证和支持。(张绍麒2005)(三)计算机辅助词典质量保障系统

上海辞书出版社开发的“辞书质量技术保障系统”。该保障系统主要包括参见系统、交叉处理、审定名词、机构组织、国名地名和词目表、词表索引六个部分,参见系统与交叉处理部分主要利用系统数据库的超链接功能进行工作,审定名词等部分则主要利用复合数据库、计算机检索等相关技术开展工作,它们的共同目标都是最大程度地保证辞书质量。该系统的核心,是将书稿的电子文档或辞书排版的数字化文件,转换成相应的书稿数据库。这些数据库文件需达到数据交换平台的一致性、数据的规整性、非纯文本数据的可视性、数据的可检索性及数据的可迁移性等方面的要求。另外,辞书质量技术数据库还需建立一些诸如历史纪年数据库、国名数据库、机构组织数据库等之类的复核数据库。利用辞书质量技术保障系统,减轻了编辑人员在处理书稿时的复核工作量,提高了核查工作的效率,是一个较为实用的计算机辅助词典质量保障系统。(乐嘉民2007)(四)计算机辅助词典排版系统

南京理工大学开发的辞书数据库排版系统。该系统由辞书录入、排版和浏览、检索两个子系统组成。它以XML文件为数据交换媒介,以数据库为存贮介质、以方正书版和方正RIP为排版输出引擎,针对辞书排版的特点,提供了包括录入、存贮、排版、预览、输出和检索的全套解决方案,解决辞书出版中比较突出的资源共享、检索、查询、借库更新等难题,为编辑审读文稿提供了便利,缩短了出版周期,降低了出版成本。(张绍麒2005)该系统较为有效地改善了我国的词典排版系统。(五)计算机辅助双语词典编纂系统(1)北京大学计算语言学研究所开发的“基于语料库的双语词典编纂平台”

该系统由通过互联网连接在一起的两个部分组成:一部分位于高性能服务器上,为编写人员提供服务。另一部分位于词典编写人员的词典编辑工作台上。这样,词典编写人员就可以通过本地词典编辑工作台接受来自高性能服务器所提供的服务,并在其所提供的服务内容的基础上做出正确、合理、高效的词典编写决策。该系统设定了语料库与参考词典的定制和索引、词典编纂项目管理条目与释义词表的生成管理等11项功能目标。其中语料的检索和统计是核心功能之一,它可以进一步为词典编写人员提供词频表的生成、词的检索、表达式检索、检索结果的聚类排序、搭配及搭配强度的统计分析等5项功能。(常宝宝2006)(2)解放军国际关系学院李德俊开发的“汉英词典编纂自动化平台CpsDict系统”

解放军国际关系学院的李德俊研发了拥有完整知识产权的汉英词典编纂系统。目前来讲,国内还没有真正进行基于平行语料库的双语词典编纂研究和实践,以及相关软件的开发和使用。该系统是我国第一个基于平行语料库的双语词典编纂系统。它的功能主要是检索对等词、自动提取例证、研究搭配、提供关键词的语境等。面对传统双语词典编纂中释义不当、以解释代替释义词、缺乏必要的语用信息、例证不当或重复等弊端,该系统都较好地予以克服,满足双语词典编纂自动化的要求。(3)北京大学计算语言学研究所开发的面向语言学家和词典编纂专家的汉英双语语料库检索系统。以上已做过介绍,这里不再赘述。三、计算机辅助词典编纂系统(工具)的功能考察与比较

通过各个系统自身的介绍以及完成的情况,我们可以从“语料建设”、“WEB语料”、“平行语料”、“语料检索”、“例句提取”、“数据统计”、“词典比较”、“词典编辑”、“词典排序”、“词典生成”、“词典检测”、“质量保证”、“词典排版”、“系统管理”等功能模块来对各个系统进行单一性和比较性考察。需要说明的是,以下图表中,“+”表示此功能模块在该系统中显著一些,也就是说,功能模块的考察是相对的。

通过上表我们可以发现:(1)不同的计算机辅助词典编纂系统侧重点是不太一致的。这样的优点是不同类型、特点的词典可以选用不同的词典编纂系统,再就是体现学术上百花齐放、百家争鸣的宗旨,有利于编纂系统的整体推进;缺点是反映出目前我国的词典编纂系统的共享率有待提高,发展层次和功能良莠不齐。这导致重复建设和一定程度上的资源浪费。(2)从所列出的功能模块看,有几个是比较集中的,比如“语料建设”、“语料检索”、“词典编辑”、“系统管理”等。从学科角度上看,这反映了当前我国多数的计算机辅助词典编纂系统主要还是属于语料库词典学的范畴。

追求词典编纂的自动化是我们的目标,也是计算词典学的主要任务,即开发词典的计算机辅助编纂系统和自动生成系统。这样,不仅可以大大解放人力,还可以提高效率,增强辞书的科学性。语料库词典学和计算词典学与当前我国的计算机辅助词典编纂系统的关系如下图:(3)对衡量自动化程度比较重要的模块如“词典生成”、“词典排序”、“词典检测”等,多数系统是不具备的。上边我们说了,这属于更高层次的词典编纂自动化领域的内容,是计算词典学所追求的目标,也应该是我国计算机辅助词典编纂系统以后努力的方向。(4)指向“平行语料”模块的计算机辅助词典编纂系统比较少。这反映了在当前双语词典的市场需求比较大的形势下,可以辅助进行双语词典编纂的系统是比较缺乏的。(5)指向“WEB语料”模块的计算机辅助词典编纂系统比较少。当前的系统多是静态的或人工建设的语料库,当前WEB网中大量的非数据结构信息是我们取之不尽、用之不竭的新鲜资源,WEB语料的另一个优势是它可以保持很大的动态性。因此,WEB语料库的开发与建设,包括检索系统的完善,也是我国计算机辅助辞书编纂领域今后要努力的方向。(6)指向“词典检测”和“质量保证”模块的计算机辅助词典编纂系统比较少。词典的编纂不是朝夕之功,必须反复检测、修订、改善,因此,从计算机辅助词典编纂方面来看,是离不开一个成熟的检测或保障系统的。四、结语

上述计算机辅助编纂系统的开发只是计算词典学和语料库词典学发展的一个缩影,随着信息技术的进一步发展,将会有更多功能齐全、技术先进的辞书编纂系统被开发出来,词典编纂、出版过程将发生更加深刻的变化:第一,数据输入方式更加便捷。利用计算机多媒体处理技术开发的语音输入法、图文识别技术等应用到辞书编纂中去,能有效提高辞书编纂的效率、质量。第二,出现商品化的辞书编写专用软件,辞书编纂的时效性得到保证。第三,信息高速公路带来了便利,辞书编纂人员利用网络与世界各地的同行进行快速信息交流、学术研讨、合作开发,辞书的科学性、实用性增强。

但是,计算机辅助词典编纂系统应该只是我们暂时的目的或任务,最后的目标是要达到完全的自动化,排除过多的人工因素,实现词典的自动生成。如下图:

从这个目标上说,目前能初步具备这个功能的为数极少,其中的代表就是广东外语外贸大学的“基于语料库的WEB词典编纂及自动生成系统”和“基于网络的词典辅助编纂及生成系统”等,其他的系统主要多是辅助人工进行语料的建设、检索、筛选、排序,例句的提取,以及词典的检测、排版、修订等。

总之,我国的计算机辅助词典编纂系统呈现出了欣欣向荣的蓬勃局面,但如要实现真正的词典编纂和生成的自动化,还需要各个系统互相借鉴、通力合作,更需要转变发展的思维和方式,积极进行理论创新和技术革新,力争从语料库词典学领域慢慢转型到计算词典学,实现两个领域的优势互补,这样,真正的计算机自动词典编纂系统才能得到开发与应用。参考文献

1. 常宝宝. 基于语料库的双语词典编纂平台的构建. 辞书研究,2006(5).

2. 乐嘉民. 辞书质量技术保障系统的研发与应用. 中国编辑,2007(1).

3. 刘辉等. 基于语料库的WEB词典编纂及自动生成系统设计与实现. 沈阳师范大学学报,2006(3).

4. 陆汝占. 汉语辞书编纂一体化环境(上)、(下). 辞书研究,2001(2)、(3).

5. 王惠,李康年. 大型词典编纂的计算机辅助开发与管理系统. 辞书研究,2004(2).

6. 张绍麒. 辞书与数字化研究. 上海:上海辞书出版社,2005.

7. 章宜华. 关于计算词典学理论框架的探讨. 辞书研究,2007(6).

8. 郑恩培,陆汝占. 汉语词典编纂计算机化的若干问题. 语言文字应用,1999(2).

论辞书数字化出版中的数据发掘与知识发现

孙 毕(上海辞书出版社)“知识发现”又称数据库知识发现(Knowledge Discovery in Database,KDD),指用计算机从大量原始数据中发掘出隐含的、有用的、尚未发现的信息和知识;而“数据发掘”是数据库知识发现中专门负责发现知识的核心环节。(李伟,赵卫利,刘冠群等2009:181)

数据发掘无疑是非常有意义的。METAGroup曾做出这样的评价:“全球重要的企业、组织会发现,到21世纪,数据发掘技术将是他们商业成功与否的至关重要的因素。”但是数据发掘也面临许多难题,其中之一就是现有的发掘方法都或多或少地存在着面对海量数据失效的问题。杨炳儒(2008:76—83)《知识发现领域当中面临的五类重大问题》认为:“能否根据具体问题的需要,找出那些与问题解决最为相关的数据,而不仅是尽可能地提高算法性能来发掘全部模式,这将对数据发掘研究进展,及其在解决具体问题中发挥关键性作用有着重要意义。”该文同时指出:新技术方法的引入(其他学科领域的渗透),理论融合交叉性研究,是知识发现研究的主要趋向之一。

本文拟用知识发现与数据发掘的手段,探讨降低辞书出版成本、提高辞书编纂质量的途径;特别是探讨在辞书的复合出版中,用数据发掘实现电子版辞书与印刷版辞书在内容和功能上“异质”的途径;用辞书学和数字化出版领域的实践,丰富知识发现与数据发掘的理论研究。一、辞书编纂中数据发掘的内容

欧阳为民、郑诚、张燕《国际知识发现与数据发掘工具评述》(2001:104)指出:“在数据分析方面没有所谓最好的技术……一个真正有用的工具必须为解决不同的问题提供不同的解决方法。”要想在辞书编纂中有效实施数据发掘,就得分析辞书这一特定图书的数据特点,甚至要对辞书出版这一产业的特点有所了解:辞书编纂者最关心的问题是什么?计算机可以为辞书编纂做哪些在速度和质量上超过人工的事情?这些数据发掘技术可以实现在印刷版辞书中不可能实现的哪些功能?以下分述之。1. 通过数据发掘发现印刷版辞书未有内容

计算词典学家章宜华谈到,现在电子辞书的普遍缺点是和印刷版辞书内容同质,或者说多是印刷版辞书的翻版。在辞书数字化出版时代,在发掘印刷版辞书中未被立目的新条目、发现已有条目之间的联系两个方面,可以充分利用数据发掘来使电子版辞书和印刷版辞书有质的不同。

如类似于内容分析索引或主题分析索引,即是利用计算机对海量辞书全文数据进行发掘,发现虽然没有在印刷版辞书中立目,但是有检索价值的知识点后,将之立目,使得电子辞书的词目数量比印刷版多得多。这种条目“量”上的多少之别是电子辞书和印刷版辞书的重要区别之一。在海量数据中用数据发掘方法完成《中国大百科全书》(第一版)式的内容分析索引,人力、物力、时间等方面比人工制作当然会大大节省。2. 通过数据发掘发现条目之间的联系并建立概念网

利用计算机对海量辞书全文数据进行发掘,可以发现大量存在于数据中的隐含的、有效的规律,或者说未知的、潜在有用的联系,并用这些联系建立词目之间网状的联系,即“概念网”。这种“概念网”可以解决传统辞书的重大缺陷:传统辞书的条目之间一般是孤立的,即使有参见系统,但在辞书的全部内容中,比重并不大;目前电子辞书检索界面中的通配符,只能解决词目之间的字面层次的相关或聚类,不能体现词目在意义上的相关性,而后者可能对读者(特别是专业研究者、系统知识学习者)更有用。

数据发掘技术为在大型辞书数据库中建立条目之间的横向联系提供了新的思路和途径。我们可以把一个个词条看作一个个微型文本,通过计算机的文本聚类技术,将各个微型文本(条目)进行自动聚类:即用计算机技术通过统计各词条的字频和词频,按其相似度来确定各条目之间的内容关联,而建立起远比传统“参见”系统要多得多的条目之间的“参见”关系。印刷版辞书数字化后进行的文本聚类结果,将使辞书的面貌和功能发生数量和质量两方面的变化,使得电子辞书和印刷版辞书“同质异构”:辞书不再是条块分割、各个条目之间相互隔绝的若干长方形组成,而是由各个条目之间多角度关联的网格组成。这样,用户检索某一领域的知识,由任何一个词目作为检索入口,都可以检索到和该检索起点相关的所有知识点,最理想的状态是可以检索到和该词目有关的完整知识系统(当然以辞书数据库已有内容为限)。

辞书条目“网状联系”的建立,对于读者的意义在于使得检索过程更加智能化、知识化、系统化、便捷化、专业化;对于辞书出版商来说,由于有“网状联系”的辞书能提供给读者大量相关的检索,因而可以在内容没有本质性更新的基础上,通过结构重组,使得辞书功能不断升级换代,进而取得更大的经济效益和社会效益。《中国大百科全书》(第一版)的网络版已经部分做到了这一点。《辞海》、《大辞海》、《汉语大词典》、《汉语大字典》等大型品牌辞书,通过这种“微型文本自动聚类”技术可以实现“华丽转身”,打造一个在功能、面貌上和纸版辞书“同质异构”的电子辞书;当然,“分类辞书”也可以用这种“微型文本自动聚类”技术来自动(或辅以人工干预)生成。3. 通过数据发掘的“异常发现”来提高辞书编纂质量

用计算机对海量辞书全文数据进行发掘,可以发现“数据中存在的偏差或异常”,即“异常发现”。如发现那些在某部辞书中出现过但未被该辞书立为单字头的字,可以解决即使是品牌辞书也普遍存在用字缺乏“自足性”的问题。笔者曾撰《用计算机辅助辞书编纂实现辞书用字自足性》(2010:57—60)一文探讨这方面的问题。4. 区分辞书中的新、旧内容,重点处理新内容以降低出版成本

对于辞书编纂来说,数据发掘并不限于发掘出未正式立目的、有检索价值的知识点,只要编纂者感兴趣的知识都可以作为发掘的对象。

无论从经济意义还是从社会价值来看,辞书出版往往不在于频繁地策划新选题,而更多地在于不断修订对出版单位来说有经济支柱意义、对国家文化建设有基础性作用的品牌辞书,不论是商务印书馆的《现代汉语词典》、《新华字典》,上海辞书出版社的《辞海》、《汉语大词典》,还是国外的《牛津英语词典》,概莫能外。修订辞书的大部分内容是稳定不变的,许多内容甚至可以作为标准确定下来;需要作者和编辑重点加以把握和审核的新内容一般为数较少。另一方面,由于辞书的特殊性,即使名为“新编”辞书,许多内容和已出版的辞书还是相同的,即原有内容(标准内容)也在新编辞书中占相当大的比重。诸如单字条目与多字条目的具体内容,条目的读音或音标,汉语辞书单字条目的简体字、繁体字与异体字,复词条目的推荐词形与异形词,条目之间的音序、形序乃至义序,条目的义项,义项的大部分书证(特别是始出书证),一些标准附录等,均不会经常变动。

但是在人工编纂辞书的时代,作者和编辑至少在审稿时,对辞书的新、旧内容几乎平均用力,这就浪费了大量人力、物力,不仅提高了辞书制作成本,也降低了辞书编纂质量。

在数字化时代,解决上述问题的思路可以是穷尽、准确地发掘出已有精品辞书的各类元素,建立辞书标准元素库或参照系统,将新辞书(修订或新编辞书)与此标准库比对,然后将新辞书的内容一分为三:a)与标准库完全相同者;b)与标准库有异者;c)标准库所无者。从数据发掘和辞书编纂的角度看,b和c两部分就是数据发掘的“潜在的、有用的、未知的”新知识,是辞书作者和编辑需要重点审核的。新编辞书或修订辞书内容一分为三后,人工只要留心和标准元素库不同或新增者即可,这样可以大幅提高辞书编纂质量,降低辞书编纂所费的人力和物力,带来明显的经济效益。

要筛选和区分新、旧数据,别说专门设计辞书编纂系统,连excel工作表中的LOOKUP函数、IF函数等都能很容易实现这一点。

可以用来建立辞书的标准元素库的内容有很多。除上文讲到的外,还有多音字(汉语)与多音词;词的古代义项与现代义项,一般语词义项与专科义项;词目的插图与图注信息;单字与多字条目的自动注音;生僻字的处理及索引生成等。

辞书标准库建立后,辞书质量专项检查也可以使用。如建立人名、地名、引书标准数据库后,可以将新辞书相应数据的专项检查对象发掘出来,和这些标准库对比。这种专项质量检查,用时少而精度高。二、辞书数据发掘方法举隅: 用“凡例”与“编写细则”建立“核集”

如何用较小的代价、较快的速度对海量数据进行有效发掘,是数据发掘者关心的重要问题。许多程序设计者的基本思路是,按统计学原理,一定数量的小样本数据在容差范围内可以体现总体数据集合的特征;杨炳儒(2008:76—83)《知识发现领域当中面临的五类重大问题》则提出“逆问题猜想”与“磁铁效应猜想”,寻找一个或数个远小于海量原始数据的“核集”,通过发掘此“核集”,达到“与发掘原始真实数据库等效”的结果。

对于辞书数据发掘来说,上述设想是比较容易实现的。辞书的“凡例”基本概括了每部辞书的内容特点和编纂体例,据此很容易提炼出数据发掘所需的特征库、模式库,或将“凡例”与辞书正文相对照,建立起能反映全文特点、但是规模有限的“核集”。如果说辞书的“凡例”还比较简略,与原始整体数据距离还较大的话,比“凡例”更细致详尽的“编写细则”,则是辞书编纂出版者在组稿、写稿、审稿时对各种各样的问题、数据特征及其处理方法做的具体详尽的规定。对于专门的辞书网站来说,通过搜集各领域品牌辞书的“凡例、编写细则”并与正文相关内容对照,就可以建立一般辞书数据发掘所需的“核集”。

当然,尽管辞书数据总体而言是比较规范的结构化数据,但是设计数据发掘程序时,还得考虑具体情况的复杂性。

一方面,从辞书的凡例可知,辞书的许多数据都有规范、统一的特征,如:条目的字体、字号整齐划一,且和释文的字体、字号相异;辞书的参见系统常用“见、参见、同、通、也作”等做标记,这些形式或文字上的特征甚至可以直接用来转换成工作表、数据库等。另一方面,由于辞书各条目形式特征并非整齐划一,其又具备非结构化数据的特点。如同一辞书各条目中,多音条目常常有提示读者参见其他读音的参见系统,非多音条目则没有;各条目的书证和插图的有无、多寡也往往异同并呈。至于在不同的辞书中,同一内容用不同的体例表达就更常见了。这种非结构化特点或者说数据的异质性,甚至使得汉语辞书中的简体字、繁体字、异体字这样的重要数据都不能简单地、无差错、无遗漏地提取出来。仅以多音字而言,不同规模、不同性质、针对不同读者对象的汉语辞书,所收多音字的数量、多个读音的具体内容都是不同的,因此对于数据发掘者来说,都是不可预知的。数据发掘者设计程序时,应该考虑到不同类型辞书表示多音的体例也是复杂多样的:有“另见××页××(音)”(如《辞海》)的;有“[又读××(音)]”,[旧读××(音)]的;有“(一)××(音),××切……(二)××(音),××切”的(如《汉语大字典》),等等。三、目前辞书数据发掘对象的特点

数字化出版在总体上来说还处于初级阶段,辞书数字化出版也是这样,表现之一是,目前辞书数字发掘的对象基本上是文本型、静态型的。虽然“图发掘”是当前数据发掘研究的一个热点,化学、生物、美术、文物等许多专科辞书中“图”也是重要内容之一,但是在文本型的数据发掘尚未成熟的情况下,“图发掘”暂时不会成为当前辞书数据发掘的重点。同样,在线辞书(如维基百科)的动态数据发掘至少目前所占比重不大,因为对于传统出版社来说,更多的高质量的辞书并未转换为在线辞书,至少中国目前是这样。

当然,当辞书出版商能够成功运营在线辞书后,辞书出版的数据发掘将有新的天地。如可以通过跟踪在线辞书用户信息和用户行为,运用分类、聚类、关联分析等方法,发掘其中存在的特点和规律,为辞书选题和在线辞书设计提供参考。四、辞书出版中数据发掘的目的与意义

辞书出版中数据发掘的价值表现在多方面:不论是发现有检索价值的知识点并将之立目,还是通过发掘各词目之间的潜在联系以构建概念网,其意义都在于加大对已有辞书资源的利用率,实现一次资源多次、深入开发选题,以通过知识的增值服务,实现知识创新。数据发掘也可以在一定程度上提高辞书出版商自身组织、实施选题的能力,或者说提高辞书出版商“自主知识产权”开发能力。

至于从全文数据中发掘出特定内容以建立标准数据库,或者将经过反复检验是正确的旧内容和那些需要人工核对的新内容进行区分,其意义都在于通过节省人力、物力、时间以降低辞书出版成本,并通过辞书专项质量检查等方法来提高辞书编纂质量。参考文献

1. 李伟,赵卫利,刘冠群等. 知识库和知识发现技术在知识服务方面的应用. 现代情报,2009(7):181.

2. 欧阳为民,郑诚,张燕. 国际知识发现与数据发掘工具评述. 计算机科学,2001(3):104.

3. 孙毕. 用计算机辅助辞书编纂实现辞书用字自足性. 科技与出版,2010(2):57—60.

4. 杨炳儒. 知识发现领域当中面临的五类重大问题. 中国工程科学,2008(4):76—83.

现代信息技术条件下的古汉语语文辞书编纂

连登岗(南通大学文学院)

现代信息技术手段,主要指电子计算机及其网络与图书的数字化。古汉语语文辞书,指关于古代汉语的各类字词语典。古汉语辞书的内容来自对古代汉语语料的研究,古代汉语语料具有不同于现代汉语的特殊性,这个特殊性就是它相对的封闭性和确定性。古汉语是一种已经退出社会的历史语言,作为一种语料,它是一个相对确定的量,因而从理论上说,可以对这些语料进行穷尽性的统计和分析。古汉语语文辞书的应用也具有与现代汉语辞书不同的特殊性,这个特殊性就是其编纂目的。今天编纂的古汉语辞书,主要是为今人和后人阅读古书和研究汉语史服务,其直接任务主要有三:一是收集设立字目、词目;二是对所收字词做出解释;三是保存字目、词目以及对它们的解释。

古汉语语料的特殊性和古汉语辞书应用的特殊性,决定了古汉语辞书的特殊性,这就是:一、字目、词目设立的穷尽性;二、义项、音项设立的完备性;三、释义、注音的准确性;四、解释内容的丰富性;五、字典形式、种类的多样性。

在传统条件下,古汉语辞书的特殊性难以实现,现代信息手段的出现给古汉语辞书的编纂带来了革命性变化的可能性。古汉语辞书特殊性的实现,是建立在对语料的研究与对其成果编纂的基础之上的。以前的基础研究和辞书的编纂,都是人工进行的,由于古代汉语语料的丰富性和复杂性,决定了在人工条件下,难以做好这些工作。因而,现有的古汉语辞书总是难免存在着这样那样的局限性。而现代信息技术手段的使用,可以对古汉语语料进行穷尽性的研究,从而使古汉语辞书的编纂发生重大变化,为全面提升质量奠定坚实的基础。一、现代信息技术为古汉语辞书编纂提供了新的技术手段,从而为全面提升古汉语辞书的质量带来了可能(一)现代信息技术为古汉语辞书穷尽性地收集古汉语字词提供了技术手段,从而使穷尽性地收集古汉语字词成为可能

大型古汉语辞书,应该把古汉语中的字词全部收录其中,可是,在人工条件下,面对汗牛充栋般的文献资料,这个目标很难实现。例如《汉语大词典》是迄今收集汉语词语最多的辞书。王力(1999:75—76)称:“这部词典收集的复音词语空前丰富,传世古籍中的复音词语基本上都能在这部大辞典中找到。”其实不然,还有许多词语未能收入。例如,据笔者对王明编《太平经合校》(1960)的不完全统计,其中仅复音词语就有220多条未被收录。其他典籍中未收词语也很多。在现代信息技术条件下,由于有了数字化书籍,有了现代信息处理手段,检索速度得到了极大提高,为穷尽性检索、穷尽性研究提供了可能,因而具备了穷尽性收集字词语的可能。(二)现代信息技术为古汉语辞书准确配置词源提供了技术手段,从而使准确配置词源成为可能

大型古汉语辞书,在为一个词语设立义项时,应该为其配置最早的书证,可是由于资料的浩瀚,人工编纂的辞书很难全部做到这一点,许多辞书为一些词语义项配置的书证,并非文献中最早出现者。例如:惜爱 义为“爱惜”的“惜爱”,《汉语大词典》为其配置的最早书证是明刘基《女儿子》诗:“阿婆惜爱女儿子,女儿只愁阿婆死。”而这个词,早在《太平经》中就出现了。《太平经·上善臣子弟子为君父师得仙方诀》:“如有大功于帝王,宫宇积多,官各有布帛,可得常衣食也。夫人命帝王,但常思与善人与治,何惜爱哉?”《太平经·有知人思慕与大神相见诀》:“是太上有知之人,禄相所贪,故以自明是也。但恐文辞笔墨自言耳,亦何惜爱天上执教戒乎?”掩盖 义为“遮盖”的“掩盖”,《汉语大词典》为其配置的最早书证是明李贽《复焦弱侯书》:“此一等人,心身俱泰,手足轻安,既无两头照顾之患,又无掩盖表扬之丑,故可称也。”而这个词,早在《太平经》中就出现了。《太平经·案书明刑德法》:“犹日月之明夜,不可掩盖。”在孔安国的《尚书注》中也出现过。《尚书·周书·蔡仲之命》:“尔尚盖前人之愆,惟忠惟孝。”孔安国传:“汝当庶几修德,掩盖前人之过,子能盖父,所以为惟忠惟孝。”《尚书·周书·吕刑》:“群后之逮在下,明明棐常,鳏寡无盖。”孔安国传:“群后诸侯之逮在下国,皆以明明大道辅行常法,故使鳏寡得所,无有掩盖。”真真 义为“的的确确,实实在在”的“真真”一词,《汉语大词典》为其配置的最早书证是明李贽《观音问》:“寻常亦会说得此身是苦,其实亦只是一句话耳,非真真见得此身在陷阱坑坎之中,不能一朝居者也。”而这个词,早在《太平经》中就出现了。《太平经·试文书大信法》:“真人自若真真愚昧,蒙蔽不解,向者见子陈词,以为引谦,反真真冥冥昧昧,何哉?”《太平经·上善臣子弟子为君父师得仙方诀》:“见天师言,承知天太平之平气真真已到矣。”《太平经·急学真法》:“善哉,真人之言。吾无以加之也,真真是也。”《太平经·妒道不传处士助化诀》:“真真愚暗益剧不晓大不达之生谨再拜,问一从事,言之必为过,不问又愚心不能独自解。”《太平经·天咎四人辱道戒》:“愚生未尝见天上事,真真一觉便是。”“愚生之心,真真已解矣,不意道亦有霸矣。”欺伪 义为“欺骗虚伪”的“欺伪”,《汉语大词典》为其配置的最早书证是清黄宗羲《葬制或问》:“孝子居丧,必诚必信。诚信贯于幽明,故格来享;欺伪杂于其间,精诚隔绝。”而这个词,早在《太平经》中就出现了。《太平经·四行本末诀》:“后生者日轻事,更作欺伪,积习成神,不能复相禁,反言晓事,故致更相承负,成天咎地殃,四面横行,不可禁防。”《太平经·三五优劣诀》:“有其全者,其人民万物,悉无病平安,无为盗贼欺伪佞者也。”《太平经·为道败成戒》:“有不乐推行作善,反好浮华之文,可以相欺伪者。”在手工条件下编纂辞书,要想找到一条词语的最早出处,一方面无法聚集全部语料,另一方面,面对浩瀚的语料,又无力穷尽性检索。而在现代技术条件下,由于可以建立起囊括全部古汉语语料的语料库,可以利用现代化的检索手段,对全部古汉语语料进行穷尽性的搜索,因而可以快捷而准确地找到任何一个词语的源头。(三)现代信息技术为古汉语辞书设立完备的义项奠定了语料基础,提供了技术手段,从而使义项设立完备成为可能

汉语中有很多多义词,辞书对这些词义项的设立,应该做到尽量完备,可是在人工编纂的情况下,由于无法对语料进行穷尽的研究,因而对一些词义项的设立并不完备。例如:真真 除做副词,具有“的的确确,实实在在”的意思外,还可做形容词,是真实的意思。如《太平经·兴衰由人诀》:“六子若有疑,欲知吾道大效,知其真真与不,今疾付贤明道德之君,使其按用之,立于天地乃相相应,是其人明效证验也。”《太平经·天神考过拘校三合诀》:“故今天道传治,与往古殊异,以今占古多不中,以古占今不复应。故顾问衰竭难复用,用之不比中,又有集处真真文。”《太平经·拘校三古文法》:“当时各自言所为是也,孔孔以为真真也。”句中“真真”是真实、不虚假的意思,此用法《汉大》未予收录。工人 《汉语大词典》释“工人”有三义:1. 即工人士。2. 指从事各种技艺的劳动者。3. 指个人不占有生产资料、依靠工资收入为生的劳动者(多指体力劳动者)。但是,在古代汉语中,“工人”一词,还可以用来指称占卜者、[1]乐人、傩者、画工等不同职业者,这些意义未见辞书收释。在现代技术条件下,可以在穷尽性收集资料的基础上,进行科学的分析归纳,从而对所释字词的意义进行完备的研究。例如,笔者曾对“摩顶放踵”、“长脚”及动物肢体词“腿”在《四库全书》中的用法,做过穷尽性的研究,所得出的结论,具有相对的完备性。(四)现代信息技术为古汉语辞书准确释义收集必要的语料提供了技术手段,从而使准确释义成为可能

辞书对所收词语的释义应该准确,可是传统辞书,由于资料的局限性,往往影响到释义的准确性。例如:股脚 《中文大辞典》(台湾“中文大辞典编辑委员会”编,中国文化研究会印)释其为:“股脚:股与脚也。《汉书·东方朔传》:‘擢项颐,结股脚。’《吕氏春秋·观表》:‘陈悲相股脚。’”此释有误。笔者曾通检《四库全书》正文及文注释,共得“股脚”用例约103条,考查其用法与结构,综概其义,“股脚”为双音节复合词,其本义为“下肢”;《庄子》中“股脚”指称下肢中[2]凹曲隐蔽之处。垂拱 《汉语大词典》垂拱第一义项为“垂衣拱手”。误。其实,这里的“拱”不是动词,而是名词,拱就是两手相合的意思。《论语》:“子路拱而立。”皇侃《论语义疏》:“拱,沓手也。”《礼记·玉藻》:“凡侍于君,绅垂足如履齐,颐溜,垂拱,视下而听上,视带以及袷,听乡任左。”孔颖达疏:“垂拱者,拱,沓手也。身俯则宜手沓而下垂也。”所谓垂拱,就是“下垂其拱”,亦即双手重合而下垂的意思,而不是“垂衣拱手”。惊涛 《汉语大词典》释“惊涛”为“震摄人心的波涛”。误。王力说:“苏轼《念奴娇·赤壁怀古》:‘乱石穿空,惊涛拍岸。’胡云翼《宋词选》注:‘惊人的巨浪。’这么解释好像也讲得通,其实也是望文生义。‘惊’并没有‘惊人’的意思,‘惊’的本义是指‘马因害怕而狂奔起来’,也就是指‘马受惊’。《说文》:‘惊,马骇也。’《战国策·赵策一》:‘襄子至桥而马惊。’我看,按照‘惊’(驚)字的这个本义,‘惊涛’就是形容‘像马受惊而狂奔那样汹涌的波涛’。这样理解才确切,也更形象些。”“惊”繁体字作“驚”,从马敬声,本意是“马因害怕而狂奔起来”,用它来形容汹涌的波涛,最为形象生动。王力的解释,从字形分析入手,于训诂有据;他的解释置于被解释文中,文从字顺,合情合理,显然是正确的。以前的辞书解释词语,出现一些不准确现象,其原因之一是由于研究者难于全面地占有资料,难以进行穷尽性的研究,而在现代信息技术条件下,有了现代化的手段,对于研究对象,可以进行穷尽性研究,从而大大提高释义的准确性了。(五)现代信息技术为古汉语辞书增加解释内容、收集必要的语料提供了技术手段,从而使增加解释内容成为可能

在人工编纂辞书条件下,对词语所作解释比较少;在现代信息技术条件下编纂辞书,可以增加解释的内容。现代辞书的解释内容,大体上有两项:音和义。这样的内容,对于阅读古书是很不够的,还需要增加许多内容,如字词音义的发展演变情况,使用频率乃至词性等。例如:在古代“脚”在很长时间内指的是下肢,后来才专指“足”。中古时期的一些文献,例如《旧唐书》:“握土置瓮中,用水淘汰,沙石沉下,取其上浮泥,投以米屑,作饼饵而食之人,皆体肿而脚弱,枕倚于道路。”其中的“脚弱”指的是下肢无力的一种症状,其中“脚”指的就是下肢,而不是“足”,不了解这一点就会误读。而现有的辞书在这方面做得还很不够,如《汉语大词典》就没有做到这一点。再如,“足”在《山海经》中也指整个下肢,后来才专指“脚”,如果不了解它意义的这种变化,在读《山海经·海内南经第十》:“氐人国在建木西,其为人,人面而鱼身,无足。”郭璞注:“盖胸以上人,胸以下鱼也。”时,就会把其中的“足”误解为“脚”。如果说,在人工编纂辞书的条件下,难以做到对所解释的词语做多角度的、历时的解释的话,那么,有了现代化的手段,人们就可以对所释对象进行更多方面的研究,从而做出多角度、多时态的全面解释了。(六)现代信息技术为古汉语辞书改进检索方式提供了技术手段

传统辞书检索比较困难;而电子辞书检索要容易得多。传统辞书,对所解释项目的编排,多数采用音序法和形序法,而用这种方法编排的工具书,在检索的时候,都要经过多重工序,辗转检索,才能找到检索目标。有了现代化信息手段,辞书的编排有了比以前更多的可能性,特别是在电子版中的检索,可以实现直接检索,比在纸质版中快多了。(七)现代信息技术为编纂更多的专门性古汉语辞书提供了技术手段

用人工编纂的辞书,属于普通语文辞书的比较多,在现代信息技术条件下编纂辞书,可以编纂更多专门性辞书。普通语文类工具书,在使用时还需要使用者自己来判定该字词的某一义项、音项的适用性。现代人古汉语素养的匮乏,社会越来越需要一些服务于古代典籍阅读的专门辞书。这类专门辞书,可以是行业性的。而电子版可以实行联机检索,为专书阅读服务,例如《四库全书》的联机字典。同理,一些专门性的著作,如《诗经》、《论语》、《黄帝内经》等,也可以配置专门的联机字典。(八)现代信息技术为古汉语辞书提供了新的载体

传统辞书的载体比较单一,就是纸张;在现代信息技术条件下的辞书,增添了电子版辞书。传统辞书以纸张为载体,体积大,分量重,不便携带,不便使用;而现代信息技术条件下的电子辞书,则体积小,容量大,携带方便,使用方便。二、现代信息技术条件下古汉语辞书编纂的新课题

现代信息技术给古汉语辞书编纂带来了种种变化的可能,人们对古汉语辞书的需要也有了变化,因而,今后的古汉语辞书编纂应该充分利用现代信息技术,适应社会对辞书发展的需要,努力改进古汉语辞书的编纂。(一)载体多样化

即既重视纸质本辞书的编纂出版,也加强电子版辞书的编纂出版。目前,电子辞书有一些,但品种不多。(二)资料穷尽化

编纂辞书,所依据的原始语料要尽量做到穷尽化,至少要做到相对穷尽化,例如《四库全书》、《四部丛刊》、《二十四史》、《全唐诗》、《大藏经》、《道藏》、《儒藏》、《中国基本古籍库》等都应进入语料库。(三)研究系统化

辞书对词语的解释,要建立在对每个词语系统研究的基础上,而不是像过去那样,建立在少数几个例证的基础上。不仅要做定性研究,而且要做定量研究。(四)辞书专门化

除了普通语文辞书之外,应把专门性辞书建设作为主攻方向。专门性辞书应包括:专业学科辞书、断代辞书、专书辞书。特别是一些经典著作,都应有专门的辞书。(五)义项完备化

在穷尽性、系统性研究的基础上,尽可能设立完备的义项。(六)释义精确化

在穷尽性占有材料的基础上,要充分应用语义学知识,例如义素分析方法,对词义做精确的分析。(七)内容多样化

根据需要,一些辞书所释的内容可以增加。例如,除了解释意义、注释读音而外,还可增加所释词语的使用频率、语用特征、该词语的源流、各个义项的性质等。甚至可以编纂一些“注疏体”的工具书,即仿照古人对文献注疏的体例,一切围绕阅读的需要,不仅解读字词,而且解读所有需要解读的内容。(八)视野全球化

编纂古汉语辞书,不仅要着眼于国内的需要,还要适应世界的需要。当然,可以编纂一些专门适应外国人需要的古汉语辞书。(九)编纂规划化

需要编纂什么样的辞书、编纂哪些辞书,应该根据学术发展的需要和市场的需要,做好规划。(十)队伍组织化

以前编纂辞书,多是某些单位或某些学者个人在做,只有一些大型辞书,例如《汉语大词典》、《汉语大字典》,才由国家出面组织编纂队伍,但这种队伍都是围绕项目组织起来的,是临时性的,一旦这个项目结束,队伍也就解散了。而且,这些临时组织的队伍,成员学术水平良莠不齐,经验缺乏,难以保证辞书的质量。鉴于辞书编纂是一项长期的工作,应该组织起一些专业的古汉语辞书编纂队伍,专门从事各种古汉语辞书的编纂。参考文献

1. 王力. 《古代汉语》第一册. 北京:中华书局,1999:75—76.

2. 王明. 太平经合校. 北京:中华书局,1960.注释[1]详见《“工人”释义补》,载《辞书研究》2006年第1期。[2]详见《释〈庄子〉“股脚”》,载《青海师专学报》2009年2期。[3]

出版社词典网络编纂工作流研究

王东海(鲁东大学文学院)一、研究背景

建国后相当长一段时间,辞书的编纂多被认为是专家层面的工作,一般由科研机构(如中国社会科学院语言研究所词典室)、自由作者(包括合作模式与单人模式)完成编纂,出版社仅仅是在作者向出版社提供稿件后介入编辑、出版流程,各大出版社并不十分重视自编辞书。随着辞书社会效益和经济效益的日益凸显,出版社逐渐开始转换角色,由编辑出版辞书慢慢转向自主编纂辞书。中国大百科全书出版社、汉语大词典出版社(现已并入上海辞书出版社)本身就是因为组织、编纂、出版这两部大型工具书而成立的,辞书编纂是其强项;湖北辞书出版社和四川辞书出版社所承担的核心工作也是《汉语大字典》的编纂、修订;上海辞书出版社承担《辞海》的编纂与修订任务,这些都是编纂任务集中、明确的出版社。而商务印书馆、外语教学与研究出版社,也都有悠久的自编辞书的优良传统,现在高等教育出版社、人民教育出版社以及其他各级出版社也逐渐设立独立的辞书室,承担编辑出版和编纂辞书两大任务。这些出版社的辞书编纂力量集中。在未来中国的辞书编纂中,出版社将承担辞书编纂任务的一半,而另一半辞书编纂任务可能由出版社委托相关科研机构或团体完成,自由作者编纂的辞书比例会越来越少。这一编纂模式符合出版社在财力、人力、资料等方面具有优势的特点,是一种高效的、能保证词典编纂和修订质量的工作模式,符合辞书这种既重视社会效益、学术效益,又重视经济效益的工具类书籍的本质特点。

出版社编纂辞书的方式主要有独立、合作和网络三种(章宜华,雍和明2007:377—402),前两种在我国都有不同程度的开展,网络方式代表着未来词典编纂模式的发展方向,在西方已经走过了试点阶段,进入良好的运行阶段,但在我国还未得到展开,远远落后于国外。其实,我国出版社的网络和硬件设备并不落后,甚至优于国外,落后的是缺乏运作大型网络项目的管理经验和管理模式,在词典编纂中还远未建立起先进的项目管理意识。

据资料介绍,外语教学与研究出版社曾经与牛津大学出版社合作,开发了一套基于网络的词典协作编纂系统。这套系统在外语类辞书的编纂中有其适用性,却并不一定符合汉语词典编纂的特点和模式。汉语词典编纂有其悠久的历史和成熟的编纂方式,应该结合汉语汉字的本质特点、汉语辞书编者的工作特点和方式、汉语辞书出版的流程,开发一套适用、高效的词典编纂系统。

本文探讨基于工作流的词典编纂网络工作模式,整合语料库资源及编者人力资源,分解任务,采用任务驱动模型,建立计算机辅助词典编纂系统。二、工作流技术与网络词典编纂项目管理工作流

工作流“是一类能够完全或部分自动执行的过程,它根据一系列的过程规则,使文档、信息或者任务能够在不同的执行者之间进行传递与执行”(孙满囤等2006),它是在20世纪80年代开始兴起的、涉及计算机及管理领域的新兴技术。

工作流技术是针对具有固定程序的常规、例行性工作提出的,其中的一些具体事务长期以来形成一种相对固定、统一的模式,较少有例外情况出现。引进工作流技术后,将一个常规工作流程分解成定义明晰、界限清楚的任务,用计算机程序固定下来,建立工作者角色、管理账户、组织单位、用户之间的工作关系,并通过网络形成各个客户端的连通,形成一条生产线,按照一定的规则和过程来执行任务,并对它们进行实时监控和及时反馈总结,以达到减少重复工作,提高办事效率和管理水平的目的。

一个完整的工作流系统应具有三个方面的功能特征:建造功能,主要指对工作流过程及其组成活动的建模、定义;运行控制,在运作环境中处理工作流过程并为过程活动定序;运行交互,跟最终用户和IT应用工具进行交互。(邹晓宇等2006)

工作流其实是对工作中的资源、任务、过程环节的有序、有效控制,这一运行原理与我们正在研究的词典编纂网络工作模式的特点是一致的。

从资源要素看,资源主要分人力资源、内容资源和物力资源。1. 网络式词典编纂模式越来越体现出团队合作的特点。团队工作中最基本的要求是高效组合人力和资源优势。以出版社为核心的词典编纂队伍涉及出版社总编、责编,辞书主编、编者,咨询审稿顾问,资料分析员,排版输出技术员等,这些不同定位的人员可以通过工作流的用户管理和工作授权进行有效整合。2. 词典编纂不同于其他项目工程,本质上是一个知识工程,内容资源管理是核心,体现为原生语料资源和既有辞书资源管理,前者主要为词典编纂提供原生语料,用于创新性编纂,后者提供既成辞书成果,用于继承和借鉴。这些资源如果不能整合进工作流环节,编者对它们的利用就会不到位。3. 物力资源的整合主要体现为财力和设备。

从任务要素看,词典编纂是复杂的工作流程,要将这一复杂任务进行分解。整个词典编纂工作流分为编纂子流和管理子流。编纂子流下分规划中心(下设需求分析、方案设计两个子环节)、资料中心(下设语料库建构、既有辞书资料分析)、勾乙中心(下设选词分析、立目分析环节)、编写中心、排版输出中心五大环节;管理子流主要包括人力资源管理中心(下设用户注册、工作授权、任务分配子环节)、项目管理中心(下设审批审核、建议交流)。管理子流与编纂子流的各环节发生复杂的非线性联系。

从过程控制要素看,词典编纂工作流的核心在于目标实现。目标管理中心基于任务管理,将不同环节的任务分别设置容量目标(文本量及词目量)及时间量目标(总时量及单位时量)这两个最关键的参数量。同时设置相应的工作量统计中心以及催办、督办中心。这一过程控制要与项目劳务报酬支出以及体现辞书知识产权排名管理相结合,体现激励机制。

总之,整合辞书网络编纂工作流的三大要素,用计算机技术对整个编纂项目进行统一协调处理,每个环节上整合了不同的目标设定、工作任务和授权、人力资源和内容资源,各个子环节环环相扣,全面提升词典编纂的效率。三、管理子流

词典编纂工作流的顺利运作要立足于合理的人力分工以及科学的资源分配。在工作流系统中,由主编针对不同参与人员的特长和特点为其设定角色定位,并分配相应的工作权限。不同的用户账户拥有不同的工作权限,不同的工作权限意味着不同类型的用户只能进入自己的工作区域,接触到权限设定的工作流资源和功能。1. 人力资源分析、工作职责与工作权限

大型的词典编纂网络模式工作流所涉及的人力资源大体分为以下几类:(1)出版社人员:总编(A)、责编(B)。

职责:一部辞书的总协调和总负责是责编(B)。大多时候由于责编对一部词典把握最紧密,往往兼任营销。总编(A)主要负责审核选题,监控督促工作流程以及审核辞书。

权限:责编(B)一般为工作流系统的管理员,拥有信息管理权限,有权进入各个工作流环节,并管理各个互动模块,如建议汇总、冗余信息删除等。总编(A)拥有各环节全程浏览权限,起到监控作用,但不能进行互动操作,只能直接与现编沟通。

出版社人员的工作范围大多限制在辞书项目的管理方面。(2)编者(D)、主编(C)、顾问(E)

职责:编者队伍(D)是词典编纂的工作主体,一般是由本词典涉及行业的专家或者是语言文字专家组成。普通编者在主编的领导下承担相应词条的编纂,严格遵守编辑细则的约定,哪怕是标点符号的使用。编者队伍中主编(C)是核心,主要责任是领导制作编纂细则、撰写凡例、制作样条,指导其他编者在细则指导下的编纂实践,解决编纂过程中出现的一切业务问题。顾问(E)是本词典所涉及行业的专家学者,核心工作是就词典的定位、宗旨、体例、编则、词条内容等五个方面提供建议以及参考意见。

权限:普通编者(D)对所承担的词条任务具有完全的编辑权,但对其他编者承担的任务只具有浏览权,以方便其在编辑自己的条目时,根据需要参考其他条目的释义。他们拥有资源资料的完全访问和使用权,并可向资料分析员提出资料需求。主编(C)也承担着词条编写任务,在这一部分工作中,拥有与普通编者相同的权限,对其他编者的词条内容有浏览权,虽也不具修改权,却有建议权。主编(C)同时兼具资源分配权,可对工作流中的人力资源、任务资源及资料资源进行配置,拥有增删账户、调整参与人员、分配词条编写任务、内容审核等权限。顾问(E)享有浏览权和建议权,并拥有调用语料资源的权限,以验证自己对词典具体意见的准确性。(3)资料分析员(F)

职责:资料分析员(F)拥有语料库修改的全部权限,任务是建立、维护语料库,并围绕待编纂词条,做语料筛选结果的初级聚类分析。

资料分析员根据编纂组的语料需求报告,对扫描图像电子文本进行识别、校对的文本化处理,并整合电子文本语料,根据语体平衡、作者平衡、时代平衡、难解度平衡等平衡原则建构语料库。

分析员还承担为词条编写者提供初级例句资源的任务,这些资源一般是在语料库中检索出来,经过最重要的去串频、去重化工作后而形成的备用例句库,有时还可进一步把例句按使用特点、词类功能、词义等标准进行归类,为词条编写者归纳、描写义项和提取、改编例证服务。分析员必须由兼通词典编纂、语言文字学、语料库、中文信息处理知识的人员承担,其工作结果是整个词典编纂工作流的基础。(4)其他人员(G)

其他人员主要包括校对员和印刷排版等技术人员。大型辞书的编纂需要设专门的校对员,他们一方面拥有成熟而扎实的校对技术,另一方面可以初级用户的身份审核词典内容的表达及语言文字错误,在审校视角上与主编、责编、普通编者形成互补,最大限度降低词典的内容错误。印刷排版人员主要为计算机排版专业人员,熟悉词典版面编排的体例、字体字号等格式的设置,严格按词典编写细则中设置的符号和版面格式进行排版。例如在学习词典的排版中,由于大量知识窗、图片、自绘图形、色彩等因素的增加,页码索引、页眉中对本页首、尾词条的自动提取等操作的复杂化,都对排版人员提出比较高的技术要求。如果同时编纂相配套的电子词典,还需要熟悉数据库、多媒体程序设计的计算机技术员加入。(5)工作权限分配表2. 管理子流中的任务驱动与过程控制

任务驱动是工作流的重要特点。不同的用户凭用户名、密码登录系统后会拥有由主编发送的不同的词条编写任务,然后进行编辑,编辑完成后提交到主编处进行审核。这样主编和责编可以随时计算工作量,监控工作进度,保证词典编纂的有效进行。而编者由于任务的时间限制,也会合理安排自己的工作进度。这是现代管理理念和工作理论的体现,也方便计算每个编者承担的工作,支付报酬,以及决定词典署名排名次序。

任务驱动还可以体现并行工作的特点,参与人员可同时段工作。如可以由资料员专门提取词条的用例并进行初分类加工,完成后提交相关编者。编者如果有问题可向资料员再次提出资料要求,同时也可自行进入语料库进行检索。工作流如果顺利运转起来,主编、编者、资料员的工作不会出现因任务空白而形成的等待,而且还可达到互相促进的效果。

工作流的过程控制一般要设有绩效和催办两个重要模块。在绩效模块中,系统会自动追踪、记录每个编者承担工作的初成、审核、修改、初定四个阶段的用时,自动生成每个编者及所有编者各阶段的总用时量及每个词条的单位用时量的分析报告,指出工作进度中的短板及优势因素,供主编和责编在调整人力资源、工作任务以及重新考虑工作步骤、时限时参考。如果进度过慢,则由催办模块在线发送催请通知,并规定严格的完成时限,超出时限,主编要考虑缩减该编者的工作任务或工作量,甚至可以请其退出编写队伍,注销账户。如果进度过快影响到编写质量,也同样由催办模块进行提醒。四、编纂子流及其与管理子流的互动

管理子流中项目管理中心的两项核心任务是审核审批、建议咨询,其作用域遍及编纂子流的各个环节,与各环节的工作及人力产生交互,因此本部分将两个子流融合论述。1. 规划中心(1)需求分析

需求分析具体体现为词典编纂的选题研究。选题关系到一部词典的定位、宗旨和功能,是词典整体架构的基础和指导思想。需求分析的结果是形成一份完整的、论证充分的选题报告。选题一旦确立,以后的各个环节必须严格围绕这个指挥棒运作。

需求分析具体从以下四方面展开:A. 用户需求分析,分为年龄层次、文化层次、行业特点、用户对本词典的细化要求几个方面。B. 人力资源分析,分析工作中每个参与者的专业特长和技能特长,厘定其在词典编纂中可以承担的具体工作,如资料分析、专科术语释义、同义词对比、校对等。C. 资源需求分析。分析各参与人员的资源需求,核心是语料资源需求。D. 市场分析,主要围绕词典的营销、经济效益、社会效益、学术效益等方面进行分析。

工作模式:需求分析需要主编和责编给出主导意见,再采用面向内部和面向专家两个征求意见模式,技术上建构基于B/S模式的网络征求意见模块。一些民众最关注的词典容易引起普通民众的关注和参与热情,如新词语词典、流行语词典等,如果条件允许,可通过网络征求意见,如《新华新词语词典》(2003)的编纂就有限制地使用了这种集思广益的方法。

内部人员、专家和公众三个层次的意见收集齐后,须在工作流中建立讨论模块,公示词典的题目、宗旨、定位、收词等基本信息。征求意见的类型分三种:一为支持、反对意见,二为修正意见,三为补充意见。征求意见的途径可以多样化,例如可以编写几种风格、功能类型不同的样条置于网络上,让内部和外部参与人员进行评论和修改完善,这样可避免征求意见时的笼统、无目的性。征求意见时的问题设置一定要细致,回答要求具体充实,不能不回答或敷衍。例如在一份编写细则中的每一个条目旁边都留有空白意见框,要求每个被咨询意见者必须填写具体意见,如果是基于网页交互式的,这些文本域控制被设置为“必填”属性,如果不填写,会显示“提醒”对话框,页面无法在线提交。这些工作至关重要,可避免征求意见工作流于形式。

在集思广益的基础上,责编需要形成一个完整翔实的选题报告。选题报告在线提交给主编审阅。工作流系统的最大特点是可以设置工作追踪,在审阅追踪器中,可以由责任编辑发起审阅邀请,邀请相关主编、专家等参加审阅工作,而在审阅追踪器中可以动态观测审阅进程,并有催请提示功能。选题通过后,该选题会以群发的方式发送至编写组所有相关人员,并提供审阅注释的及时反馈。这一过程贯穿整个词典编纂流程,是一个开放的环节,允许随时提出修改意见。(2)方案设计

方案设计环节主要根据前一环节的选题报告,设计词典的体例,工作结果是形成编纂细则。细则是写给编写组成员作为编写参考的,所以要求能细则细,细到标点、符号也要做出统一的规定,同时细则的每一条要具有共性,这样才能增强可操作性,细则一旦确定,全体编写人员必须严格遵守执行。例如《现代汉语词典》的编纂细则就有180条,分为总则、语汇、条目、字形与词形、注音、释义、举例七个核心部分,最后还特别规定了标志、标点、搭头字眼以及释义程式用语等细节。

工作模式:细则中内容分为强制规定性内容和推荐参考性内容。

前者多为易于统一处理的问题。应将这些问题的处理方法明确规定下来,所有编写人员可积极提供修改意见,一旦确定下来,就须无条件执行。如有例外情况,编者可通过工作流的在线反馈系统提交主编处讨论,主编针对例外情况修订,不允许编者自行处理。例如,释义方面用语的使用就需要统一规范,如“形容”、“比喻”这样的搭头字眼,“见”、“参见”、“即”、“称”、“同”等体现中观参见系统的释义用语,我们称其为词典释义功能词。当前词典编纂中存在这些功能词使用上不统一和混乱的情况,这方面不做出统一规定,必然加大主编统稿工作负担。要严格界定这些功能使用的不同情况及所承担的不同意义描写功能,然后在细则中进行明确规定。

后者多为有争议的问题,一定要集思广益,在工作流的交流板块与所有编者和顾问专家进行讨论,内部人员一起斟酌一个约定俗成的统一解决方案。例如,词典立目方面最难把握的是无法清晰区分词与语、同形词与多义词的界限;功能标注方面难点在于词类标注中兼类词与词类活用、词义活用的分界,这方面原则的把握需要以主编为主导,以专家意见为重要参考,最后要发挥所有编者的判断力,求得共识。

另外,方案设计过程碰到的一些难题,难保词典体例一致的地方,细究其原因,大多是理论问题没有阐释清楚。例如选词中各子类词汇的范围分界问题。认知语言学提倡词汇类聚时的原型范畴,反对类别之间的截然分界,这一理论虽然有高度的解释和描写性,但却缺少可操作性,因为词典编纂是一项操作性、技能性工作,一些词选择与否涉及其所属的类别,必须按照经典范畴的方法果断界定。所以词典的收词永远无法做到圆满,只能做到相对完善。要处理好这一问题,工作流中的所有参与者都要做好相关理论问题的论证,拿出一个相对圆满的解决方案。例如《现代汉语词典》的编写计划中就提出:“词典编纂室应与词汇及例句搜集工作同时期内完成下列专题研究并做出报告:‘普通话词汇和方言词汇的区分’,‘现代汉语的重音’,‘现代汉语中的古汉语成分’,‘外来语的汉化问题’,‘词的定型问题’(包括儿化)。”

最后,细则是逐步完善的,直到最后出版,细则才能最终完善起来,并从中提炼出置于词典中供用户使用的“凡例”。所以,工作流系统中的在线讨论应该在词典编纂过程中全程开放,关注编者即时提供的意见是主编的例行工作。2. 资料中心

在词典编纂网络工作流中,资料中心是最重要的资源环节,主要承担三个任务:一是根据词典定位组合建构语料库;二是根据选词原则选定词目;三是为具体词条的编写提供该词出现的最小语境集。针对上述三项本环节工作细分任务,工作结果是语料库、词目初表、词条用例表。(1)动态组合语料库建构

早期词典编纂者使用的语料库以追求语料库中文文本数量为目标。语料库建设在资料收录方面坚持人无我有,人有我优,人优我特的原则,并作为目标进行追求,这是无可厚非的。但词典语料库的建设往往忽略了一个根本问题———语料的针对性。每部词典的编纂宗旨和定位是不同的,它们对语料有不同的要求。例如历时性词典需要古今语料平衡,而且能按年代属性进行排序,而共时性词典需要关注各语体、各语类的语域平衡、语体色彩平衡甚至语篇典型性、难易度的平衡(王丽英,王东海2011),各种不同的专项词典对语料的要求更是个性化。语料库动态组合是为了体现语料库的平衡性,而语料库的平衡也是选词立目、释义平衡的保证。因为库内文本没有平衡性就没有代表性,历时性语文词典的编纂要基于平衡性的资料库,其释义才能准确客观,符合语言事实和语言规律的原貌,否则就会犯以偏概全的错误。

工作模式:网络合作模式的后台语料资源应该是动态组合的。语料库组合的基础单位是语篇,组合的依据是不同定位的词典编者提出的要求组合,完成组合的条件是对语篇进行详细的多维度的属性标注,根据不同的属性标记在工作流中动态组合成各种语料资源集。(2)基于语料库的勾乙选词

选词是词典编纂的重要环节,首先要根据词典的规模、定位和宗旨设定明确的选词标准。设定选词标准时首先要研究好收录对象的分类,再按词典类型,设定各类词的收录比例。例如语文词典要设置好基本词汇、方言词、古语词、历史词、行业词、百科词等的选录原则;专科词典则需要设置好各分支学科的收词比例,还有纯术语、一般术语、准术语的收录原则。再例如综合性语文词典与综合性百科词典的区别就在于百科词收录比例,大约以40%~50%为界。

工作模式:传统词典选词一般是利用资料勾乙的方法。勾乙以普勾和选勾相结合。勾乙不只是勾词,还要勾出词的特殊用法或例句。在工作流中,普勾的方式可以用语料库分词标注与词频统计的方法来进行量化确定。这一过程全部由计算机完成,速度快,是传统手工勾乙方法无法比拟的。另外,有了计算机的词语索引聚类技术,还可为是否收录该词提供通用度、分布度等方面的数据参考。

但计算机词频统计是基于一个既定词表,故存在先入为主的弊端,而对于大量未登录词无法处理,所以不可能仅靠这一种方法确定一部词典的收词范围,计算机提供的词表和词频表、分布表等数据只是选词收词的重要参考,但利用计算机可以解决至少90%的选词问题,大约还有10%的选词工作需要依靠主编和编者的个人主观经验和积累来进行完善、补充和调整,资料分析员可将词表及自己认为不确定的词进行标红勾乙,提交主编和编者删减、修改、补充,资料分析员没有词表词目的遴选权,只有推荐权。

资料员在语料库中进行勾乙操作时,还要注意词的形、音、义、用等方面的用例,如异体字、异形词、儿化形式、重叠形式、不同词类功能用法等,特别要关注词的同一性(同形词)、兼类及活用的情况,为词的立目提供尽可能多的参考信息。

本环节的最终工作结果是词目初表和词形资料表(含词频、分布度、异形词、儿化等信息)。这些成果需要基于资料分析员的资料准备工作,由主编和编者共同完成。最后,这些选词词目数据是从语境使用实态中提取的,反映了词语使用频率和分布的客观情况,这些信息又可反过来修正词典中一些靠主观经验厘定的内容,进行更精确的校正。(3)基于语料库的勾乙选例与初步分析

词目勾乙完成后,资料分析员还要进行材料勾乙,即词条的用法勾乙。早期的手工资料勾乙需要先将一篇语料复印多份,然后使用不同颜色的符号进行勾选,如例句和特殊用法等。在语料库中,分析员可先将各词在语料库中的用例批量提取,形成最小应用语境集。这一环节的工作结果会形成一个相对完整的词语用例库,具有复用性,不但是本词典编者编纂的重要参考,以后编纂其他类型的词典也可反复使用,编纂者可对其中的资料各取所需。

工作模式:对于例句中有特殊用法的词,如同义连用、反义对举等,应该在工作流中采用高亮标注的功能,同时要注意同一词目勾乙材料的关联性,如同一词不同词类的用法、词语词义的活用、常用共现搭配关联等,这些将为编者释义提供重要帮助。选勾时所用的颜色、下划线、括注等符号必须有一致的规定,同一套符号可使资料员与编者之间的书面交际更加顺畅。

被检索词如果是常用词,其出现的例句将是海量的,资料员要进行初步的筛选工作。首先是查重处理,有些经典的例句可能因为引用等原因出现于不同语篇,计算机自动检索时都会呈现出来,可以采用完全匹配和词汇串匹配的方式进行去重。完全匹配是整句匹配,一般由前后标点符号作为界标,词汇串匹配即限定一个较高的检索跨距值,如“8”,代表8个字符连用形成的语串,如果相同,则进行去重。计算机自动去重还可根据语篇典型性属性标注,自动去掉影响因子小的重复词串。这些方式都可以在一定程度上实现检索结果的有针对性地呈现。

如果词典使用书证以及基于书证改造的自编例,从语料库中初次提取的例证后都要标注该语句书名、语体、作者、出版者、出版时间、版次、勾乙者、整理者、勾乙建议等信息。这些信息往往是编者使用这些例句的重要依据。另外,要注意资料中的表格与图片的搜集。表格、图片等数据由于其形象性和直观性,越来越适应年轻“读图一代”用户的使用心理,现代词典越来越重视这些释义要素,如果缺少这些材料,词典难以紧跟市场需求形势的变化。但目前的语料库多为纯文本,不支持多媒体信息,这项工作可由资料员处理,采用扫描、拍照等方式将图形和表格导入工作流资源子系统中。3. 编写中心

编者承担具体词条的编写工作。编写中心的最终工作结果是定稿排版的词典清样。

编者核心工作可分解如下:确定词目,区分同形词与多义词以确定所立词目的数量,从分析员对材料的初归类中判断义项的分设与合并,确定义项的顺序,确定兼类标准以标注各义项词类,选择义项的描写方式(释义方式),选择合适的释义先导词,确定书证或整理语例,标注语体语域属性等。这些工作需要编者具有专业的语言文字学知识或相应专科知识,具有较强的分析和概括归纳能力。具体编写过程中可以适当参考其他已有辞书,但为避免先入为主,建议先基于生语料进行归纳,再参考其他辞书进行完善和修正,这样可以避免释义时陷入借鉴过多的旧套路,从而既体现一定的创新性,又可以吸收原有成果,提高释义水平。主编也需要承担词条编写任务,因为只有进入具体的编写环节,才能及时发现问题,调整编纂思路。主编所承担的词条应该是词典收词各级分类中有代表性的,如普通词与方言词、古语词、专科词等词汇类聚中的典型代表。

工作模式:主编为编者建立账户,编者获得相应权限后,登录系统可以看到主编分配的词条编写任务及分析员传送的初步整理的各种知识材料。编者享有语料库的访问权,随时可以在语料库中补充测查相关材料或验证自己的释义,并要与资料员保持密切的信息沟通,可以提出资料要求,直接以任务的方式传送到资料员工作台上,无须经过主编审核。编者可以享有浏览其他编者编纂的相关词条内容的权利,但不具有编辑修改权,这可以方便编者根据词汇和词义之间的语义场关系进行关联释义,避免出现释义体例不统一、释义内容互补性差甚至矛盾的情况。

编写环节是整个工作流的核心环节,在做好上述工作的基础上,还要突出以下几个工作重点:(1)知识元语义关系与关联释义

每一个词条及其释文都是一个相对独立的小知识元,但它们之间有着紧密的关联,体现着严密的系统性。释义时要有系统意识,一部词典收录的词条是一个系统,可将词条按照常用的同义、反义、类义、上下义、整体与部分等语义关系建立知识本体系统。当前,计算机工程界对语义关系的界定越来越细致,例如俄罗斯的词汇函数就界定出七十多种语义关系。词典编纂是一项操作性的工艺,不是纯粹的学术研究,过细的语义关系界定减少了区分度,也就影响了操作性。“词网”(WordNet)的语义关系只限定为十种左右,这对于词典的操作性来讲,是适度的。如果可以按照“词网”的方式先将收录词进行语义场系联,将极大提高这种释义的系统性。这方面可以利用已有的汉语语义知识库,例如董振东的“知网”(HowNet)、北京大学仿“词网”体系建构的汉语词网CCD系统等。

在工作流中,要实现关联释义,还要做好三方面工作:

一是主编分配工作时不宜按音序的方式分配,而应根据已经系联成小系统的同语义场的词进行分配,这样便于提高释义的准确性和系统性。关于语义场的系联可参考已有的类义词词典,如《同义词辞林》(梅家驹等主编)、《现代汉语分类词典》(董大年主编)等。

二是在释当前词条时,由计算机自动从工作流中提取同场其他词的释义,列于当前词条的右边,方便参照释义。

三是根据字词的属性关系建立属性关联,自动标注参见系统,并提取相关词的释义进行实时参照,一些多音词、同名异指词或异名同指词之间的参见关联可以基于这个关联标注来进行。可见,对字词属性进行关联标注本身就是词典中观参见系统建构的过程。(2)内容审校、统稿

已分配的词条编辑完成后须由小组长或主编进行审核,审核通过后进入备用库。在编者完成全部词条的编写后,所有词条将汇集到主编或外聘专家工作台上进行统稿。修改意见会及时反馈到编者手中。修改稿统一后由主编进行精确的统稿操作,主编主要审核释义的难易程度、辞书体语言表达风格、释义各个细节的准确度和合体度等,同时要尽量保持词典体例、风格的一致性。统稿环节是至关重要的,主编一人无法承担,需要一个群体,例如民国时的《中国大辞典》虽未完成,但统稿已经聘用了21位专家。主编为统稿组织者,编者适度参与,必要的时候需要外聘专家。统稿后将进入严格的校对环节。校对建议采用专业校对软件(如“黑马”校对)先行预校,然后由专业校对人员进行校对,要坚持三审三校制度。最后由主编初定稿。

内容的审核还包括行政审批平台,由词典主编传送给责编,责编通过后再发给总编,总编通过后即完成行政审批程序,进入公开征求意见阶段。(3)征求意见与定稿

征求意见是重要的环节,很多错误或不妥之处编写组的人员可能身于其中无法察觉,外部专家站在旁观者和专家的角度会发现很多问题。征求意见分为内部意见征求与外部意见征求。在工作流中对内外部专家开放浏览权和注释权,供专家在线审核。对于一些不方便使用网络的专家可使用纸质本。意见的征求要细致,要落实到词条,时间不宜太短,要给专家仔细阅读的时间,从宏观结构、中观参见结构、微观结构中的每一个细致成分探寻其中的编纂问题。

专家库应该适时更新并区分层次,聘请一些有真知灼见、高水平且负责任的专家进入核心专家层次,不同水平及对词典有不同贡献的专家享有不同的酬劳。对于出版社来讲,应该有专门的专家ERP管理部门,统一管理专家的研究特长、工作量、报酬、贡献度等信息。

专家意见反馈后,要及时登记到工作流讨论栏,具体意见附在相应的词条旁,加审阅注释,然后由编写组逐条讨论,对词典内容进行再次修改调整。此过程要做好督办和催办工作,要发挥工作流的审阅追踪优势,采用工作流内短信催促或工作流外电话催促等方式。修改后还要经过主编再审和专业人员的再校,完成后主编定稿,转入工作

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载