民俗典籍文字研究中心论文选集(第二集)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-11-16 00:32:47

点击下载

作者:李运富

出版社:中华书局

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

民俗典籍文字研究中心论文选集(第二集)

民俗典籍文字研究中心论文选集(第二集)试读:

《民俗典籍文字研究中心丛刊》总序

李国英《民俗典籍文字研究中心丛刊》是由北京师范大学民俗典籍文字研究中心编纂的系列性的研究丛书,《丛刊》的主要任务是及时编辑出版中心研究人员最新的研究成果,以及由中心组编由海内外学者完成且与中心研究目标一致的高水平学术著作。

北京师范大学民俗典籍文字研究中心是教育部国家人文社会科学重点研究基地之一,建于2000年9月。其前身是北京师范大学中国民间文化研究所、汉字与中文信息处理研究所以及原中文系古典文献学科点的一部分。中心创建时的学术目标是将我国民俗学之父钟敬文先生开创的民俗学,以著名文献学家启功先生为学术带头人的典籍文献学和由章黄学派重要继承人陆宗达先生创立的传统语言文字学结合在一起,从上、下层文化和语言文字载体三方面整理和阐释中国传统文化,研究中国传统文化自下而上或自上而下传承与演变的规律,继承、弘扬祖国优秀文化遗产。

在中心主任王宁先生的领导下,中心成立十年来,始终坚持继承传统、锐意创新的学术方向,把基础研究和社会应用紧密结合起来,把传统研究和现代化手段紧密结合起来,在理论创新、服务社会和资源库建设等方面取得了突出的成绩。

中心坚持继承基础上的理论创新,十年来推出了一批有特色、成规模的标志性成果。如王宁先生在继承传统语言文字学的基础上,创建了汉字构形学理论体系,不仅出版了纲领性的理论著作《汉字构形学讲座》,还指导博士生运用这一理论对历代汉字进行了系统的构形描写,出版了《汉字构形史丛书》,在学术界产生了重要的影响。民俗学学科完成的六卷本《中国民俗史》是中国第一部以国家课题形式确定的系统的中国民俗史研究著作。该项目历时八年完成。2006年入选国家社科基金成果文库,2008年人民出版社出版。该书采用文献、考古、田野调查等研究方法,对中国民俗的起源与发展做了动态的、多角度的系统描述与分析,使长期被忽视的中国民众生活史得到了全面而深刻的展现。不仅总结提升了中国民俗理论,填补了中国学术领域的空缺,而且丰富了世界人类文化史。该著作出版后引起高度关注,2009年荣获中国文学艺术界联合会、中国民间文艺家协会颁发的“第九界民间文艺山花学术著作奖”,2010年荣获北京市第十一届哲学社会科学优秀成果奖特等奖。

中心在加强基础研究的同时,还特别重视应用研究,促进基础研究和应用研究协调发展,着力把理论研究的成果转化为服务国家、服务社会的学术资源。中心利用自身的优势与资源为汉字的国家规范和国际标准的研制做出了贡献。如王宁教授主持的《规范汉字表》后期研制工作,李国英教授、周晓文教授长期参与国际标准化组织表意文字工作组(ISO/IEC JTC1/SC2/WG2/IRG)的古汉字编码工作。

中心高度重视现代化手段的运用,把传统学科的理论研究与计算机技术相结合,取得了一系列重要研究成果。中心组织完成了数字化《说文解字》教学系统与研究体系、甲骨文拓片资源库与原形字库及其检索系统、中国数字故事博物馆、数字化民俗地图与数据库和数字化故事民俗地图等大型的数字化成果。甲骨文拓片资源库与原形字库及其检索系统为国际标准化组织表意文字工作组的甲骨文编码工作提供了支持;中国数字故事博物馆于2008年12月赴香港参加文化部国际司首届“中国非物质文化遗产展”,获得香港各界人士的好评。周晓文教授先后完成了小篆字库及输入法、甲骨文字库及输入法,两个字库及输入法是迄今为止国内外学术界运用最广泛的古汉字字库及输入法。

经过十年的建设和发展,中心积累了大量学术研究成果。为了使中心的成果能够系统刊布,经中心管委会研究决定组编《民俗典籍文字研究中心丛刊》,为中心成果的系列化刊布提供平台,也为中心与海内外的学术交流提供桥梁和纽带。《丛刊》将坚持继承传统、锐意创新的学术方向,坚持瞄准学科前沿、解决重大理论问题和重大实践问题的学术目标,坚持百花齐放、兼容并包的学术品格,不断推出高水平的研究成果,为繁荣我国的人文学科作出我们的独特贡献。《丛刊》的主要内容包括民俗典籍文字研究中心主要研究范围内的民俗学、中国古典文献学、汉语言文字学这三个主体学科,以及由学科融合而产生的文化学。《丛刊》将重点刊布中心承担的重大课题的专题性系列研究成果,同时也会按年度组编中心研究人员的学术论文选集、不定期的编辑中心组织的重要学术会议的会议论文集。为了培养学术后备力量,《丛刊》还会精选部分在中心工作的博士后的出站报告,以及由中心培养的博士生的优秀博士论文。我们也欢迎来自海内外驻所研究的专家的成果纳入《丛刊》刊布。《丛刊》的创建,得到了中华书局的大力支持,在此表示感谢。2011年3月

【汉字整理与规范】

从汉字改革史看汉字规范和“繁简之争”

王宁

提要:在《规范汉字表》研制的过程中,是恢复繁体字还是坚持简化字的争论再次热化,对汉字简化的怀疑论也再次提出。汉字简化有着深刻的历史原因,是几代爱国者和民主的追求者不懈努力的成果,也是语言文字现代化、国际化的一项重要措施。本文对汉字改革、汉字规范的历史进行了简要的概括,并说明在信息时代,对汉字规范不但应有正确的认识,还应有责任感和紧迫感。

关键词:汉字改革 汉字规范 繁体字 简化字

从20世纪50年代就开始实行的汉字简化,到80年代,由于文化发展进入新时代,在汉字使用问题上,发生了观点分歧。很多人对汉字简化产生了怀疑,认为这项措施是新中国成立以来“普及文化的权宜之计”,甚至有人认为简化字“对中华传统文化的发展产生了负面作用”。最近,在《规范汉字表》研制的过程中,是坚持简化字还是“恢复繁体字”的问题再次提出,已经是一个不可不面对的问题。这个问题看似是一个十分简单的普及层面问题,实际上是一个十分复杂的社会问题与学术问题。它不仅涉及到国家与民族的振兴和发展,而且涉及中国传统文化的现代化。要了解汉字问题各种争论的实质,必须回顾历史。一、中国古代崇尚汉字的两重性

中国是一个崇尚文字的历史古国。远在周代,宫廷教育的科目“礼、乐、射、御、书、数”中,识字(书)和数算(数)就是当时小学教育的基础科目。汉代的文字学称作“小学”,已经有了分析汉字形体结构的科学内容。汉代经今古文斗争中,一批古文经学家利用表意汉字因义构形的特点,从分析汉字形体结构出发,来解释词语的意义,疏通古代典籍的真实内容,文字学因此成为解读儒家经典的津梁,取得了与儒家经学同等崇高的地位。对汉字的崇尚,逐渐变成一种具有统治地位的文化观念,东汉许慎在《说文解字叙》里说:“文字者,经艺之本,王政之始,前人所以垂后,后人所以识古”,就是这种上层文化观念的集中反映。这种上层文化的观念,对底层文化的影响是无形的。民间的“敬惜字纸”之风,便是这种崇尚汉字的观念对民众心理的浸透。

对汉字的崇敬,带来了两方面的效果,一方面含有对中华文化的热爱情感与弘扬古代优秀文化遗产的理念,但另一方面,由于汉字被少数人占有,又暗含着两个不适合新时代的因素,那就是垄断与复古。二、汉字改革经历的三个30年

中国的现代新文化建设,从1919年算起,刚好经历了三个30年:这三个30年,汉字问题都是中国新文化建设的重要问题。

第一个30年,1919-1949年,从“五四”新文化运动到中华人民共和国建立。在这一时期,汉字面临着命运的抉择。有关汉字的三次大辩论,矛盾的尖锐性逐步升级。但是,当时的汉字改革还只是一种理想。为了教育的普及和大众文化的振兴,许多提倡新文化激进的知识分子,为汉字走出复古和垄断的歧途而呼吁,而奋斗;但是,他们尚处在摸索汉字改革的可行性的阶段,行动还带有一定的盲目性。

第二个30年,1949-1979,从建国到改革开放。汉字改革综合了前30年的经验,汇聚了多方面的队伍,落实了推广普通话、推行汉语拼音方案、推行简化汉字的三大政策。这30年,汉字整理与规范成为有组织的国家行为,对新中国文化教育的发展起了极大的推动作用。

第三个30年,1979-2009,改革开放到今天。从1979年开始,中国改革开放,世界同时经历了一场革命性的变化。在全球展开的信息和信息技术革命导致了信息社会在全球的实现。在这个全球性的大变革中,汉字进入了计算机,成为传播汉语信息的最有效的载体,汉字的命运由历史、文化和科技联合做出了结论——它在信息社会的存在已毋庸置疑。

我们把第一个30年称作汉字改革的酝酿时期,第二个30年称作汉字改革的实施时期,第三个30年称作汉字改革的转型时期。三、汉字改革酝酿时期的三次大辩论

20世纪初,在两个并行的潮流下,展开了三次关于汉字问题的大辩论。当时的背景是:一方面,强大的文化垄断与复古势力,还笼罩着民主革命推翻帝制以后军阀混战的中国;另一方面在反封建的同时,全盘否定中华传统、把国家现代化的希望寄托在全盘西化的思潮也在抬头。这三次辩论的思想冲突,内涵复杂,意义是非常深刻的。

第一次,19-20世纪之交,在普及文化教育前提下发生的切音字运动。首先去摇撼传统的汉字观念的,是清代末年极少数懂得西方拼音文字又关注教育普及的知识分子,代表人物是卢戆章和王照。他们没有从根本上否定汉字,而是强调复古思潮在主观上加深了汉字学习的难度;为此,他们发动了切音字运动,主张以拼音辅助汉字教学,在一定程度上克服汉字的繁难。从这些主张中可以看出他们普及教育、发展科学、振兴国家的爱国主义初衷。

第二次,20世纪初,在维护国家独立、振兴民族文化前提下,产生了汉字的存废之争。吴稚晖发表《评前行君之“中国新语凡例”》一文,认为中国应废除汉文汉语,改用“万国新语”(即Esperanto世界语)。同年,章炳麟(太炎)发表了万言长文《驳中国改用万国新语》,对汉字的优劣和是否能够废除的问题,进行了针锋相对的论争,批驳了“汉字落后”论,提出三个论点:(1)汉字繁难,无表音机制,难与语音沟通,对普及教育很有妨碍,需要制定一套标音符号来辅助扫盲和初等教育。太炎先生“取古文籀篆径省之形”制定了36声母、22韵母的切音方案;后来,这个方案中的15个字母为注音字母所采用。(2)汉字适合于汉语,并与中国历史文化产生了难以分割的关系。汉字与拼音文字比较,特点各异,优劣互补。汉字是不能废除的。(3)在强调便于扫盲教育与初等教育时,还必须考虑到高等教育与高深的文化历史学习。对于后者来说,汉字的功能仍是无法取代的。这三点,现在已经取得多数人的共识。

第三次是20世纪20年代以后,伴随新文化运动出现的汉字改革思潮。1923年,《国语月刊》出版《汉字改革号》特刊,钱玄同发表了《汉字改革》一文,提倡改用拼音文字。他认为:汉字不革命,则教育决不能普及,国语决不能统一,国语的文学决不能充分发展,世界公有的新道理、新学问、新知识决不能很便利、很自由地用国语写出。钱玄同甚至提出了“废除汉字”的激烈口号。与提倡万国通用语的吴稚晖有本质不同,这次汉字改革的提出,是与推行白话文、实行文艺大众化紧密相连的,它是以反封建为主要目标的新文化运动的有机组成部分。瞿秋白曾说,提倡汉字改革的目的,是打破军阀、学阀对知识的垄断,使中国工农群众能够得到教育的机会。这次汉字改革的思潮,带有崇高的爱国主义动机,带有对封建文化和教育进行反思的批判精神。虽然各种主张、方案都在这一时期提出,许多有关文字改革的组织也相继产生,他们的声音很高,态度激烈迅猛,但这次改革又是科学慎重的。钱玄同曾说,改用拼音字母需要十年的准备,因此他提出了十项筹备事项和五项“补偏救弊”的办法。章太炎对以“废除汉字”为终极目的的改革论持否定态度,他主张维护汉字,以传播中华民族的历史文化,用本国的语言文字来激励种性。他的主张带有反对帝国主义亡我文化的爱国主义精神。同时,他强调汉字与中华民族历史的难以分割以及在更高层次教育中不可取代的作用。

这三次大争论,两种主张,截然相反,当时看来是极端对立的,今天看来,章太炎的论辩和钱玄同的呼喊,都出于强烈的爱国动机——一方面存在反对文化复古与垄断的现代化意识,另一方面,又有保存文化精华、维护民族文化的爱国意识。他们为汉字走向现代社会设计的道路对今天都有参考价值。

这是海峡两岸的前辈共同经历的历史,这段历史我们是不能忘记的。

章太炎为代表的维护民族文化、保存汉字改进教育的主张,与他用语言文字激励种性、提高民族自尊心与自信心的主张直接相关,后来汉字问题的发展更加证明了他的主张是非常有远见的。

汉字的复古与垄断对文化的大众化和教育的普及起到了极大的促退作用,一大批站在新文化运动前沿的知识分子,对自己所受封建教育进行了深刻的反思,勇敢地向自己最熟悉、最擅长的旧文化反戈一击,这样做必然会受到崇尚汉字的强大传统势力的反对,他们需要有很大的勇气,这种勇于抗争的爱国精神也是值得钦敬的。尽管偏激与急躁会导致对科学的偏离,但是,那种出于善良愿望的矫枉过正,又是我们应当怀着敬意来理解的。

在这场关于汉字的辩论中,有两个措施是同一立场两种观点的前沿人物都认为应当做的:一个是研制一套拼音的符号来辅助汉字教育;另一个是对由于复古和垄断造成的汉字无限制的走向繁难加以抑制。这两个主张产生的汉字改革具体成果,就是汉字简化和拼音方案的推行。20世纪的汉字简化方案产生于多途——不但激进的知识分子有简化方案,段祺瑞执政府的教育部、蒋介石提倡的新生活运动,以及当时比较倾向西方的学者如胡适等人,都设计过一些简体字方案。有人说,简化汉字是“极左思潮”的产物,这完全是不了解历史的误解。四、新中国成立以来的汉字改革是世纪初历史的延续

在第二个30年里,20世纪中期——也就是新中国成立以来的文字改革运动,几乎在所有的问题上,都是初期运动的延续。文字改革的骨干队伍,实际上是初期运动各方主力的合流;文字改革的三大任务——简化汉字、推广普通话、制定和推行汉语拼音方案,正是初期运动所提出的主要措施的实现。所不同的是,新中国成立以来的文字改革,从有组织领导的群众运动,转变为顺应民意、依靠专家的国家行为。正是因为国家行为带有政策的强制性,才能使有志之士半个世纪以来所从事的文字改革工作在较短的时间内迈出了一大步;另一方面,也由于接受了前半个世纪对汉字问题慎重的态度,在三大任务取得决定性的成功,扫除文盲、普及教育全面实现以后,汉字拉丁化的改革也就不再进行。

有人认为,大规模的扫盲运动已经结束,义务教育的普及已经实现,应当把汉字的应用层提高到专业领域。诚然,由于急于摆脱“一穷二白”的命运,简化汉字的设计确有一些不尽如人意之处,一批专业领域的汉字使用者,对简化汉字不够完善之处不断提出意见。这些专业领域中有属于大量运用汉字、以运用汉字为主要职业手段的阶层,他们面对各种文本的起草,操作印刷过程,进行汉字教育,从事古籍整理和古文字解读、考据,编写汉字辞书……这些人为数仅仅是一般汉字使用者的万分之一,他们面对海量的汉字,对汉字的科学规律有着极大的敏锐和要求。对这些专业层面人员使用汉字的要求,必须加以考虑,因为,这正是章太炎早已经预见到的中华文化高层次的发展,是中华民族历史传统继承必然要顾及的。《中华人民共和国语言文字法》已经考虑到了这层需要。专业古籍印刷、书法手写都可以使用繁体字、异体字,就是照顾不同需要的积极措施。

但是我们绝对不能忘记,在一个文化强盛的大国,90%以上使用汉字的人处在普及层面。汉字是在这个人文社会中被全民使用着也改变着的符号,这种符号系统是否好用,对于这个领域,“习惯成自然”是最现实的原则。对于一般的使用者来说,掌握2500-3500字就可以得到一般生活领域几乎全部的社会信息,也完全可以传达现代人复杂的思想感情。简化汉字顺应时代的要求,已经成为普及层面古代文化传承和现代文化记载的工具,必须保持稳定。我们还必须看到,在第二个30年里,经过十年文化大革命,原来扫除文盲取得的成果有所倒退,在农村城市化的过程中,新的文盲群又有产生,普及教育的任务仍然非常艰巨。简化汉字在基础教育中所起的作用仍然是不可忽视的。五、信息时代是汉字规范必要性更加凸显的时代

第三个30年可以分成两半。第一半是改革开放后的前15年(1979-1994年)。“文革”以后,原有的汉字规范需要重申,更需要整顿。1986年国家语委重新发布《简化汉字总表》,对1964年公布的《简化汉字总表》所规定的简化字作了某些调整。1988年3月25日,国家语委和国家新闻出版总署联合公布的《现代汉语通用字表》《现代汉语常用字表》,综合了前三项字表的规定,是对80年代以前关于汉字规范的一个总结。

同时,在这15年里,信息革命席卷全球,在中国,王选于1981年主持研制成功中国第一台计算机汉字激光照排系统原理性样机华光I型。1985年至1993年,他又先后主持研制成功并推出了华光Ⅱ型到方正93系统共五代产品,以及方正彩色出版系统。铅与火的时代在中国从此结束。汉字随着信息革命的成功完全改变了旧有的姿态。1980年制定的国家标准字符集《GB2312》收入了3500常用字和其中的简化字对应的繁体字,一共收入6763个汉字字符,到1990年,《GB13000.1》已经收录了20902个汉字字样。在第一个15年里,汉字多了一个重要的属性,形、音、义、用之外,还有码。

第二个15年(1995至今)给汉字带来的机遇和挑战是汉字的国际化。国际标准汉字的《通用多八位编码字符集(UCS)》有了扩充集A、B、C(1-4)、D,已经多到近8万字。中国在世界上已经是特别被关注的新崛起的国家,它的文字已经跟随汉语在向海外传播,庞大的8万字的字符集并未经过彻底整理,处于古今兼有、国别各异的状态。它使汉字具有了国际公用的编码,但不能直接用于我国国内的基础教育,更不适合直接用来让非汉语母语国家的学习者学习。我们必须有适应新时代的、适合中国内地应用的字符集,而在这个字符集的每个码位上,字形的标准化应当有更高的要求。这是信息传播速度和信度的要求,是汉字教育的要求,不论人们是否认识到,它都是国家富强的必须,更是人民的长远利益的体现。

在信息时代,发展政治、经济、文化的重要条件,是及时和准确地获得必要的信息,并把需要传播出去的信息及时和准确地传播出去。计算机成为传播信息的工具,实现了信息传播的高速度、远距离和高度的社会化。由于信息的远距离传播,输出者与接受者是两头不见面的;在重大问题上,信息传播的两端已经不是一人对一人,而是一国对另一国、一个群体对另一个群体,信息的社会性得到了充分的体现。在这种情况下,汉字规范的作用就更加突显出来。经济建设的高潮,必然带来文化教育发展的高潮,母语教育的发达和文化事项的增多,必然使汉字文本在网络上的传播数量激增。众多信息是利用互联网传播的,汉字问题会直接影响汉语信息向全世界传播的速度与信度。汉字作为信息的载体,如果没有规范,各自为政,对整个社会会产生多大的负面影响,是可想而知的。所以应当说,信息时代是汉字规范的必要性更加突显的时代。

信息时代的汉字规范对个人的影响也是十分直接的。在我们国家,户籍、邮政、金融、保险等行业的信息贮存和检索已经数字化,人名与地名不再依靠手动填写,已经全部进入计算机。过去,普通人名、一般地名用字的范围非常小,取名字采用生僻字的影响离不开自己的生活圈;现在,如果采用了一个计算机字库里没有的字,报名、取钱、发报、贷款、登机……都难以办成。过去,自然科学和社会科学专有名词术语只被科学家和专业人员使用,现在,由于科技知识的普及,技术应用的扩展,大量人才的培养要通过远程教育来实现,科技用字再也不能仅仅由某个行业中的少数人来确定。计算机成为人与人交流的重要工具,汉字不但不能有一个两个的差异,连一笔两笔的差异,都会给信息传播带来阻塞,甚至酿成大小不等的事故。除了规范的重要性与日俱增以外,由于姓名、地名、科技用字的规范不容忽视,已经作为规范字的7000通用字的数量也远远不够用了,汉字“通用”的概念也发生了深刻的变化——它必须包括计算机储备的通用性在内。在这种形势下,汉字的规范已经是有关国计民生的大事,在信息传播的普及领域里,汉字必须有现代化的形式。已经被多数民众和国际上使用的简化汉字,必须保持稳定,否则,基础教育和新文化的普及与建设将要付出沉重的代价。六、关于简繁字争论的几个问题

这里要讨论几个问题:

简体字与繁体字孰优孰劣?这个问题要辩证地看。汉字作为信息的载体的使用,必须经过书写和认读两个互相衔接的过程。使用者在这两个过程中的要求是矛盾的。认读时要求信息量大、区别性高,也就是繁比简好;书写时却要求迅速、便捷,也就是简比繁好。最优化的办法是对每个汉字寻找一个简繁适度的造型,而在汉字简化政策实施之前,汉字的弊病主要是过于繁难。有人说,现在都用计算机了,书写不怕繁难。首先,汉字真的不需要写了吗?当然不是,日常生活中计算机不能代替手写汉字的情况比比皆是,书写对于个体交流、近距离交流、施教与受教、留言批注等实用文体的完成……都是不能或缺的。其次,当汉字实现在计算机里,笔画到了18画以上,5号宋体的笔形已经难以辨识,更不用说做注的小5号字了。衡量利弊,优劣互补,孰留孰废,不可以一言以蔽之。

简繁字之间存在一对多的情况,有人要求恢复一批繁体字,为什么不赶紧做?汉字的分布是一个完整的体系,牵一发而动全身,恢复几组繁体字,专业领域内的人士恐怕还会认为是一种修修补补,没有解决根本问题,而在我国教育的普及还没有完全到位,人民的汉字素质还不很理想的情况下,会在普及层面上引起什么波动,却是很难预料的。至于计算机简繁字自动转换产生的问题,并不都是简化字本身的问题,很多是可以通过扩充和修改词库、设计更多的自动转换技术来解决的,并不会过多地影响海峡两岸的沟通。

照这样说,汉字规范就不能改动吗?规范汉字要不断修订。因为社会在变化,用字必然有变化。新地名的产生、新科技概念命名等都有用字问题。但是,在处理一些问题、对某些已经规定的事情做个别调整时,最忌在没有全面研究的基础上,灵机一动,想到什么就改动什么,结果常常是改了这里,那里的矛盾又显露出来,人们把这种缺乏总体规划的个别改动称为“添乱”。例如一对多的问题,对群众的意见不能置若罔闻,但为了避免“添乱”,应当考虑到全民的需要,尽快加强研究后,再统一改动。这样做,并不是有意违背汉字的科学性,而是避免在条件不成熟的情况下产生新的矛盾,造成社会的波动,将来有机会合理处理这一问题时,产生更大的阻力。

有人提出“识繁写简”,是否可行?提出“识繁写简”这个口号意义不大,有两点需要注意:第一,“识繁写简”在专业层面实际上已经实现了,高等院校学习历史、古汉语的学生由于专业需要必须读55年以前的书和港澳台的书,也要读古书,识繁是必然的,无须再提。第二,在基础教育层面,现在的孩子们负担已经很重了,学习简化字不影响他们阅读现代书籍,长大了他们自然会认识繁体字,何必那么早去“识繁”?(原载《云南师范大学学报》2010年第3期,《新华文摘》2011年3期转载)

汉字编码与汉字规范

周晓文 李国英

提要:改革开放使中国走向世界。维护汉字的纯洁和健康不仅关系到汉字的命运,也关系到国家的声誉、民族的形象。汉字规范化是汉字信息处理健康发展的保证,汉字编码是实现汉字信息处理的基础,汉字信息处理的规范化是汉字规范化的保障。汉字规范与汉字编码是两个不同性质的问题,两者既有联系又有区别。汉字规范作用在不同层次的汉字编码上。在汉字信息处理中,无论是办公自动化,还是出版印刷都会涉及汉字的规范化和标准化的问题。

关键词:汉字编码,汉字规范一、关于汉字规范

汉字是记录汉语的书写符号系统,它历史悠久,分布的地区广大,是占全世界1/4的人口用以交流交际的工具。作为社会性的书面交际工具,汉字是由十几亿人书写,写给十几亿人看的,而且是从三千多年前的远古一直写到了今天。长时间大范围的书写决定了它的变异性;写出来的汉字要让别人看得懂,才能达到交际的目的,因此就必须有一个被全社会共同遵守的标准。然而这种不自觉的、约定式的标准,对人类使用文字的约束力度必定是不够的。因此,要想准确有效地达到交流交际的目的,提高其使用的效率,就必须要在适当的时候借助权威机构的力量对其进行统一化和规范化。汉字规范具有时代性。汉字在不同的历史时期往往有不同的规范标准,各个历史时期的社会政治、经济发展状况不同,对汉字规范的认识和需求不同,所做出的汉字规范的形式和内容也各不相同。从殷商至西周,汉字一字多形,变相纷杂,周宣王太史籀纂《史籀篇》,废弃大量异形,虽未称之规范,实为当时文字之范本。秦始皇统一六国,出于政治需要,“罢其不与秦文合者”立小篆为其正者。自此,笔形、偏旁、结构均有定式。汉朝之后,汉字在经历隶变和楷化的过程中,都曾在不同程度上出现过异构、异形骤增,讹变、滥造蔓延,用字纷杂混乱等现象。相应的各个朝代也都非常重视汉字使用及书写的规范化,汉代就有“征天下通小学者以百数,各令记字于庭中。”之事。新中国成立以来,为了提高全民文化素质,解决十亿人学字难等问题,国家先后制定和推广了以《简化字总表》为代表的一系列规范标准,加快了汉字规范的进程。

虽然汉字规范伴随着汉字发展的全过程,但是“汉字规范”却是一个出现时间不长的新术语,还没有形成严密的科学定义。什么是汉字规范?我们理解的汉字规范应该是:权威机构根据汉字通行状况、依照汉字发展的客观规律,为保证社会公共用字的统一、提高汉字的使用效率以及指导汉字发展方向、满足社会政治经济的需要,而明文规定或约定成俗的一种明确、统一的现行汉字的使用标准。依据这种理解可以认为,有些规范是由权威机构直接组织制定并实施的;也有一些并非权威机构组织制定,但是已被社会广泛使用和接受,得到权威机构的认可和推行,而成为一种约定俗成的规范。汉字规范的原则是根据汉字通行状况,取流通范围广,使用频率高又符合汉字发展演变规律,不破坏汉字内部系统性的形体为规范形体,即社会性和科学性相结合的原则。规范汉字的目的是为了消除汉字使用中的混乱现象,提高汉字在社会交流交际中的效能。通过对汉字的规范,也可以对汉字的发展方向起到调控作用,优化社会流通文字,使汉字沿着科学合理的道路发展。

新中国成立以来,我国已经制定了不少语言文字规范(包括标准),从字种、字形、字音、字量等方面对汉字进行了大规模的整理[1]和规范。从字形、字量的角度看,半个世纪以来,人们心目中的规[2]范汉字,大约是以下几个文件所限定的汉字:1986年国务院批准重新发表的《简化字总表》,该表对1964年公布的《简化字总表》略有修订,表中收2235个简化字。1955年12月文化部和中国文字改革委员会联合公布的《第一批异体字整理表》中的809组异体字中的正字。1965年1月文化部和中国文字改革委员会联合公布的《印刷通用汉字字形表》中规定的印刷宋体字形6196个。1988年3月25日,国家语委和国家新闻出版总署联合公布的《现代汉语通用字表》,充分吸收了自1928年到1987年这60年间的近20种用字统计数据的成果,不仅综合运用了使用频率高、学科分布广、构词能力强和日常应用多等选字原则,还采用了科学方法和现代手段,最终筛选出现代汉语通用字7000个。这些规定虽然并不都是国家最高权力机构发布的,但是在实际上,它们已是群众公认的规范标准,在现代语文生活中取得了应有的规范地位。汉字规范是保证文字正确使用、提高全民语文素质的重要措施。近五十年的汉字规范,无疑在教育普及、科学发展和文化繁荣等方面发挥了积极的作用。

但是,由于时代的局限和技术条件等限制,现有规范字表之间存在着一些相互矛盾和收字不合理以及体例不一致等问题,给使用带来一定的困扰。随着我国在国际社会中地位的提升,汉字在国际交往中的作用越来越大,社会对一份覆盖面大、收字合理、字形规范、排序科学的《规范汉字表》的呼唤,越来越强烈。早在20世纪90年代,研制《规范汉字表》的项目就曾两次上马,但由于种种原因,研制工[3]作没能进行下去。2001年国家语委再次立项,2003年列入教育部工作重点。二、关于汉字编码

21世纪是人类社会进入了信息化时代,是计算机一统天下的时代。计算机在各行各业显示着他的巨大威力,成为人们日常生活、社会交流交际的组成部分。然而进其内我们发现,计算机的一切本领都只是建筑在由“0”、“1”组成的二进制数字之上。人类对信息形式的识别方式或透过视觉、或透过感知、或透过想象,如此众多本领,计算机均不具备。只有当人类将其自身的本领用计算机所能识别或理解的方式传授与他,他才有机会显示其“非凡的才能”。所说“计算机所能识别或理解的方式”就是将信息用一系列数字表示,也就是对信息进行数字化。语言文字是人类用以表达思想、传递信息的主要载体之一。汉字是世界上最古老,使用人数最多的文字,对汉字的处理能力直接影响计算机的应用水平。要想让计算机处理汉字,就必须对汉字进行编码。汉字编码是指按一定的规则,对指定汉字字符集内的字符编制代码。由于编码目的不同,对同一个汉字字符集内的字符,可以用不同的规则编制不同的代码。又由于编码规则和编码作用不同,有些编码要求具有唯一性,即一字一码,有些则允许有重码。为了将汉字输入到计算机,根据不同的输入方法(编码规则),对汉字字符集进行编码,得到的是汉字输入码。除了汉字输入码之外,计算机中还用到了许多其他汉字编码,如汉字内码、汉字字形码等,另外一个最重要的是汉字交换码。汉字交换码是计算机汉字信息处理系统之间或信息处理系统与通信系统之间进行汉字信息交换时所使用的代码。虽说计算机也只不过是一种电子的机器设备,但是它不同于其他机器设备,他们之间的最大差别是:计算机加工处理的是信息,而信息是用来交流的,是需要共享的。前面说要计算机处理、表示汉字,就必须对汉字进行编码,用一个代码指称一个汉字字符。让我们想象一下,如果每台计算机都用自己的一套代码标识汉字,比如:对同一个“大”字,1号机用“1111”表示;2号机用“0000”表示;而3号机用“1010”表示。那么,当这三台计算机进行信息交换时,就需要对三个代码进行频繁地转换,给信息处理和交换造成很大的浪费和困难。因此为了使计算机之间能够顺利、高效地进行信息交换,就要在计算机界达成一种共识,大家共同遵守一种协议——对汉字进行统一编码。为了实现这一目标,国际标准化组织、各国专家学者及各国企事业组织根据各国及世界文字使用状况,先后制定和发布了一系列信息交换用编码字符集。我国对汉字信息处理技术的探索起始于60年代末。进入70年代后,社会对汉字信息处理的需求已十分迫切,于是,由电子部(原四机部)、中国科学院、新华通讯社、文化部出版局等单位发起,向国家计委提出“汉字信息处理系统”工程项目,并得到批准,列为国家重点系统工程项目。并于1974年8月召开了全国性汉字信息处理系统方案论证会,由此该工程定名为“748工程”。“748工程”经过十年的努力,取得了巨大的成果,促进了汉字信息处理技术的蓬勃发展。在此期间(1981年5月)我国发布了汉字交换码的第一个国家标准《GB2312—80信息交换用汉字编码字符集 基本集》(以下简称基本集)。基本集收录了6763个汉字字符和682个非汉字图形字符。6763个汉字字符中,实际包含现代汉语常用字6724个,另有非汉字的部首39个。6763个字符的选择是以1964年发布的《印刷通用汉字字形表》(6196个汉字)为准,其中没有的500多个字(如科技、地名和姓名用字)参考了《新华字典》(1979年修订重排本)、《现代汉语词典》(中国社会科学院语言研究所词典编辑室编,1979年出版)及《辞海》(上海辞书出版社,1979年出版)。汉字的字音选择是以普通话审音委员会发表的《普通话异读词三次审音总表初稿》(1963年出版)为准,其中没有的字参考《汉字正字小字汇(初稿)》(1966年出版)、《新华字典》、《现代汉语词典》及《辞海》。根据“748工程”的字频统计,基本集中的6763个汉字的使用覆盖率达99.99%左右,但是字与字之间的使用频度却相差很大。为了便于使用,基本集从6763个汉字中选出3755个常用字,作为第一级汉字,这批字使用频度高,故按汉语拼音字母进行排序。其余的3008个次常用字排在后面,作为第二级汉字,按部首排序。由于基本集在制定时,参考了当时最新的国家标准和工具书,具有较强的标准性和实用性,使得一些人对编码字符集产生了错误的认识,把编码字符集当成了文字规范。

由于基本集收字少,繁体字不收。在我国台湾省、香港、澳门地区以及世界上其他一些华人地区使用繁体汉字,字符集与大陆的不同。此外,日本和韩国也使用部分汉字,他们分别采用了不同的字符集和编码方法。这使得世界上使用汉字的国家和地区之间不能正常的进行汉字信息的交换。为了从根本上解决全世界所有不同文种之间的信息交换问题,1993年5月国际标准化组织(简称ISO)发布了《通用多八位编码字符集(UCS)》,这一国际标准的第一部分,编号为ISO 10646.1,同年12月我国发布了与此对应的国家标准《GB 13000.1信息技术通用八位编码字符集》。在这个字符集内不但包括了简、繁体汉字,而且还包括英文和其他文种,并且各文种都用一种统一的方法编码。即每一个文种的每一个字符(包括简、繁体汉字)都有区别于其他文种其他字符的唯一代码。这样,各文种之间就能任意进行信息交换。这一标准的公布对全世界的信息处理无疑有着十分重要的作用。在这个标准中收集了中国的简化汉字、繁体汉字以及日本汉字和韩国汉字共20902个汉字。目前,我国最新的国家标准字符集是2000年3月17日信息产业部和原国家质量技术监督局发布,2001年1月1日实施的《GB18030—2000信息交换用汉字编码字符集基本集的扩充》。这一标准字符集是我国继GB2312—80和GB13000.1之后的又一重要的汉字编码标准,是目前我国计算机系统必须遵守的基本标准之一。该标准向下与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容。在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符(20902字)和全部CJK统一汉字扩充A的字符(6582字),共编码汉字27484个。为了满足古籍整理、汉字研究等众多领域的需要,汉字编码字符集不断扩充,到目前为止ISO 10646已编码汉字达七万字之多。如果说在制定基本集的时候,选取常用字、规范字还是一个主要的收字原则的话,那么扩展集则是以多而全为主要的收字原则;如果说基本集的制定是立足于国内的普通语文生活,使国内的日常汉字交流畅通,那么扩展集则是立足于更广泛的专业领域,使更大范围内的汉字信息处理方便高效。三、汉字编码与汉字规范(一)汉字编码和汉字规范是两个完全不同范畴的概念

我们这里所讲的汉字规范是针对现行汉字的使用规范,是属于现代汉语规范化的范畴,是用以规范现代人用字的准则。汉字规范的对象应是现代汉语常用字或通用字,应以常用字为基础,在现代汉语通用字的范围内确定其用字标准。《规范汉字表》将是对半个世纪以来汉字规范工作的一次全面总结,应是汉字规范的代表和典范。李宇明司长在谈到规范汉字的定义时指出:“规范汉字是经过简化和整理的现代汉语用字,是中华人民共和国的国家通用文字。”并指出定义的第一句话中隐含着规范汉字的四种特征“时代性,地域性,领域性,[4]规范性”。时代性是指,我们今天规范的汉字应是现代汉语用字,亦即记录普通话的汉字,不包括古人使用的古代汉字;地域性是指,我们的规范汉字针对的是简化字系统,不包括台湾、香港、澳门及一些海外华人社区所使用的繁体字和日本、韩国所使用的汉字系统;领域性是指,尽管是现行汉字的规范,也不可能覆盖所有的用字领域,主要涉及的是日常社会用字,教育、新闻出版、人名地名、科学技术等领域,而对书法、篆刻、专业研究、古籍整理等领域则不能覆盖;规范性是指,规范汉字就是经过整理,优化的汉字;规范的原则即是优化的原则;坚持系统的原则、科学的原则,顺应汉字发展的规律,给汉字发展一个科学的导向,规范才能是成功的。我们说定义的第二句话中还隐含着“权威性和法律性”两种特征。2000年10月31日公布的《中华人民共和国国家通用语言文字法》中明确规定“国家推广普通话,推行规范汉字”。该法中还明确规定了国家通用语言文字的使用范围,使语言文字的规范工作有了法律的有力支持和保障。

对于计算机所用的信息交换用编码字符集(简称编码字符集)则不同。编码的目的是为了方便信息处理、信息交换与信息共享,编码的范围是一切需要交换或共享的信息。对照规范汉字的基本特征,编码汉字所表现的是跨时代性、超地域性、无领域性和无规范性。跨时代性是指,汉字编码不受时代局限,现行汉字需要编码,古代汉字要用计算机处理,也需要编码;超地域性是指,无论是少数民族地区,还是繁体字,甚至是日韩用字,都需要统一编码,才能无障碍通讯;无领域性是指,无论什么领域所使用的文字或是特殊符号,为了能用计算机处理,都需要编码;无规范性是指,为了使计算机能够方便处理各种文字现象,不论他是规范的还是不规范的,也不论他是异体字还是俗字,都需要将其进行统一编码,这些字从规范汉字的角度看,可能是不合法的,但是在计算机系统中,只要对其进行了统一编码,他就有了“合法”的身份,就能够被方便地处理和使用。这种对汉字的编码也可以说是一种标准,但实质上也只不过是一种工业标准。处理工业标准的态度是强硬的,你不遵守这个标准就不能方便地与别人交流,别的计算机就不“认识”你的字。

古代汉字和古代传世文献是中华民族最宝贵的文化遗产。古代汉字的信息处理和古代文献的电子化存储与传播,对建设数字化图书馆、博物馆和档案馆,进一步弘扬中华文化具有重要意义。长期以来,由于古文字的众多特殊性,它还未能进入国际标准字符集(ISO/IEC 10646《信息技术通用多八位编码字符集》),这种状况,已成为传统的古文字研究走向现代化的瓶颈。如何建设符合国际标准的古文字编码字符集和古文字字库,以及如何在全新的技术平台上推进传统的古文字研究,已成为计算机专家和语言文字学专家共同关心的一个重要课题。经过多方的共同努力,创建中华大字符集的工作已经起步,中华大字符集主要包括四个方面的内容:(1)楷化汉字(包括简体字、繁体字、传承字和方言字等);(2)古代汉字(包括甲骨文、金文、战国文字、小篆等);(3)少数民族文字(包括34种文字的古、今文字);(4)各种符号(包括注音符号、八卦图符、偏旁、部首等等);即一切承载中华文化的文字与符号。中华大字符集是人类史上最庞大的字符集,其工程的巨大和技术上的难度都是空前的,需要多方的共同努力与协作,在统一的规划下,分期分批地逐步解决。目前,随着IRG(国际标准化组织—表意文字工作组)工作的推进,信息交换用古汉字编码字符集的建立已经指日可待。(二)从计算机系统的角度看,汉字编码和汉字规范应用的层次不同

如下图所示,汉字规范对汉字编码是有作用的,只是作用发生的部位不同。汉字规范在不同的层次上对汉字编码发挥指导作用和制约作用。反过来说,汉字编码在不同的层面上体现和促进汉字规范。

信息交换用汉字编码字符集处在计算机系统的最底层。它的作用就是给希望进入计算机系统的每一个符号赋予一个唯一的代码,这个代码是这个符号的唯一标识。获得了这个标识,即得到了编码,就相当于获得了一个进入计算机处理系统的合法身份。所以,就目前的主流计算机处理字符的方法来说,只要需要计算机处理的符号,就要将其在编码字符集中进行编码,无论是罕用字、不规范的异体字,还是古代文字,只要有需要,需要在计算机中处理,就要对其进行统一编码。随着人类对计算机处理能力的要求愈来愈高,编码字符集的规模越来越大,已由基本集的6763字,逐步发展到了7万多字,它已经成了具有贮存性质的字形集,是多次累积的结果。

尽管交换码与汉字的规范化没有直接的关系,但是汉字字形库、汉字输入码和计算机用户却与汉字规范化有着直接的关系。

计算机中的汉字字形库涉及到计算机显示或打印输出的字形是否符合国家汉字规范标准。无论汉字在计算机内部以怎样的形式存在,最终是要透过汉字的字形库显露其真实面目。可以这样说,计算机生产的汉字产品—输出的汉字,是否合格,就看它用的汉字字库是否符合规范。1985年至1990年间国家曾发布并实施了14种点阵字模库及数据集的国家标准,1999年10月国家语委发布的《印刷魏体字形规范》和《印刷隶体字形规范》以及教育部语信司2002年立项,现正在研制中的《宋体、仿宋体、楷体、黑体字形规范》、《计算机非主用汉字字库字形规范原则》、《汉字笔画规范(宋、仿、楷、黑)》等规范标准,都已经或即将对计算机汉字字形库的规范化起到制约和指导作用。

汉字编码输入是汉字信息处理的基础。根据不同的输入方法(编码规则),对汉字字符集进行编码,得到的是汉字输入码。依据汉字字形特征对汉字编码,得到的是形码;依据汉字的字音特征对汉字编码,得到的是音码。如果形码输入编码中的字形拆分原则或笔画分解顺序与汉字教学中的基本原则相互矛盾,或者音码输入编码不符合1958年2月11日全国人大发布的《汉语拼音方案》规范,将会给使用者和学习者造成很大的不便,尤其是给中、小学的教学带来干扰。为了使汉字输入编码有一定的规则,1997年12月1日国家语委公布了《信息处理用GB13000.1字符集汉字部件规范》,1999年10月国家语委又发布了《GB13000.1字符集汉字笔顺规范》,这些规范的发布无疑对规整编码系统,促进汉字规范化的发展,具有积极的作用。

计算机作为一种工具,它能做什么,和我们用他做什么是两回事。有的人用他创作多媒体,有的人把它当作游戏机;有的人用他作古籍整理,也有的人把它当作打字机;大多数人用他辅助学习、工作,为社会创造价值,也有的人用他犯罪,制造病毒。世界上任何事物都有正反两方面的因素,是正面因素起作用,还是反面因素起作用,决定因素是人。就汉字规范的问题而言,计算机能处理不规范的汉字,也能帮助人们使用规范字,关键是人类要赋予计算机规范意识,针对不同的需要提供不同的功能,在国家要求使用规范汉字的领域,提供规范汉字的服务,使计算机的“一言一行”、“一入一出”,都服从于行业要求及社会规范。而对古籍整理、文字研究等专业领域的使用者,则可提供更加宽泛的文字处理功能,使计算机通今博古。

改革开放使中国走向世界。维护汉字的纯洁和健康不仅关系到汉字的命运,也关系到国家的声誉、民族的形象。计算机时代一切人文的社会规范,都将在计算机中得以体现。在计算机汉字信息处理中,无论是汉字的处理、办公自动化还是出版印刷都会牵涉汉字的规范化和标准化的问题。汉字规范化是汉字信息处理健康发展的重要保障。反之,如果计算机汉字信息处理不规范,没有章法可循,将对社会的正常用字造成干扰,影响汉字的正确使用和交流。因此在对人的行为作规范的同时,也必须规范计算机的“行为”。

参考文献:

[1]李宇明:《信息时代需要更高水准的语言文字规范》,《中国文字研究》第三辑,南宁:广西教育出版社,2002年。

[2]王宁:《论汉字规范的社会性与科学性》,李宇明、费锦昌主编《汉字规范百家谈》,北京:商务印书馆,2004年。

[3]王铁琨:《〈规范汉字表〉研制的几个问题》,李宇明、费锦昌主编《汉字规范百家谈》,北京:商务印书馆,2004年。

[4]李宇明:《规范汉字和〈规范汉字表〉》,李宇明、费锦昌主编《汉字规范百家谈》,北京:商务印书馆,2004年。

[5]高更生:《现行汉字规范问题》,北京:商务印书馆,2002年。

[6]彭寿全、黄可编:《汉字信息处理》,成都:电子科技大学出版社,1995年。(原载《汉字研究》第一辑 2005年6月)

谈印刷宋体字形规范的必要性和可行性——兼谈《规范汉字表》的字形调整问题

王立军

提要:在当前形势下对印刷宋体字形进行微观调整,根据《印刷通用汉字字形表》的笔形变异规则,对个别游离于规则之外的汉字字形进行微观层面的标准化处理,是信息时代对汉字规范工作的新要求。这项工作既是必要的,也是可行的,字形调整的结果将会使汉字的规范化程度得到进一步提升。

关键词:《规范汉字表》 字形 宋体字

2009年8月12日,经国务院批准,教育部、国家语委就《规范汉字表》面向全社会公开征求意见。字表对字量的确定、字级的划分、以及繁体字、异体字的处理态度,大都得到了社会各界的充分肯定,但对部分汉字字形所做的细微调整,却有不少人表示不解,由此而引发了关于当前汉字字形是否有必要进行规范的讨论。我们认为,汉字字形规范工作在过去是必要的,在当今社会更是必需的。一、印刷宋体字形规范的必要性

汉字是一种人文性很强的书写符号系统,它的表意特征决定了它与社会文化之间的密切关系,也决定了它的字符的数量会数千倍于拼音文字。而且,作为全民使用的交际工具,它的书写者多,流通面广。这些都必然导致汉字字形不能完全自发地发展,否则,其分歧程度将会无法控制。因此,汉字的发展过程,同时也是汉字字形不断规范的过程,只是不同时期规范的力度有大小差别而已。可以说,汉字的字形规范是汉字与生俱来的必然要求,只要汉字还在充当全民的交际工具,任何时代都无法避开汉字字形规范这一话题。

不过,对于不同的社会应用层面来说,汉字规范工作也不是一刀切的。秦始皇的“书同文”,以小篆作为当时的官方标准字体,当时的诏令,官方的碑刻,皇帝封泰山的题词,教学用的识字课本,都是标准的小篆字体,但迄今出土的秦代简牍,却鲜见标准小篆,而是使用更加便于书写的秦隶。这说明,当时的文字规范并没有严格限制普通的日常书写,而是用官方的小篆作为一种规范的导向。唐代的“字样学”也是如此,所谓的“正、通、俗”,正是分清了不同的应用层面。当时的开成石经,一方面是为了校正儒家经典,另一方面也起到了规范字形的作用。科举考试依石经为标准,举子们是不敢随意书写的。但翻阅一下多出自行伍之间的唐代敦煌文书,那就是另外一种情形了。可见,汉字规范并不是要求全社会上上下下的刻板统一,并不是要泯灭汉字书写的个性特征,也不是要扼杀汉字字体风格的多样化,而是要在正式的场合、典范的领域,规定一种标准的书写样式,作为汉字字形规范的主流导向,引导约束汉字始终围绕这一主线健康发展,而不至于发生太大的偏差。

当前的字形规范工作也应该从这一规范理念出发,把字形规范重点放在主流字体上,特别是印刷宋体字。

宋体字最早起源于北宋时期的刻书体,当时的刻版者“经过长期的实践,他们逐渐摸索出一种横平竖直、纵向略长、笔画瘦硬的刻书体,这种刻书体已基本具备后代‘宋体字’的雏形。”刻书体在南宋时期逐渐成为主流,并最终在元明活字印刷技术的影响下,形成了风格成熟的印刷宋体字。但早期的印刷宋体字受手写的影响很大,缺乏统一的字形规范。新中国成立后,政府对印刷宋体字进行了一次大规模的统一整理,这就是1965年文化部和中国文字改革委员会联合发布的《印刷通用汉字字形表》(以下简称“《印通表》”)。《印通表》按照汉字的结字规律,统一规整了6196个汉字的字形样式,这项工作对于消除长期存在的印刷字形的混乱状况,起到了十分积极的作用。1986年由国家语言文字工作委员会和新闻出版署联合发布的《现代汉语通用字表》,收字量增加到7000字,其字形标准基本沿袭了《印通表》的规则,这便是我国目前所执行的印刷宋体字形标准。

由于条件的局限,当时《印通表》和《现代汉语通用字表》都是纯手工操作,其中难免存在一些与内部规则不相一致的地方。如,“瞥、鳖、憋、弊、蹩”同样都是以“敝”为声旁的形声字,但“瞥、弊、憋”的第四笔带钩,“鳖、蹩”的第四笔却不带钩。对于这些没有理由的例外现象,学生无法分辨,老师也没法解释,只能让学生一个个死记,给大家学习带来了不必要的困难。这些现象在用铜模浇铸铅字的“前电脑时代”,还不太容易觉察到。但在进入“电脑时代”后,工业标准化的程度越来越高,对汉字标准化的要求也越来越细致,这就使得这些字形中的不规范现象逐渐“暴露”出来,给人们用字带来的影响也越来越突出。同时,《印通表》和《现代汉语通用字表》内部字形规则不统一,也给7000字之外汉字的字形确定造成了困难,成为影响汉字标准化的一个重要因素。“在信息时代,发展政治、经济、文化的重要条件,是及时和正确地获得必要的信息,并把需要传播的信息及时准确地传播出去。计算机成为传播信息的工具,实现了信息传播的高速度、远距离和高度的社会化……。在这种情况下,汉字规范的作用就会更加突显出来,可以说有了汉字这种传播载体的标准化,才能实现信息传播的速度和信度。”

2000年10月发布的《国家通用语言文字法》第三条规定:“国家推广普通话,推行规范汉字。”而给汉字“定形”,是汉字规范化、标准化工作的一项重要内容。要想使《国家通用语言文字法》所说的“规范汉字”落到实处,就必然要涉及汉字的形体标准问题。调整现有印刷宋体字内部的不规则现象,使《规范汉字表》所收汉字字形达到规范统一,既是宋体字发展的历史趋势,也是信息化时代的必然要求。当前汉字规范的理想目标,就是要对以往多个分散的规范进行优化整合,集多个规范于一身,从而使汉字规范标准更统一,更方便大家使用。其中需要整合的内容就包括《印通表》和《现代汉语通用字表》。任何规范都不是一劳永逸的,而是要与时俱进、适时调整的。“应当看到,上述规范标准,有的发布距今已近半个世纪,少的也有20来年。而这期间,我国社会状况和语言生活的面貌已经发生了很大的变化,语言文字随着社会的发展而发展,规范标准也需要与时俱进。”通过发布实施《规范汉字表》的机会,对以往汉字规范的疏漏进行弥补,是符合实事求是的科学精神的。二、印刷宋体字形规范的基本原则

1965年1月30日由文化部和中国文字改革委员会联合发布的《关于统一汉字铅字字形的联合通知》说:“我国印刷用铅字字形不统一,同一个字,在报纸、杂志、图书上出现几种不同的笔画结构,为了便利阅读,需要统一铅字字形。1962年3月间,文化部、中国文字改革委员会、教育部、中国科学院语言研究所为了统一铅字字形,共同成立了汉字字形整理组,就印刷通用字范围内的铅字字形加以整理,确定每一个字的一定笔画结构和笔数,以便用作统一铅字字形的范本。汉字字形整理组经过反复研究,于1964年5月间编成《印刷通用汉字字形表》。此项字形表,包含印刷通用的宋体字6196个。”可见,《印通表》6196个印刷通用宋体字的字形规范,是在当时印刷通用字的层面,针对印刷铅字字形不统一的现象而制定的。但是,随着社会的发展,6196个汉字已经明显满足不了印刷出版的需要。我国2005年发布的信息处理用汉字编码字符集GB18030已经收录了70195个汉字。如此数量众多的汉字,如果没有一个统一的字形规范原则,必然导致字集内部的极度混乱。

事实上,《印通表》在研制的过程中,已经形成了印刷宋体字形的字形规则,这些规则经过几十年的运用,已经为人们所接受。对印刷宋体字进行字形规范,决不能另起炉灶,而必须在《印通表》的基础上进行,只有这样才能既达到规范的目的,又保持了相对稳定。我们首先应该对《印通表》所隐含的笔形变异规则进行提炼和总结,并结合汉字发展的历史事实对这些规则进行梳理和完善,将它们由隐形规则变成显性规则。通过制定明确的字形规则,既检验规范了已有字形,又可使更大字量的汉字定形有规可循,不再出现新的字形不统一现象。

从总体上讲,对印刷宋体字形进行规范,应该坚持以下几个大的原则:(1)尽量保持稳定:作为人们日常使用的交际工具,汉字需要保持相对稳定。因此,在对汉字进行规范化的时候,既要使汉字字形向标准化靠拢,又要照顾人们的使用习惯,能不改的尽量不改,必须改的才改。(2)尊重汉字结构:字形调整虽然是笔形层面的问题,但笔形的变异也会影响汉字的结构;在规定笔形变异规则时,必须尊重汉字结构,不能因为笔形调整使字的结构模式发生错乱,或者因为调整笔形而产生同形字、易混字等。(3)考虑宋体风格:宋体字来源于雕版印刷字体,经过工艺美术处理,其笔形及笔画交接有自身的特点,总体风格讲求平直方正、对称均衡。《通用规范汉字表》在对个别汉字字形进行调整时,将是否符合宋体字的风格特点作为一项重要的衡量指标。(4)遵循统一规则:调整汉字字形的目的,就是为了使游离于规则之外的个别字形回归系统,因此字形调整必须遵循统一的规则,让规则去统领字,严格控制特例。条件相同的字按统一规则处理,尽量减少规则之外的特殊处理字形,以减少处理过程中的随意性成分。

运用从《印通表》中所提取的具体规则,去反观《印通表》中的全部字形,我们发现,其中所收的绝大多数字形是符合自身内部规则的。但也有一些游离于规则之外的现象。仅举数例如下:(1)“琴、瑟、琵、琶、徵”等字与同类字不一致。

根据汉字书写的结字原则,为提高汉字字形的向心力,增强汉字构形的整体性,左右结构中左边部件的最后一笔如果是横,需要变为提,如“理”“玨”“班”“碧”“地”“坎”“牺”“牲”等;左中右结构的字,中间部件的末笔为横的,也应变为提,如“鸿、潋、鼓、街、御”等;上左部件末笔为横的,也变为提,如“蛩、柴、鹭、盐、瞽”等。《印通表》中只有“琵、琶、琴、瑟、徵”5个字是例外。这些例外找不到合适的理由,而且在《康熙字典》(中华书局1962年影印本)中,这几个字都符合横变提的规则。鉴于此,应按照统一的规则对这5个字形进行调整,将其中上左部件“王”的末笔改为提。(2)“籴、汆、褰、衾”等字与同类字不一致。

根据书法避重捺的习惯和字形的美观,并考虑汉字重心的稳定,字形中如果有两个上下叠置的捺笔,其中一个应变为点。如果是上覆下结构,下边的捺变点,如“余、癸、奏、倏、秦”等;如果是下载上结构,上边的捺变点,如“灸、炎、爻、焚、裹、煲、褒”等。《印通表》中只有“氽、汆、籴、褰、衾”5字是例外,它们属于上覆下结构,依规则下边的捺应当变点却没有变。(3)“恿”字与同类字不一致。

在上下结构的字中,上部件的中笔或末笔为钩笔者,为了避免与下部件发生交接,影响字的美观,原则上要去钩。如“督、裘、勇、傅、盙、簠、尃、博、搏、溥、缚、薄、欂、礴、敷、翠、羿、翌、熤、慴、廖、戮、璆、翟、戳、曜、糴、糶、耀、翼”等字,上部件中横折钩都变为横折,只有“恿”的上部件是例外,也应按此规则调整。(4)“亲、条、茶、新、杂、寨”等字与同类字不一致。“木”字独用时不带钩,充当部件时在各个部位也多不带钩,只有在字的下部时存在着明显不一致的现象:有些不变形,如“朵、枭、架、柒、染、柴、桌、桀、栾、桨、案、桑、梨、栗、渠、梁、棠、某、荣、柔、集、椠”等;有些则变作“朩”,如“亲、条、茶、杂、寨”等。汉字中大量的钩是为了追求书写快捷,笔画相互连贯的产物。这类钩一般是行书的笔法,后来被楷书吸收。若按行书、楷书的传统,“木”不论是独用还是作部件都有钩,印刷宋体去掉了绝大多数“木”部件的钩,但做得并不彻底,留下来的也没有理由可讲,完全成为字形的冗余成分。所以应按统一原则进行调整:尽量保持同一部件在相同条件下变异的一致性,凡“木”字作部件在下一律不带钩,取消变异部件“朩”。(5)“毂”字与同类字不一致。“毂”字的小篆字形是从车声的形声字。声旁“”左下有一横笔,不应去掉。《康熙字典》中该字就没有省去横笔,从“的字如“彀、榖、穀、觳、縠、糓”等,均未省去横笔,只有“毂”字是例外,所以应将该字恢复为带横笔的写法。

上述这些不规则现象,对信息时代汉字的标准化工作产生了不良的影响,必须认真地加以清理,运用统一的规则对这些字形进行调整,以使印刷宋体字形更趋于标准化和系统化。《规范汉字表》在研制的过程中认识到了这些问题的严重性,把对印刷宋体字形的规范也作为自己的一个重要目标之一,这无疑是非常正确的。《规范汉字表》对部分字形的调整,是经过科学谨慎的论证的,是从《印通表》中的既有规则出发的,而不是另起炉灶。有人说这次调整是专家们“闭门造车”,这种说法是很不客观的。

如果从更长远的目标来看,对印刷宋体字形的规范工作还应该在《规范汉字表》的基础上有所加强,调整的范围不应该只局限在《规范汉字表》所收汉字的范围之内,而应该将字形规则推及到更大的字符集中。“《印刷通用汉字字形表》和《现代汉语通用字表》确立了通用字的字形规范,而非通用字还没有这种规范。人们在使用非通用字时,对字形的选择有时会感到无所适从。《汉语大字典》的非通用字字形就存在不少问题。非通用字也要使用新字形,因为通用字和非通用字之间并没有一条鸿沟,非通用字的字形规范只能是通用字字形规范的延伸。通用字和非通用字如果采用了不同的字形标准,那就会给社会语文生活造成混乱。因此我们要果断地把新字形的应用范围加以扩大,扩大到非通用字上去……,进而解决全部汉字字形的统一和规范问题。”另外,对印刷宋体字的字形规范,也不应该只着眼于宋体字自身,还应该考虑到与之相关的几个关系的协调问题,如各种主用字体之间的协调、简体字与繁体字之间的协调、已定规范汉字与大字符集之间的协调等。如此复杂的问题,不可能让《规范汉字表》毕其功于一役,而应该做出更长远更全面的规划,单独设立汉字字形规范的研究课题,针对目前电脑普遍应用的超大字符集中的汉字(古文字隶定字除外),进行全面的清理研究和彻底的标准化处理。三、印刷宋体字形规范的可行性

有人担心,对印刷宋体字形进行调整,会带来巨大的社会影响,甚至会导致十几亿人重新学写汉字,这种说法确实有些危言耸听。如果只是从微观层面上对少量汉字的笔形变异规则进行细微调整,就会导致十几亿人重新学写汉字,那么,当初《印通表》发布时,对6000多字形进行了统一规范,那岂不是导致所有中国人都变成了文盲了吗?何况,我们要做的字形调整只是对印刷字体的规范,只要对现有的电脑字体稍作修改,就可以实现这一目的。对于人们的手写字来说,这些字形规范只是起到正面的引导作用,而不是强行的制约。

字形的微调,对目前常用的形码输入法也不会产生多大影响。如《规范汉字表》所涉及“木”和“朩”的问题,带钩不带钩,不影响它的形码,因为一般的形码都是将“朩”作为“木”的变体处理的。“木”和“朩”在五笔字型中代码都是S,郑码都是F,调整前后不会影响其编码。而且,如果按照统一规则将“朩”去钩后,“朩”这个变体部件将不复存在,郑码和五笔字型就没有必要再专门为“朩”设一条变体规则了,这不仅没有影响其原有的编码,反而会使其规则显得更为简洁。

字形调整以后,现有的宋体字库当然需要做出相应的修改,当然也需要一定的经费投入。但这种修改所需的成本是有限的,因为字库的更新完全可以走正常的自然更新换代的程序,而不用为新的字形标准专门出一个版本。因为任何新的字形标准的出台,对于工业产品的跟进都会有两年左右的缓冲期。在两年之内,相信即使没有新字形标准的出台,这些字库也是要更新的。教科书的印刷,也不是一次性把几年的书都印出来,而是每年都要校订重印的,重印时只要更新了字库,也就自然而然地更新了字形。我们现在使用的电脑,只要网上下载一个新的字库,替换原来的字库文件就可以了,做这件事也仅仅需要几分钟的时间而已,谈不上什么“高昂的成本”。“字形调整不可能没有投入,我们这么大的国家,信息符号要合理化、国际化,为什么不可以有适当的投入呢?每一次调整字形(不论是国家标准还是行业标准的调整),电脑字库都要在适当的时候升级,这是正常的成本投入,怎么会像有些人说的那样是‘用高额成本瞎折腾’呢?”

长远来看,对印刷宋体字形进行标准化处理,有着多方面的积极意义:(1)有利于保持系统内部的一致性,提高汉字字形的标准化程度。(2)有利于保持与历史字形的一致性,尊重汉字的历史传承,减少汉字定形的人为因素,更好地维护汉字的传统。现有的印刷宋体字形有些是受手写的影响,把草书、行书的一些书写特征掺杂到印刷字体中。实际上,这些写法是与历史上通行的印刷字形相违背的。如《康熙字典》中“条”写作,“寨”写作,其中的部件“木”均不带钩;“瑟”写作,左上角的“王”的末笔明显是提。(3)有利于汉字的学习和书写。规则保持相对一致,更有利于提高学习的效率,减少不必要的干扰和记忆的负担。如同样是“木”字底,在哪些字里写作不带钩的“木”,在哪些字里写作带钩的“朩”,是没有任何规律的,教学时无法讲解,学习时只能靠死记硬背,对于这种不起任何区别作用、白白增加记忆负担的冗余信息,确实应该取消。(4)有利于提高汉字字形的正确性。例如,从“”的字,无论是历史上的字形,还是现代印刷字形,都不能省去其中的一横。唯独“毂”字,其中的一横被弄丢了,追溯“毂”的历史字形,都有一横。所以,《印通表》中的写法明显是个错字。

有些人也承认宋体字规范所带来的上述好处,也认为字形调整是必要的,但就是觉得调整后会感到不习惯,因而对字形调整持反对态度,这种理由更是难以成立。汉字规范的对象是什么?不就是现实应用中人们相沿成习的不规范现象吗!如果因为是人们习以为常就不敢去规范,那汉字规范工作就没有存在的必要了。任何变动都会对人们目前的习惯有所影响,但只要改动是正确的,我们暂时牺牲一点儿习惯,从而换来长远的便利,不比我们固守成习、将错就错更符合科学的精神吗!字形的少量调整,使规律性更强了,使不统一的变得统一了,使汉字的学习变得更容易了,即使我们眼下会感觉有些不习惯,但为了我们的子孙,为了将来一代又一代汉字学习者的便利,我们做出一点儿奉献不是应该的吗!我们不能因为人们对不规范的现象已经习惯了,就以讹传讹,永远不去规范它,这样的话,汉字系统就永远不可能得到规范,历史上所做的汉字规范工作也都不可能进行了。

由此可见,对印刷宋体字形所做的调整不仅是必要的,而且是可行的。信息时代给汉字规范工作提出了新的要求,作为当代语言文字工作者,我们理应肩负起这一历史使命,充分尊重汉字的自身规律,引导汉字向更加健康有序的方向发展。(原载《云南师范大学学报》2010年第6期)

汉字整理工作的现状与任务

李国英 周晓文

提要:本文全面描述了汉字整理的现状,指出了汉字整理存在的问题,论证了信息化对汉字整理提出的新要求,提出了建立统一的整理汉字平台和字料库任务。

关键词:汉字 整理 现状 任务

汉字整理有狭义和广义两种用法。狭义的汉字整理用在汉字改革和汉字规范领域。1952年成立中国文字改革委员会,委员会下设拼音方案组和汉字整理组。拼音方案组负责研究并提出汉字拼音化的方案;汉字整理组负责整理汉字并提出简化方案。从这个组织架构可以看出,当时的文字改革主要包含两方面的内容,一是汉字拼音化,二是现行汉字整理,而汉字整理的中心任务是简化汉字。吴玉章在《中国文字改革的道路》一文中指出:“汉字改革要走世界文字共同的拼音方向,而在实现拼音化以前,必须简化汉字,以利目前的应用,同时积极进行拼音化的各项准备工作。”可见,拼音化是汉字改革的方向,简化汉字主要是为了拼音化实现之前的社会应用。在简化汉字的过程中,陆续提出了整理异体字和整理印刷字形等工作。如在1952年10月召开的中国文字改革委员会汉字整理组第四次会议上提出了整理异体字的工作,1952年1月卢芷芬发表了《整理印刷体的建议》一文。在这一阶段,官方的文件和学者的论文中都经常出现汉字整理这个用语,但是一直没有明确的界定,用法也不尽统一。有时它指和拼音化工作并列的汉字改革两大任务之一,汉字简化、异体字整理、印刷字形整理、常用汉字表的制定等工作都包含在内;有时它又和简化汉字并列,指简化汉字之外的异体字整理等工作。如1965年由中华书局出版的丁西林等著的《汉字的整理和简化》一书,书名中就把整理和简化相并列。1985年中国文字改革委员会改名为国家语言文字工作委员会,在国务院办公厅发出的《国务院办公厅关于中国文字改革委员会改名为国家语言文字工作委员会的通知》中明确国家语委的主要职责时写到:“贯彻执行国家关于语言文字工作的方针、政策和法令,促进语言文字的规范化、标准化,继续推动文字改革工作,并做好有关的社会服务工作。”此后,国家文字工作的重点又由文字改革转移到文字规范化工作,原来在文字改革框架下的汉字整理与简化工作也被纳入到汉字规范化的范畴中。傅永和在1986年发表的《汉字的整理和简化》一文指出:“整理和简化汉字属于文字规范化工作。所谓文字规范化,就是根据文字的发展规律,为文字的应用确定各方面的标准,把那些符合文字发展规律的新成分、新用法固定下来,加以推广。同时,对一些不符合文字发展规律的和那些没有必要存在的歧义成分和用法,根据规范的要求,妥善地加以处理,使文字更好地为社会交际服务。”不仅给文字规范化做出了界定,同时把汉字整理列为和汉字简化并列的汉字规范化工作之一。文章还总结了30年来整理和简化汉字工作取得的显著成绩,并对以后整理和简化汉字的工作提出了设想,其中在汉字的研究和整理中列出事项内容,包括:(一)进一步整理异体字;(二)规范现行汉字的部件名称;(三)进一步规范现行汉字的书写笔顺;(四)规范现行汉字的笔形次序;(五)规范汉字部首排检法;(六)制定现代汉语常用字表和基本用字表;(七)进一步更改地名生僻用字;(八)扩大人名用字调查范围,研究制定人名用字表;(九)规范现代汉语异形词;(十)为了适应汉字信息处理的需要,加强计算机对汉字排序、检索、传输等方面的功能,还需要进行汉字属性、汉字跟随率等方面的研究,并需要编制国家标准《信息交换用汉字编码字符集·辅助集》和国家标准《信息交换用汉字属性字典》以及其他有关标准,使汉字的研究和整理工作为现代化建设作出更多的贡献。基本上把简化汉字之外的所有汉字规范工作都纳入到汉字整理的范围之内。1988年费锦昌给《中国大百科全书·语言文字卷》写了汉字整理词条,进一步明确了汉字整理的定义,把汉字整理定义为“给汉字定量、定形、定音、定序,使它规范化、标准化的工作。”1995年傅永和发表《新中国的汉字整理》一文,把汉字整理定义为“在研究的基础上,规定现代汉语用字的字量标准、字形标准、字音标准和字序标准,实现现行汉字的标准化。”基本上和费锦昌的界定相同。费锦昌和傅永和的界定可以看作汉字整理狭义用法的代表。根据费锦昌和傅永和的定义,狭义的汉字整理属于汉字规范的范畴,整理的内容包括规定字量标准、字形标准、字音标准和字序标准,目的是为了实现现行汉字的标准化。

广义的汉字整理学术界在学术研究时经常使用,但并没有明确的定义。本文所谓汉字整理指汉字研究中所有汉字系统的条理化和有序化的工作。就其本质而言是描写性的,而非规定性的。因此,它属于汉字系统描写的范畴,而非汉字规范的范畴;整理的内容可以包括字形、字音、字用、字序、字量、字际关系等不同方面,而字形、字序、字际关系的整理是核心。整理的目的是揭示汉字系统的条理化和有序化,为汉字研究和规范奠定坚实的基础。汉字研究的学者一直非常重视汉字的条理化和有序化的工作。汉代的许慎著《说文解字》,搜集了一万多个汉字,按照形义统一的原则从中归纳出540个部首,又按形义统一的原则把9353个小篆归入不同的部首,同时区分了正篆与重文,把音义相同的字归纳在一起,实现了小篆字系的条理化和序列化,这可以看做是古代汉字整理的典范。其后的《字林》、《玉篇》、《类篇》、《字汇》、《正字通》、《康熙字典》等通常所说的字典,《切韵》、《广韵》、《集韵》等通常所说的韵书,都可以看作汉字整理的成果。

汉字规范意义上的汉字整理,苏培成《二十世纪的现代汉字研究》一书的第五章现代汉字的简化和整理的第二节“汉字的整理”有专门的介绍。可以参看,本文不再重复。

本文着重从描写意义的对汉字整理工作的现状进行分析,并探讨未来发展的趋势,以期对汉字整理工作的深入展开提供借鉴。

汉字史研究中的一项基础工作就是字符的搜集和整理,以便于检索、应用和研究。具有整理性质的成果形式主要有字表、单字索引、字典等,集释类的工具书也可以看作整理的成果形式。

字表是最主要的文字整理的成果形式。字表是按一定次序编排的文字汇编。根据字表的编制目的、收字范围、所收字的属性及字表中字的编排方式等可以把字表分为不同的类型。比如根据字表编制的目的是为了展示文字的使用状况还是为了规定使用的规范,字表可以划分为描写性的字表和规定性的字表。比如古文字的各种文字编可以看做是描写性的字表,而《简化字总表》、《第一批异体字整理表》、《印刷通用汉字字形表》、《现代汉语通用字表》以及正在研制的《规范汉字表》等可以看作规定性的字表。根据使用范围可以把字表分为通用字表和专用字表。比如《现代汉语通用字表》可以看做是通用字表,人名用字表、地名用字表等可以看作专用字表。根据文字的使用频度可以把字表分为常用字字表、次常用字表、罕用字表等,比如台湾公布的有《常用国字标准字体表》、《次常用国字标准字体表》、《罕用字体表》。根据字表的编排方式可以分为按音编排的字表、按形编排的字表和按形义编排的字表等,按音、按形编排的字表不必举例,凡按《说文》部首编排的字表都可以看做是按形义编排的字表。

单字索引也可以看做是汉字整理的成果。按照一般的理解,索引是将文献中具有检索意义的事项(可以是人名、地名、词语、概念或其他事项)按照一定方式有序编排起来,以供检索的资料。单字索引就是将一定范围的文献中的使用的全部字提取出来,按照一定方式有序编排起来,并注明每一个字的出处,以供检索的资料。索引的目的虽然只是为了检索,但是,它具有搜集并有序编排文字的特征,所以也可以看作文字整理的一种形式。

字典是以字为单位,按一定次序排列,每个字注上意义和用法的工具书,也具有文字整理的特征。

汉字史研究中对汉字的整理包括对出土文献用字和传世文献用字两个方面。

出土文献文字的整理有综合的和分类的两种。出土文字综合性字表主要有:马德璋《古籀文汇编》(上海中国书店,1934)、徐文镜《古籀汇编》(商务印书馆,1935;又武汉市古籍书店翻印本,1988)、郭沫若《商周古文字类纂》(文物出版社,1944编纂,1991出版)、高明《古文字类编》(中华书局,1980年)、徐中舒《汉语古文字字形表》(四川人民出版社,1981)、徐无闻主编《甲金篆隶大辞典》(四川辞书出版社,1991)、方述鑫等《甲骨金文字典》(巴蜀书社,1993)、罗文宗《古文字通典》(天津人民出版社,1995)、《汉语大字典》字形组《秦汉魏晋篆隶字形表》(四川辞书出版社,1985)等。

分类整理的成果有按字体、时代、地域、文字依附的材料等不同的分类角度,主要成果有:

甲骨文字表:孙海波《甲骨文编》(哈佛燕京学社,1934)、金祥恒《续甲骨文编》([台北]艺文印书馆,1959)、中国科学院考古研究所编辑《甲骨文编》(孙海波《甲骨文编》改订本,中华书局,1965;又香港中华书局版,1979年)、日本岛邦男《殷墟卜辞综类》(汲古书院,1967;又1971增订本)、沈建华、曹锦炎编著《新编甲骨文字形总表》(中文大学出版社,2001);蒋玉斌《新出甲骨文编》(作家出版社,2007)等。甲骨文索引:日本永田英正《京都大学人文科学研究所藏甲骨文字索引》(京都大学人文科学研究所,1968)、加拿大许进雄《皇家安大略博物馆所藏甲骨文字索引》(一~九)(《中国文字》新四~十二期连载,1981~1988)、日本高嶋谦一《殷虚文字丙编通检》(台湾历史语言研究所,1985)、姚孝遂《殷墟甲骨刻辞类纂》(中华书局,1989)等。甲骨文字典:王襄《簠室殷契类纂》(天津博物院石印,1920)、商承祚《殷虚文字类编》(决定不移轩,1923;又1927年删校本,[台北]艺文印书馆翻印本,1971);孟世凯《甲骨学小词典》(上海辞书出版社,1987)、赵诚《甲骨文简明词典——卜辞分类读本》(中华书局,1988)、徐中舒主编《甲骨文字典》(四川辞书出版社,1989)、刘兴隆《新编甲骨文字典》(中国国际文化出版公司,1993)等。集释类工具书主要有:李孝定《甲骨文字集释》(台湾历史语言研究所,1965)、松丸道雄与高嶋谦一合编《甲骨文字字释综览》(东京大学出版会,1993)、于省吾主编《甲骨文字诂林》(中华书局,1996)等。

金文字表:容庚《金文编》(贻安堂,1925年初版;商务印书馆,1938年第二版;科学出版社出版,1959年第三版;中华书局出版,1985年第四版)。金文索引:季旭升、汪中文主编《青铜器铭文检索》([台北]文史哲出版社,1995)、张亚初《殷周金文集成引得》(中华书局,2001)、华东师范大学中国文字研究与应用研究中心编《金文引得(殷商西周卷)》(广西教育出版社,2001)、华东师范大学中国文字研究与应用研究中心编《金文引得(春秋战国卷)》(广西教育出版社,2002)。金文字典:陈初生编《金文常用字典》(陕西人民出版社,1987)、戴家祥主编《金文大字典》(学林出版社,1995初版,1999第二版)。金文集释类工具书:周法高主编《金文诂林》(中文大学出版社,1975)、周法高编《金文诂林补》(台湾历史语言研究所专刊之77,1982)等。金文数字化处理系统有华东师范大学中国文字研究与应用中心《商周金文数字化处理系统》(广西金海湾电子音像出版社、广西教育出版社,2003)等。

战国文字时期文字整理的情况比较复杂,有综合整理整个战国时期文字的,有按文字所依附材料的类别分别整理的,也有按地域和文字依附材料分别整理的。战国文字综合字表有汤馀惠主编《战国文字编》(福建人民出版社,2001)等。字典有何琳仪《战国古文字典——战国文字声系》(中华书局,1998)等。简帛字典有:陈建贡、徐敏《简牍帛书字典》(上海书画出版社,1981)、葛英会、彭浩《楚简帛文字编》(日本东京书店,1992)、滕壬生《楚系简帛文字编》(湖北教育出版社,1995)等。帛书字表有曾宪通《长沙楚帛书文字编》(中华书局,1993)。楚简字表主要有:郭若愚《战国楚简文字编》(上海书画出版社,1994)、张守中等《包山楚简文字编》(文物出版社,1996)、李守奎《楚文字编》(上海华东大学出版社出版,2003)、张光裕、袁国华《包山楚简文字编》([台北]艺文印书馆,1992)、张光裕、袁国华《望山楚简校录:文字编》([台北]艺文印书馆,2004)、张光裕、袁国华《郭店楚简研究·第一卷·文字编》([台北]艺文印书馆,1999)、张守中等《郭店楚简文字编》(文物出版社,2000)、张光裕、滕壬生等《曾侯乙墓竹简文字编》([台北]艺文印书馆,1997)、程燕《望山楚简文字编》(中华书局,2007)、李守奎等《上海博物馆藏战国楚竹书文字编》(1—5)(作家出版社,2007)等。战国楚文字数字化处理系统有华东师范大学中国文字研究与应用中心《战国楚文字数字化处理系统》(上海教育出版社,2005)。秦简文字字表有:张世超、张玉春《秦简文字编》(日本京都中文出版社,1990)、陈振裕、刘信芳《睡虎地秦简文字编》(湖北人民出版社,1993)、张守中《睡虎地秦简文字编》(文物出版社,1994年)、袁仲一、刘珏《秦文字类编》(陕西人民教育出版社,1993)等。

汉代文字字表:王梦鸥《汉简文字类编》([台北]艺文印书馆,1974)、日本佐野光一《木简字典》(日本雄山阁出版社,1985)、李正光《马王堆汉墓帛书竹简》(湖南美术出版社,1988年)、陆锡兴《汉代简牍草字编》(上海书画出版社,1989)、陈松长《马王堆简帛文字编》(文物出版社,2001)、骈宇骞《银雀山汉简文字编》(文物出版社,2001)、徐正考《汉代铜器铭文文字编》(吉林大学出版社,2005)、徐富昌《武威仪礼汉简文字编》([台北]“国家出版社”,2006)等。

其他如古玺文、货币文、陶文、碑刻文字等字表有:罗福颐主编《古玺文编》(文物出版社,1981)、罗福颐主编《汉印文字征》(文物出版社,1978)、张颔《古币文编》(中华书局,1986)、商承诈等编《先秦货币文编》(书目文献出版社,1983年版)、吴良宝《先秦货币文字编》(福建人民出版社,2006)、顾廷龙《古匋文孴录》(北平研究院史学研究会文字史料丛编本,1936)、罗振均、罗振玉编《增订碑别字》(文字改革出版社,1957)、商承祚《石刻篆文编》(科学出版社,1957)等。

传世文献文字的整理有字典、索引等类型的成果形式。

搜集整理传世文献文字的字典有《汉语大字典》(四川辞书出版社、湖北辞书出版社,1986)、《中华字海》(中华书局、中国友谊出版公司,1994)等。

另一种形式是单字索引。成规模的传世文献的单字索引有三批,即哈佛燕京学社编制的一套引得、中法汉学研究所编制的一套通检和香港中文大学编制的一套逐字索引。

哈佛燕京学社引得编纂处曾于1930年起编印出版多种引得。上海古籍出版社自1983年开始有选择地重印出版了一批,主要有:洪业等《礼记引得》(上海古籍出版社,1982)、洪业等《春秋经传引得》(上海古籍出版社,1983)、洪业等《杜诗引得》(上海古籍出版社,1985)、洪业等《论语引得、孟子引得》(上海古籍出版社,1986)、洪业等《庄子引得》(上海古籍出版社,1986)、洪业等《墨子引得》(上海古籍出版社,1986)、洪业等《荀子引得》(上海古籍出版社,1986)、洪业等《周易等十种引得》(上海古籍出版社,1986)、洪业等《水经注引得》(上海古籍出版社,1987)等。

中法汉学研究所曾于40年代编印一套通检,上海古籍出版社于1986年至1987年间重印出版,主要有:中法汉学研究所编《吕氏春秋通检·论衡通检》(上海古籍出版社,1986)、中法汉学研究所编《淮南子通检·春秋繁露通检》(上海古籍出版社,1986)、中法汉学研究所编《申鉴通检·潜夫论通检》(上海古籍出版社,1987)、中法汉学研究所编《新序通检·风俗通义通检》(上海古籍出版社,1987)等。

香港中文大学中国文化研究所自1988年起陆续编制了《先秦两汉古籍逐字索引丛刊》和《魏晋南北朝古籍逐字索引丛刊》。《先秦两汉古籍逐字索引丛刊》包括:刘殿爵《战国策逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《礼记逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《商君书逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《新序逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《韩诗外传逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《大戴礼记逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《孔子家语逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《说苑逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《淮南子逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《文子逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《兵书四种(孙子、尉缭子、吴子、司马法)逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《逸周书逐字索引》(商务印书馆〈香港〉,1992)、刘殿爵《周礼逐字索引》(商务印书馆〈香港〉,1993)、刘殿爵《古列女传逐字索引》(商务印书馆〈香港〉,1993)、刘殿爵《晏子春秋逐字索引》(商务印书馆〈香港〉,1993)、刘殿爵《吴越春秋逐字索引》(商务印书馆〈香港〉,1993)、刘殿爵《越绝书逐字索引》(商务印书馆〈香港〉,1993)、刘殿爵《汉官六种逐字索引》(商务印书馆〈香港〉,1993)、刘殿爵《东观汉记逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《尚书大传逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《春秋繁露逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《山海经、穆天子传、燕丹子逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《吕氏春秋逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《仪礼逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《贾谊新书逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《盐铁论逐字索引》(商务印书馆〈香港〉,1994)、刘殿爵《周易逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《尚书逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《毛诗逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《春秋左传逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《春秋公羊传逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《春秋谷梁传逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《论语逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《孟子逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《尔雅、孝经逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《潜夫论逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《申鉴、中论、新语论逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《法言、太玄经逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《京氏易传、焦氏易林逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《白虎通逐字索引》(商务印书馆〈香港〉,1995)、刘殿爵《论衡逐字索引》(商务印书馆〈香港〉,1996)、刘殿爵《荀子逐字索引》(商务印书馆〈香港〉,1996)、刘殿爵《风俗通义逐字索引》(商务印书馆〈香港〉,1996)、刘殿爵《列子逐字索引》(商务印书馆〈香港〉,1996)、刘殿爵《老子逐字索引》(商务印书馆〈香港〉,1996)、刘殿爵《六韬、鬻子逐字索引》(商务印书馆〈香港〉,1997)、刘殿爵《鹖冠子、文始真经、鬼谷子逐字索引》(商务印书馆〈香港〉,1997)、刘殿爵《申培诗说、世本、古三坟逐字索引》(商务印书馆〈香港〉,1997)、刘殿爵《蔡中郎集、忠经逐字索引》(商务印书馆〈香港〉,1998)、刘殿爵《尹文子、孔丛子、公孙龙子、邓析子逐字索引》(商务印书馆〈香港〉,1998)、刘殿爵《竹书纪年逐字索引》(商务印书馆〈香港〉,1998)、刘殿爵《国语逐字索引》(商务印书馆〈香港〉,1999)、刘殿爵《慎子、申子、尸子逐字索引》(商务印书馆〈香港〉,2000)、刘殿爵《韩非子逐字索引》(商务印书馆〈香港〉,2000)、刘殿爵《管子逐字索引》(商务印书馆〈香港〉,2000)、刘殿爵《太平经逐字索引》(商务印书馆〈香港〉,2001)、刘殿爵《庄子逐字索引》(商务印书馆〈香港〉,2000)、刘殿爵《楚辞逐字索引》(商务印书馆〈香港〉,2000)、刘殿爵《周髀算经、九章算术逐字索引》(商务印书馆〈香港〉,2000)、刘殿爵《墨子逐字索引》(商务印书馆〈香港〉,.2001)、刘殿爵《难经、伤寒论、金匮要略逐字索引》(商务印书馆〈香港〉,2002)、刘殿爵《释名、急就篇逐字索引》(商务印书馆〈香港〉,2002)等。《魏晋南北朝古籍逐字索引丛刊》包括:刘殿爵《谢灵运集逐字索引》(集部第一种)(中文大学出版社,1999)、刘殿爵《谢朓集逐字索引》(集部第二种)(中文大学出版社,1999)、刘殿爵《齐竟陵王萧子良集逐字索引》(集部第三种)(中文大学出版社,1999)、刘殿爵《沈约集逐字索引》(集部第四种)(中文大学出版社,2000)、刘殿爵《徐陵集逐字索引》(集部第五种)(中文大学出版社,2000)、刘殿爵《庾信集逐字索引》(集部第六种)(中文大学出版社,2000)、刘殿爵《曹操集逐字索引》(集部第七种)(中文大学出版社,2000)、刘殿爵《曹丕集逐字索引》(集部第八种)(中文大学出版社,2000)、刘殿爵《曹植集逐字索引》(集部第九种)(中文大学出版社,2001),刘殿爵《梁昭明太子萧统集逐字索引》(集部第十种)(中文大学出版社,2001)、刘殿爵《江淹集逐字索引》(集部第十一种)(中文大学出版社,2001)、刘殿爵《梁武帝萧衍集逐字索引》(集部第十二种)(中文大学出版社,2001)、刘殿爵《文心雕龙逐字索引》(集部第十三种)(中文大学出版社,2001)、刘殿爵《建安七子集逐字索引》(集部第十四种)(中文大学出版社,2001)、刘殿爵《梁简文帝萧纲集逐字索引》(集部第十五种)(中文大学出版社,2001)、刘殿爵《张华、张载、张协集逐字索引》(集部第十六、十七、十八种)(中文大学出版社,2003)、刘殿爵《潘岳、潘尼集逐字索引》(集部第十九、二十种)(中文大学出版社,2005)、刘殿爵《诗品逐字索引》(集部第二十一种)(中文大学出版社,2007)、刘殿爵《洛阳伽蓝记逐字索引》(史部第一种)(中文大学出版社,2003)、刘殿爵《颜氏家训逐字索引》(子部第一种)(中文大学出版社,2001)、刘殿爵《齐民要术逐字索引》(子部第二种)(中文大学出版社,2001)、刘殿爵《〈博物志〉、〈人物志〉逐字索引》(中文大学出版社,2007)等。

其他索引类著作还有:顾颉刚主编《尚书通检》(书目文献出版社,1982)、周钟灵等《韩非子索引》(中华书局,1982)、陈宏天、吕岚《诗经索引》(书目文献出版社,1984)、李波、李晓光《史记索引》(中国广播电视大学出版社,2001)、李波、李晓光《汉书索引》(中国广播电视大学出版社,2001)、栾贵明等《十三经索引》(中国社会科学出版社,2004)等。

综上所述,我国有着悠久的整理汉字的传统,在不同的历史时期产生了形式多样的整理成果,为汉字的研究、应用及规范奠定了基础。但是,总的来看,汉字整理的理论研究还比较薄弱,观念上还缺乏全面系统整理汉字的理念,整理的目标不尽相同,整理的成果十分分散,缺乏在明确理论指导下,着眼于古今汉字的总体,在统一的平台下做全面而系统的整理。整理的资料来源也很不统一。古文字的文字编字形一般取自原始文字资料,利用文字拓片或照片摹写字形,基本能保持文字的原始形体。传世文献用字则或根据古代字书收字,或根据传世文献,根据传世文献取字常常是根据文献的整理本,未保持文字的本来面貌,也没有时代的特征。整理手段,早期均手工作业,最近,随着计算机技术的发展,逐渐有了利用计算机辅助整理的成果。

从文字研究应用与规范对汉字整理的要求来看,目前的汉字整理不能满足要求。特别是信息化的发展对汉字的整理提出了更高的要求。

当今人类社会进入了信息化高速发展的时代,信息化的深度和广度决定了一个国家的核心竞争力。加快信息化建设,提高信息化的深度和广度,已经成为世界各国的共同选择。目前我国信息化水平还比较低,覆盖面也比较窄,发展仍比较慢,其中一个重要的原因是我国对作为信息载体的汉字基于数字化处理的系统整理不够,表现为编码字符严重不足,已编码字符缺乏科学而系统的字际关系的关联性整理和字词关系的关联性整理,这就从根本上制约了我国信息化的广度和深度。比如,由于编码字符的不足,我国正在建设的“人口基础信息库”、“法人单位基础信息库”、“自然资源和地理空间基础信息库”、“宏观经济数据库”等国家信息化建设四大战略性、基础性信息库的建设遇到了不同程度的困难。作为国家软实力建设的重大文化工程图书馆数字化建设、历代典籍的电子典藏遇到了不可逾越的障碍。国际互联网上以汉字作载体的信息也有很大缺失。由于缺乏字际关系的关联性整理和字词关系的关联性整理,使得基于汉字的信息检索存在信息缺失,又存在命中率不高的问题。基于汉字的信息挖掘和知识挖掘也很难推进。因此,在已有研究的基础上,经过全面搜集、整理和系统研究,在明确理论指导下,以真实文本大规模文字资源库为基础,建设一个包括古今全部汉字在内、并以属性标注的方式解决字际关联和字词关联的数字化统一平台,有效解决我国信息化建设的瓶颈问题,是摆在我们面前的一个十分重要而又急迫的任务。

这一重大任务有两大目标,一是全,二是真。全,一方面指收字全,要全面搜集整理古今全部汉字;二是指整理的项目全,包括字际关系(异体字、繁简字等)的整理、应用范围(通用字、方言字)的整理、应用领域(科技用字、地名用字、人名用字)的整理、使用频度(常用、次常用、罕用)的整理等。真,指的是整理的字形要保真,即保持不同历史时期,各类不同字体字形的原始形态。

要实现上述目标,需要相应做好两项重要工作,一要建立统一的汉字整理平台,二要建立保持文字原形的语料库,即字料库。(原载《云南师范大学学报》,2008年3期)

谈异体字整理的原则和方法

卜师霞 凌丽君

提要:在信息时代,冗余的汉字会直接影响信息传播的速度与信度,整理异体字是促进汉字规范化和标准化的一项重要任务。目前,异体字整理应在《第一批异体字整理表》的基础上,在汉字字际关系理论的指导下,遵循科学、稳定和求实的原则,对表中所收字的义项、字际关系进行甄别分析,并提出切实可行的处理方法。

关键词:异体字 整理原则 整理方法一 异体字整理的目的

由于汉字使用人口众多、地域广泛、历史久远,因此在发展演变过程中字符数量不断攀升,《汉语大字典》收字已达到56000个左右,目前进入国际编码的汉字字样已经达到8万以上,并且还在不断增加。在这些数目庞大的汉字群中,除只在古代某一时期使用过的历史字之外,还存在着大量在现代通用层面上记词功能仍然相同的字。这些不仅会给初学者识读造成困难,同时也给汉字应用领域带来诸多不便,特别是在信息时代,冗余的汉字会直接影响信息传播的速度与信度。因此,整理异体字是促进汉字规范化和标准化的一项重要任务。

新中国成立后,关于异体字的整理主要体现在《第一批异体字整理表》(以下简称《一异表》)中。《一异表》是在1955年12月,由文化部和文字改革委员会联合发布,并决定从1956年2月起在全国实施。发布时的说明指出:“表内所列异体字共810组,每组最少2字,最多6字,合计共1865字。经过整理后共精简去1055字。”“从实施日起,全国出版的报纸、杂志、图书一律停止使用表中括号内的异体字。但翻印古书须用原文原字的,可作例外。一般图书已经制成版的或全部中分册尚未出完的可不再修改,等重排再版时改正。机关、团体、企业、学校用的打字机字盘中的异体字应当逐步改正。商店原有牌号不受限制。停止使用的异体字中,有用作姓氏的,在报刊图书中可以保留原字,不加变更,但只限于作为姓用。”这个说明明确了异体字属于“不规范字”的范围,在通用层面书写现代汉语文本时,不能使用异体字。所以需要从记词职能完全相同而字形不同的一个字种的多个字样中选择一个通用的字形作正字,规定其它字不再使用。但由于历史和时代的因素,《一异表》中确定的“异体字”,从现代汉语通用层面看,有些并不是严格意义上的异体字。把这些字都列入“不规范字”的范围而取消,对意义的精确表达会产生不好的影响,也不符合科学认同的原则。

因此,为促进汉字的规范化和标准化,在现代汉语通用层面,根据科学的汉字字际关系理论,对《一异表》进行整理,区分字表中的异体字和非异体字:一方面将《一异表》中严格的异体字肯定下来;另一方面不是严格异体字的字,应从应用角度出发,立足于认同和归属,并对其应用范围加以限定;同时对于《一异表》中甄别有误的字组,则要予以删除。

由于《一异表》以繁体字形发布,本文在引用《一异表》字组时采用字表原形,在论述中使用相应简化字。二 异体字整理的原则

考虑到《一异表》在公布使用后的50多年中已经被社会遵照,完全推倒重新处理有违汉字使用的社会习惯,会给大众带来不便。因此,当前我们对异体字问题应采用以下三个原则:

第一,科学的原则——坚持严格异体字定义,以保证概念的准确性与系统性。异体字是汉字字际关系的术语之一,它和通假字、分化字等其它字际关系的术语是共存的,在理论上不能混淆异体字和其它字际关系术语的界限。严格异体字的定义应当是:音义全同、记词职能完全一样、仅仅字形不同,它们在任何语境下都能互相替代而不影响意义表达的一些字样。这些字样是在汉字历史发展中逐渐形成的,但是,只有当它们积淀到同一使用时段时,才有确认和择优的必要。鉴于汉字中的严格异体字为数不多,共时的异体字更为稀少,而且必须承认,即使职能相近的汉字在使用上也会有细微差别,今后对待这些职能相近的字,不再采用消极“取消”“废除”的处理方法,而要采取积极的“认同”和“辨析”的处理方法。职能完全相同的汉字认同后,留下一个作规范字,其他则归属其下,不再在正式场合使用。职能交叉的汉字,仅认同部分义项,并规定在使用这些义项时,应以正字为规范字;那些不能认同的义项,要说明正字无法取代非正字的情况,引导使用者正确辨析。

第二,稳定的原则——由于汉字发展的时代久远,很多不同时代的字往往积淀在一个共时层面上,情况错综复杂,因此,从应用的角度,有必要设立一个“准异体字”的概念。准异体字包括两种情况,一种是历史上的记词职能虽然存在差异但在现代汉语共时层面上的记词职能基本相同的字组;另一种是历史上某一个阶段曾经是异体字,但由于正字的流通度较高,社会认可度较高,致使在某些现代汉语义项上一般只能以正字表示的字组。对这些字组,予以保留。同时,照顾群众使用的习惯,除严格异体字与“准异体字”外,对原《一异表》中其它类别的正字包含非正字而不会产生用字混淆的字组,也予以保留。这样,可以在坚持科学定义的前提下,对《一异表》尽量少做改动;同时,范围可仅限于《一异表》中已有的字,整理完《一异表》后,如有条件,再适当扩大范围。

第三,求实的原则——经过仔细甄别,《一异表》中确实存在正字在音项或义项上不能完全包含非正字,或正字与非正字在现代汉语通用层面上完全不通用的字组,这些字组不应再处理为正异关系。其中,这些字组中不能被包含的非正字如是通用层面上必须使用的字。对这些字,应根据语言使用的实际情况,将其重新视为规范字,并说明这些字的使用范围。三 异体字整理的步骤与方法

在以上原则的指导下,对《一异表》的整理分如下几步进行。(一)分析义项

分析义项的操作原则为:第一,立足于现代汉语通用层面,对于生僻音项和义项,包括不常用的文言文音项和义项、方言读音等,均不予考虑;第二,对于不常见的姓氏、地名、人名以及拟声词、连绵词等,另行处理;第三,一对多的异体字,分析义项时一对一地处理。

根据义项的分析情况,《一异表》所收之字可分如下几类:

1、义项全部相同。例如:嶄[嶃]、插[挿]、坂[岅]、褓[緥]。

2、义项部分相同。包括:(1)正字义项多于非正字义项。例如:

注[註]:在“灌入;(精神、力量)集中;赌注”等义项上只用“注”,其他义项两者相同。(2)正字和非正字义项交叉。例如:

丫[椏]:在“女孩子”(如“丫头”)义项上只用“丫”;在表示科学技术术语“五桠果科”上只用“桠”,其他义项两者相同。(3)非正字义项多于正字义项。例如:

仇[讎]:“雠”在表示“校雠”时只能作“雠”,其他义项两者相同。

3、音义完全不同。例如:

挪[挼],两者的读音与意义均不同。“挪”读nuó,义为移动,“挼”读ruó,义为揉搓。(二)甄别字际关系

在义项分析的基础上,以相同音项为标准,根据汉字字用原理,可以将《一异表》中所收之字按照字际关系分为如下几类:

1、异体字

异体字指为同一个词而造并且在职能上从未发生分化的字。其中包括:(1)异写字,即同一个字的不同字样,是同一个字因写法不同而造成的形体差异。例如:删[刪]、冉[冄]、厮[廝]。(2)职能完全相同的异构字,指在任何情况下音与义都相同,而在构件、构件数量、构件功能等方面至少有一项存在差别的一组字。例如:趁[趂]、猪[豬]、唇[脣]、床[牀]、蛇[虵]。

2、准异体字

准异体字指历时层面的记词职能存在差异,而在现代汉语中记词职能完全相同的字。包括:(1)历史上的某一个阶段曾经是异体字,但由于存废时间的长短不同,其中某个字会多出一些后出的义项,而这些义项在现代汉语中已经不再使用。例如:

箸[筯]:两者分别是在不同时代为“筷子”这个词造的字,属于声符不同的异构字。而“箸”在使用中曾表示“显著”义,如《荀子·王霸》:“致忠信,箸仁义,足以竭人矣。”此义后作“著”。但是,在现代汉语中,“箸”已经不再具有“显著”义,因而可将“箸[筯]”视为准异体字。(2)在历史上的某一个阶段曾经是异体字,但由于正字的流通度高,社会认可度较高,致使在某些现代汉语义项上一般只能以正字表示,使正字的义项多于非正字,这样的字组也视为准异体字。例如:

岳[嶽]:《说文·山部》“嶽”下以“岳”作“嶽”的古文,在《说文·页部》“,前面岳岳也。”下段玉裁注:“岳,古文嶽。”可见它们都是为“山岳”义所造之字,应为异构字。但在后来的发展中,在“称妻的父母及伯父、叔父”及作姓氏时只用“岳”来记录,不能写作“嶽”。

从现代汉语层面来看,此类字组在记录职能上是不等同的。但是,这种记录职能的不等同并不是由职能分化而引起的,而是人们用字习惯所造成的使用差异,也就是在后起义中人们更倾向于认定正字的字形。因此也将其视为准异体字。(3)从构形角度来看,并非为同一个词所造,但由于长期使用中的义项通用,使它们在现代汉语中成为音同、义同而只有形不同的字组。例如:

鋤[耡]:两者本义不同,“锄”本字作“鉏”,表“锄头”,《说文》:“鉏,立薅所用也。”而“耡”原指“古代的一种税赋制度”,《说文》:“耡,商人七十而耡。”由于使用中的同音借用,“锄”与“耡”在义项上互用,发展到现代汉语,两者的义项已完全相同。

又如:

駡[傌]:“骂”本用作责骂义,“傌”用作“汉代的刑罚;姓”等义。因为音同,“傌”借用为“骂”,具有了“责骂”义这一记词职能。发展到现代汉语层面,“傌”所记录的“汉代的刑罚;姓”等义项已成为生僻义,在现代层面上可以不再考虑,它与“骂”在“责骂”义上构成准异体关系。

3、非异体字《一异表》中不能视为异体字的主要有以下几种情况:(1)分化字

分化字指原来用一个字记录的词和义,为了区别,分开用两个或两个以上的字来记录。分化字在发展中会出现两种结果:一种是分化之后两个字的记词职能明确,在义项上不再相互通用;另外一种是分化之后母字在记词职能上仍然能够涵盖分化字,此类型又可称为分化未遂。在《一异表》中,涉及到的分化字属于后一种情况。例如:贊[讚],“讚”分化了“赞”的“称赞;文体一种”意义,但这种分化并没有持续下来,在现代汉语中,“赞”既可以表示“称赞;文体一种”,又可以表示“赞助”义,在使用中完全可以涵盖“赞”。(2)部分通用字

部分通用字指正字和非正字除在某些现代汉语义项上的记录职能相同外,还存在着不能相互通用的现象。从理论上分析,造成部分通用的原因主要是正字与非正字因同音借用或同源通用而形成的义项相同。例如:

蠢[惷]:两者在来源上各有本义。《说文》:“惷,亂也。”“蠢,蟲動也。”在发展中,由于读音相同而在“愚蠢”义项上发生同音借用。但“蠢”由本义发展而来的“蠢动”却并未产生借用现象。因此,在现代汉语中,两者在义项上交叉,即都具有“愚蠢”义,而在“蠢动”意义上只作“蠢”。

由于对《一异表》的整理建立在应用目的上,因此,更需要关注的是非正字在现代汉语中是否有存在的价值。而这种存在的价值取决于非正字的用法是否完全被正字涵盖。如果正字全部涵盖了非正字,非正字也就没有存在价值了;反之,如果非正字的义项有超出正字的地方,完全将其淘汰出应用领域,就是不妥当的。在这种理念的指导下,可以把部分通用字分为两类:

第一、正字义项包含非正字义项。例如:

吃[喫]:在“口吃”义项上只用“吃”,其他义项相同。

蘇[甦]:在“紫苏;流苏”等义项上只用“苏”,两者只在“苏醒”这一义项上相同。

第二、正字义项不能完全包含非正字义项。例如:

修[脩]:在“干肉”义项上如“束脩”义上只能用“脩”,其他义项相同。

資[貲]:在“计量”义项上只能用“貲”,其他义项相同。(3)完全不通用字

完全不通用字指在现代汉语中,《一异表》中的正字与非正字不具有相同的记词职能。例如:挪[挼],“挪”读nuó,义为移动,“挼”读ruó,义为揉搓,两者在音义上均不相关。晰[皙],两者读音相同,但在现代汉语中,“皙”只用于表示“人的皮肤白”,在记词职能上已经与“晰”发生分化;嗔[瞋],两者读音相同,但在现代汉语中,“瞋”只用于表示“发怒时睁大眼睛”,在记词职能上已经与“嗔”发生分化。(三)处理方法

在确定处理方法时,需要先作分组的处理:

第一,按音项分组:当非正字具有两个或两个以上的音项时,应当分为两组,分别处理。例如:

綢[紬]:“紬”有两个读音——读“chóu”时与“绸”意义相同,应作“绸”;读“chōu”时,作“抽出”讲时应作“抽”。

第二,对原表中一对多的字组,应分开甄别。情况相同则统一处理,情况不同则分开说明。例如:

幫[幚幇]:“幫”与“幚”“幇”均为异体字。

贊[賛讚]:“赞”与“賛”为异体字,“赞”与“讚”为分化字。

经过以上分析甄别,对《一异表》中的字组采取如下三种处理方式:

1、完全保留,不做改动

异体字、准异体字和正字完全包含非正字的分化字和部分通用字字组,采用这种处理办法。保留下来的字组,在应用层面上,正字可完全代替非正字。

2、保留并限定非正字的使用范围

正字在音项或义项上不能完全包含非正字的部分通用字字组,采用这种处理办法。这些非正字既是正字的异体字,同时在特定意义上又要视为规范字,此类字应明确其使用范围。如“脩”,应说明:仅用于表示干肉,如“束脩”,其他意义用“修”。这样,既沟通了“脩”与“修”的正异关系,又对“脩”作为规范字的范围加以限定。此外,有些非正字与正字意义基本相同或被包容,但有特殊用法,这些字也可作为规范字,但应仅限于姓氏人名、科技用语、地名等特定用法,其他义项仍作为原正字的异体。比如常用作人名的“淼、昇、堃、喆”等。

3、不再作为异体字

完全不通用的字采用这种处理办法。做法是将这些字组从异体字表中删除。如上文所举的“挪[挼]”“晰[皙]”“嗔[瞋]”等。这些从异体字表中释放出来的“异体字”,如果在现代汉语层面上仍然有用,则将其视为规范字收入到相关规范字表中,并加注说明其适用范围;如系罕用字或生僻字,则不再另行处理。

由于《一异表》发布后,有些相关文件曾对其进行过改动整理,这些文件主要是:(1)《修正〈第一批异体字整理表〉内“阪”“挫”二字的通知》(1956年发布);(2)《简化字总表》(1986年10月10日发表);(3)《关于发布〈现代汉语通用字表〉的联合通知》(1988年3月25日发布);(4)《关于“镕”字使用问题的批复》(1993年发布)。上述文件将《一异表》中异体字重新确认为规范字的共29个。对这些字应按照以上原则和方法重新复查和整理。对原正异字在使用中仍存在混同的字组,要重新确立其正异关系。例如:鰍[鰌],1986年10月10日重新发表《简化字总表》的说明,把“”确认为规范字,不再作为淘汰的异体字。但在现代汉语中,“鰌”只有“泥鳅”义,在记词职能上与“鳅”相同,应作为“鳅”的异体,不应作为规范字使用。

同时,还应根据《简化字总表》选用的繁体字形以及《现代汉语通用字表》确定的规范字形对正异关系作出调整。如原正异字组“牆[墻]”,《简化字总表》将“墻”作为简化字对应的繁体字形,因此,原字组调整为“墻[牆]”。

此外,对于《一异表》中存在的字形讹误在整理中要予以修正。例如:“膝”后的异体字“”应为“厀”。余论

综上所述,在当前的语文环境下,异体字的整理当以科学性、稳定性、求实性为指导原则,在原《一异表》的基础上加以修订和甄别。整理过程中,不仅要体现学术研究的成果,还要充分考虑到汉字使用的社会性,使异体字的整理具有较强的实用性,能够尽可能在最大程度上指导人们的用字。同时,要把异体字的整理纳入汉字整理的全局之中,做好与其他规范的衔接,使之在现代语文生活中发挥更大作用。

参考文献:(1)《第一批异体字整理表》,北京:人民教育出版社,1956年。(2)王宁:《论汉字规范的社会性与科学性》,《中国社会科学》2004年第3期。(3)邵文利:《第一批异体字整理表存在的主要问题》,《语言文字应用》2003年1期。(原载《云南师范大学学报》2010年第6期)

【汉字理论与应用】

科学地选择小学识字教学中的初期积累字

——谈小学识字教学的科学性之一王宁

提要:小学识字教学的科学化、理性化,要建立在提高汉字教育思想境界的基础上,不要把教给学生认字当成一种单纯的技术,要看到这项工作对学生综合素质提高的作用,对全民族文化素养提高的作用。选择小学识字教学的初期积累字,是教学程序中的一项十分重要的任务,初期积累字选择得当,有利于学生体会汉字的系统性,更可以在遵循汉字构形规律的基础上减少学习的难度。本文由此提出选择初期积累字的五个条件,并说明初期积累字在教学中运用和讲解的方法。

关键词:汉字 识字教学 积累提高教学汉字的思想境界

汉字是超越时空传递语言信息的符号系统,在一切信息载体中,它具有无可取代的作用。汉字与汉语的书面语不可分割,它是记录现象、转写知识的工具。未经转写的知识,无法多次、多人进行加工,更无法进行创造性思维,社会的进步就会迟缓。汉字是具有民族形式的、适合汉语的书写系统,它自身也是一种文化事象,使全民了解和正确使用汉字,是提高民族文化素养的奠基性工程。进入信息社会以后,汉字进一步与计算机网络技术结合,成为国内国际信息传播的载体。汉字的重要性日渐凸显,汉字教学的质量也就变得十分重要。

汉字在新世纪的极端重要性,是与小学语文教学直接相关的。初小是儿童接触书面语的开端,从此以后,学生要从阅读中来积累词汇,提高运用母语书面语的能力,并逐渐跨越到自主的写作。语文教学必须是以提高书面语读写能力为主。口才再好,没有形成书面语,思考难以成熟、完整,优秀的理论论著、文学创作无法产生,任何大规模科学的延续性研究也无法实现。孩子们将来不论从事什么职业,母语的运用能力将由此起步。识别和运用汉字的能力将决定他今后一切学习的速度和质量。全民汉字素养的提高,主要依赖小学识字教学这个开端。充分认识突破零的重要意义

开端意味着突破零。做任何事,突破零是最难的,初小中文教学面临的任务正是要帮助学生突破零。这些年,学前识字的情况屡禁不止,很多孩子在上小学之前已经认识了不少字,所以,老师们缺乏突破零的意识。这是一种误区。不论孩子在学前阶段学了多少字,就正规的系统学习而言,都应当看做是零起点——汉字的零起点,书面语阅读的零起点,词汇积累的零起点。因为,汉字教学不是仅仅以认识字为目的,更重要的是要通过教学过程让学生产生对表意汉字构造特点和使用规则的感受,这种感受是非常重要的——一方面,科学的教学程序和合理的方法会在不知不觉之中养成孩子们良好的学习习惯;另一方面,只有当这种科学的教学程序和合理的教学方法运用到足够的程度,才能激发起孩子们希望了解汉字的好奇心。中国传统教育讲求“不愤不启,不悱不发”,孩子们有了这种好奇心,才能在感性识字的基础上,提高学生对汉字的理性认识。所以,提高汉字教育的科学性是十分必要的,教学的科学性不是仅仅为了识字教学的数量和速度,更重要的是要把汉字作为一种表意文字的科学理念注入到孩子们的心中。汉字教学的导引一定要按规律进行,才能完成为汉字教育奠基的使命而有利于学生的终身学习。

教学是否按科学的方法和程序进行,效果是完全不一样的。但是由于这种潜在的教学质量不能明确地表现出来,所以不能引起老师们和教材编写的重视。根据近年对小学识字教学的了解,我认为教学的科学性不仅仅是教法的问题,更重要是学理的问题。关注教学技巧固然很重要,但教师在学理上的精透和丰富应当是更为重要的。学理指的是在对汉字的科学认识基础上必须把握的规律,所谓“教无定法,教有定则”,学理就是需要遵循的“定则”。汉字教学科学性主要在三个方面体现:第一,从科学选择的初期积累字入手;第二,科学地讲解汉字的字理;第三,重视汉字符号的系统性。本文先讨论初期积累字的选定问题。必须对阅读与识字协同考虑

在以阅读为中心的汉字教学中,如果仅仅关注的是教材课文的阅读,而把识字完全变成课文的附庸,碰见什么字就教什么字。这种教学产生两方面难以解决的问题:

一方面,课文是以思想内容和词语对儿童的难易来选择编排的,字的出现是无序的。由于汉字和汉语词汇的难易度并不一致,如果课文的选择编排完全不考虑识字,就会出现词易而字难的现象。比如,有这样一课放在初小一年级第一课的课文:一二三四五,上山打老虎。老虎没打着,见到小松鼠。松鼠有几只?让我数一数,数来又数去,一二三四五。

这是一则童谣式的韵文,内容很口语化,也很适合6-7岁的儿童,几乎没有什么生词。但是,除了“一二三四五”这五个数字以外,只有“上、山、小、来、去、又”这几个字比较容易;“到、虎、着、鼠、数”这些在内容理解上十分关键的词,都是不易认、不易记的难字。由于字词的难易度无法统一,这课课文由于难字较多必然影响书面语阅读教学的效果。

另一方面,刚刚进入书面语学习,阅读必须依赖识字。零起点的识字要想巩固所学,必须在较短的时间段中多次重复。如果初期学习的课文没有机会多次重复,遗忘率必然大大增多。上面那篇课文的内容集中在“打老虎”和“数松鼠”上,都不贴近儿童的现代生活,在一册书中复现的几率不会很高。初期识字无可凭借,识一个字,不但要能够巩固,还要对后面的识字有带动作用。从儿童的心理来说,识字的成就感是激励今后学习兴趣的关键。认一个就用一个;认一个能带动好几个,才能产生成就感。费了好大劲认识了,过了很久还见不着第二次,这是对记忆的一种浪费。选择初期积累字的必要性

要解决上面这两个问题,识字教学对一开始必须重点掌握的字——也就是初期积累字,必须认真挑选。

选择初期积累字需要有科学的标准。这个标准首先是字频和字的覆盖率。著名文字学家周有光先生提出了一个“汉字效用递减率”,做出了下面一个效用递减的模型:

从上面的数据可以看出,1000个汉字,已经能够覆盖现代汉语阅读文本的90%,再加上1400个字,达到2400个字,覆盖率增加了9%,达到99%。又加上1400字,达到3800字,覆盖率达到99.9%,仅仅增加了0.9%……以后依次递减。我们可以用下面的函数图来表示效率递减的状况:

上1400个字,达到2400个字,覆盖率增加了9%,达到99%。又加上1400字,达到3800字,覆盖率达到99.9%,仅仅增加了0.9%……以后依次递减。我们可以用下面的函数图来表示效率递减的状况:

上图是利用国家语委平衡语料库实际测查出的字频与覆盖率的递进关系。从这个实际测查的函数关系中,完全证实了周有光先生的推测。识字教学的初期,在没有其他凭借的情况下讲解课文同时识字,一般要借助6-7岁孩子良好的记忆力。教材的编写人员和老师会产生一种错觉,认为孩子们去记忆任何字花费的力气都是一样的,不会考虑初期识字选择一个字的应用效率和对以后识字的推动作用。其实,就汉字的应用价值而言,覆盖率高的字使用频度必然高,用同样的时间和精力,教一个常常遇见的字和教一个不常遇见的字,哪一个更为“合算”,这是容易得出结论来的。把一些很少使用的字又没有带动作用的字放到一年级甚至第一册教材里,有时候是出于阅读课文思想感情表达的需要,但是在教学时对低频字和高频字用同等的力气去教学,甚至以阅读为唯一的目的对难字更加着力去疏通,对识字教学的短效是不“经济”的,对以后教学的长效,更会产生潜在的不利因素。为了使孩子们的识字一开始就进入科学的轨道,让他们的成就感不断增加,记忆力更少浪费,选好第一批教学的基础汉字,是非常必要的。选择初期积累字的综合条件

从上图可以看出,在字频将近1000位的段落中,汉字效用的增长十分迅速,而当字频达到将近2700位时,汉字效用的增长已经非常缓慢了。所以,选择初期积累字要在字频1000位内的字中去选择,才更为有效。这里必须说明的是:上述字频统计的语料库,是成人阅读的语料库,而低年级学生阅读的语料,与成人的差距是很大的。成人阅读的语料库是根据普遍社会应用层面来确定的,基础教育识字教学的字频统计,应当采用专门研制的语料库。我们可以列举9个字,比较以下三种语料库中不同的字频排列:①该语料库为《通用规范汉字表》研制时制定人员综合合并而成。收1951-2003年的中小学通用教材及科普读物语料,404万字符。②该语料库为北京师范大学儿童文学专家陈晖老师主持研制,收建国以来适合基础教育第一、二学段儿童阅读的各种体裁文学作品,570万字符。

从上表中我们可以看到,表中的9个字,在国家语委平衡语料库和科普与教育综合语料库中的频次,都比较靠前,但二者也有比较明显的差距;而在适合第一学段儿童文学语料库中的频次,要靠后得多。这是因为,6-8岁儿童的心理词典,与成人用词是有较大差距的。

这里,我们就要说到选择识字教学初期积累字的第二个条件——根据儿童的心理词典选择初期积累的字。汉字是记录汉语的,认字不仅仅是能够指认某个字形,必须把字形与语音、语义关联起来才有价值。换句话说,完整的识字过程,是把汉字的形体和词语的音义全面联系起来,也就是要全面完成把口语转化为书面语的任务。因此,学习汉字必须依赖语言习得,而且是滞后于语言习得的。特别是在突破零的阶段,学生先从口头上会用了这个词,才能进一步认识记录这个词的字。最容易接受的字是书写儿童已经会说并能够理解使用的词的字;一个学生在他这个年龄段根本就无法理解和应用的词语,在识字初期,学习和记忆的难度就会增大,而且即使学会,使用的价值也会很低,遗忘的几率也就很高。例如:妈妈,想,爱,这儿——熟词,生字,音义已经掌握,只教字形。母亲,沉思,慈祥,此地——生词,生字,音义不熟悉,儿童语言很少使用,如果需要,只能形音义一同教。岳丈,苍茫,贸易,寻常——生词,生字,词语意义对儿童是超经验的,基础教育阶段很少遇到,遗忘的几率很高。

上面的例子是要说明,应从6-7岁儿童的实际口语中统计高频词表,从中获得字频,作为选择初期积累字的依据。

选择初期积累字的第三个条件是汉字的构字频度。汉字的重现率不只表现在词汇里,还表现在它作为其他字部件的频率,也就是它的构字率。构字频度高,特别是作表义构件的构字频度高,再现的可能多,还有利于带动第二阶段的学习。我们按照上述两个条件,初步选出537个汉字。在这573个选定字中,构字频度最高的有两类字,这些字多半都是部首字。从意义看,多半属于古代划分物类的五行用字和与人类自身有关的字:

构字率的重要性不但是它重现率高,不易遗忘,还有一个很重要的作用,就是培养学生在符号不断重复的情况下的归纳概括能力。例如:“女”在儿童口语中单独出现的频率并不高,字形的象形性也已经减弱,单独记忆它的形体是有一定难度的;但是,当对女性亲属的称谓“妈、姐、妹、奶、姨、姑、婶”等一一出现后,“女”字的音义应当很顺利地被归纳出来。

在同时满足上述条件后,还应当特别关注所选汉字的结构,结构相对简单,即部件一般不超过3个,层次一般不超过2层,这样的字更有利于学习。在2-3个部件的字中,构成合体字的部件,一般应当是包含在所选字中的成字,或者是结构部首(扌、亻、氵、忄、讠等),还要优先选择部件关系有明确字理可以从讲解中使学生产生汉字表意意识从而引起兴趣的字。例如:“穿”——用牙啃出洞,“窗”也要开一个洞,归纳出“穴”,再与“家”“客”比较,不但提示了“宀”是房子的构意,也为将来“穴”的讲解提供了预备的知识。

在初期积累字中,要有必要的虚词,以便构句。字词只有进入了句子,有了语境,才进入了使用。单独的字词只是储备,是难以巩固所学的。否定副词“不”,结构助词“的”,介词“把”,连词“和”等儿童口语中的高频虚词,都是必要选入的。

从上述条件可以看出,选择初期积累字的标准应当是综合的,是既考虑到汉字的形体结构,又考虑到汉字的构造理据;既考虑到汉字的构形属性,又考虑到汉字的记词职能的。所以要这样做,是因为基础字的作用是多方面的。有些理论主张用单一的标准来确立识字的先后,例如,有人单纯用字频来确定基础字,也有人认为独体字一定要先于合体字教,而把独体字作为基础字,还有人认为部首字都是基础字。这些说法不论对汉字的科学分析还是对汉字教学规律来说,理解都过于简单了。初期积累字的使用与讲解

初期积累字选择后,需要充分利用,重点分析,讲解透彻。前面谈到,它有利于形成学生的归纳综合的思维方法。这里再举例说明它在对汉字构形系统的显示中所起的作用。例如:“口”的书面语语体色彩比较浓厚,在儿童口语中的使用频度并不高,在单用时已经被“嘴”代替,适合儿童口语的构词量也不大;但是,通过它去识别“吃、喝、哈、呼、唱、叫、吹、吐”等口语高频词,它的意义很快就可以归纳出来。一个基础字在构字时可以作义符,也可以作声符,归纳声符的作用也是显而易见的。例如:“青”构成“清、(事)情、请、(眼)睛、蜻(蜓)”等字(词),都是表音度很高的儿童口语高频词,对记忆语音、关联口语,特别是从这些词的读音中启示学生体会形声字的特点,也是非常重要的。

不仅如此,它还有利于在认同归纳中产生分析的习惯。例如,下面的字是需要在相同的归纳中加以区别的:“太”与“大”比较,“少”与“小”比较,“本”与“木”比较……可以归纳二者意义的关联,同时区别语音的差异;“京、亭”,与“高”比较,可以归纳出它们的形体都来源于高的建筑物,而音义又有差异;“问”与“们”比较,可以归纳出它们的语音均来源于“门”,但构形则“门”既可以放外面,又可以放在右边。“扣”与“吃、唱、叫”等字比较,可以分析出同样一个“口”,构字时有的采用了它的声音,也有的采用了它的意义。

……

有意识的比较,不仅仅是在联系中巩固所学,更为重要的是积累理念。在初小阶段,直接讲授汉字构形规律是没有必要的,但通过汉字的具体分析和不断积累启发学生感悟汉字的特点和规律,使他们理解汉字,热爱汉字又是必须做到的。

初期积累字选择得准确,汉字教学的效率和质量都会有很大的提高,但在教材编写时,特别在编选1年级的课文时,这是一个非常容易忽略的问题。教材应当有意识的将容易而有用、又能够带动下一阶段学习的汉字,有计划地编进课文,并对这些字的汉字教学有计划的进行提示。只顾阅读、让识字附庸于阅读的做法是不利于基础教育总目标的实现的。

初期积累字有多少可以起到应有的作用,经过测查,大约300-400字左右较为合适,义务教育语文课程标准规定第一学段需要认读的字不会少于1000字,从中选择300-400字精讲,对教材编写和课堂教学都不会产生困难,也正因为选出的字数量不多,对科学性、有效性的要求也就越高。不过,汉字属性的研究日渐成熟,教学经验也有较多的积累,利用语料库和计算机数据库来综合选出这些初期积累字,应当是可以做到的。(原载《江苏教育》2010年第4期)

汉字语用学论纲

李运富

提要:汉字的“字”具有三种涵义,因而汉字学应该区分三个平面,形成三个学术系统,建立三个分支学科,即汉字样态学、汉字构形学和汉字语用学。汉字语用学是研究汉字使用职能和使用现象的科学,也就是研究如何用汉字记录汉语或者实际上是怎样用汉字记录汉语的科学,主要内容包括汉字的记录单位、记录方式、使用属性、字词对应关系、同功能字际关系、用字现象的测查描写、用字规律的归纳总结、用字变化的原因分析等等。

关键词:汉字语用学 使用职能 字词关系 用字现象一、建立汉字语用学的学理依据

普通文字学告诉我们,文字是记录语言的视觉符号,是人类交流思想的辅助工具。这种说法当然是正确的,但也是概念式的,过于抽象笼统。实际上“字”的具体所指非常复杂,并非都是同一性质的东西。对“汉字”而言,日常所说的“字”,可以指称音节单位,例如说“他咬紧牙一字不吐”、“你刚才说的话用十个字就能概括”;可以指称发音,例如说“咬字很准”、“字正腔圆”;等等。这些“字”都与字形没有直接关系,不是汉字学本身的概念。从字形本体出发,我们所说的“汉字”应该是指记录汉语的视觉构形符号,而它的内涵也不是单一的,至少可以归纳出三种指称:(一)指称外部形态,即字样。例如说:“”字跟“”字不同;隶体字是从篆体字演变来的;那个字写得不好看;那副对联的字真漂亮;启功先生的字很值钱。这些加点的“字”就是指的外部形态。在这种情况下,外部形态不同就得算作不同的字。即凡线条、图素或笔画在数量、交接方式、位向或体式等方面具有差异的字样,也就是不能同比例重合的字,都得算不同的字(形),如算六个字。总体来说,这种“字”是无穷无尽的,无法统计。但针对某种特定的现实字料,也就是在一定范围内,这种“字”也是可以罗列可以统计的。例如衡阳南岳的“万寿山”上就呈现有一万个“寿”字形。(二)指称内部结构,即字构。例如说:“泪”字为会意字;独体为文合体为字;现代的“争”字不好分析。这些加点的“字”就是指的内部结构。在这种情况下,只有内部结构不同的形体才算不同的字,写法或外形不同而结构相同的仍然算一个字。如等只能算两个字。同形而异构的字也应该算不同的字。如“体”形有两种结构,算两个字:“体”从“人”“本”14声,义音合成字,读“ben”,表示愚笨,是通假字“笨”的本字;2“体”从“人”从“本”,会义合成字,读“ti”,表示身体,为“體2/軆/躰/骵”的简化字。(三)指称记录职能,即字用。例如说:某篇文章有8000字(指称文字记录的音节单位);“泪”跟“淚”是同一个字(指称文字记录的单音词);“创业者的字典里找不到‘害怕’这个字”(指称文字记录的多音词);这篇文章“文从字顺”(泛指文字记录的语言单位)。在这种情况下,字数的统计变得异常复杂。当“字”指称多音词和泛指语言单位的时候,字数是无法确定的,实际上这是“字”的临时借用,不是“字”的固定含义,汉字学可以不管。但记录汉语音节和单音词的“字”也是跟字样的“字”和字构的“字”不同的。当“字”指称音节时,记录了多少个语言音节就是多少个字,一篇文章的音节字数跟字样字数不一定相同,因为字样要归纳重合的字形。当“字”指称单音词时,就得注意字跟词的对应关系了。记录同一词的不同字形可算同一字,记录不同词的相同字形也可算不同字。如上举42“体”可以记录“ben(愚笨)”和“ti(身体)”两个词,当然应该算两个字;“花”可以记录“花朵”和“花费”两个词,也应该算两个字;但“体/體/軆/躰/骵”记录的是同一个词,因而算一个字;“蜚”和“飞”也可以记录同一个词(如“流言蜚语”),有时也算作一个字。这种算法与其说是“字”的统计,不如说是“词”或语言单位的统计。就一定范围的语料来说,字词的对应关系是可以理清的,而对总体字料或语料来说,字词的对应关系是开放的、变动的,所以要从使用功能上来统计字数,事实上是难以做到的。

由上述分析可见,汉字的“字”在不同情况下具有不同的内涵和不同的实质,所指称的对象不同,其个体的确定和数量的统计也不同,由个体组成的系统平面当然也会不同。那么,我们在讨论具体的汉字问题时,首先就得弄明白这里的“字”是属于哪个平面系统的“字”,也就是必须在涵义明确的情况下才能把问题说清楚。正因为汉字的“字”具体不同的内涵和实质,从而决定了汉字学研究必然要区分不同的观察角度,形成不同的学术系统。根据上面所说的三种指称内涵,汉字的本体研究从学理上来说至少应该产生三种平面的“学”。即:(一)从外部形态入手,研究字样涵义的“字”,主要指字样的书写规律和变异规律,包括书写单位、书写方法、书写风格、字体类型、字形变体等等,这可以形成汉字样态学,也可以叫做汉字形体学,简称为字样学或字形学。(二)从内部结构着眼,研究字构涵义的“字”,主要指汉字的构形理据和构形规律,包括构形单位、构件类别、构形理据、组合模式以及各种构形属性的变化等等,这可以叫做汉字构形学或汉字结构学,简称为字构学。(三)从记录职能的角度,研究字用涵义的“字”,主要指怎样用汉字来记录汉语,包括记录单位、记录方式、使用属性、字词对应关系、同功能字际关系等等,这可以叫做汉字语用学,简称为字用学。

这三个学术系统或学术平面不是并列的,也不是层叠的,而是同一立体物的不同侧面,有些内容彼此关联,允许交叉。字样平面主要是书法和字体问题,成果很多,“书法学”“字体学”“字样学”之类的书大家不难见到,所以这里不论。字构平面原来有“六书”学,最近十多年,王宁先生对传统“六书”学进行改造,建立了新型的汉字构形学,已正式出版《汉字构形学讲座》,并用汉字构形学理论指导硕博士生撰写了二十多篇系列论文,蔚然已成显学,因而也无需再说。相对而言,关于汉字职能的研究,目前仍然停留在感知阶段,注重个体字词的考证和训释,也有某些用字现象的归类和指称;但尚缺乏理论的阐发和系统的总结,因而还远没有能够成“学”。这种状况是不符合汉字学的学理要求的,从上面的分析我们已经认识到,研究汉字的职能和使用是汉字学不可或缺的重要平面,所以我们在此郑重提出,为了汉字学的健全和更深入发展,我们应该建立科学系统的“汉字语用学”。二、汉字语用学的学科定义

王宁先生在1994年就提出了“字用学”的概念,她说:“汉字学既要弄清一个汉字字符原初造字时的状况——字源,又要弄清汉字在各个历史阶段书面的言语作品中使用的情况——字用。”“确定了本字,又弄清了它的原初造字意图,便追溯到了汉字的字源。但是,汉字在使用过程中,随时发生着记录职能的变化。汉字字用学,就是汉字学中探讨汉字使用职能变化规律的分科。”王先生是从个体汉字形义演变的角度来区分字源和字用的,所以她认为确定本字和弄清原初造字意图是“字源学”的事,而根据本字来确定借字或从本字出发探究字的分化孳乳属于“字用学”。这为我们认识字用学、建立字用学打下了很好的基础。

如果把字用学看作汉字学的分支学科,出于学科系统性的考虑,我们认为还可以从平面的角度来看待文献用字。在平面的文献用字中,记录语言不仅仅使用职能发生了变化的借字和分化字,事实上也大量使用本字,因而研究本字也应该属于字用学。这样一来,我们对字用学的理解会更为宽泛一些。如果要下个定义的话,似乎可以这样表述:汉字语用学是研究汉字使用职能和使用现象的科学,也就是研究如何用汉字记录汉语以及实际上是怎样用汉字记录了汉语的科学。它既有个体的,也有总体的,既有共时的,也有历时的。“字用学”的全名之所以要叫“汉字语用学”而不取“汉字字用学”,一是为了显示所谓用字就是记录语言或者在语言中使用,离开语言就无所谓字用;二是为了避免“汉字”跟“字”重复。“汉字语用学”也可以叫做“汉语字用学”。

字用学属于汉字学本体研究的三个平面之一。字用学跟字样学的关系不大,而跟构形学关系密切,因为它要借助构形学来研究字形的本用职能。但字用学并不同于构形学。构形学主要研究汉字的结构系统和结构理据,而字用学主要研究汉字的记录职能和使用规律。虽然结构理据往往暗示字形的本用职能,但不等于汉字的实际使用职能。字用学跟训诂学的关系也很密切,因为它要借助训诂学来确定字形的实际职能,但字用学也并不同于训诂学。训诂学主要研究文献用字的意义,包括探求意义的手段和解释意义的方法。训诂学以文本解读为目的,主要求其“通”,一般不管句子之外的字词关系;构形学以分析字形为目的,主要求其“本”,一般不管文本用字的变化。字用学需要将两者结合起来,既研究汉字的本形本义,也研究文本用字的实际职能,从而理清各种字词关系及相应的字际关系和词际关系。因此,字用学是介于文字学和语言学之间的桥梁,既有理论体系,也有应用价值,是一门跨领域的具有综合性的学科。三、汉字语用学的主要内容

根据上面的定性和定义,我们认为汉字语用学应该包括以下主要内容:(一)考察个体字形可以记录哪些语言单位,或者某个语言单位可以用哪些字形来记录,客观描述各种字词关系以及相应的字际关系和词际关系。汉字作为视觉符号,其职能不像英文那样单纯,英文的单字等于单词,字跟词是严格对应的;而汉字可以记录汉语的音节、词素(语素)和词,并且个体汉字记录哪个音节、哪个词素、哪个词没有固定的对应关系。这是汉字的最大特点,也是汉字难学难用的根本原因所在。字用学首要的任务就是要根据汉字的使用特点来研究字及其所记录的语言单位之间的各种关系,从而为汉字的使用和理解提供理论指导。以字记录语词为例,其中需要研究的关系如下图所示:

汉字记录语词所形成的对应关系可能有三种情况,即一字一词、一字多词和多字一词。如果一个字始终都只记录同一个语词,那应该是本字本词的关系。而当一个字记录多个词或者多个字记录一个词的时候,那字跟词的关系就可以是本字记本词,也可以是源字记派生词,还可以是借字记他词。同时又有组合关系与聚合关系之分,几个字分别记录同一词形成聚合,几个字连在一起记录一个词就是组合。这些复杂关系需要逐一确定才能正确使用和正确理解。而且我们要问,一个字为什么能记录不同的词,不同的字为什么会记录同一个词,这些被同一个字记录的不同词语之间有什么关系(如同音词、同源词等),用来记录同一个词的不同字符之间又是什么关系(如异体字、同音字,或本字与本字、本字与借字、借字与借字等),这些都是需要字用学说明和阐述的。(二)用字现象的全面测查和描写,包括字量、字频、字用属性(本用/兼用/借用)、同字异词和异字同词的种类及比率等等。测查是以字用属性的确定为前提的,即首先得根据文献语言的实际情况确定某个字符的某项职能及职能属性,也就是记录了哪个词的哪个义项,是本字记本词的本用,还是源字记派生词的兼用,拟或是借字记他词的借用。有了这样的认读或考释,字用测查才能有效进行。具体的测查对象可以是单字单词,可以是专人专书,可以是共时共域的文本,也可以是历时分域的文本,还可以包括异语言的汉字借用现象。以时间角度为例,可以分为:

1、历时性测查(1)个体字形或某类字符的全职能测查——如“自”字从古至今的记录职能、“手”部各字的全程职能考察等。(2)特定词项或语义项的用字测查——如表“鼻子”义的词项历时用字考察、常用基本词的历时用字考察等。(3)历时用字比较——如甲骨文用字与战国文献用字比较、战国楚简用字与马王堆帛书用字比较、定州《论语》用字与传世论语本用字比较、《史记》用字与《汉书》用字比较或司马迁用字与班固用字比较等。

2、共时性测查(1)专人专书用字测查——如《左传》用字现象考察、《包山楚简》用字现象、司马迁用字考察等。(2)某时某地用字测查——如汉代用字测查、战国楚地用字测查、马王堆帛书用字测查、现代常用汉字的职能测查等。(3)共时用字比较——如楚地用字与秦地用字比较、汉代的今古文用字比较、李白与杜甫的用字比较等。

3、泛时性测查(1)字书收字的职能归纳——如《汉语大字典》的字头与词项的对应关系等。(2)特殊字用现象——如方言字与新造字问题、地名用字与人名用字问题、非汉字符号与译音用字问题、简化字与错别字问题等。(3)异语言中的汉字——日语汉字使用情况、彦文汉字使用情况等。

通过全面的不同角度的测查,希望能分类描述各种情况的字用面貌,如用了多少字,哪些字是常用字,哪些字是多职能字,其中本用字占多大比例,借用字占多大比例,兼用的情况如何,分化字的情况如何,组合字符有多少,聚合字形有哪些,各地各时的用字怎么样,系统的用字有无变化,等等,都应该有详实的数据和立体的展示。(三)对单字的使用职能和文本的用字现象进行比较分析,总结使用规律,探讨变化原因,进行专题论述。例如记录同一意义的同一词项,不同时代、不同地域的文本却使用了不同的字,这是为什么?既然有本字,为什么要使用通假字?汉字职能分化或并合的条件是什么?文本字词的联系是以义为主还是以音为主,它们对汉字的性质有无影响?制约汉语用字变化的因素有哪些?汉字使用的具体规律和总体趋势是什么?如何规范现代汉语的用字?等等,都是汉字语用学所要探讨的。以汉字记录职能的演变及其原因的分析为例,我们可以总结出如下规律:

汉字记录职能的演变情况:

1、职能的扩展(兼用扩展、借用扩展)

2、职能的减缩(异体字分工、母字分化、为派生词另造新字)

3、职能的转移(相互交移式、连锁推移式)

4、职能的兼并(同义兼并、同音兼并)

字用变化的动因:

1、济文字之穷(借用)

2、应语言之变(分化)

3、求书写之便(简化、异写)

4、为避讳之需(同音避讳、同义避讳、变形避讳)

5、呈修辞之异(以形寓褒吉、以形示贬凶)

6、玩游戏之趣(联边、离合字)

7、讹错误之形(讹变字、错别字)

8、合规范之制(正字标准、异体字整理)

以上只是我们对汉字语用学的初步想法,要真正建立起来,使之有理论、有材料、有系统,那还需要做很多工作。希望得到大家的批评指正,共同为建立科学的汉字语用学而努力。(原载《励耘学刊》(语言卷)2005年第1辑,学苑出版社,2005年4月)

关于“异体字”的几个问题

李运富

提要:异体字的内涵和外延可以从字样、字构、字用三个角度分别界定,没有必要把它们统一为一个概念。对异体字的“形体不同”和“音义相同”应该根据情况灵活理解,对所谓“共时性”也不必太认真,但应该注意把“假借字”排除在异体字之外,必要时可以引入“同形字”来说明有关问题。研究异体字的目的有两个,一是帮助古籍阅读,二是规范现代用字。整理和规范异体字应该服务于这两个目的。

关键词:异体字 字样 字构 字用 借字 同形字

关于异体字,苏培成先生做过这样的说明:“异体字有两个含意:一个指形体不同而读音和意义相同的字,几个字互为异体;另一个是与正体相对而言的,与正体只是形体不同而读音和意义相同。对于尚未整理的异体字取前一个含意,对已经整理过的异体字,取后一个含意。”其实“对已经整理过的异体字”也可以取前一个含义,“异体字”是否经过整理,其间的关系没有什么本质不同。将“异体字”跟“正体字”对立起来,只是为了区分规范字和被淘汰字,便于指称而已。就这种文字现象的本质属性来说,无论是异体字与异体字,还是“异体字”与“正体字”,都必须“形体不同而读音和意义相同”。因此,我们所谓的“异体字”,无论整理与否,都是就全组字的相互关系而言,是对异体字现象的指称,而不是对某种规范结果的指称。所以我们要对“异体字”现象进行讨论的话,首先应该排除人为“规范”的主观意识,而主要围绕“形体不同”、“读音和意义相同”这类属性问题以及由此生发的相关问题来作客观的分析和科学的界定,但这些问题的解决又得以弄清“异体字”的“字”的具体所指为前提。一、关于“字”的内涵

所谓“异体字”迄今为止尚无大家公认的统一定义,对异体字料的归纳判定更是见仁见智。我们认为,之所以存在种种争议,关键在于“异体字”的“字”内涵不一。“字”所指不同,“异体”所指当然也会不同。我们平常所说的“字”其实是模糊的、笼统的,只有具体列出所指的对象,它的内涵才是确定的。大致而言,所谓“字”至少有三种内涵。一是书写范畴的,指称字的外形,如说“字跟字写法不同”、“启功先生的字很值钱”等;二是结构范畴的,指称字的构造,如说“睹字跟覩字是两个不同的字”、“尘字比塵字产生得晚”等;三是使用范畴的,指称字的职能,如说“够字跟夠字是一个字”、“才字跟材字用法有同有异”等。正因为如此,汉字学的本体研究应该分为三个范畴,即以字样字体为主要内容的汉字样态学(简称字样学)、以结构理据为主要内容的汉字构形学(简称字构学)、以记录职能为主要内容的汉字语用学(简称字用学)。汉字学的具体问题都应该分别从这三个范畴加以分析和解释,异体字也不例外。

如果把“异体字”分为三个范畴来说,问题就比较清楚了。着眼于字样范畴,所谓“异体字”可以指本来记录同一个词的所有外形不同的字样,包括笔画、笔形、笔势、构件、交接、书写风格、字体等各方面的差异,因而“”字跟“”字可以算是异体字。着眼于字构范畴,所谓“异体字”就应该是指本来记录同一个词而结构属性不同的一组字,包括构件不同、构件数量不同、构件功能不同、构件布局不同等结构方面的差异,因而“睹”字跟“覩”字才能算异体字。如果着眼于字用范畴,所谓“异体字”则是指本有用法相同而形体不同的一组字。“用法相同”的情形可以多样,有用法全同或基本相同的(如“淚”与“泪”),有一字用法包含另一字用法的(如“采”与“採”),有用法异同交叉的(如“做”和“作”),针对相同的用法而言,这些字都可以算异体字。

其实叫不叫“异体字”,这名称本身并不很重要,关键是如何分析现象、界定范围。上述三个范畴的“异体字”并非同一事物的平面分类,而是从不同角度来说的,实际上内涵和外延都不同,属于三个不同的概念,因而应该分别定义。字样范畴严格地说还可以分为“结构字样”和“书写字样”两个层次,这种异体字可以涵盖结构范畴的全部异体字,因为结构不同则字的样态肯定不同;但在结构范畴里,仅有书写属性的变异就不能算是异体字了。字用范畴的异体字范围最广,它不仅涵盖记录同一个词的异体字样和异体结构,而且也包括不是记录同一个词但某些用法相同的字(部分同源字和同义字)。这种不是同一个词的“异体字”,放到字样范畴和结构范畴,就难以让人认可。有关“异体字”的种种争议,其实就是混同了三个范畴不同概念的结果,各自说的不是同一种“异体字”,当然会意见分歧了。如果有可能把三种不同的“异体字”重新归纳命名,比如文末所说的“同词字(同词异形字、同词异构字)”、“同用字”(同词同用字、异词同用字)等,那当然更为理想。但即使仍然都叫做“异体字”也未尝不可,只要区分不同的范畴,各自有符合特定范畴的明确定义,那种种不同的说法其实就并不矛盾,因为它们说的本来就不是一回事,这不是是非问题,而是视角问题,完全可以各不相干或互补共存,这样也就没有必要非说某某的“异体字”不是异体字了。大家说的都是异体字,只是说的角度或范畴不同而已,那还用得着争论不休吗!二、关于“形体不同”

既称为“异体”,当然是“形体不同”的,可什么是“形体不同”呢,如果没有明确的标准,判断起来就有点难以把握。一般认为形体不同就是“写法不同”,如周祖谟先生说:“音义相同而写法不同的字,这种字一般称为异体字。”吕淑湘先生说:“异体字是一个字的不同写法。”蒋善国先生说:“异体字是一个字的多种写法,是同音同义不同形的字。”刘又辛先生说:“凡是音义相同而写法不同的字,都叫做异体字。”《现代汉语词典》也说:“异体字就是跟规定的正体字同音同义而写法不同的字”。所谓“写法”可以指“书写的方法”,书写的方法不同可能造成字的“形体不同”,但也不一定,例如写字时笔顺不同当然是写法不同,却可能写出形体相同的字。而且印刷术的发明和不断改进,使得汉字的形体并不一定要“写”,可见“写法”与“形体”实际上没有必然的一致性,不能说“形体不同”就是“写法不同”。

裘锡圭先生说“异体字就是彼此音义相同而外形不同的字”,这个“外形不同”如果包括笔画的轻重、粗细、长短、曲直、连接方式的不同,甚至包括字块的宽窄、高低、正斜的不同,那可以说它是从“字样”角度来界定的。每个汉字都会有无数个不同的“外形”,因为手写汉字的“外形”实际上很少有能完全重合的。因此就字样而言的“异体字”可能是无穷无尽的。

蒋善国先生又说:“异体字,从广义方面说,是指今字体对古字体说的,如小篆对金甲文、隶书真书对小篆、行书草书对楷书,都是异体字,因为虽是一个同音同义的字,他们的形体却不一样。”其实,所谓“今字体”“古字体”这类“字体”并不等于“字的形体”。字体是指汉字书写的某种体式和风格,是就总体而言的。针对具体的字而言,字体不同当然会字形不同,但字形不同未必字体不同。所以“异体字”的“体”指的应该是“形体”,而不是“字体”或“书体”。如果把异体字的“形体不同”界定为“字体不同”,那就无法包括字体相同而形体不同的异体字,这当然不是蒋先生的原意。《辞海》说异体字是“义同音同而笔画不同的字”。如果这个“笔画不同”不包括笔画的轻重、粗细、长短、曲直等等差异,而是指笔形的差异(点横竖折捺等的或有或无、或此或彼),那就比较地有个性,属于不同的界定。否则,跟“外形不同”说也没有什么两样,甚至反而不如“外形不同”说严密,因为我们还应该考虑到“够”“夠”等笔画相同而布局不同的情况。

上述种种说法都属于“外形”派,实际所指较“宽”。另有一派注重“结构”,实际所指较“窄”。如周秉钧先生说:“异体字指的是一个字有几种不同结构,所表示的意义完全相同,在任何情况下可以互相代替。”刘志基认为,“所谓异体字,指的是文字形体的异构,包括独体字造形的变异,合体字部件的增减、更替及位置关系的变化。如果一个字仅仅因为书体的不同(如篆体和隶体、隶体和楷体之类的差别)而形成某些写法上的差异,那就不能视之为异体。”刘先生又说,“一般的书体差别并不构成异体,但如果书体演变造成了部件选择、部件数量、部件功能或构形模式、组合方式等形体属性的变化,那这些不同书体中相对应的同一个字就构成了异体字。”王宁先生指出:“异构字也就是通常所说的异体字。这里称作异构字,是为跟异写字区分开。异构字在记录汉语的职能上是相同的,也就是说,音与义绝对相同,它们在记录言语作品时,不论在什么语境下,都可以互相置换。但异构字的属性起码有一项是不相同的,所以称为异构字。”在“结构”派看来,如果字的构件或构成要素没有差别而仅仅是字体或外形不同的话不能算作异体字。

总之,关于“形体不同”的分歧,关键在于书写造成的外形差异算不算“异体字”。从结构的角度把“形体不同”限定为“结构不同”当然是可以的,但从字样的角度把“形体不同”定义为“外形不同”,做最宽泛的理解,承认“异体字”可以“无穷无尽”,在理论上也是可以成立的。因为它们的形“体”确实也“异”呀,为什么不能称为“异体字”呢?只是我们在论述时应该把各自的角度或立足点说清楚,不要把内涵不同的“异体字”当作同一概念。三、关于“读音和意义相同”

一般认为异体字之间必须“读音和意义相同”,可究竟是其中的一个读音和一个义项相同就行了还是要全部的读音和意义相同,有的没有明说,有的说法存在着分歧。分歧的表现也在于或“宽”或“严”。“严”的一派主张异体字的音义必须“完全相同”或“绝对相同”,最有影响的说法是以王力主编的《古代汉语》为代表的所谓异体字必须“音义完全相同,在任何情况下都可以互相代替”,上举吕淑湘先生和王宁先生也都是持这种观点的,类似说法还有很多。“宽”派所宽的程度也不相同,有的只说“同音同义”或“音义相同”而不做进一步的限定,如上举周祖谟、蒋善国等先生的说法;有的只强调“意义相同”或“用法相同”,对“读音”没有要求,如上举周秉钧先生的表述;有的则明确指出异体字包括音义全同的,也包括音义部分相同的,如李道明认为“异体字就是形体不同、音义完全相同或相包含、可互相取代的字”。邵世强指出异体字“除全同异体外尚包括非全同异体,即在某音义项下可以互相代替的局部异体关系。此外,还包括古今字、繁简字、讹变字和一些笔形字形微异的字”。裘锡圭的表述虽有宽严之分,也算是承认“广义”异体字的:“严格地说,只有用法完全相同的字,也就是一字的异体,才能称为异体字。但是一般所说的异体字往往包括只有部分用法相同的字。严格意义的异体字可以称为狭义异体字,部分用法相同的字可以称为部分异体字,二者合在一起就是广义的异体字。”

从1955年《第一批异体字整理表》的情况来看,异体字的音义关系本来就比较复杂,高更生先生经过分析归纳为五类:1、典型异体字(音义全同),2、包孕异体字(一字的音义被包含在另一字中),3、交叉异体字(音义有同有异),4、同音异义字,5、异音异义字。上世纪80年代陆续出版的《汉语大字典》,所附《异体字表》的音义关系也是宽泛的。请看它的说明:“本表采用由主体字统领异体字的编排方法,将同一主体字统领的简化字(限于1986年新版的《简化字总表》所收的简化字)、古今字、全同异体字(指音义全同而形体不同的字)和非全同异体字(指音义部分相同的异体字),集中在该主体字下编为一组,共收约11900组异体字。”可见“异体字”的整理实践对音义关系的把握是从宽的。

我们认为,“严”派对异体字的表述显然只是一种理论预设,如果从异体字的实际用例中归纳的话,恐怕很少有音义“完全相同”或“绝对相同”的。所谓“可以互相代替”也是研究者或文献整理者的一种措施,对用字者来说,只有选择,不存在替换问题。选择用字会受到多方面因素的影响,如个人的文化素质和用字习惯、社会的用字时尚和规范意识、使用的特殊环境和特殊目的等,因而即使典型的异体字的使用也并不是毫无差别的。也许甲字记录过五个义项,而乙字只记录了两个义项,或者甲字产生于先秦而乙字产生于两汉,期间语音变化,它们的实际音值已经不同。即使在同一时代,异体字的使用及其所负载的实际音义在不同使用者或阅读者眼里也不可能完全一致,甚至连字典辞书对异体字的注音也有歧异的。所以对异体字的音义应该具体情况具体分析,界定时最好宽泛一点。对于“同词字”来说,只要甲字的本职音义和乙字的本职音义属于同一个词(或语素,下同)的音义系统,就应该算是“音义相同”;对于“同用字”来说,只要本职用法上具有相同的音义项,就也可以看作“音义相同”。四、关于“异体字”的判定

我们在界定三个范畴的“异体字”时都用了个“本”字,这是为了把“借字”排除在异体字之外。借用的字也是可以跟别的字记录同一个词或具有相同用法的,但这不是借字本来的职能,所以借字跟本字或者借字跟借字是无法构成异体字关系的。在字用范畴,有所谓“包含异体字”、“交叉异体字”,涉及同源字(词)和同义字(词),但同源字、同义字跟异体字是从不同角度提出的交叉概念,只有语音相同(包括语音变体)的同源字和同义字才有可能被当作异体字。

判断“异体字”时,还需要分离“同形字”。例如“雅”跟“鸦”有人说是异体字,因为它们是为同一个词语造的,有人说不是异体字,因为两字的用法不同或者职能有分化。其实我们可以把“雅”分离为两个字,“雅1”表示乌鸦义,跟“鸦”是异体字;“雅2”表示正大、美好义,是另一个词的借用字,跟“鸦”不是异体字关系。再如“草”与“艸”,有人说“草”是“艸”的异体字,因为两字的用法相同,字形也有联系;有人说“草”是“艸”的通假字,因为“草”的本义指“栎实”,跟艸义无关。其实我们也可以把“草”分离为两个字:“草1”指栎实,后为“皂(梍)”字所代;“草2”指草木,跟“艸”构成异体字关系。许多如此之类有争议的“异体字”,一旦引进“同形字”观念加以分析,问题就会迎刃而解。五、关于“异体字”的整理与规范

上述三个范畴的“异体字”,从理论上来说都是可以成立的。但实际上我们研究“异体字”的目的并不是针对这所有现象的,换句话说,我们对异体现象的整理和规范是有所选择的。因而人们实际整理出来的“异体字”并不等于理论上的“异体字”。例如字样范畴的“异体”总体上是无穷无尽的,因而无法作总体上的整理,实际所作的异体字样的整理往往限于一定范围,例如对某批出土文献中的古文字字样加以整理而形成字表,但我们无法对某个词或字的千姿百态的全部字样作出描写。

就研究“异体字”的实用目的而言不外乎两个,一是帮助阅读古代文献,让读者知道某个字跟某个字记录功能相当或具有相同的音义,《汉语大字典》所附异体字表大致就是出于这样的目的;二是规范现代用字,让用字的人知道记录某个词某个义时该用哪个字,哪些功能相当的字已废除不用,《第一批异体字整理表》就是出于这样的目的。既然如此,如果在整理“异体字”时材料限定得过于严格(例如说必须音义全同才是异体字),或者放得过于宽松(例如把所有不同字样都搜集来作异体字),都是难以很好实现研究目的的。

我们认为,从帮助阅读古籍的目的出发,可以把书面文献中本职记录同一个词或具有相同用法而笔画或结构有差异的同音字都当作异体字,但应该按不同情况分别整理:1、同词异体,包括结构不同和结构相同但有笔画差异两种情况;2、异词异体,包括一词的音义涵盖另一词和两词的音义交叉两种情况。从规范现代用字的目的来看,1、仅有形状或笔画差异的属于书写问题,用字规范可以不管(管也管不过来);2、本职记录同词而结构不同的字应该规范,规范结果是选用正体字,淘汰变体字;3、本职记录异词而文献用法相同的字也要规范,一字的音义包含另一字的,可以选用包含字而废除另一字;音义交叉的字则要规定在相同的音义上应该用某字,但另一字并不废除,因为在别的音义上还要用它。可见实际整理和规范工作中所谓的“异体字”是个笼统的说法,它服务于古籍阅读和现代规范的实用目的,虽涉及字样、字构、字用三个角度而并不等于其中任何一个角度的“异体字”。材料的整理和概念的科学定义原本就不是一回事,因而我们不必用某个角度的概念来指责多角度的实际材料,也不必用多角度的实际材料来否定某个特定角度的概念。六、关于“共时性”

一般认为,“异体字”属于共时现象,即所谓形体不同而音义相同必须是在同一时段。有的在定义中明确指出了这一点,如程希岚、吴福熙的《古代汉语》说:“在同一时期内,两个或两个以上不同形体的同音同义的字并存,叫做异体字。”大部分的定义里虽然没有明确规定异体字必须共时,但实际上“共时性”是被当成异体字的重要属性的,所以常常有人拿它作为区别“古今字”的标准,说“古今字”是历时的,“异体字”则是共时的。看似区分清楚,其实无法别异。因为“古今字”和“异体字”并非同一层面用同一标准分出的类,正如我们不能把一群人区分为“老人”和“男人”一样,我们也没有必要把“古今字”和“异体字”对立起来加以区分,同一组字完全可以既是古今字,又是异体字,不能因为古今字是历时关系,就推论异体字一定是共时关系。可见异体字的所谓“共时性”其实是虚拟的,用作判断异体字的标准根本无法操作。首先,究竟多长时间算是“共时”,从来就没有固定。“先秦”可以共时,“两汉”可以共时,“西汉”“东汉”可以分别共时,“唐”是一个共时,“宋”是一个共时,“唐宋”也是一个共时,相对于“现代”而言,整个“古代”数千年都是一个共时,那“异体字”所“共”的“时”究竟是多长呢?其次,人们所列举的“异体字”,事实上谁都没有就其时代性作出限定。例如上文提到的《第一批异体字整理表》和《汉语大字典》所附《异体字表》,其中构成异体字的时段谁能说清楚?既然并不清楚每个字的生存时段,却又断定它们是异体字,可见“共时性”并非异体字成立的先决条件。再次,如果真要考察异体字的时代性的话,恐怕很少有同时产生的。必须“共时”才算“异体”,那记录同一个词而先后形成的字(如“恥”与“耻”)或可能同时产生但却异时而用的字(如“線”与“綫”)该叫什么字呢?特别是现代已经被废除不用的字跟现代还在使用的功能对应的字(如“淚”与“泪”),它们已经不“共时”,那么该不该用“异体字”来指称它们呢?如果“淚”“泪”这种现代不共时使用的字现在不能叫“异体字”的话,那《第一批异体字整理表》还能成立吗?我们并不主张把异体字完全看成历时现象,但至少不应该把历时现象完全排除在异体字研究范围之外。所以谈异体字最好泛时化,可以有“共时”的异体字,也可以有“历时”的异体字;可以从共时的角度归纳异体字的同用现象,也可以从历时角度探讨异体字的产生和演变。总之,共时性不是异体字的区别性特征,不是异体字的固定属性。七、关于“异体字”的名称

虽然名称问题并非本质问题,可以不必深究,但从科学性上考虑,我们认为“异体字”这个名称还是值得商榷。“形体不同”不是异体字的本质属性,据此无法将别的关系字区别开来,因为任何两个自然的书写字样都可能“形体不同”。所以用“异体字”来指称“音义相同而形体不同”的字并非最佳选择。从研究的目的来说,我们也不是要认识这类字的“形体不同”,而是要认识它们的“音义相同”。科学研究的基本方法是异中求同、同中求异。面对一堆形体本来不同的字样,如果要研究它们的关系、对它们进行分类的话,无疑首先应该求其同,因而有“同音字”“同义字”“同源字”“同部首字”“同声符字”等等归类,全都是从“同”的角度去命名的,为什么偏偏对音义相同的字就要从“异”的角度命名呢?这显然不符合术语系的一致性要求。估计“异体字”的名称是沿用《第一批异体字整理表》而来,但该表中的“异体字”实际上是指跟“正体字”对立的被淘汰字,并非指包括“正体字”在内的全组字之间的相互关系,后人盲目沿用,名不副实,结果造成混乱。

古人曾有“同字异形”或“一字异形”的说法,其中的“字”可以指一个“词”,也可以指一个结构的“字”(当然同时也是一个“词”),所谓“同字异形”实际上就相当于“同词异体”。“同字(词)”是其区别性特征,是本质所在,而“异形(体)”是依附于前者的,是次要的。我们认为这样命名抓住了本质,具有区别性特征,倒是可以沿用或套用的。因此,对于前述三个范畴具有不同涵义的“异体字”,我们可以仿照古人的说法重新命名:将本职记录同一个词而外形特征不同的“异体字”改名为“同词异形字”,将本职记录同一个词而结构属性不同的“异体字”改名为“同词异构字”,将本职记录不同词但具有相同音义的“异体字”改名为“同用异词异形字”。这三个名称是分别针对不同情况而言的,不是同一总体的下位分类。字样范畴的“同词异形字”和字构范畴的“同词异构字”可以统称为“同词字”;在字用范畴,除了“同用异词异形字”外,当然还有不言而喻的“同用同词异形字”,照例也可以统称为“同用字”。这样,汉字的各种字际关系就都是从“同”的角度命名了。当然,这样定称只是一种理论上的表述,实际上“异体字”的名称已相沿成习,要改变是很困难的,也是没有必要的。(原载《21世纪的中国语言学(二)》,商务印书馆,2006.12)

汉字系统与元素用字

齐元涛

提要:汉字是成系统的,元素用字作为汉字系统的一部分,也受制于汉字系统的整体状况。元素用字的选用、创制或演变,都受到整个汉字系统的控制,最终形成了既符合汉字总体系统,又具有自身相对完整性的元素用字子系统。元素用字的状况可以为专科科技术语及其用字的研究提供启发与借鉴。

关键词:汉字 构形 元素一 汉字的系统状况

汉字是成系统的。汉字系统包括如下一些要素:

构件。构件是构成汉字的单位,其中最小的不能再拆分的构件叫做基础构件。例如“氧”字的基础构件是“气”和“羊”。

构造意图。构件在构字时所提供的意义信息或声音信息,叫做构造意图,简称构意。例如“氧”字中的“气”表示它是一种气体、“羊”提供读音信息。

构形功能。构件在构字时所承担的构意类别叫做构形功能。例如“氧”字中的“气”承担的是表义功能、“羊”承担的是示音功能。

构形模式。不同功能的构件组成全字,就有了不同的构形模式类型。如“氧”字是由表义构件“气”和示音构件“羊”构成的义音合成模式。

构形层级。一个字中的不同构件处于不同的构形层级。如“氧”字是由“气”和“羊”构成的具有一个构形层级的汉字。

组合模式。构件在二维空间中呈现出的位置组合关系叫做组合模式。如“氧”字的构件“气”和“羊”的组合模式属于半包围结构。

汉字系统就是由一定量的构件及其功能、按照一定的构形模式和构形层级构成的、以一定的组合模式呈现的具有相互联系的汉字的集合。汉字系统成熟于小篆阶段,其后的今文字阶段的隶书和楷书沿袭并继续发展,但总体格局基本稳定。以成熟楷书——隋唐五代楷书为例,汉字系统的状况表现为:以500个左右的基础构件为构形元素,以表义功能和示音功能为主要构形功能,以义音合成为主导构形模式,以左右结构为主导组合模式,以层级生成为主导生成方式,以1层和2层为主导构形层级而生成的具有多维联系的汉字群。二 汉字系统与元素用字的演变

本文所说的元素用字,只限于记录单音节元素名称的汉字。

元素用字作为汉字系统的一部分,或者说,属于汉字总系统的一个子系统,字形的创制、选用、定型都会受到汉字整体系统的制约。例如:“金”“银”“铜”“铁”“锡”“硫”等字,就是直接沿用汉字系统中原有的字形,这些字很自然地属于汉字总系统的一部分。在为元素用字创制新字的过程中,那些遵循了汉字系统的结构要素的字形自然也是符合汉字总系统的,如:“锂”“钠”“钾”“铷”“铯”“钫”“砷”“硒”“碲”“碘”等,它们以汉字系统中最常见的义音合成模式构成;以汉字系统中原有的“金”或“石”为义符,表示这些元素属于固体金属或固体非金属;以汉字系统中原有的“里”“内”“甲”“如”“色”“方”“申”“西”“帝”“典”为声符,标示这些元素词的读音;并以汉字系统中最常见的左右组合模式呈现出来。

元素用字经历过一个汰选过程,字形的胜出或淘汰,在很大程度上与这些字形是否合乎汉字的总系统有关。下面我们从汉字系统的几个主要方面来考察元素用字的演变情况。(一)基础构件与元素用字

汉字基础构件的数量是有限的。对一定量的汉字来说,基础构件的数量越少,汉字的系统性就越强。

在元素的创制过程中,陆贯一《原质之新译名》曾提出过一套方案,举数例如下:

这些字是汉字吗?陆贯一自己认为是汉字。他说:元素用字皆为形声字,形声字的义符依据元素的状态类属选择,形声字的声符皆由国际通用的元素符号充当,元素词的读音,皆直读其所含英文字母之音。

既然这些字是形声字,那么就应该合乎形声字的系统。这些字的义符是汉字原系统中固有的,属于对原系统有限符号的无限运用。这些字中表读音的部分“K”“O”“C”“Au”“Cu”“Pt”是原汉字系统所没有的,也无法纳入汉字系统之中。对汉字使用者来说,要识记和书写这一批元素用字,就要在原有的汉字储备中增加一批全新的符号,而这批符号的构字能力极为有限,对汉字使用者是一种负担,对汉字系统是一种干扰,最终为汉字系统所淘汰。(二)构造意图与元素用字

在汉字总系统中,一个构件表示什么样的构意具有一定的约定性,这种构意一旦为使用的群体所公认,便与字形稳定地结合在一起。汉字使用者在识读这些汉字的时候,会依据约定俗成的习惯来理解字形所显示的构意信息。违背了汉字使用者的心理约定,汉字的命运就会受到影响。

津田仙、柳泽信士、大井鎌合译的《英华和译字典》曾使用过一批新造的元素用字,兹举数例于下:

在这批字中,构件“行”表达的构意是“元素”。中国古代的“五行”说认为世间万物是由“金”“木”“水”“火”“土”五种基本物质构成的;英语中的“element”本指“土”“水”“气”“火”四要素,与“五行”说的五种基本物质相近,因此在翻译化学著作时有人就将“element”译作“行”,这样在化学译著中“行”就有了“元素”的含义。但在汉字原系统中,单用的“行”字没有“元素”这一意义;构件“行”也从不提供“元素”这一构意。“行”在甲骨文中作“”,象道路之形,意义即为“道路”。由“行”参构的汉字,意义都与道路有关,如“街”“衢”“術”“衕”“衖”“衙”“衝”“衞”等,其中构件“行”的构意都是道路。上述元素用字中“行”的构意与一般大众对“行”的构意认识是不一致的,这就影响了大众对这批字的认可程度。

汉字示音构件的功能也并不完全是纯粹的记音,有很大一部分兼具示源功能,即声符带有提示意义来源的作用。“氢”元素曾名为“轻气”,因为它是最轻的气体,“氢”字的声符就带有提示词语来源的功能;“氯”元素曾名为“绿气”,因其单质状态是绿色的气体,“氯”字的声符“录(“绿”的省体)”就带有示源功能;“氮”的词源是“淡”,表示把空气中氧冲淡了,其声符“炎(“淡”的省体)”带有示源功能;“氧”元素曾名为“养气”,表示滋养之意,“氧”字的声符“羊(“養”的省体)”也具有提示词源的功能;“溴”元素的单质有恶臭味,“溴”的声符“臭”就具有提示词源的功能。“氧”“氮”“氯”也曾出现过“氱”“”“”这样的写法,或许是因为这些写法对词源的提示不像“氧”“氮”“氯”那么明晰,这些字最终还是被淘汰了。

在上述陆贯一《原质之新译名》的元素用字中,西文的“K”“O”“C”“Au”“Cu”“Pt”是纯粹的记音符号,将它们用在汉字系统中,显然无法像汉字声符那样可以提供词源,无法进入汉字的声符体系。(三)构形模式与元素用字

一些新造的元素用字,采用了会意的构造模式。上述《英华和译字典》中从“行”的那一批字都是会意字。《化学指南》中的元素用字也全部采用会意的方式。例如:(金+石+灰),今通行“钙”;(金+無+名+異),今通行“锰”;(金+重+土),今通行“钡”;(金+紅+苗),今通行“锶”;(金+黃+霜),今通行“镉”;(金+生+色),今通行“铬”。

上述会意字最终被形声字取代,因为完全创制会意字的方案与汉字的发展方向和汉字的整体系统形成反动。汉字是向着形声化发展的,从甲骨文到金文再到小篆,形声字逐渐增多,《说文解字》所载的小篆字形有87%以上是形声字,因此小篆阶段已实现了整个汉字系统的形声化,今文字阶段的汉字维持了以形声为主的状况。

形声系统的优势何在?择要言之,有这样一些方面:(1)形声字的义符是意义类聚的标志,同义类的字可以由义符而类聚在一起,形成一个一个的子系统。化学用字的义符可以体现术语的系统性,进一步通过义符“望文生义”就可以提示元素的具体类别。(2)形声字的声符具有示音功能,可以与字形所记录的词保持有机的联系。元素名称大都是音译,用形声字便于人们读出元素的名称。(3)形声字一半义符一半声符的格局便于构造新的字形,这为创造新的元素用字提供了延展的空间。(4)汉字的形声系统可以实现同义符的字以声符别,同声符的字以义符别,从而形成系统。那些不是形声构造方式的字形,因其可以充当形声字的义符与声符,最终也可以纳入整个形声系统之中。

虽然会意这种构造方式也有自己的优势,即字形可以显示意义信息、可以满足人们对字形理据的追求,但会意字所提供的构意信息是个体的,会意字之间的联系也是个体的,很难系统化,再加上会意字不能提供读音,不便于人们读出元素名称,因此近代以会意方式构造的元素用字最终还是被形声字取代。(四)组合模式与元素用字

汉字在创制之初,多由描摹物象而成,因此字形的摆布与物象的实际摆布状态有对应关系,致使汉字的空间组合模式很不规则。后来汉字逐渐脱离象物性,构件的组合关系不必完全与物象对应,组合模式逐渐规整为两个直接构件组成的左右结构或上下结构,那些原本多构件组合的字逐渐变成了两合结构,汉字的系统性逐渐加强,这样的系统状况从小篆一直延续到楷书。近代为元素所造的多构件合成的会意字,不符合楷书汉字的组合模式系统,最终被两个直接构件的组合模式取代。例如,上述《英华和译字典》中那一组从“行”的字和《化学指南》中那些多个直接构件构成的字,最终被两个直接构件的字取代。三 元素用字子系统的状况

元素用字作为整个汉字系统的一个部分,需要符合整个汉字系统的总体状况;同时,元素用字作为专业领域用字,又有着自身的特殊要求,即在达到一般日常用字系统的要求之外,元素用字子系统有时还需要进一步作内部调整。例如,元素“硅”的拉丁名称是silicium,以往曾音译为“矽”,这个字是合乎汉字系统的,但在元素领域,这个字与元素“硒”“锡”读音易混,且这三个元素在化合物订名中应用较多,易造成混乱,于是后来将“矽”改为“硅”。

汉字是成系统的,但这种系统不是一开始就很明确的,而是随着汉字的发展而逐步完善的。元素用字作为汉字的子系统,也是在逐步调整中完善的。例如“碳”和“磷”这两种元素在早期化学著作中曾沿用汉字中既有的字形“炭”和“燐”,这两个字的义符都是“火”,两个字的各个构形要素均合乎汉字的总体系统。随着元素用字的逐步完善,“炭”加义符“石”写作“碳”,“燐”将义符改为“石”写作“磷”,这样做的好处是:(1)用“石”来标记这两种元素属于“固体非金属”这一类别;(2)这两个字和其他从“石”的元素用字就有了形体上的联系,它们在子系统中的位置就更清晰;(3)从元素用字中削减了“火”这个义符,使元素用字的义符更为集中,元素用字的系统性就进一步增强。

形声字的义符可以为汉字子系统的类聚提供形体上的依据。经过多年的发展,元素用字逐渐形成了几个大的类别。元素据其常温状态,可分为气体、液体和固体三类,其中固体元素又可分为金属元素与非金属元素两类。这些不同类别的元素体现在字形上,就实现为不同的义符类别,如:

气体类以“气”为义符:氢、氦、氮、氟、氖、氧、氯、氩、氪、氙……

液体类以“水”为义符:溴、汞;

固体金属类以“金”为义符:银、铜、铁、锡、铅、钠、钾、铝、锌、钙……

固体非金属类以“石”为义符:硼、碳、磷、砷、硅、硒、硫、碘、砹、碲。四 余论(一)汉字理据与专业知识

汉字与元素分属于两个不同领域,两者是记录与被记录的关系。正如汉字与汉语的关系一样,表意的汉字可以体现汉语语义信息,但二者不是一一对应的。虽然经过多年的发展,元素类别与汉字义符形成了较强的对应关系,但不同类别的元素还是存在义符交错的情况。例如:“汞”是一种金属,俗称“水银”,在历史上曾出现过多种写法,其中就有从“金”的字形“銾”,义符显示其意义类别和化学属性,但这个字形并未通行,最终被“汞”所取代。究其原因,主要是普通民众对物质的认识与化学专家对元素的认识存在差距。“汞”这种元素在常规状态下呈液态,不像其他金属元素那样呈固体状,因此人们选择“水”做义符,造了“汞”这个字形。同样的情况也存在于其他专业领域用字上,例如“鲸”这个字。根据生物学科的分类,“鲸”属于哺乳动物,但人们根据对这种动物的感性认识,将其视为“鱼”类,造字时选用“鱼”为义符。当然,“汞”胜“銾”汰也存在汉字系统对个体字形制约这方面的原因。“銾”以“汞”为声符,如果弃“汞”用“銾”,那么“銾”的声符“汞”就在汉字系统中找不到,“銾”字在系统中就失去了形体依据,其识读与构意解读都会成为问题。“汞”这类例子反映了人们的日常认识与科学知识之间的差距,它提示我们,元素用字遵循汉字的约定俗成原则而不完全按照科学的专业知识系统来构造。这种情况对今后的元素用字规范或专科用字规范都有很重要的启示,即:在规范和调整专业领域用字时,不能完全从科学、逻辑出发,而要照顾民众约定俗成的用字习惯。(二)日常用字与专业用字

近代元素用字中,有人主张利用汉字中既有的字形来记录元素名称,这样做可以减少人们的识记负担,这种主张存在一定的合理性。但接下来要解决的问题是:哪些元素沿用既有字形?哪些元素创造新的字形?在元素用字的发展过程中,曾被使用过的历史既有的字形很多,例如:(1)钾、锶、铊、铬、钫、铋、钯、钐;(2)金、银、铜、铁、锡、铅、硫、碳;(3)“养”(今通行“氧”)、“绿”(今通行“氯”)、“轻”(今通行“氢”)、“弗”(今通行“氟”)、“淡”(今通行“氮”)、“蒙”(今通行“锰”)、“砂”(今通行“硅”)、“鉗”(今通行“铍”)、“錯”(今通行“铈”)等。

上述前两组字被沿用至今,第(3)组字被新造字形取代,这反映了日常用字进入专业用字领域的适用状况。

第(1)组字是古代曾经使用过的形体,“钾”指铠甲,“锶”指铁器,“铊”指短矛,“铬”指剃发,“钫”指方形壶,“铋”指矛柄,“钯”指兵车,“钐”指长柄大镰。随着这些字所记录的词淡出人们的日常生活,到近代时期它们已成“死字”,普通民众已经不再使用它们。近代学者用“钾”“锶”“铊”“铬”等形体记录元素名称,不会与历史上曾用过的字形产生使用上的混同,因此这些字得到了系统的认可。

第(2)组字在日常生活领域从古至今一直沿用,近代拿它们记录元素名称,同样得到了系统的认可。原因是:作为日常用字和元素用字,这些字的所指基本相同,即不论“金”字的意义是日常的黄金制品,还是元素中的金元素,在普通使用者看来两者相差不大,因此这些字得到日常用字和专业用字两个领域的认可。

第(3)组的“养”“绿”“轻”“弗”“淡”“蒙”等字从古至今都是日常生活中的常用字,当这些字被用来记录元素时,它们的语言文字属性发生了很大改变。例如,“养”“蒙”原来是记录动词的,“绿”“轻”“淡”原来是记录形容词的,这些字作为元素用字时记录的是名词,语法类别和所记录的意义都完全不同了。“养”“绿”等这些元素用字极易受到日常生活用字“养”“绿”等的语法语义属性的干扰而造成理解的偏差。元素用字作为专门的学科用字,必须保证其所指的精准与唯一,因此这些字后来都被专用字“氧”“锰”等所取代。(原载《中国科技术语》2010年第3期)

关于社会用字调查的研究

周晓文 李国英

提要:目前社会用字调查存在很多问题,有很多问题需要深入探讨。字料库是解决社会用字调查的新方法。字料库是以文字整理和文字学研究为目标,储存实际使用中能够代表特定文字或文字变体的书写形态,运用计算机技术建成的具有一定规模的文字形体资源库。大规模社会实际用字状况测查只有在字料库的基础上才能真正实现,基于字料库的研究方法将开创汉字学、应用汉字学研究的新领域。

关键词:社会用字 用字调查 字料库一、社会用字调查

什么是社会用字?1990年仲哲明先生在社会用字管理现场会上的总结发言中说:“所谓‘社会用字’,是指流通于社会,用于社会交际领域的文字,例如国家法律法令、政府公文用字,出版印刷用字,计算机用字,影视用字,人名、地名用字,商业用字(企业、商店的牌匾、商标、商品包装、广告),等等。概括地说,社会用字的范围大致包括四个方面:出版印刷用字、影视用字、计算机用字、城镇街头用字。这四个方面,相互之间又有些交叉。影响最大、最能反映社会用字面貌而且起主导作用的是前三个方面。当然,城镇街道用字也很重要,它具有更强的直观性、形象性,观感上给人的印象更强烈更深刻。”沙宗元在《文字学术语规范研究》一书中说:“社会用字是流通于社会、用于社会交际领域的汉字,它与个人用字相对而言,其范围包括出版印刷用字、教育用字、影视屏幕用字、计算机用字和公共场所用字等这样几个方面。”社会用字所具有的最大特点是其所具有的流通性和社会性,而流通性和社会性决定了社会用字必定具有稳定性和变异性的双重特质。变异性是指社会用字在流通过程中会发生不同性质的变化;稳定性是指为了满足社会交际的实际需要,使交际畅通,社会用字会保持相对稳定。流通于社会的社会用字,被社会共同使用,必须有被社会共同遵守的法则,必须在一定的时期内保持稳定,正因为是被社会共同使用的,而社会是由众多的个体组成的,有个体必然存在差异,差异的累积产生变异,用数学的语言描述就是“差异”对时间求积分等于“变异”,“变异”是时间的函数。因此,变异性又来自它的个体性及时代性。从宏观上看,汉字是被全社会共同书写使用的,由于社会的发展,时代的变迁,在汉字的形体上也会打上时代的烙印,如:甲金文字的原始、战国文字的缤纷、小篆的正统、隶楷的实用,如此种种都是时代性的表现;从微观上看,具体的汉字是由个体的人书写使用的,每个人书写出来的汉字必定带有个人的个性,众多个性产生的变异将导致汉字整体发生变异。变异性与稳定性是相对的,两者相互作用、相互制约,变异是绝对的,稳定是相对的。当变异性凸显到影响了汉字的使用效率,而稳定性对其的制约力度难以达到平衡时,就必须在适当的时候借助权威机构的力量对两者进行协调,接受部分稳定了的变异结果,形成新的稳定点。

新中国成立以来,为了提高社会用字的使用效率,规范社会用字,我国制定发布了一系列有关语言文字的规范和标准,从字种、字形、字音、字量等方面对汉字进行了大规模的整理和规范。1956年1月28日国务院全体会议第23次会议通过了《关于公布〈汉字简化方案〉的决议》,1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》,国务院在决议中指出:已经公布的简化字,“在全国印刷的和书写的文件上一律通用,除翻印古籍和有其他特殊原因的以外,原来的繁体字应该在印刷物上停止使用”。1964年5月中国文字改革委员会出版了《简化字总表》,1986年10月10日重新发表《简化字总表》,共收2235个简化字。1955年12月文化部和中国文字改革委员会联合发布《第一批异体字整理表》,该表整理了809组异体字,文化部和文改会在发布该表的联合通知中明确规定:“从1956年2月1日起在全国实施。从实施日起,全国出版的报纸、杂志、图书一律停止使用表中括弧内的异体字。但翻印古书须用原文原字的,可作例外。”1965年1月文化部和中国文字改革委员会联合公布了《印刷通用汉字字形表》,表中规定了印刷宋体字形6196个,在文化部和文改会发出的《关于统一铅字字形的联合通知》中指出:“我们现在把汉字字形整理组所编的《印刷通用汉字字形表》印制成样本,随文送去,请各地逐步推行。各地字模制造单位,应即大力组织力量,以该表为范本,有计划、有步骤地尽早刻制各种印刷字体的新的铅字字模,供应各地需要。报纸、杂志、图书出版、印刷方面可视需要和字模供应情况逐步加以采用。采用后,书写报纸、杂志标题和图书封面的美术字,亦应以该本为范本,以求一致。……翻印古籍和有其他特殊需要者,可以不受范本限制。”这些规定虽然并不都是国家最高权力机构发布的,但是在实际上,它们已是群众公认的规范标准,在现代语文生活中取得了应有的规范地位。自1956年以来,根据上述各项工作的有关规定,社会用字的规范化程度得到极大提高,成果的推行范围逐步扩大,在广大群众中,使用规范汉字的观念不断加强,特别是中小学教材,从这些标准规范发布以来一直使用规范的简化字和标准字形,不用被淘汰的繁体、异体字和合旧字形。傅永和说:“1975年,我们曾对全国二十几个省、市、自治区地区以上的报纸及出版物上使用规范简化字和标准字形的情况进行了调查统计,统计结果表明,除边远省区外,绝大部分省、市、自治区地区以上的报纸、印刷物上均使用了《简化字总表》中的规范简化字和《印刷通用汉字字形表》规定的标准字形,对《第一批异体字整理表》中被淘汰的异体字基本上不再使用。可以说,简化字和标准字形已经在全国印刷物上普遍得到推行。”

但是,随着社会的发展,社会用字所具有的变异性得以凸显,20世纪60年代至80年代社会用字曾出现十分混乱的现象,“可以用‘错、乱、差’三个字来概括:‘错’,错字、别字触目皆是;‘乱’,规范字、繁体字、异体字、自造的简化字并存混用;‘差’,书写水平相当低下”。80年代初社会用字的混乱现象引起了学者们的广泛关注,很多报刊纷纷发表文章,就社会用字问题展开讨论。1984年11月12日,《文汇报》发表了华实的《莫让错字成公害》,文中提到,“当前为数相当多的一些图书、刊物、报纸差错太多,几乎成了文化出版界的一大‘公害’”。吕叔湘先生曾在《读书》杂志上写文章,大声疾呼“要向错字宣战”。与此同时,有关社会用字的调查研究也逐步开展起来。1984年年底至1985年年初,费锦昌、齐闻等对北京、上海、广东、湖北、江苏、吉林等六个省市13条街道的商店用字情况进行了调查,他们就繁体字、不规范简化字、异体字及错别字等不规范用字作了分类统计,统计结果如下:表1 商店用字抽样调查的概况

从表中可以看出,商店用字的不规范现象是很严重的,这主要表现在繁体字、异体字、不规范简化字和错别字的使用上。1988年陈原就北京王府井大街部分店名作了统计,发现王府井大街的牌匾用字的规范化程度不高,规范字与不规范字的比例大致是一比一,主要是繁体字滥用、拼音书写不规范等问题。1997年由北京大学中文系团委组织,北京大学中文系94、95、96级的部分同学对北京、南京、武汉、重庆四市的数十条主要干道的社会用字情况进行了调查,发现使用“二简字”、生造简化字、错别字和不规范外国文字的情况各地都普遍存在。“据国际广播电台一位同志1981年11月16日信中统计,在110种报刊中,刊头和副刊使用繁体字的就有93种,占84%。”周丽萍采用抽样调查的方法对嘉兴市社会用字进行抽样调查,调查的范围是嘉兴市秀城区和秀洲区的街道、机关、学校和公共场所,经过两年的抽样调查,调查总字数21666个,其中不规范字与错别字1765个,占调查总字数的8.15%,规范率为91.85%。

反映社会用字状况的另一个重要方面就是字频统计,即对社会用字的用字量、常用度等状况进行测查,测查结果对指导汉字应用具有重要意义。

我国最早的现代汉字字频统计著作是陈鹤琴编著、商务印书馆1928年出版的《语体文应用字汇》,该书是对6种语料554478个字进行字频统计得到的结果,共得字种4261个。随着计算机的发展,中文信息处理对社会用字状况测查的需求越来越迫切,为了满足中文信息处理的需要,我国先后完成了几次大规模的现代汉字字频统计,主要有:(1)1974年至1984年,由国家有关部委领导的“汉字信息处理系统工程”(“748工程”)对汉字使用频率进行了大规模的统计,本次字频统计使用的语料时间范围为1973年至1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作,动用人力1500人之多,备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。统计成果《汉字频度表》1977年10月由北京新华印刷厂排印出版(仅作为内部出版物分送有关部门)。1980年经过对《汉字频度表》的全面核对、注音,最后按汉语拼音字母的顺序重新排列,由郑林曦、高景成主编,编印了《按字音查汉字频度表》(内部资料)。这次统计是我国第一个规模这么大的汉字使用频度统计,受到社会广泛重视及应用,我国1981年发布实施的国家标准GB2312-80《信息交换用汉字编码字符集·基本集》就是依据这一统计结果制定的。(2)从1979年10月开始至1985年7月止,历时5年零8个月,北京语言学院语言教学研究室采用人工和计算机相结合统计方式,选用1807398个汉字语料,统计得出不同汉字4574个,编成《现代汉语频率词典》,1986年6月由北京语言学院出版社出版,词典中附有《汉字频率表》。本次字频统计使用的语料时间范围较多选用40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料及各种体裁的文学作品四类。(3)1981年中国文字改革委员会和国家标准局共同下达现代汉语字频统计科研项目,项目由北京航空学院计算机科学与工程系和国家语言文字工作委员会汉字处共同完成。本次字频统计使用的语料时间范围为1977年至1982年,语料内容包括自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字字种7754个。项目1985年完成,1992年出版《现代汉语字频统计表》,出版单位为国家语言文字工作委员会(原中国文字改革委员会)和国家标准局(部分成果《最常用的汉字是哪些——3000高频度汉字表》先于1986年出版)。

除《按字音查汉字频度表》以外,其他已经发布的统计结果一般只列有字头、字次、字频及累计频率等信息,很少涉及其他用字现象。《按字音查汉字频度表》是在原《汉字频度表》的基础上,对其按使用频率排序的6300多个汉字进行二次整理得出的结果,这也是截至目前为止,手工完成的最大规模的反映印刷出版领域社会用字状况的第一份宝贵资料。《按字音查汉字频度表》在单字的注释说明中对包括《第一批异体字整理表》和《新华字典》上已加整理的异体字,和一些历来同用、通用的可以视作异体字的字、古僻字、文言文用字、专用字等进行了标注(见表2)。表2 《按字音查汉字频度表》数据样例

王铁琨曾经指出:“语言生活是社会生活的重要组成部分。关注语言生活实态,把握语言国情变化,是现代国家的一项重要任务,而制定和调整国家语言政策、语言规划的依据之一就是社会语言文字使用的实时调查数据。”“语言文字工作的目标是构建和谐的语言生活。了解语言使用的真实状态,客观地把握语言国情,才能正确制定和稳妥实施语言规划,从而引导社会语言生活向着健康和谐的方向发展。从这个角度说,语言规划与语言使用实态考察研究有着非常密切的关系,后者既是前者的工作内容之一(即“恰当评估现实语言生活”),又是做好语言规划的基础和前提。”

为了切实掌握我国当前语言国情,及时把握我国语言文字发展动态的第一手资料,为国家语言政策的调整和制定,以及语言文字规范标准的制定、修订提供参考,自2004年6月开始,教育部、国家语言文字工作委员会,陆续与有关部委和高等院校合作共建国家语言资源监测与研究中心及其各分中心,以动态流通语料库为基本监测平台,对年度内平面媒体、有声媒体、网络媒体、教育教材以及海外华语的语言状况进行监测。每年发布《中国语言生活状况报告》,分上、下两编,上编主要内容是领域篇、专题篇、热点篇、港澳台篇、背景篇等;下编相对于全书而言是“数据篇”,包括调查报告和调查数据两个部分,力图反映年内语言文字应用的实态。先后发布了中国语言生活状况绿皮书B系列《中国语言生活状况报告(2005)》至《中国语言生活状况报告(2008)》,以及《2006汉语新词语》、《2007汉语新词语》等系列报告。2006年出版的《中国语言生活状况报告(2005)》是第一批调查报告和统计数据,是国家语言资源监测与研究中心对若干媒体2005年度语言使用状况统计测查的结果,其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表,该表所用语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数8128个。

以上所述各类统计调查成果,在一定程度上改变了我国以往对社会用字基本状况缺乏整体了解的状况,获取了大量第一手数据,为现代汉字学、汉字教学及语言文字应用提供了鲜活而宝贵的资料,为促进中文信息技术的发展作出了重要贡献,也为语言规划、语言政策的制定、调整和有效实施提供了不可或缺的参考依据。二、社会用字调查存在的问题

以往无论是在字频统计还是在社会公共场所用字调查方面所取得的成果,都在汉字的理论研究、汉字规范及汉字信息处理等方面发挥了重要作用。例如周有光在字频统计成果的基础上发现了汉字效用递减率。王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率。《信息交换用汉字编码字符集·基本集》是在《汉字频度表》的基础上研制完成的。1988年1月26日由国家语言文字工作委员会、国家教育委员会联合发布的《现代汉语常用字表》的研制参考了《汉字频度表》(常用字部分4152字)、《社会科学、自然科学综合汉字频度表》(常用字部分3500字)和《汉字频率表》(4574字)。1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的《现代汉语通用字表》也参考了上述字频统计成果。

社会用字主要表现在印刷出版和公共场所用字两个方面,而目前这两个主要方面的社会用字调查还存在很多问题和局限。至今为止,对公共场所诸如城镇街头、商店等用字状况的调查比较多,但是由于样本分散,个性化强,因此规模都比较小,所采用的调查方法也比较传统,主要以人工实地调查为主,通过人工实地考察、收集数据,再对数据进行统计分类,进而分析问题产生的原因。对出版印刷领域的用字状况测查,由于样本相对集中,测查规模易于扩大,至今手工调查规模最大的要数“748工程”所作的《汉字频度表》以及在其基础上二次整理出来的《按字音查汉字频度表》。我们对《按字音查汉字频度表》中的数据进行了初步统计,在1973年至1975年间的2162万字的语料中统计出来的6300多个字头中,注有〈一异表〉或〈一异〉的即《第一批异体字整理表》中的异体字,共有29个;注有〈异〉或说明中说“某某的异体”的共有94个;另外还有17个字是“古体字和查不出读音的字”,这17个字多为甲骨文、金文字的隶定楷字;还有69个字是“各字典无”,所谓“各字典无”指该书依据的《新华字典》、《辞海》、《中华大字典》、《现代汉语词典》、《大汉和辞典》等五部字词典中没有收录该字。《按字音查汉字频度表》提供了大量社会实际用字现象,但是由于原始数据保留不全,对其中很多现象无法作进一步的跟踪分析。例如:表2中的4252号“澂”字,在《一异表》中作为“澄”的异体已经被废除,统计样本出现了18次;3740号“磙”字,是“滚”的后造异体,出现39次;2696号“虫+甲”字,出现220次,却查各字典均无。诸如此类现象,从社会用字规范的角度讲,我们需要搞清楚这些字使用的背景,同一个字形在有些场合是允许使用的,在另外一些场合使用就是不规范的,应该被禁止的。2000年10月31日第九届全国人民代表大会常务委员会第十八次会议通过的《中华人民共和国国家通用语言文字法》第十七条明确规定:“有下列情形的,可以保留或使用繁体字、异体字:(一)文物古迹;(二)姓氏中的异体字;(三)书法、篆刻等艺术作品;(四)题词和招牌的手书字;(五)出版、教学、研究中需要使用的;(六)经国务院有关部门批准的特殊情况。”除此之外,“学校及其他教育机构以规范汉字为基本的教育教学用字;汉语文出版物应当符合国家通用语言文字的规范和标准;公共服务行业以规范汉字为基本的服务用字”。因此,单靠统计数据不足以推断社会用字的实际规范程度,也不足以指导社会用字规范政策的制定,只有追溯到原始出处,区分用字的所属类别,分门别类地研究处理各类统计结果,才能切实发挥统计数据的作用,有针对性地指导实践。而要实现原文回溯,就必须在调查中实现字形与出处的信息关联,保留原始语境及原始字形,这对于较大规模的手工调查来说难度很大,至今还没有能够提供可供分析研究用的带有原始出处的统计资料。

由于社会用字规范状况的测查涉及异体字、繁简字、新旧字形等复杂现象,在当前计算机的语文知识比较匮乏、语言文字处理能力还比较有限的状况下,自动化水平不高,需要大批专业人员直接参与识别、整理,至今有针对性的大规模的社会用字实际状况的调查研究几乎没有,只有几个规模较大的有关字频统计的调查。尽管用字频度也是反映社会用字状况的重要方面,但是字频统计关注的是社会用字的字数及各字的出现次数,加之受计算机编码字符集的限制,丢失了很多重要信息,并不能反映社会用字的全貌,体现不出来各种复杂的用字现象。

有了计算机以后,文字处理效率得到了极大提高,自动化带来高效率的同时,也带来了新问题。近些年来,大规模的汉字字频统计无一例外地依据电子语料库,而这些电子语料库的建库目标主要是保证语境的完整,并不要求字形保真,在把纸质文本转换成电子文本生成语料库的过程中不能保证存储文字使用的原始状态,在已经丢失了大量文字使用的原始状态的语料库上测查用字状况,测查结果必定不具有客观性。比如,在1956年1月《汉字简化方案》公布之前,国内报刊图书主要使用繁体字(偶尔也用简体字)。1956年2月《第一批异体字整理表》在全国实施之前异体字未经整理。1977年12月《人民日报》开始试用《第二次汉字简化方案(草案)》第一表的简化字,1978年7月停止试用这批简化字,在此期间《人民日报》等曾经用过“二简”的字。而北京语言学院语言教学研究所1986年编的《汉字频率表》使用了1956年1月31日前的资料,如1951年1月31日的《人民日报》,但“频率表”中却没有出现繁体字;使用了1956年2月《一异表》实施前的大量资料,却没有出现异体字。以1951年1月31日的《人民日报》为例,该日报原版中有繁体字“對”、“裝”、“數”、“會”等,而《汉字频率表》有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“對”、“裝”、“數”、“會”等。该日报纸中有《第一批异体字整理表》中被淘汰的异体“遊(旧字形)”、“鎻”、“週(旧字形)”、“誌”等,而《汉字频率表》有“游”、“周”、“志”等正体,有“鎻”的正体“鎖”的简化字“锁”,而没有“遊”、“鎻”、“週”、“誌”等。该日报原版中文字有旧字形,而《汉字频率表》中的字均为新字形。推测《汉字频率表》的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。这种测查结果显然不能准确反映社会用字的实际情况。

国家语言资源监测与研究中心编《中国语言生活状况报告(2005)》(下编)的《调查报告》中明确指出:“报纸文本是从网络下载的,没有与纸质版本作比较。”在2008年的调查报告中也指出:“报纸语料是网络版的。广播电视语料是由广播电视节目转写的文本,与原始有声语料之间存在某些差异。网络(新闻)语料来自新浪、腾讯2008年的新闻页面。上述语料均做了去除HTML标签信息和广告信息的处理。”

随着计算机编码字符集的不断扩大(目前已编码汉字74588个,其中也包括已经废除的异体字、繁体字以及日本、韩国等各国用字),基于电子文本的测查结果所涉及的文字现象也自然增多。例如,在国家语言资源监测与研究中心统计的2008年报纸、广播电视、网络(新闻)用字用语调查结果中,就含有大量的异体字、繁体字、印刷旧字形等数据(见表3)。表3 (2008)报纸、广播电视、网络(新闻)用字用语调查*表中“共用独用”项目代表汉字出现的媒体,A代表平面媒体,B代表有声媒体,C代表网络媒体。“汉字”项目中的标识符号分别表示首字的汉字类属:“)”表示繁体字,“]”表示《第一批异体字整理表》中的异体字,“〉”表示旧字形,“〇”表示日本汉字。

在《中国语言生活状况报告(2008)》(下编)(简称《报告》)中的表1—6“汉字使用的其他情况统计表”中,给出了本次测查中统计出来的繁体字、异体字、不规范的简化字等数据(见表4)。表4 汉字使用的其他情况统计表

基于电子版语料的统计测查,通常会出现两种问题:一种是由于电脑缺字或“被认同掉”了,一些用字现象统计不出来;一种是统计出来了,但是没有原始资料可供复核、研究。如表3中5079号“甯”字,是“宁”的异体字,已在“一异表”中废除,仍在46个统计样本中出现;5306号“榘”字,是“矩”的异体字,在68个统计样本中出现;5324号“樑”字,是“梁”的异体字,在82个统计样本中出现。而这些早已被废除的异体字又多次出现的背景、原因则需要逐字调查研究。又对于繁体字而言,则需要区别几种情况:(1)引用文言、古书、讲解汉字;(2)打字时误写(选)成繁体字;(3)有意使用繁体字等。《报告》选取了在2008年中出现而在2007年中未出现的部分字,考察其在报纸语料中的使用情况后分析说:“造成这些别字的原因,多为用形码输入的过程中,错误输入了相近的形码。对上述这些不规范字、别字的使用,我们逐条对照了纸版本的报纸内容,其使用完全同电子版。”此段说明了两个问题:第一,要分析各种用字现象的成因,需要“逐条对照”纸版本的报纸内容,即对用字语境进行回溯,因此,在社会用字状况测查中,查看原始出处是非常必要的。第二,回溯原始语境是必要的,但是方式方法是需要改进的。在计算机处理与存储能力均有较大发展的今天,不应再手工翻查纸质版本,应在处理电子语料的同时,将纸质版本原样扫描,进行数字化处理,有利于资料的长期、有效使用。三、基于字料库的社会用字调查

综上所述,由于受计算机编码体系以及计算机语料库处理字形方式的限制,加之汉字自身的复杂性等因素的影响,目前的社会用字调查还存在很多问题,留有很多缺憾,远远不能满足社会用字实际状况测查的需要。究其根本是缺少对信息时代社会用字调查的理论及方法的研究,缺少适合社会用字调查的有针对性的整体方案设计,片面追求“速效”,缺少深入、细致的研究。现代的计算机技术能够带来高效率,也能为深入、细致的研究提供基础与条件,关键是人类如何利用它,如何对它提出更高的要求。

研究汉字以及掌握汉字实际使用状况必须从汉字使用中的实际事实入手,真正的科学规律首先是符合事实的规律。记录汉字生存、演变的事实就是汉字在各历史阶段中的实际使用状态,只有用计算机存储和处理大规模使用状态下的真实的汉字原始字形,才能全面真实再现汉字的本来面貌,才会作出符合实际的社会用字调查。至今基于真实文本的对汉字社会实际使用状况的大规模测查仍然很难实现,到目前为止还没有一个很好的解决方案,没有可作依据的原始字形库。字料库方法为汉字研究与汉字测查提供了一个新的思路与方法,使得对社会实际用字状况的大规模测查成为可能,只有在保存了真实字形材料的字料库及相应数据库的基础上,才有可能对社会实际用字状况作全面、客观的测查。“字料库是指以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是能够利用计算机对各种书写使用中的文字形态进行各种分类、统计、检索、综合、比较等深入研究的基础。”

字料库建设以文字学研究为目的,其宗旨就是保存真实状态即文字使用的“实态”,把现实语言生活的真实状态客观地记录和反映出来,字料库不但在字形处理上追求保真,而且同时对使用字形的诸如“出处、年代、类别”等各种相关信息进行记录。为了解决目前计算机字库不能满足字形保真需求的问题,字料库以图形方式存储原始字形资料,建立相关参数数据库及汉字构形结构表达式,为文字研究及文字的社会应用提供支持。

字料库建设对弘扬中华民族传统文化,保护世界文化遗产有重要意义;能够为国家语言文字规范政策的制定、为文字学、计算机中文信息处理、计算语言学、汉字教学及辞书编纂、计算机超大字符集的研制等提供基础数据,对汉字的发展与演变规律的研究,对汉字学研究方法及手段的创新等都具有重要的理论意义与实践价值。

基于字料库的社会用字状况测查可以在大规模社会实际用字字料库建设的基础上,通过对社会实际用字情况穷尽性的测查,摸清现时社会实际用字的基本状况,切实把握语言文字发展脉络,考察期间政府发布的一系列规范标准的现实基础、科学依据以及对社会实际用字的影响,研究社会用字与规范之间的关系,探索科学的规范方法及手段。当前,研制规范汉字表、推行规范汉字已经成为国家语言文字工作中的重要任务,急需建立基于现代汉字的大规模字料库,为国家语言政策的调整和制定以及语言文字规范标准的制定、修改提供参考,这对促进文字学理论与社会用字规范理论的深入研究等都具有重要的理论意义。

基于字料库的社会用字状况测查在实践中会遇到很多问题需要解决。第一,我们面临的是新概念、新方法,有很多理论问题需要探讨。字料库虽然是在语料库的基础上提出的一个新概念,字料库涵盖语料库的某些功能,但字料库不同于语料库。我们要建设字料库,首先要在理论上创新,探索字料库建设的理论和方法,并付诸实践。第二,要测查社会用字状况就要采集测查数据,要保证采集数据的通用性、代表性,必须对实际材料进行科学的抽样、筛选,兼顾不同类别著述的用字特征、不同出版人的用字偏好等,同时,还要准确、高效、全面地将被测查字形从大量的原始文献中提取出来,并进行文字学专业的属性标注、比对、认同、整理,而所有操作都需要研究制定操作规范,在统一的操作规范下实现分散作业。第三,基于字料库的社会用字问题研究,开创了应用文字学研究的新领域,不但需要探索新方法、新思路,同时也会涉及社会用字规范的现实基础及汉字规范对社会实际用字的影响等一系列研究课题。

设计与建设字料库是一项非常艰巨而宏大的系统工程,需要做大量深入细致的工作。在对字料库的功能、充分性和规模等进行充分论证的基础上,要根据字料库的不同分类,研究制订字料属性的标注系统及标注规范,建立字形档案,建立字形间关系网,确定对字料提取的可操作方案以及对字料的组织、存储形式,给计算机灌输更多的语文知识,提高其自动化水平。

字料库所要处理的数据量大,数据结构复杂。基于真实文本的汉字原形的大规模字料库建设在国内外还属罕见,该字料库的建设对海量文字图像数据的存储、管理、筛选以及类聚等技术处理水平都是一个考验。平台的设计也需要一些技术上的突破,目前的大多数软件系统重点支持ISO/IEC 10646体系结构中的基本多文种平面(BMP)的字符,很少提供对辅助平面字符的支持。对在统一的平台上全面整理汉字的需求而言,BMP平面内的65536个编码空间远远不够,实现对非BMP平面字符的技术支持是一项必不可少的重要工作。(原载《中国文字研究》第十四辑)

汉字研究与信息科技的发展

周晓文 李国英

提要:本文主要从汉字的计算机编码和对古今汉字研究手段的更新两个方面谈汉字与电脑之间的关系。社会发展到今天,各学科之间相互交叉、相互渗透,已变成一种重要的科研模式。汉字研究与信息科技的发展两者已经形成了彼此互为发展的条件。

关键词:汉字研究 计算机编码 甲骨文资源一、机遇与挑战

电脑从1946年诞生算起,其历史也不过是60年,在人类发展的历史长河中,60岁简直就是新生婴儿。正是这个新生婴儿颠覆了这个世界,成为了最先进、最时尚的高科技的代表。而汉字的历史呢?从目前人类发现的最早的汉字——甲骨文算起,至今已有3600年的历史。汉字学的研究从汉代的“小学”算起,也已经有了1千多年的历史。汉字作为记录汉语的书面符号系统,被社会共同创造、共同使用,注定了他的生命中带有时代烙印。汉字学的研究也始终伴随着时代的脉搏跳动。汉字学历来被认为是最传统、最基础的学科,她似乎与最先进、最时尚的高科技没有什么必然的联系。但是,20世纪70年代的到来,把一向传统、保守的汉字推到了时代的风口浪尖。最古老的汉字头一次与高科技的精灵发生了划时代的激烈碰撞。20世纪70年代,信息化的巨浪席卷全球,横扫世界每一个角落,也向传统的语言文字学发出了挑战。具有5千年灿烂文化,13亿人口的泱泱大国,能否在信息化的世界屹立,语言文字的信息化处理具有举足轻重的作用。语言文字信息化是我国社会信息化的基础和保障。然而,信息化技术发展速度之快,来势之猛,是我国信息产业界和语言文字学界始料不及的。学界对信息时代向语言文字学提出的种种急迫要求认识不足,了解较晚,人才结构、研究水平适应不了新时代的需求,语言文字学和计算机科学严重脱节,使我国信息化进展速度缓慢,汉语言文字问题已经成了阻挡我国信息化进程的“拦路虎”,成了中文信息处理的“瓶颈”。

另一方面,计算机强大的数据存储、数据处理能力,也给语言文字学的发展带来机遇。传统观念认为,人文科学研究方法是一支笔加一本书,研究成果是一篇论文或一部著作。人文社会科学研究主体的客体性、研究过程的不可验证性、研究结论的多样性和研究对象的复杂性,使人误以为人文社会科学不具有经典意义上的科学性。但是,现代的人文科学研究,正越来越多地借助于日益发展的先进科学技术和手段,对大量的文字资料进行统计和分析,把图像信息转化为图形和数据,把直观、定性分析转化为客观、定量分析,使研究成果更具有严密的科学性。例如:利用计算机强大的数据处理功能,进行汉字构形属性的分析、类聚;用统计学的方法对汉字的发展演变规律作定量的统计描述;利用计算机的图形处理功能和数据库存储、检索等功能,建立古汉字的原形资源库等,这些都为学科研究的深化奠定了基础。同时也为中文信息处理提供了可以借鉴的研究成果。因此,把计算机技术作为教学与研究的重要方式和手段引入人文社会科学领域,本身就是一种学科创新,也为人文社会科学主体的创新发展提供了新的思路和机遇,为汉字学研究带来新的活力和挑战,也加快了对汉字学本体研究的科研速度。二、计算机编码与汉字研究

语言文字是人类创造的特殊“产品”,其自身的特点和发展规律,即和自然界的现象不同,也和人类所创造的其他物质产品、精神产品不同。语言文字的性质决定了语言文字为社会服务的特殊途径和方式。不同时代,语言文字对社会所起的作用和发挥作用的途径各不相同,社会对语言文字的要求也不一样。传统上语言文字的研究成果主要是通过教育体系和社会规范行为对社会生活产生影响,对社会进步起到推进作用。信息社会人类生活依赖数字化的信息资源,语言文字需要在更大范围内传播、交流,语言文字除了具有传统意义上的社会作用之外,还要适应信息化的生存和发展,实现中文信息处理的自动化,否则将会被淘汰。

中文信息处理自动化,首先要实现汉字字符处理的自动化。计算机中没有汉字字符就处理不了汉字,汉字字符数量不够就会影响中文信息的处理。所以汉字问题是中文信息处理的基础。我国1980年制定的国标GB2312-80,给6763个汉字编了代码,那么当时的计算机就只能处理6763个汉字。区区6763个汉字如何能满足中文信息处理的需求!《汉语大字典》收字54678个,《中华字海》更是收字86000多个。而计算机系统到了1993年,才有国际标准化组织发布的《通用多八位编码字符集UCS》ISO 10646,收汉字20902个。从ISO/IEC JTC1/SC2/WG2/IRG第26次会议(2006年6月5日至9日在越南顺化召开)获悉:CJK统一汉字扩充B收录了汉字42,711个,已纳入国际标准ISO/IEC 10646:2003。CJK统一汉字扩充C1项目自2002年在IRG正式启动,预计扩充C1可于2007年下半年通过投票,成为国际标准ISO/IEC 10646的正式组成部分。届时,CJK统一汉字的总量将超过75,000个。CJK统一汉字扩充C1的完成将有利于我国及其他使用汉字的国家或地区在出版印刷、古籍整理、地名管理等领域的信息化建设,成为整个CJK统一汉字项目的又一个重要的里程碑。在本次会议上,我国提出了启动CJK_C2项目和CJK_D项目的建议,并提交了需编码的汉字一览表供IRG各成员编辑预览。根据我国的提议,IRG会议决定在第27次会议上正式启动CJK_C2项目,并在第28次会议上讨论如何启动CJK_D项目。2004年11月在IRG第23次会议上正式将古汉字统一编码纳入工作计划。经过一年半的筹备,在IRG第26次会议上具体安排了甲骨文编码整理工作的工作计划,计划在3年内全部完成甲骨文字形的提交工作。中国是汉字的故乡,理应主导汉字编码字符集的研制工作。我国的出土古汉字甲骨文、金文等,是中华民族宝贵的文化遗产,更是全世界的共同财富。古汉字进入计算机,建立“信息交换用古汉字编码字符集”,对于古籍整理、考古、社会学及文字学等诸多学科的现代化建设以及继承和弘扬中华民族灿烂文化都有重大意义,是实现诸多领域现代化的必要条件。汉字的计算机编码发展到今天除了与计算机技术有关之外,更多的是语言文字问题,尤其是古汉字的计算机统一编码。对古汉字进行计算机编码,汉字研究必须先行,没有对古汉字的先行整理与研究,就不可能产生适合实际需求的、科学的古汉字编码。以甲骨文的计算机编码为例,由于至今所见有关甲骨文的专门字书(如《甲骨文编》、《甲骨文字典》等)出版日期较早,其中或收集字形不全,或对相当一部分文字的摹写及隶释不甚准确。不能直接从中提取字形,必须经过专业工作者对其进行通盘整理,以提取出一个涵盖甲骨文字释读工作最新研究成果的有代表性的字种表。另外,甲骨文形体结构不固定,同时期或不同时期的形体差别均较大。以《甲骨文编》(1965年中华书局出版)为例,该书收录可识或可隶定的单字1723个(见于《说文》者941字),附录2949字,共计4672字,其中每个字头下面的异体字少则几个,多则几百个,其中不但有同字异形者,还有异字同形者,甲骨文字的形体结构不固定,独体字的形式多变,合体字结构松散,书写随意性大,偏旁位置不固定,如一个“祈”字就有如表1所示的多种形体。因此,在字种字样的选取过程中,必须在全面分析、整理甲骨文字形的基础上,建立甲骨文字构形属性数据库,同时制定一系列的选取字种字样的操作规范。因此,对甲骨文计算机字库及编码的研究不仅仅是一个应用问题,同时也是一个理论问题,他不但会涉及到对异体字的处理问题,还会涉及到甲骨文与现代字认同、对甲骨文的释读等诸多文字学方面的处理问题。

汉字能不能在计算机中实现输入、存储、输出是计算机专家的事,而计算机中的汉字好不好用,对他的使用方不方便,则离不开文字学家的研究成果。进入计算机中的汉字越多,就越是需要文字学家对其进行整理,如异体字的认同,笔画、部件的规范、排序等。所以,现代汉字学的研究,加大了面向应用的研究力度,在研究方法上更是结合系统论、统计学、心理学等多种学科,按照自然科学的方法对汉字系统进行定量分析研究。表1 “祈”字甲骨文字形三、汉字研究与计算机技术

技术方法上的重大突破或创新,必然导致学科研究的巨大发展。20世纪70年代以来,对计算机的广泛应用使科学研究在工具上出现了革命性变革,方法上也有了重大的突破。计算机信息处理技术通过对数据的分析、整合、模拟,极大地拓宽了人类对科学认识的视野,使人类的目光从个体转向整体,从分离的独体转向联合的系统,从对存在的研究转向对演变的、历史的过程研究。信息革命也使人文学科彻底改变了传统的、基于卡片的、作坊式的手工操作方式,使人文学家学会了超越直觉,在丰富多彩的大规模真实文本的统计数据中寻找汉字演化特征和发展的一般规律。信息技术给语言文字学的研究带来生机,给学科研究领域注入了活力,也使众多语言文字学家走出金字塔卷入时代的浪潮,投身语言文字应用的前沿阵地。

目前,利用计算机技术对现代汉字进行研究,已经成了平常之事。汉字系统中个体字符透过自身所具有的各种属性与系统保持关联,系统又通过各种属性将字符组织在系统内。从构形的角度看,构件是字符间联系的纽带,具有相同构件的字符构成一个子集,该子集中的字符又可依同源、同义类、同声类等属性分出远亲与近邻关系子类。字符之间各种错综复杂的属性关系交织在一起,用传统的方法很难描述,现在我们借助计算机数据库技术,建立汉字属性关系数据库,可以方便、快捷地类聚出各种属性子集,以便进一步的分析研究,如图1所示:通过软件筛选出的部分含有构件“木”的汉字列表。我们还可以利用计算机的人—机交互功能、多媒体技术等,生动、直观地展示出汉字形体生成、演变及拆分的动态过程,图2展示的是汉字“糙”字的层次结构图。图1 含有构件“木”的字形类聚图2 现代汉字序列自动拆分

甲骨文自1899年被发现,至今已经107年了。一百多年来,甲骨文研究的重要成果主要集中在识字、通读、断代、著录以及研究商史等几个方面。甲骨文已先后出土15万多片。历年著录甲骨资源的专书有近百种,著录甲骨七万多片。郭沫若主编、胡厚宣负责编辑的《甲骨文合集》则是甲骨著录和缀合的集大成之作,共13巨册,其中收录有字甲骨4万余片。如此浩瀚的出土资源,由于印刷价格昂贵,致使收藏不便,查找困难,使用受限。除少数研究单位资料比较齐全之外,各高等院校均或多或少地存在资料匮乏现象,给甲骨文的普及和研究造成极大困难。

胡厚宣先生在其编著的《五十年甲骨学论著目》的序言中说:“……真正科学的甲骨学研究,至多是刚刚开始、也许还尚待起头。……尽管我们已经不再一个字一个字的乱讲,一句话一句话的瞎猜了。但我们对于这一批丰富的甲骨材料,并没有能够应用最科学的方法,去统计,考证,比勘,分析,解释,作一种精密的研究。我们虽然已经开始作所谓通盘全部的彻底整理,但这只是刚刚开始,而且应用的人还不多。”可以想象,用传统的卡片方式通盘整理如此浩瀚的资源谈何容易。信息技术的发展为出土资源的全面收藏、整理和高效使用提供了条件。如何在信息化时代使这些宝贵的资源更好的被使用,发挥其更大的作用,便于更多人从多方面开展更深层的研究,成为我们面对的新问题和新任务。同时,甲骨文资源信息化的实现,也对计算机数字化技术,尤其是文字信息处理技术,提出了新的要求。

借助计算机手段,我们以甲骨文拓片和文字两个原形资源库、释文和属性两个数据库为基础,建立甲骨文资源管理平台,可以实现全方位的资源管理、存储、数据查询、资料类聚和资源系联等功能。数字化的管理平台基本功能包括原始拓片(参见图3)、单字原形真实再现和快速检索(参见图4);释文以及相关拓片、文字属性的交叉引用、索引、查询、资源类聚(参见图5)以及数据的批量输出。平台提供开放式资源管理功能,可以随时添加新的研究成果,新的出土资源。该平台以收集资料全面、专业性强和使用方便为其追求的目标。因此不但对甲骨文的自身学科建设,而且对提高计算机处理出土资源、处理古文字的能力都具有促进作用。可以通过该平台的研制,探索一条用计算机处理古文字资源管理的新途径,挖掘借助现代化技术进行资源整理、资源利用,促进学科发展、深化学科建设的新方法。图3图4图5 甲骨文字原形类聚

总之,语言文字学的科学研究与信息科技的发展关系越来越密切,两者已经形成了彼此互为发展的条件。中文信息处理的发展离不开语言文字学的基础研究;语言文字学研究的深化也要借助于中文信息处理技术水平的提高。语言文字学的研究要为中文信息处理服务;反之,信息技术的发展也改变了语言文字学的研究手段,促进了语言文字学的发展。语言文字从来没有像今天这样成为某种产业的生存要素,成为众多产业的生产资源,成为信息处理中的关键因素,学科本体的研究也从来没有像今天这样依赖于某种技术手段。目前,语言文字学的研究还远远满足不了信息处理的需求,跟不上信息处理技术发展的速度,为了提高我国中文信息处理的整体水平,确保国家在未来国际竞争中的地位,全社会必须同心协力,关心和支持语言文字学的研究。愿中国的语言文字学能够乘信息处理的翅膀展翅高飞。

参考文献:(1)王宁:《汉字研究与信息科学技术的结合》,《励耘学刊(语言卷)》,2005年第1期。(2)钱学森:《电子计算机软件与新时期语言文字工作》,《语文建设》,1994年第5期。(3)许嘉璐:《语言文字学及其应用研究》,广州:广东教育出版社,1999年。(4)周晓文、李国英:《建立“信息交换用古汉字编码字符集”的必要性及可行性》,《北京师范大学学报(社会科学版)》,2006年第1期。(5)周晓文:《古文字字库的设计与实现》,《民俗典籍文字研究》第一辑,北京:商务印书馆,2003年。(原载《中国文字研究》,2007年第二辑,总第九辑)

汉字效用函数研究

周晓文 李勇

提要:周有光先生提出的汉字效用递减率在规范汉字、信息处理、识字教学等领域发挥了巨大作用,具有广泛的指导意义。本文在语料库数据测查的基础上,用概率统计的数学方法对汉字效用函数进行描述,以便更好的指导应用。

关键词:汉字效用 累积频率 数学模型一、汉字效用递减律

从至今为止发现最早的甲骨文开始算起,汉字已经有了三千多年的历史。从古至今,汉字的字数无论是字种数还是字形数,总共有多少?这个问题很难回答。在这样漫长的历史时期内,汉字经历了由甲骨文、金文、战国文字、小篆、隶书直至楷书的多个历史阶段的变化,不同时期的汉字有不同时期的特点,用字的数量也不同。据《汉语大字典》所附《历代部分字书收字情况简表》提供的数据:我国现存的第一部楷书字典,南朝梁顾野王著《玉篇》(公元543年),收楷书字形22726个。宋司马光等著《类篇》(公元1066年),收字形31319个。明张自烈著《正字通》(公元1671年),收字形33549个。清张玉书等著《康熙字典》(公元1716年),收字形47035个。民国陆费逵等著《中华大字典》(公元1915年),收字形48000个。徐中舒主编《汉语大字典》(公元1990年),收字形54678个。中华书局和中国友谊出版公司出版的《中华字海》(公元1994年),收字形86000多个,成为迄今为止收字最多的字书。

从上述字书的收字量看,汉字是不断增多的,而且增加的幅度很大。但是,通常字书收字以贮存为目的,所收字形具有历时性,并非某一时代的实际用字。单就一个时代而言,实际使用的字数并没有这么多。周代遗留下来的主要文献是十三经,据《十三经集字》统计,十三经共用单字6544个。西汉司马迁著《史记》全书572984字,使用单字4953个。1965年1月由文化部和中国文字改革委员会联合发布的《印刷通用汉字字形表》收字6196个。1981年国家标准局发布的《信息交换用汉字编码字符集.基本集》收字6763个。1977年国家出版局组织一千多人对现代书报刊物上的2100万个汉字的使用频率进行统计,得出不同单字6335个。据另一种统计,掌握了3800个汉字,就能阅读一般书刊内容的99.9%左右;掌握了5200个汉字,就能阅读一般书刊的99.99%左右。此外,从汉字构词能力的角度来看,据中国人民大学语言文字研究所统计,4990个汉字就“构成了《现代汉语词典》中的几乎所有的词”。

从另一方面看,字书或字典里的字是静态的,是处于贮存状态的字。贮存状态的字是平等的,而进入运用状态的字是动态的、是不平等的。所谓不平等是指在实际使用中出现的频率不同,效用不同,重要性也不同。少数字出现频率高属常用字,多数字出现频率低属罕用字,汉字的使用频率有高有低,差别悬殊,一个汉字的使用频率越高,效用越高。

频率是汉字的字用属性,个体汉字的使用频率不是平均分布的,我们从语料库的字频统计中,可以看到汉字在语料范围内的使用频率分布状况。国家语委的现代汉语平衡语料库(简称语委语料库)按年代、文本体裁、内容主题、类别等多方面平衡的原则,收录了1919年至2002年的语料9100万字,除去其中掺入的文言部分,其中现代汉字4700万字,不重复的汉字8181个。该语料库的规模和多方面的平衡性,能够基本保证字频统计符合现代汉字使用的实际情况,从而保证字频统计数据的可信度。

我们把语委语料库中8181个汉字在4700万样本中出现的频率依降序排列,并绘制累积覆盖率分布图,如下所示:图1

从图1可以看出,前2000字左右的高频字其累积覆盖率增长迅速,而3000字以后的累积覆盖率变化不大,基本趋于稳定。从分布图中也可以大致看出,现代汉字的基本常用字字数大约在3000字左右。前3000个高频字的累积覆盖率已达99.226%,也就是说在该样本的4700万汉字语料中有99.226%的字是由这前3000个汉字构成的。而当字数增加到4000字时,累积覆盖率是99.779%,只增加了0.553%。由此可见,将汉字依使用频率降序排列,则随着低频字的增加,汉字的覆盖率增长缓慢。

1980年周有光先生在“现代汉字学发凡”一文中总结出,汉字出现频度的不平衡规律(大致如下):

其后又多次强调指出:“汉字的使用效率是很不平衡的。各家的频率统计互有出入。斟酌于各家之间,得到如下的规律:最高频1000字的覆盖率大约是90%,以后每增加1400字大约提高覆盖率十分之一。这叫做‘汉字效用递减率’。”“值得注意的是,比较常用的3800个字占出现总字次的99.9%,而此外2800个字只占0.1%。这是一条可供选择的‘常用字’和‘非常用字’的界线。”汉字效用递减率理论为执行常用字提供了科学依据,递减率在汉字规范、信息处理、识字教学等领域发挥了巨大作用,具有广泛的指导意义。周有光先生给出的汉字效用递减规律数据,是一种描述性的数据,对社会应用具有指导作用。但是,从可操作性角度看,我们需要在测查数据的基础上,用数学的方法对汉字效用递减率进行刻画,以便更好的指导应用。

在实际应用中,无论是制定国家规范还是在汉字教学中,所选字数并不是越多越好,相反,需要求得一个适合使用的最小量,也就是说,累积频率高而字数却少才是理想的。在实际操作中,如果字符集的累积覆盖率的增长率低于某一较小的阈值,我们就认为该字符集的累积覆盖率达到了稳定状态,而覆盖率的增长率首次低于所给定阈值时的点(字数)称为最小稳定点。例如:在语料库字频统计的基础上,我们以出现频率降序排列的用字量为横坐标;以相应字符集的累积覆盖率为纵坐标形成曲线,确定曲线中某点的覆盖率达到99.1%而增长率首次低于所给定阈值0.01时的点为最小稳定点,则这个点前面的汉字为基本常用字。用这种办法,测查几个语料库的结果是:国家语委现代汉语平衡语料库不重复用字8181个,达到最小稳定点字量为2879个;北京语言大学现代新闻媒体动态流通语料库不重复用字7697个,达到最小稳定点的字量为2522个;教育科普综合语料库不重复用字5992个,达到最小稳定点的字量为2818个。由此可见,语料中字符的出现频率具有随机性。因此,我们希望能用概率统计的方法找到汉字效用函数f(x),且能证明函数f(x)是严格递减函数,使汉字效用递减规律具有科学性和可操作性。二、字符集的单边置信下限及函数拟合

设K是由使用汉字构成的一个字符集合,对任意一个汉字s,这个汉字可能出现被使用,即s∈K;也可能不是,即sK。用p(K)表示s属于K的概率,即s出现的概率,我们称之为字符集K的出现概率,简称为出现率。我们希望对所构造的字符集K来说,其出现率越大越好;同时也希望这个字符集中的字数越少越好。因此,我们对字符集的出现率和字数的要求是一对矛盾体,不可能使得两个要求同时达到最优,只能在出现率和字数之间求得平衡。为解决这一问题,我们借用统计学家Person的假设检验思想,在优先保证字符集出现率的条件下使得其字数尽可能的少。

下面以国家语委现代汉语平衡语料库的4700万汉字的数据为基础说明建立字符集的原理。我们从该语料库中获得了8181个不重复汉字及其各字的出现频率数据。为了使得字符集中的汉字数尽可能的少,且出现率尽可能高,我们收取语料库中的高频字进入字符集。因此为确定一个字符集,只需确定其所包含的高频字的字数。通过条件p(K)⩾0.99所确定的字符集K的字数,就能保证该字符集的出现率高于99%。

对任意一个汉字,该字是否属于该字符集,这是一个概率问题。现在的问题是:p(K)——任意一个汉字属于K的概率,是一个未知的量,需要用随机样本数据来估计它。众所周知,可以用字符集K出现的累积频率来估计其出现的概率,但是累积频率的计算依赖于所收集的样本,不同的样本所得到的累积频率不同,即累积频率是一个随机变量,因此用累积频率估计概率存在随机误差。为控制这种随机误差,我们采用出现率的单侧置信下限(而不是直接用累积频率)来确定字符集的字数。

取置信水平为1-α,则出现率单侧置信下限

β(n,n-n+1)表示以n和n-n+1为参数的Beta分布的下α分αssss位点,而n为字符集K中所有字的频数之和,在这里n=47000000是s样本容量。出现率单侧置信下限的统计学解释如下:能够以1-α的可信度认为出现率大于相应的置信下限,即出现率小于或等于置信下限的概率不超过α。

以往我们根据累积频率这一单一指标确定字符集的大小,如果要求累积频率高,则多取些字进入字符集,否则就可以少取些字。因为频率是个随机变量,来自不同的样本会产生不同的频率,而对于所选取的字符集,其出现率真正能达到多少?没有一个确切的底线。出现率单侧置信下限p表示的就是:如果用该方法选定字符集,则可以以L1-α的可信度使得该字符集出现率高于p,即p是该字符集出现率的LL下限。

如令0.95=β(n,n-n+1),即要求出现率不低于0.95,则可αss以通过Beta函数计算出n,从而确定字符集的字数m。而且,这样确s定的字符集能用保证以1-α的可信度使得该字符集出现率高于0.95。

若取可信度为99%,即显著水平为0.99,α=0.01,当m满足下列条件时,即:

则字符集的字数就是m,而且,由这m个高频字构成的字符集,以99%的可信度保证其出现率高于0.99。

在下面的讨论中,我们取可信度为99%,即显著水平为0.99。可以借助MATLAB数值计算软件中的Beta分布函数计算模块计算p(k)的值,从而画出出现率单侧置信下限p(k)的折线图如下:LL图2

p(k)是由前k个高频字所估算出来的出现率单侧置信下限,是L有限离散数据。为了更好地研究字符集字量选取与字符集出现率之间的关系,我们希望为出现率置信下限建立数学模型,以便可以用更多的数学工具研究p(k)的性质。L

现在需要建立数学模型来拟合数据(1,p(1)),(2,Lp(2)),(3,p(3)),……(8181,p(8181))。根据数据分布LLL的几何特征,我们选用如下数学模型

来拟合上述数据,其中Γ为伽玛函数;而a和b为模型参数,其值需要通过样本数据来估计。对现代汉语语料库样本来说,公式3中参数的估计结果为a=748.814,b=0.487,即所建立的拟合模型为

我们称公式3为出现率下限函数,简称出现率函数。三、汉字效用函数

汉字出现的次数,随着语料的增加而递增,但是,字符集累积频率和出现率下限函数并不是随着字集的字数的增加而匀速增长,字数越多增长越慢。从图2可以看出,当字符集所包含的高频字的字数到达3000以后,出现率下限函数基本上趋于平直,即出现率下限函数增长极其缓慢,这就是汉字使用效率递减的规律。以往我们认为汉字效用递减率只是一个趋势,这个规律对汉字的定量、规范工作有启示作用,但是并没有从数理的角度对其进行进一步的深入探讨。下面我们利用公式3出现率函数对汉字效用递减率进行探讨。

在99%的置信水平之下,对于任何x,y〉0,

表示字符集的字数由x增加到x+y时,字符集出现率的平均增加量,我们称之为该字符集在x点处的y平均效率。显然,公式5的比值越小,表示平均效率越低、出现率增长越慢、所增加的字使用率越低、也就是越不常用。字频是一个连续的过程,多少次以上算常用字,多少次以上算次常用字,多少次以下算罕用字,这些会因为研究者以及研究的材料不同而不同。也就是说在划定常用字、次常用字、罕用字界限的时候常带有人为的主观性。我们可以通过经验来确定一个阈值,使得构建字符集的过程中,对平均效率有一个直接的参照点。一旦x点的y平均效率低于这个阈值时,就停止向字符集中添加字数,从而保证该字符集的y平均效率高于这个阀值。接下来的问题是x点的y平均效率与y有关,因此,由上述方法确定出的字符集也与y有关,到底采用什么样的y合适呢?这个问题难以解决。

为摆脱上述问题的困扰,我们采用另一种途径构建字符集。令

该极限就是99%置信度所对应的出现率下限函数在x点的导数。f(x)代表在扩充字符集的过程中,扩充到x字时的瞬时扩充效率,我们称之为在x处的效率函数,也就是汉字效用函数,即汉字效用依函数f(x)规律变化。对公式4出现率函数表达式求一阶导数,可以得到效用函数

效用函数f(x)图像如下图所示:图3

易证明f(x)是严格递减函数,并且当x趋于无穷时其极限为0。若用f表示扩充效率阀值,即对于给定的f,可以通过解方程00

求得x,使得由m=[x]+1(其中x表示x的整数部分)个高0000频字组成的字符集,能以99%的可信度满足高于p(m)的出现率单L侧置信下限。四、汉字效用函数的应用

如此建构的汉字效用函数具有可操作性,用汉字效率函数构建字符集的过程如下:

1.由专家根据需要确定扩充效率阈值f。0

2.求方程(公式7)的解x。0

3.用m=[x]+1个高频字构成字符集,其中x表示x的整数部000分。

4.计算p(n),并给出结论:能以99%的可信度认为所构建的L字符集能以高于p(n)的概率满足使用的要求。L

可将扩充效率函数在整数点的值列为表格,通过查表就可以得到方程(公式7)之解的整数部分。下表给出了部分扩充效率函数和出现率函数的值。从表中可以查出,若取扩充效率阈值f=0.00001,0则方程的解的整数部分为2721,从而由2722个高频字构成字符集,能够以99%的可信度认为该字符集至少能够以0.9933的概率出现在语料中;若取临界值f=0.000001,则方程的解的整数部分为4272,从0而由4273个高频字构成的字符集,能够以99%的可信度认为该字集至少能够以0.9993的概率覆盖语料;若取临界值f=0.0000001,则方0程的解的整数部分为5874,从而由5875个高频字构成的字符集,能够以99%的可信度认为该字符集至少能够以0.9999的概率覆盖语料。表1

参考文献:(1)陈明远:《数理统计在汉语研究中的应用》,《中国语文》1981年第6期。(2)李勇:《统计学导论》,北京:人民邮电出版社,1997年。(3)刘连元:《现代汉语语料库研制》,《语言文字应用》1996年第3期。(4)郑明:《数理统计讲义》,上海:复旦大学出版社,2007年。(5)周晓文、王晓明:《数理统计方法在汉字规范中的应用》,《语言文字应用》2008年第2期。(6)周有光:《现代汉字学发凡》,《语文现代化丛刊》1980年第2期。(7)周有光:《现代汉语用字的定量问题》,《辞书研究》1984年第4期。(8)周有光:《中国语文的时代演进》,北京:清华大学出版社,1997年。(原载《语文研究》2009年第1期)

【词汇与训诂】

论字典义项误设

李国英

提要:建立可靠的义项是编写辞书的基本要求。由于种种原因,古今汉语辞书中存在相当数量错误设立的虚假义项。以《汉语大字典》及相关辞书建立义项的客观材料为对象,在具体考证的基础上,归纳出因校勘不审而误立义项;误解训释方法而误设义项;据讹形臆推字义而误立义项;误解古训而误立义项等几种误立义项的类型,初步总结字典误设义项的主要原因,为消除虚假义项奠定理论基础。

关键词:字典 义项 误设

所谓义项,就是词义的分项。字、词典的核心任务就是把字、词的概括意义分项表述出来,并提供例证证明所释义项的客观性。因此,字典释义的基础工作就是建立义项。建立义项必须有客观的依据,科学地反映字、词意义的客观实际。所谓误立义项就是字书中建立的义项是客观语言中实际并不存在的虚假义项。字典设立了虚假义项,就会给读者提供虚假信息,不仅不能为读者提供帮助,相反,还会误导读者。因此,能否消除虚假义项,是关系到字典质量的一个重要问题。《汉语大字典》(以下简称《大字典》)是一部以解释古今汉字的形、音、义为主要任务的大型语文工具书,收字总量达54678个,所建立的义项数目粗略估计在10万以上,所使用的文献资料包括主要引用书目2659种,参考书692种,文献资料的时间跨度从先秦文献到当代文献,文献资料的类别包括了原创文献,历代注疏和各类工具书等不同形式,其处理资料数量之庞大,内容之复杂可见一斑。处理这样浩繁复杂的文献资料,《大字典》编写组付出了异常艰辛的劳动,也取得了不少超越前代字书的成绩。但也不可避免地存在一些问题,尤其是

误立义项的情况比较严重,其中既有《大字典》自身新出现的错误,也有前代字书已误,《大字典》未加订正,以讹传讹的情况。本文选择《大字典》为对象总结字典误立义项的主要原因,目的不在批评,主要希望总结出一些规律,为今后编写字典提供借鉴,其中有关具体字误立义项的考辨也可供修订《大字典》参考。

字典误立义项主要有以下几种情况:一、因校勘不审而误立义项

字典设立义项的主要根据是古代的文献资料。古代文献一般时代久远,经过反复传写,讹衍倒脱,各种错误,在所难免。因此,编写字典时,首先要对使用的古代文献详加校勘,特别要详细考察字书传承的源流,以便恢复古书的真貌,为建立义项提供可靠的资料。如果校勘粗疏,不能探本溯源,根据误本建立义项,就有可能建立虚假义项。如:狨,③同“绒”。细布。《广韵·东韵》:“狨,细布。绒,同狨。”

按:《大字典》据《广韵》给“狨”字设立了义项“细布”,“狨”字从犬而训“细布”,形义不相切合。今考周祖谟《广韵校刊记》卷一:“元泰定本、明本作‘狨,猛也。绒,细布。”’《集韵·东韵》而融切:“绒,兽名,禺属,其毛柔长可藉。通作戎。绒,布细者曰绒。”《类篇》同《集韵》。可证《大字典》所据《广韵》“绒”字后脱义训,与“绒”误合为一条,当校正。《大字典》据《广韵》误本径立“细布”为“绒”字义项,造成了误设义项的错误。二、误解训释方法而误设义项1.不明形训而误设义项

陆宗达、王宁先生在《训诂方法论》中曾经给形训下了明确的定义:“与字形相贴切的意义训释叫形训。形训表明依义造字的意图,一般是说明本义的。”两位先生在《〈说文解字〉与本字本义的探求》一文中还明确区分了解释本义的形训中包含了造意和实义两种性质不同的内容,指出:“造意指字的造形意图,实义则是由造意中反映出的词的实际本义。造意仅仅是对字形加以描绘,以便从中显示实义,它有时只是实义的具体化、形象化,并非真正在语言中使用过的词义。”字典所列义项要反映客观词义,而形训中的造意不是在语言中真正使用过的词义,因此不能把解释造意的形训直接列为义项。《大字典》未能严格区分形训中造意与实义的区别,常把反映造意的形训直接列为义项,造成设立义项的错误。如:齐,(一)①禾麦吐穗上平整。《说文·齐部》:“齐,禾麦吐穗上平也。”段玉裁注:“禾麦随地之高下为高下,似不齐而实齐,参差其上者,盖明其不齐而齐也也。引申为凡齐等之义。

按:“齐”的客观词义是平齐,文献中从来没有“齐”专指“禾麦吐穗上平”的用法。《说文》的训释说解的是造意,旨在说明“齐”字的构形理据是依“禾麦吐穗上平”的具体物像来体现“平齐”的抽象意义,因此字形本身描绘的就是“禾麦吐穗上平”的形象。段玉裁误以《说文》所训为本义,以文献中使用的意义“齐等”为引申义。《大字典》受了段玉裁的误导,列“禾麦吐穗上平整”为第一义项,导致误设义项的错误。不,(二)①鸟向上飞翔貌。《说文·不部》:“不,鸟飞上翔不下来也。”

按:“不”的客观词义是否定词,文献中没有“不”字作“鸟飞上翔不下来”的例证。《说文》的训释为形训,谓小篆“不”的构形,上面的一划代表天,下面的部分像飞向天空的鸟,表达的是鸟飞向天空不下来的情景,这正是构形理据的解说,许慎通过形训解释的概括词义当为否定词。段玉裁注:“凡云不然者,皆于此义引申假借。”误同齐字说解。根据甲、金文的资料和古文字学的研究,许慎说解“不”字构形并不可靠。《大字典》据《说文》不甚可靠的形训,设义项“鸟向上飞翔貌”,于文献无徵,与《说文》亦不合。至,(一)①鸟从高处飞到地上。《说文·至部》:“至,鸟飞从高下至地也。”

按:此亦为构形理据训释。许慎释“不”、“至”两字相反为意,谓小篆“至”的构形,下面的一划代表地,上面的部分像飞落地上的鸟,取鸟从高处飞至地之意,其概括词义当是“到达”。段注:“凡云来至者,皆于此义引申假借。”亦以许慎说解的造意为实义。《大字典》据《说文》形训立义项“鸟从高处飞到地上”,亦承段氏之误。2.不明声训而误设义项

声训是一种特殊的训释方式,它的主要功能“是通过同源词来显示词义特点即词源意义”。声训与以表述词的使用意义为目的的义训有本质区别。一般说来,义训的训释词是解释被训释词的客观词义的,一个完整的或常态的义训,训释词与被训释词之间具有同义关系。而声训的训释词是解释被训释词的音义来源的,与被训释词不具同义关系。因此,以解释客观词义为目的的字典在运用声训资料作为设立义项的依据时,不能把声训的训释词与被训释词理解为同义关系。《大字典》在运用声训资料时有相当一部分直接根据训释词设立义项,造成设立义项的错误。如:丑,③纽。《释名·释天》:“丑,纽也,寒气自屈纽也。”《说文·丑部》:“丑,纽也。”段玉裁注:“《系(引者按:当作系)部》曰:‘纽,系也。一日结可解。’十二月阴气之固结已渐解,故日纽也。”

按:《释名·释天》:“丑”与天干地支为一组,其词义即“地支的第二位”。《释名》、《说文》以“纽”释“丑”皆声训。古代以十二地支代表一年的十二个月,《释名》释十二地支得名之由,皆以其所代表月份的气候与物候特点为说,如“子,孳也,阳气始萌孳生于下也。寅,演也,演生物也。卯,冒也,载冒土而出也。……”“丑”代表阴历十二月,十二月天气已寒,故《释名》以“纽”释之,“纽”取“扭结”义,谓“丑”为寒气扭结的季节,非谓“丑”有“纽”义。《大字典》误声训为义训,以为“丑”与“纽”同义,错误地设“纽”为义项。退,⑩坠。《释名·释言语》:“退,坠也。”

按:《释名·释言语》:“进,引也,引而前也。退,坠也。”《释名》“退”与“进”相对,“退”即“后退”义。《易·乾》:“知进而不知退”是其义。《释名》以“坠”释“退”,为声训。《释名》未解训释词取义,或有脱文,但其立说之意尚可推断。刘熙谓“退”源于“坠”,“坠”取“坠落”义,“退”即坠落而回。“进”与“上升”通,“退”与“坠下”通。非谓“退”即有“坠”义。《大字典》误声训为义训,以为“退”与“坠”同义,错误地设“坠”为义项。3.因不明义训而误设义项“义训的目的是对巩固在词里的客观内容加以揭示。”“训释的总规律是利用词际和义际的异同关系,使被训词和训释词语达到尽可能严密的对当和统一。”因此,一般来讲,训释词所释应该是被训词使用过的义项,根据训释词的意义来确定被训词的意义,也是通常确定词义的办法。但是,这只是问题的一个方面。另一方面,由于汉语汉字之间的复杂关系与训释方式的多样性,造成古代训释中义与训的复杂关系,一般说来,训并不等于义,同训不一定同义,训释词的意义也不一定等同于被训释词的意义。特别是《尔雅》、《广雅》一类的“雅类”训诂专书,有自身的训释体例,相当一批雅书训释词着重揭示被训释词的词义特点,训释词的意义并不完全等同于被训释词的词义。利用这样的材料确定义项时要对训释词与被训释词的意义关系进行核证,确实有同义关系的才能作为确立义项的依据。如果不加核证,简单地根据训释词的意义给被训词确立义项,就有可能造成错误。《大字典》由于没有注意到‘雅书”的特点,犯了不少错误。如:,坑。《广雅·释水》:“,坑也。”王念孙疏证:“者,空大之名。犹洪也。”

按:《广雅·释水》:“、洫、畎……川,坑也。”“坑”的本义是“沟壑”,它的特点是低下虚空。《广雅》以“坑”为训释词,主要揭示被训释词具有“低下虚空”的特点,非谓被训释词与“坑”同义。如“”字,王念孙疏证:“,字亦作谼,《玉篇》:‘谼,大谷名。’《广韵》云:‘大壑也。”’是“”为“谼”的异体字,义为“大谷”,大谷有“低下虚空”的特点,但不与“坑”同义。《大字典》据《广雅》释“”为“坑”,未沟通“”与“谼”的异体关系。州,⑦官舍。《广雅·释官(引按:当作宫)》:“州,官也。”王念孙疏证:“谓官舍也。”郡,②官;郡守。《广雅·释宫》:“郡,官也,”王念孙疏证:“谓官舍也。”《汉书·董伸舒传》:“故广延四方之豪俊,郡国诸侯公选贤良修洁博习之士,欲闻大道之要,至论之极。”颜师古注:“郡,郡守也。”县,(二)①国。《广雅·释诂四》:“县,国也。”②官府。《广雅·释宫》:“县,官也。”王念孙疏证:“皆谓官舍也。”

按:《广雅·释宫》:“州、郡、县、府、廷……官也。”王念孙疏证:“皆谓官舍也。”“官舍”即“官署”,指官员办公的处所。《礼记·玉藻》:“凡君召以三节,二节以走,一节以趋,在官不俟屦,在外不俟车。”郑玄注:“官,谓朝廷治事处也。”《广雅》以“官”释“州”等,非谓“州”等即是“官舍”义,而是说明他们同属同一义类,谓“州”有“州之官署”,“郡”有“郡之官署”,“县”有“县之官署”之义。《大字典》误解《广雅》训释及王念孙疏证,释“州”为“官舍”,释“郡”为“官;郡守”,释“县”为“官府”,皆误。“州”无“官舍”义,“郡”无“官”义,“县”无“官府”义,皆因《大字典》误读《广雅》而误立义项。《大字典》又据《汉书》释“郡”为“郡守”,“郡守”即郡的行政长官,不当与作“官署”解的“官”列为同一义项。《大字典》又据《广雅》给“县”字设义项“国”,亦误。《广雅·释诂四》:“州、郡、县、道、都、鄙、邦、域、邑,国也。”此条训释词“国”泛指行政区划或地域的意义,作被训释词的类名使用,与被训释词无同义关系。《大字典》“县”(二)③“行政区划单位名”,已释此义,不当再列“国”为义项。三、据讹形臆推字义而误立义项

汉字在书写过程中会不断发生形体变异,一般说来,汉字的书写变异应该是一个渐变的过程。但是,大量的渐变不断积累,就会使经过多次变化的字形和原初字形产生较大的形体差别,甚至形体发生讹变,给字的认同造成障碍。对这样的字,编写字典时应该详细考察字形的流变过程,沟通讹形与原初字形的关系,这样才能保证训释的准确。但是,在编写字书时,编写者常常不能遵循这个原则,在未能沟通字形关系,没有文献根据的情况下,主观地根据讹变的形体臆推字义,也是造成误立义项的一个主要的原因。如:虑,(一)bi4《玉篇》房七切。愁貌。《玉篇·虍部》:“虑,愁貌。”

按:此字疑点甚多。其一,就形音义关系而言,形体与读音不相切合。字从虍从心,据《玉篇》所释音义,似以心为意符。但是,若以心为意符,则虍为声符,而声旁虍与“房七切”的读音不相切合。其二,就归部而言,此字训“愁貌”,而归入虍部,亦与《玉篇》的归部原则不合。其三,此字位于《宋本玉篇·虍部》部末最后一字,又不见于《篆隶万象名义》,为后增字,《玉篇》的后增字误字较多。其四,时代相近的字书如《切韵》系韵书、《类篇》、《龙龛手鉴》等均未收此字。可断定此字为增补《玉篇》者误增字。今考“虑”即“虙”字之讹,因形讹而误增义训。《说文·虍部》:“虙,虎貌。从虍,必声。”《广韵·屋韵》房六切:“虙,古虙羲字。《说文》云:‘虎貌。’又姓,虙子贱是也。”“虙”字从必得声,《玉篇》的“房七切”正“必”旁的读音。盖《玉篇》的增字者不知“虑”即“虙”字之讹,误以讹误的声旁为义旁,并据此误推义训。字入《虍部》而义训“愁貌”,《正字通·虍部》:“虑,虙字之讹。旧注:‘音弼。愁貌。’误。”张自烈已知“虑”为“虙”之讹,《大字典》未加详考,以讹传讹。,fu4《集韵》芳六切,入屋敷。水。《集韵·屋韵》:“,覆水。”

按:“覆水”义不可通,诸书亦未见“”字,当即“覆”字之讹。《说文·襾部》:“覆,覂也。一日盖也。从襾,復声。”“覆”本从“襾”,俗书“覆”或讹从“雨”。《广碑别字》引《魏李超墓志》“”、《隋修七帝二寺碑》“”、《唐右龙武将军张德墓志》“”等皆其例。《说文·襾部》:“覈,实也。考事襾笮邀遮其辞得实曰覈。从襾,敫声。,覈或从雨。”徐灏《说文解字注笺》:“从雨者,俗书讹体。盖沿霸做覇而互误耳。”朱骏声《说文通训定声》:“从雨者,字之讹。”王筠《说文句读》删去“”字,注日:“汪刻小徐本无此字,是也。从雨不成义。”《说文释例》:“覈之或体当删,从雨何义哉?正如霸字讹为覇矣,皆不知六书者妄作也,《玉篇》亦不收。”徐、朱、王说可从,“覈”字从“雨”,义无所取,当为形近而讹的讹体。然小篆“襾”旁与“雨”旁形体差异尚大,无由混误。疑“覈”讹作“”当在隶书,“”篆或由隶书篆化而成。此亦可作“”为“覆盖”字讹体的旁证。《集韵》作者不知“”为“覆”字之讹,据形近而讹的“雨”旁臆推字义,误增覆水一训。四、误解古训而误设义项

古代训释是字典确立义项的主要依据之一,字典根据古代训释确立义项时,要准确把握古训的意义。误解古训,也会造成误设义项。如:,ang2《广韵》五刚切,平唐疑。又五浪切,五朗切。阳部。④白腹。《类篇·马部》:“,马白腹谓之。”

按:“”即“骝”字异体“駠”之讹。“”字见《说文》。《说文·马部》:“,,马怒貌。从马,卬声。”即“昂”字之分化,本无“马白腹”之训。此训最早见于《类篇》,《类篇·马部》:“,鱼刚切。,马怒貌。一日马白腹谓之。”后出宇书多承其说,《字汇·马部》:“,五剛切,音卬。,马惊怒貌。又马白腹谓之。”《正字通·马部》:“,吾郎切,音卬。《说文》:‘,马怒貌。’一日马白腹。”郭忠恕《佩觿》始分“”、“駠”为二字,《字汇补》从之。《字汇补·马部》:“,力由切,音留。马白腹。案郭恕先《佩觿》:‘,五郎翻。千里驹也。,力由翻。马白腹也。《字汇》误以二义为一字,俱注於字下,特别出之。”今按郭氏所分甚是,训“马白腹”之“”实即“骝”字异体“駠”之讹,所谓“马白腹”之义亦由误读《尔雅》所误增,“骝”字本无此义。《诗·大雅·大明》:“驷騵彭彭。”毛传:“駵马白腹,騵。”《尔雅·释畜》:“駵马白腹,騵。”编字典者误读《尔雅》作“駵,马白腹”,又误认“駵”为“”,此即《类篇》“”字收“马白腹”义项的来源。此字形音义皆误,而历代字书不能考镜源流,谬种流传过千年矣。链,①铜属。《说文·金部》:“链,铜属。”②铅矿。《广雅·释器》:“铅矿谓之链。”《玉篇·金部》:“链,铅矿也。”④丱。《集韵·仙韵》:“链,丱也。”

按:“链”为铅矿石,本借“连”字,后加金旁造“链”字。《说文·金部》:“链,铜属。从金,连声。”系传:“臣锴按:《史记》日:‘长沙出连锡。’即此也。”段玉裁注:“应劭曰:‘链似铜。’与许说合。”《广雅·释器》:“铅矿谓之链。”王念孙疏证:“链,通作连。《史记·货殖传》:‘江南出楠梓姜桂金锡连。’徐广音义云:‘连,铅之未炼者。’《汉书·食货志》:‘殽以连锡。’李奇注云:‘铅锡朴曰连。”’《说文》释“铜属”,《广雅》释“铅矿”,训虽异,义无别。《大字典》分作两个义项,误。又训释词直接抄《广雅》、《玉篇》的“铅矿”,亦欠妥。现代汉语中“矿”虽亦有矿石义,但是由于金矿、银矿、铁矿等说法非常常用,铅矿亦容易理解成开采铅矿的场所,不如释作“铅矿石”意义更明确。《大字典》据《集韵》立“丱”一义,亦误。《集韵·仙韵》抽延切:“链、,铜属。一曰丱也。或从石。丱即矿字,此训当据《广雅》而脱“铅”字,链无矿义。(原载《北京师范大学学报》,2002年4期)

论汉语词汇意义系统的分析与描写

李运富

提要:汉语词汇意义是成系统的,但对系统的描写只能按局部逐个实现。那么,如何划定词语的局部或类别,如何分析某个词汇类聚的词项要素并把体现词项关系的系统描写出来,是词汇语义学研究的难题。本文尝试把概念场理论与语义场理论结合起来,把义素分析与词项属性分析结合起来,把义素二分与义素多分结合起来,把共时描写与历时比较结合起来,从而提出分析和描写汉语词汇意义系统的新思路。这个思路的基本要点是:(1)从认知范畴入手,根据通常对某一概念的理解,把封闭材料中属于该概念范畴的所有词项类聚起来,建立覆盖在该概念场之上的词汇场。(2)对词汇场中的所有词项进行“二分+多分”的义素分析和义位描述,根据某一角度的共同义素系联出不同语义场。(3)对各个语义场中的词项分别进行“语义属性”及“生成属性”“使用属性”的分析,比较同场中不同词项的属性差异。(4)比较不同时期同一概念场中语义子场的变化、同一语义场中词项成员和词项属性的变化,从而揭示词汇和词义演变的某些规律。

关键词:汉语词汇 意义系统 词项属性 义素分析 概念场 语义场

中国的语言学史是以探究汉语词义为中心的,但传统的探究多表现为文献释义或词义纂集,虽然涉及形义关系、音义关系,但不太注重义义关系,因而除了雅书基本按事类纂集词汇、声训基本按音义系联同源词外,很少描写展示汉语的词义系统。直到近代的章太炎、黄侃,用“变易”与“孳乳”的规律系联字词,意在“求语言文字之系统与根源”,也仍然没有摆脱“形义”“音义”关系,所求到的系统只是局部的“同源字”“同源词”系统,并非整个汉语词汇的意义系统。

现代学者王宁先生在总结传统训诂学有关理论和方法的基础上推陈出新,明确提出“语义中心论”,并以建立词义系统为目标,提出一系列词义分析方法,汉语词义系统的探究才步入科学轨道。王先生认为:“语义中心论建立在语义独立的基础上。实现这一点的前提,必然是实词的词汇意义自成系统。”“同一种语言的意义之间互有联系,或处于级层关系,或处于亲(直接)、疏(间接)的关系,词汇意义的演变牵一发而动全局,首先是自身的系统决定的。”这就揭示了词义系统的本质,并使词义系统的研究真正摆脱了文献和形、音的局限。根据我的理解,王宁先生一系列论著中体现出来的词汇语义系统理论包括以下具体内容或观点:(1)词的意义的认知具有社会性、经验性和民族性,而不能一概用逻辑规范;(2)多义词内部各义位之间的语义关系及其引申变化规律可以科学分析;(3)词义的确定和分析应该建立在训诂材料的基础之上,词义的内部构成应该采用传统训诂学的“一分为二”的义素分析法;(4)词汇意义是成系统的,词义系统具有共时性和层级性;(5)汉语词汇的发展具有原生、派生和合成三个阶段,原生阶段的词语的形式和内容的关系总体上是约定俗成的,但派生词和合成词是有语源和理据的;(6)个体词的语源义或构词理据对共时词义系统有影响;(7)词汇意义系统的描写要以词项和义位作单位,相关的词项和义位构成网状联系;(8)词汇意义系统可以分类、分角度进行多方面的描写,但这些描写是局部的,它们可以证明词汇意义总系统的存在,但难以展示词汇意义的总体面貌;(9)词汇意义系统的形成和发展表现为累积律、区别律和协调律;(10)词汇意义系统是独立的,不依赖语法形式而存在。

王宁先生指出:“中国训诂学最核心的语义观,是语义系统论,也就是说,词汇的意义存在一种有层次的关系,观察意义和解释意义,都要放到这个网络关系中去才能够保持客观,也只有有了这种互相依存的关系,词汇语义学才能成为一门独立的科学而不附庸于语法学。但是,以词义为重的词汇系统是否可以证实?是否可以局部描写出来?在这个工作没有进行之前,语义系统论只是一个未经证明的命题。从训诂学的长期实践和词汇语义的种种现象看,我们相信这个命题具有真实性,但如何设计一套行之有效的操作办法来验证它的真实,一直是我们追求的学术目标。”正是出于这样的学术追求,在王宁先生词汇语义系统理论指导下,北京师范大学的博士生开展了多个角度的词汇语义系统探究和描写。如肖晓晖《汉语并列双音词构词规律研究》、符渝《汉语偏正式双音合成词词素结合规律研究》、卜师霞《源于先秦的现代汉语复合词研究》等是从构词法角度探究并描写汉语构词理据与词汇语义系统的关系;王东海《〈唐律疏议〉法律专科词汇语义系统研究》、李润生《〈齐民要术〉农业专科词汇系统研究》、李亚明《〈周礼·考工记〉先秦手工业专科词语词汇系统研究》等是从专科词汇角度描写和解释以专业知识为背景的词汇意义系统;王军《上古汉语形容词词汇语义特征及语义分类研究》、吕云生《〈礼记〉动词的语义分类研究》、孙炜《名词的语义特征及分类研究》则是从语法范畴的角度研究语法范畴跟词汇语义系统的一致性。这些研究成果展示了不同词汇集的规律和系统性,但相对于整个词义系统来说都是局部性的。

许多年前,我在《古汉语词汇学说略》中也对词汇和词义的系统性作了阐述,认为词义系统可以突破共时平面的分类,可以变化角度和标准进行多次划分,而且可以进行不同层次的下位分类,例如可以用义系、义族、义群、义域等不同层次的义位聚合群来整理词义系统。但那只是一个初步的整体性构想,没有付诸材料实践。后来通过学习王先生的有关论著,认识到整体词汇意义系统是难以全部展示的,光有宏观构架起不了什么作用。词汇意义的系统描写只能从实际材料出发,分门别类一部分一部分地进行。由于词汇系统的开放性和词义变化的经常性,词汇意义的系统展示只能是历史的、局部的,恐怕永远不会有整体的全面的词义系统出现,这跟语音系统和语法系统是不一样的。

于是,我也带着博士生走向了局部描写词汇意义系统之路。那么,这个“局部”如何选择、如何确定呢?王先生已经实践的按构词类别选词、按专科知识选词、按语法范畴选词都是行之有效的,我们以此为参照,举一反三,尝试开拓更多角度的选词范围。于是我们想到,可以将传统训诂学蕴含的理论方法跟国外流行的词汇语义学理论方法结合起来,突破自然语言材料的属界,自觉类聚某些词汇范畴,然后对范畴内的词汇意义作系统描写。

语义场理论首先引起我们的注意和尝试。语义场理论跟中国传统训诂学的词汇类聚方法有很多相通的地方,在证明词汇系统性和对词

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载