东南亚华文媒体用字用语研究(txt+pdf+epub+mobi电子书下载)


发布时间:2021-02-26 06:45:56

点击下载

作者:刘华

出版社:暨南大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

东南亚华文媒体用字用语研究

东南亚华文媒体用字用语研究试读:

版权信息书名:东南亚华文媒体用字用语研究作者:刘华排版:昷一出版社:暨南大学出版社出版时间:2015-10-21ISBN:9787566813282本书由广州暨南数字传媒有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —前 言

国家语言资源监测与研究中心“海外华语研究中心”(教育部语言文字信息管理司与暨南大学共建)自2005年成立以来,一直致力于构建“海外华语语料库”。在此语料库基础上,中心进行了一系列海外华语方面的研究,本书就是成果之一。

首先要感谢教育部语言文字信息管理司、国家语言资源监测与研究中心的大力支持。李宇明教授、王铁琨教授一直关注“海外华语研究中心”的发展和成长,对作者个人也是关怀备至,感谢他们对中心、对本人学术成长的指导和支持。

感谢商务印书馆的魏励老师、蔡长虹博士、刘建梅博士,他们对本书的内容提出了很多建设性的建议。

感谢国家语言资源监测与研究中心平面媒体语言分中心的张普教授与杨尔弘教授、国家语言资源监测与研究中心有声媒体语言分中心的侯敏教授、国家语言资源监测与研究中心教育教材语言分中心的苏新春教授与郑泽之教授、国家语言资源监测与研究中心网络媒体分中心的何婷婷教授、国家语言资源监测与研究中心少数民族语言分中心的赵小兵教授,和他们一起研究讨论的日子里,他们教给我很多知识,让我这个晚辈收获良多。

感谢暨南大学华文学院院长、“海外华语研究中心”主任郭熙教授,感谢他为我们这些年轻人搭建了一个很好的学术平台,感谢他在生活上、学术上对我的关心和支持。同时,感谢“暨南大学华文教育研究院”为本研究提供经费资助。

最后,我要特别感谢一直以来默默关爱和支持我的亲人和朋友,是你们无私的爱陪我走到今天,谢谢你们!

本书基于大规模语料库,利用计量方法,对海外华语字词进行统计研究,希望能为读者提供语料库计量研究方法和海外华语字词使用数据方面的参考。

本书部分成果曾发表于国家语言资源监测与研究中心编的《中国语言生活状况报告2008》(下编)(商务印书馆,2009年)、教育部语言文字信息管理司组编的《中国语言生活状况报告2011》(光盘版)(商务印书馆,2011年)。本次出版对其重新做了修订。

语料的例句检索和字词检索参见网址:http://www.globalhuayu.com。欢迎大家提出宝贵意见。刘 华于暨南大学华文学院2014年10月10日第一章 绪 论

本章主要回顾了华语、海外华语及海外华语传播的研究现状,综述了海外华语的研究成果,特别总结了海外华语在词汇方面的研究。第一节华语与华语传播

一、华语、海外华语

关于“华语”一词的定义,历来争议颇多。20世纪80年代以来,陆续出现了“华人的共同语”(陈重瑜,1986)、“汉语在海外的通称”(田惠刚,1994)、“全世界华人的共同语”(周有光,1995)等多个内涵和外延各不相同的定义。关于“华语”的定义问题,郭熙(2004)已有较全面、充分的论述,本书不再赘述。本书中的“华语”采用郭熙的定义:华语是以现代汉语普通话为标准和核心的华人共同语(郭熙,2006)。同时,本书所研究的“海外华语”的应用范围限于海外各个国家的华人社会,不包括港澳台地区。

二、海外华语传播与现状

20世纪80年代以来,随着中国综合国力和国际地位的不断提升,国际上兴起了一股持续性的“汉语热”。据有关部门公布的数据,截至2005年,世界上通过各种方式学习汉语的人数超过3 000万,而[1]这一数字仍在不断上升。其中,绝大多数的学习者是华人。在积极开展对外汉语教学、进行汉语国际推广的同时,我们认为应当对海外华语的生存状况进行系统性研究,以推动汉语的传播、文化的传承以及相关部门政策的制定。

海外华语的使用环境相对于大陆而言要复杂得多。一方面,海外华语始终与闽、粤以及客家等汉语方言共存,如很多海外华语学校使用粤方言等方言进行教学,而且在华语使用过程中,繁简字并用、注音不规范等现象长期存在;另一方面,海外华语处于多语环境的包围之中,与其他语言的互相影响和融合在所难免,因而在语音、词汇、[2]语法等多个方面都呈现出与标准的汉语共同语不同的面貌。例如,在语音上,声、韵、调都与中国大陆的标准普通话有所不同,有入声而无轻声和儿化;语法上,存在类似于闽方言和粤方言的“V+ Adv”、“有+V”、“V+O+一下”等句式;词汇上,除一些表达海外华人社会特有概念的词语外,还有许多词语与普通话名称相异而意义相同或相近,例如,马来西亚华语中的“卫生所”指殡仪馆、“饭盒”[3]指盒饭,新加坡华语中“两造”指双方、“灵犬”指警犬等。其中,尤以词汇方面的分歧最大,借词的现象最为突出。这些方面的差异不仅给华语学习者在学习过程中造成了许多困难和障碍,同时在海外华语和汉语标准语之间形成了理解上的差异和分歧。这些差异和分歧不仅仅体现在汉语学习和教学上,在更深层次的意义上这些差异和不协调也直接影响到汉语的国际推广和我国相关部门语言政策的制定。因此这个问题值得我们重视和认真研究。第二节海外华语研究现状

东南亚华语及华语文教育的研究尚处于起步阶段。国内主要集中在暨南大学、华侨大学和海外华语研究中心(教育部语言文字信息管理司与暨南大学共建,2005年成立),海外主要以华语桥为基地,聚集了一批华语及华语文教育研究的学者。

目前,东南亚华语的研究主要集中在以下几个方面:华语的界定、性质研究(张从兴,2003;郭熙,2004、2006;陆俭明,2005),华语语言特点研究(陆俭明,1996;周清海,2000;徐杰,2004),华语区域词语、特色词语及变异研究(周清海,2002;曾晓舸,2004;汤志祥,2005;刘文辉,2006),华语和现代汉语对比研究(周烈婷,1999;邢福义,2005;贾益民,2005),华语规划与华语规范研究(谢世涯,2000;林万菁,2001;郭熙,2002、2006),华语推广与华语文教学研究(郭熙,2007)。其中华语研究的地域来源主要是新加坡、马来西亚、泰国和印度尼西亚等地。

字词是语言研究的基础,字词表更是语言教学的根基。东南亚华语字词的研究主要集中在“社区词”、“词源与词语对比”和“字词使用规范”三大块,如港澳社区词研究、新加坡社区词研究、词语探源、华语与汉语的词语对比、华语的规范与协调等等。其中,由李宇明主编,众多海内外华语研究学者联合编撰的《全球华语词典》是其中的代表作。

针对海外华语同现代汉语标准语的分歧和差异问题,目前已有一些研究,例如陈松岑(1996)、李如龙(1996)、邹嘉彦(1996)、陆俭明(1996)、郭熙(2000)、汪惠迪(1999)等学者的研究。但总体来说,研究还不够全面、深入,缺乏系统性。主要问题在于缺乏关于海外华语分布和特点的第一手详细调查资料,对于现状的描写多偏重理论分析,所用语料大多来自作者自身的体验和总结,多从经验出发,比较单薄。由于缺乏大规模语料的支撑,对于海外华语的描述和研究还远不够充分与科学。

总的来说,东南亚华语词语的研究集中于对个别字词的探源,或是对某个海外社区的字词描写,或是华语独有词语的研究,尚未见到概括整个东南亚华语字词的研究。另外,在方法上大多是卡片式、个案式的专家经验式研究,尚未进行基于大规模真实语料库的计量研究。

面对这种研究窘境,建设一个大规模的语料库以满足研究需求就显得迫在眉睫。由于口语语料的收集和转写较困难,基于目前的研究条件和手段,书面语料是一种较合适的研究对象。而最能鲜活、动态地反映语言面貌的莫过于媒体语料。同时,媒体语料也能在一定程度上反映书面语和口语两种语体的面貌。因此,研究海外华语可以从研究海外华语媒体语料入手。在新媒体日益兴起的今天,网络成为我们最容易接触到、最具活力和影响力的媒体。网络媒体较传统媒体而言,信息量更大,语料更易获取,同时网络媒体的互动性确保了使用者语言面貌的真实性。因此,我们选择海外华语网络媒体(含报纸网络版)语料作为本书的研究对象。

[1] “中国语言生活状况报告”课题组.中国语言生活状况报告2005(上编)[M].北京:商务印书馆,2006.

[2] 郭熙.华文教学概论[M].北京:商务印书馆,2007.

[3] 郭熙.域内外汉语协调问题刍议[J].语言文字应用,2002 (3).第二章 语料介绍、方法说明与术语说明

本章具体介绍东南亚华语语料库的总体情况,对全书涉及字词描写的术语进行说明。第一节语料介绍

为了跟踪研究海外华语的使用情况,海外华语研究中心从2005年开始建设海外华语语料库。2009年,海外华语研究中心对东南亚华语语料库进行了用字用语的调查研究。

东南亚华文媒体较多,由于我们在语料获取上受到技术限制,加上其他因素的影响,有的华文媒体的语料无法获得。本次媒体的选择主要考虑了语料的可获取性、媒体影响程度和信息量三个因素。

本次调查的语料仅限于较有代表性的新加坡、马来西亚、泰国的主要华文媒体的语料(下文统称为“华文语料”)。语料时间跨度为2005年到2008年,均来自于网络,我们对其做了去除HTML标签信息和广告信息的处理,抽取了网页正文、标题、发表时间等信息。总文

[1]本数为296 355。

下面是语料的具体信息(括号里为文本数):

新加坡:亚洲新闻网(61 197)、新动网(26 228)、《联合早报》 (63 697);

马来西亚:马新社中文网(29 964)、《光华日报》电子新闻(63 346)、独立新闻在线(8 474);

泰国:《世界日报》 (43 449)。

为了更好地研究华语的特点,我们同时进行了华文语料与中国国家语言资源监测语料库语料(下文统称为“监测语料”)的比较调查。监测语料来自国家语言资源监测与研究中心平面媒体语言分中心[2]和网络媒体分中心2005年到2008年的语料,共4 474 675个文本[3][4]文件,3 709 908 405字次(不含部件),2 145 386 164词次。第二节方法说明

本次的调查对象包括华文语料的汉字和词语,调查时以中国大陆汉语字词使用规范为参照。调查项目主要包括频次、频率、文本数、使用率、覆盖率等,并和监测语料进行了共用、独用、频序比的对比分析,还将华文语料的汉字统计结果和《现代汉语常用字表》、《现代汉语通用字表》进行了比较分析。

同时,进行了华文语料特色词语的调查研究,形成了《华文语料特色词语表》,并列举词语的提示性释义、例句、频次和出现文本数,以及进行了华文语料字母词的调查,形成了《华文语料字母词表》。第三节[5]术语说明

一、频次、频率、文本数

1.频次

频次指的是调查对象在调查语料中出现的次数。如在华文语料中,汉字“的”总共出现了5 028 063次,其频次即为5 028 063。频次是语料库语言学中描写字词统计量最基本的参数,也是其他统计量,如频率、覆盖率等计算的基础。

2.频率

频率指的是某一调查对象的频次与整个语料所含调查对象总频次的比值。如在华文语料中,所有汉字的总频次为161 728 981,汉字“的”的频次为5 028 063,其频率即为5 028 063/161 728 981=0.03 11 (3.11%)。频率反映的是字词在语料中的基本分布情况。

3.文本数

文本数指调查语料中某一调查对象出现的文本或文档的个数。如在华文语料中,汉字“的”总共在278 204个文本文件中出现过,其文本数即为278 204。文本数是对频次的补充,是反映字词使用范围,即文本分布的重要参数。有时候,频次较高的字词,如果其文本数较少,则说明其在文本中出现得相对集中,其真实的使用率相对低一些。

二、累加频率、覆盖率、使用率

1.累加频率

累加频率指的是调查对象按频率排列,依次相加所得到的值。频率一般按降序排列。如某统计中将汉字按频率降序排列,前三位分别为:“的”,频率3%;“是”,频率2.9%;“大”,频率2.7%,那么,截止到“大”字的累加频率即为3%+2.9%+2.7%=8.6%。

2.覆盖率

覆盖率指的是调查语料内指定调查对象数量占所有调查对象总量的百分比。如《中国语言生活状况报告2005》(下编)将汉语常用词语按照频次降序排列,前4 179条词语占了总调查语料9亿字的80%,那么这前4 179条词语的覆盖率就是80%。

3.使用率

使用率指的是某一调查对象分布率和使用频率的综合计算值。使用率越高,分布越均匀,使用率与频次也就越接近。否则反之。计算公式如下:

Di=ti/T;Ui=Fi×Di

其中,Di是i号字的分布率,ti为i号字的出现文本数,T为所有语料的文本总数;Ui为i号字的使用率,Fi为i号字的频率。

为了使得所有字的使用率总数为1,进行了归一化:

其中,Fi为i号字的频次,分母为归一化项,V表示所有字种。

三、频序、频序比

1.频序

频序指的是某一调查对象在不同语料中按频次、频级或频差排列的顺序。如“大”字,在华文语料按频次由高到低排列的字表中,顺序为3,则其频序即为3。本书中,频序指的是按频次排出的顺序。

2.频序比

频序比指的是某一调查对象在不同语料中按频次排列的位序的比值。即将所有调查对象按频次从高到低排列,用调查表中某调查对象的位序值除以参照表中相同调查对象的位序值,得到的就是该调查对象的“频序比值”,即“频序比”。

在进行华文语料和监测语料的对比研究时,将考察范围内的汉字的频序比从低到高排列,可以得到华文语料中出现频序相对于监测语料相差较大的汉字,这在一定程度上反映了华文语料用字的特点。

例如,“坡”字在华文语料按频率由高到低排列的字表中,顺序为223,其频序即为223;在监测语料中,“坡”字频序为1 416。因此,“坡”的频序比值即为223/1 416=0.16。将华文语料和监测语料中共同使用的汉字进行频序比值的计算,最后将计算结果从低到高排列,前100个汉字如下:

党 坡 政 马 湾 国 府 选 台 吉 扁 泰 席 拉 美 民 及议 令 表 阿 示 统 指 亚 他 伊 巴 隆 朝 警 陆 督 岸贪 宪 印 吁 阵 官 早 哈 总 鲜 日 阁 须 加 署 玛 港媒 曼 举 威 论 禽 说 华 恐 陈 怖 票 会 捕 将 独 长谈 括 联 透 反 述 否 言 必 宗 洲 宣 立 尼 局 沙 谷希 讨 达 盟 兹 该 贸 因 至 军 露 炸 报 若 新

四、字种、字种数、词种、词种数

1.字种

调查语料中不重复的汉字。在中文信息处理中,相同字形的一般计算为一个字种。如“长短”的“长”和“首长”的“长”为一个字种。

2.字种数

调查语料中不重复的汉字个数。如《中国语言生活状况报告2005》(下编)调查的所有语料中字种数为8 128个。

3.词种

调查语料中不重复的词。在中文信息处理中,目前仍暂按词的书写形式来区分词语,即相同词形的一般计算为一个词种。如表“进入水中”义的“下水”和表“食用的动物内脏”义的“下水”在统计中为一个词种。

4.词种数

调查范围内不重复的词语个数。如《中国语言生活状况报告2005》(下编)的用字用词调查中词种数为1 651 749个。

五、共用、独用

1.共用

某一调查对象在全部调查范围内皆有使用。如当覆盖率达到90%时,华文语料中的异体字共45个,监测语料中的异体字共39个,二者共用的异体字为12个。

2.独用

某一调查对象只在某一调查范围中使用。如当覆盖率达到90%时,华文语料中的异体字共45个,监测语料中的异体字共39个,华文语料独用的异体字共33个。

[1] 所有文本文档的数量。

[2] 详细情况请参看:国家语言资源监测与研究中心.中国语言生活状况报告2008(下编)[M].北京:商务印书馆,2009.

[3] 调查语料中汉字出现的次数。

[4] 调查语料中词语出现的次数。

[5] 本节主要参考了《语言资源监测与研究相关术语》,见:国家语言资源监测与研究中心.中国语言生活状况报告2009(下编)[M].北京:商务印书馆,2010.第三章 华文语料用字调查研究

本章对华文语料中的汉字使用情况进行了描述,并对按频率和按使用率排序所得字表进行了比较,同时对华文语料汉字的覆盖率和字种数关系进行了分析。

本次统计没有甄别文本中的别字、乱码,以及无法显示的字符,也未区分多音字、同音字。

华文语料中所有字符的总次数为213 961 939,字符种数为9 652。其中汉字总频次为161 728 981,汉字字种数为8 429(不含汉字部件)。

监测语料共4 474 675个文本文件,汉字总频次为3 709 908 405(不含汉字部件),字种数为11 802。第一节汉字使用的分类情况

作为语料来源的新加坡、马来西亚和泰国的汉字使用标准基本与中国大陆相同。从中国大陆汉字使用的视角来观察,汉字使用主要包括规范字和非规范字的使用。

规范字是指经过整理简化并由国家以字表形式正式公布的简化字和未被整理简化的传承字;非规范字指的是规范字以外的汉字。本调查中,非规范字以繁体字、异体字为主,也包括其他类型的非规范字,如旧印刷字形、日本汉字、旧计量用字、韩国汉字等等(由于其他类型的非规范字的字种数和频次都很低,因此本书中将之合计为“其他字”一类)。

目前学界对于汉字使用分类的研究尚无定论,特别是对于繁体字、异体字等争论较大。由于我们需要对华文语料和监测语料进行汉字使用分类的平行对比研究,监测语料字表中的汉字已按上文的汉字使用分类方法进行了分类,因此,对于华文语料,我们也采用监测语料字表中的汉字分类方法对汉字进行了分类,本章中并不深究汉字使用分类的学理上的根据。

一、概况

华文语料中,规范字频次为161 692 898,字种数为7 173,规范字频次在汉字总频次中所占比例为99.98%,规范字字种数在汉字总字种数中所占比例为85.10%。

非规范字的频次为36 083,在汉字总频次中的频次比例为0.02%,字种数为1 256,字种数比例为14.90%,频次最高的是“後”,在总字表中按频率从高到低排第1 823位,覆盖率为97.72%。

汉字使用的分类情况如表1所示:表1 汉字使用的分类情况

① 由于只保留小数点后两位,四舍五入后,有的比例为0.00%。

从表1可以看到,规范字的频次比例很高,非规范字的频次比例非常低,只占到0.02%,以繁体字和异体字为主。对比非规范字的频次比例和字种数比例可以发现,非规范字的字种用得比较多,但是其频次比例很低。相对于频次比例,非规范字的字种数比例达到了14.90%。

繁体字、异体字、其他字使用的详细分类统计情况如表2所示:表2 非规范字使用的分类情况

二、繁体字使用情况

繁体字总频次为20 831,字种数为858,出现繁体字的文本数为8 566;繁体字总频次在汉字总频次中所占比例为0.01%,总字种数在汉字总字种数中所占比例为10.18%;繁体字总频次在非规范字的总频次中所占比例为57.73%,总字种数在非规范字总字种数中所占比例为68.31%。从频次上来看,繁体字在本次调查的华文语料中使用的次数非常少,但是用到的繁体字字种数相对比较多。在所有非规范字中,繁体字使用的频次比例和字种数比例都是最高的。

华文语料前十位的繁体字的使用情况如表3所示:表3 频率前十位的繁体字使用情况

其中,“嬅”这个字全部是由“杨千嬅”和“千嬅”这两个姓名产生的,“鎔”字也主要是姓名用字。[2]

三、异体字使用情况

异体字总频次为11 940,字种数为252,所有出现异体字的文本数为5 260;异体字总频次在汉字总频次中所占比例为0.01%,总字种数在汉字总字种数中所占比例为2.99%;异体字总频次在非规范字总频次中所占比例为33.09%,总字种数在非规范字总字种数中所占比例为20.06%。

前十位异体字的使用情况如表4所示:表4 前十位异体字的使用情况第二节频率、使用率排序所得字表比较

使用率在频率的基础上综合考虑了汉字在文本间的分布情况。从《中国语言生活状况报告2007》(下编)可以看到,在一定范围内,按频率排序或按使用率排序来展示汉字,结果不完全一样。我们对华文语料字表分别做了按频率从高到低排序和按使用率从高到低排序,分别列出前100、200、500、1 000、2 000位的汉字进行比较,具体情况如表5所示:表5 华文语料按频率排序和按使用率排序所得字比较独用字种范数按频率排序独用字按使用率排序独用字围(比例)8前(8.10台 选 党 业 府 场道 全 面 此 都 并00%0市 总最 内)字10前(5.20军 司 湾 警 元 文接 讯 只 据 等 些00%0战 海 教 投好 闻 回 果)字24前朝 李 陆 病 哈 扁且 仍 止 落 五 严(4.50铢 卡 款 校 银 师尽 几 清 规 虽 担80%0阵 越 武 纳 义 律值 执 料 条 整 采)字沙 广 卫 督 航 黄级 负 述 又 随 够唱 仙 枪 贪 怖 雪悉 竟 呈 坏 朋 挥28前徒 禽 兹 杨 锦 佛幸 途 频 般 扬 散(2.10船 杰 父 婚 洋 练怀 序 味 乱 背 旦80%00蓝 版 镇 河 拜 倍某 阻 惊 订 胁 返)字甲 患 云 券暂 违 截 夜爸 虫 钓 荫 姚 谍汉 肆 惕 谅 蔓 娟33前稻 晶 僧 詹 祭 舟擦 赋 糊 匿 诱 捉(1.20娃 棕 赐 泊 魏 碟屈 饱 哭 糕 啦 弥65%00贼 斌 堤 乳 咖 葬脉 抬 骤 催 肩 惧)字斋 梯 拳 诈 贬 昆痕 慌 俩 坞 腰 瞩侣 礁 纺浩 杉 衷

从表5可以看到,按频率从高到低排序和按使用率从高到低排序得到的字表相差较大。

按频率排序时,由于语料内容以新闻居多,反映时政方面的字排在前面,如“选、党、军、铢”等;一些表示国家地区和姓名的字也排得靠前,如“台、湾、海、陆、李、扁、哈”等,特别是一些带有东南亚地域色彩的字。而按使用率排序时,由于考虑了文本的分布,一些较多出现在某一类文章中的字使用率自然就较低,而那些在不同性质的文章中都较均匀出现(均匀分布)的字则使用率较高,如一些常用字“全、面、此、都、并、最”等等。第三节覆盖率情况

覆盖率指的是调查语料内指定调查对象数量占所有调查对象总量的百分比。每一覆盖率会有对应的词种和词种数,如某语料中,覆盖率为10%时,共用到词种数6个,分别是“的、在、是、和、他、了”。词语覆盖率反映的是词种在总语料中的覆盖情况,同样反映了词语使用的集中度和离散程度。

华文语料中汉字的覆盖率与字种数的关系如表6所示:表6 汉字覆盖率及字种数统计

从表6可以看到,当覆盖率达到50%时,字种数为169,只占到总字种数的2%;当覆盖率达到90%时,字种数为920,占到总字种数的10.91%;当覆盖率达到99%时,字种数为2 243,占到总字种数的26.61%。总体上,华文语料的8 429个汉字中,约四分之三的汉字是较低频次的字,这些低频字总的频率只占1%。

表7列举了覆盖率从10%到50%的汉字字种:表7 覆盖率从10%到50%的字种覆盖率(%)字种(字种数)10的 国 在 是 一 人 中 有 不(9)会 大 他 为 年 日 和 出 以 上 这 了10~20 新 政 时 对 民行 来 个 发(21)说 到 也 将 美 要 公 前 报 家 表 后 方 成 经 们 主20~30地 能 我 生 法 长 于 部 加 马 本 过 台 员 而 事(33)选 可 多 下 及 与 党 者 动 进 作 名 示 关 外 分 开30~40月 现 理 合 业 就 其 府 天 当 场 因 自 得 已 所 同市 之 总 全 都 议 拉 面 道 机(44)力 高 内 定 学 此 最 华 工 问 被 并 但 指 今 两 重资 提 利 统 如 联 还 万 区 斯 相 题 受 没 子 达 期40~50目 任 用 亚 安 至 金 心 体 里 该 意 局 展 明 第 入实 立 由 然 次 持 比 军 交 系 正(62)

[2] 本书完成时间在2008年,对于异体字的界定,主要参考了《第一批异体字整理表》和《辞海》(第六版),并未参考《通用规范汉字表》中的《新订异体字整理表》,《新订异体字整理表》中恢复为规范字,或部分恢复为规范字的,如某些人名、地名用字,在本书中仍被视作异体字。第四章 华文语料和监测语料的汉字对比研究

本章对华文语料和监测语料分别进行了汉字使用分类情况的详细对比、二者的覆盖率与字种数的关系对比,以及进行了共用、独用字种数调查和独用字分段调查,同时进行了华文语料独用字分析和基于频序比的汉字使用对比分析。

华文语料共使用字种数8 429,监测语料共使用字种数11 802,二者共用字种数为7 957。华文语料独用字种数共472,监测语料独用字种数共3 845。

华文语料和监测语料的共用和独用字种数对比情况如表8所示:表8 华文语料和监测语料共用和独用字种数对比

这里需要说明的是,由于语料规模相差比较大,二者的独用和共用字种数比例相差比较大。第一节汉字使用的分类情况对比

汉字使用,包括规范字、繁体字、异体字和其他字的使用。

华文语料中,规范字频次为161 692 898,字种数为7 173,频次在汉字总频次中所占比例为99.98%,字种数在汉字总字种数中所占比例为85.10%。

监测语料中,规范字频次为3 709 791 325,字种数为9 821,频次在汉字总频次中所占比例为100%,规范字字种数在汉字总字种数中所占比例为83.21%。

汉字使用的分类统计情况如表9所示:表9 汉字使用的分类统计

从表9可以看到,在频次比例这一项中,华文语料的规范字比例要比监测语料的低0.02%,在华文语料中,繁体字和异体字的频次比例各占到0.01%。

在字种数比例这一项中,华文语料的规范字字种数比例比监测语料的高1.89%,异体字、其他字的字种数比例都比监测语料的低,二者的繁体字字种数比例基本一致。

为了更详细地研究非规范字内部的分类使用情况,表10列出了非规范字使用的分类统计数据:表10 非规范字使用分类的情况

在频次比例这一项中,华文语料的繁体字占到57.73%,是监测语料中繁体字的两倍多,其异体字则约为监测语料中异体字的一半。华文语料的繁体字和异体字频次比例之和为90.82%。

在字种数比例这一项中,二者相差不大;华文语料的繁体字字种数比例比监测语料的高8.69%,异体字字种数比例则比监测语料的低4.22%。第二节覆盖率与字种数的关系对比

表11显示了华文语料和监测语料汉字覆盖率与字种数的关系对比:表11 华文语料和监测语料汉字覆盖率与字种数的关系对比

从表11可以看到,覆盖率低于50%时,华文语料和监测语料的用字字种数相差不大。随着覆盖率的提高,二者相差的字种数越来越多,总体上同一覆盖率情况下,华文语料用字少于监测语料用字。但是,从字种数比例来看,由于监测语料的总字种数大于华文语料的总字种数,覆盖率相同时,华文语料的字种数比例大于监测语料字种数比例。

图1更形象地显示了二者的关系对比情况:图1 华文语料和监测语料汉字覆盖率与字种数的关系对比

表12列举了覆盖率从10%到50%的高频汉字:表12 覆盖率从10%到50%的高频汉字第三节共用、独用情况调查分析

一、共用、独用字种数调查

我们对华文语料和监测语料的共用字和独用字进行了考察。考察方法如下:分别取华文语料和监测语料字表频序前100、200、500、1 000、2 000、3 000、4 000、5 000的字进行共用字和独用字比较,具体情况如表13所示:表13 华文语料及监测语料分区段的共用和独用字种数及比例

总体上看,二者的共用字比例较高。当取前1 000字时,二者的覆盖率都达到了90%以上,共用比例为90.70%。

二、独用字分段调查

考察方法是分别取监测语料和华文语料字表频序前100、200、500、1 000、2 000、3 000的字进行独用字比较,具体情况如表14所示:表14 华文语料及监测语料分区段对比的独用字(续上表)(续上表)

从表14可以看到,华文语料独用字中多为表示时政新闻内容的用字,而且以东南亚、中国港台地区相关时事用字居多,特别是前1 000个字更是如此。

三、华文语料独用字分析

华文语料共使用字种数8 429,监测语料共使用字种数11 802,华文语料独用字种数共472个,在这472个独用字中,最高频的“俰”字在华文语料总字表按频率从高到低排列的第4 130位,此时的覆盖率为99.93%。

华文语料472个独用字的总频次为1 768。其中,频次大于或等于10的字种共31个,按频率从高到低排序列举如下(括号内为频次):

俰(176)、導(86)、嬣(74)、嵻(60)、髒 (39)、撥(37)、帣 (35)、搶(34)、歛 (27)、罃(22)、歎(22)、櫫(21)、輛 (19)、畢 (19)、灣(18)、績(15)、滽 (15)、梹(14)、艙(13)、欗(13)、罰(12)、禕(12)、擬 (12)、誗(11)、潛(11)、楬(11)、壇(11)、鯪 (10)、銬(10)、賃(10)、窮(10)。

表15是华文语料472个独用字使用情况的分类统计:表15 华文语料独用字使用情况的分类统计

① 指的是在所有独用字中的频次比例。

② 指的是在所有独用字中的字种数比例。

我们对排在前三位的繁体字、规范字和异体字做了简要分析。(一)独用字中的繁体字情况

繁体字最多,频次比例和字种数比例分别占到53.39%和49.79%,排在前十位的如表16所示:表16 华文语料中前十位独用繁体字

1.導

前三个繁体字中,“導”主要用于词语“輔導 (19次)、導致[1](16次)、教導(14次)、主導(3次)、指導(2次)”中。如:

A.教總反對這項不合理的措施,因爲不諳崋文的教師根本無法輔導學生的課業,反而進一步侵蝕崋小的本質。(马新社中文网)

B.白介素-12本身是一個抗乙肝病毒的細胞因子,能使活化的免疫細胞增殖并增加其細胞毒活性,誘導干擾素分泌,調節免疫細胞發育並促其分化。(马新社中文网)

在华文语料中,“導”的正字“导”的频序为240,频次为171 902,文本数为87 576。“导”字在华文语料中组词(含单用,下同)的前十位如下:

A.导致(频序301,频次43 973,文本数32 215)

B.导(频序512,频次26 228,文本数19 650)

C.领导(频序644,频次21 254,文本数13 643)

D.领导人(频序685,频次19 993,文本数12 363)

E.导弹(频序841,频次16 668,文本数4 248)

F.导演(频序2 198,频次6 268,文本数3 429)

G.主导(频序2 761,频次4 852,文本数3 780)

H.领导层(频序3 085,频次4 192,文本数2 814)

I.指导(频序3 214,频次3 978,文本数2 971)

J.引导(频序5 274,频次2 009,文本数1 640)

2.嬣“嬣”字全部是人名用字,主要用在“蔡蕙嬣 (67次)、惠嬣 (7次)”人名中。如:

传奇魔术大师大卫考柏菲即将来新之际,先认识本地唯一专业女魔术师蔡蕙嬣。(《联合早报》)

3.髒“髒”字主要用在“肮髒、髒乱、髒兮兮”等词语中,也有部分单独使用。如:

A.卫生局还提醒民众要经常洗手,不要用髒手揉眼,还要避免到人群拥挤的地方,减少被传染的机会。(《世界日报》)

B.无论怎样,这种肮髒的恐吓行为都不应该是政党所为,相信民众都会认同这点。(《世界日报》)

在华文语料中,“髒”的正字“脏”的频序为2 571,频次为1 818,文本数为678。“脏”字在华文语料中组词如下:

A.肮脏(频序9 734,频次795,文本数548)

B.脏(频序11 713,频次589,文本数386)

C.脏话(频序27 856,频次124,文本数89)

D.脏乱(频序55 922,频次31,文本数24)

E.脏兮兮(频序59 431,频次27,文本数26)

F.脏活(频序120 385,频次6,文本数5)

G.脏污(频序347 781,频次1,文本数1)(二)独用字中的规范字情况

规范字频次比例和字种数比例分别占到38.01%和40.68%,前十位如表17所示:表17 华文语料中前十位独用规范字

1.俰

前三个规范字中,“俰”主要是人名用字,全来自于“张俰宾”。如:

在武吉班让,行动党的张俰宾(Teo Ho Pin)对垒民主党的林孝谆(Ling How Doong)。(亚洲新闻网)

2.嵻“嵻”字也主要是人名用字,来自于“陈祈嵻”。如:

贪污调查局首席调查员奥斯曼在供证时指,控方主要证人陈祈嵻有关收取杜莱2万元的供词前后矛盾。(新动网)

3.帣“帣”字主要用于“彩帣(20次)、礼帣(8次)、入场帣(4次)、证帣(1次)”等。如:

A.如此的已身享人间荣华富贵,又大权在握,尤不知足的还利用公权力与民争相拜庙祈福庇护、抢夺游乐场的“优先入场帣”。(《联合早报》)

B.尤其是当所谓“总统”、“副总统”的,成天吃饱闲晃着没事干,口袋也早已撑得鼓鼓饱饱的,在岛内是可以“呼风唤雨”的横行霸道,甚至已是荣华富贵在身,竟还可以公权力与民争抢寺庙和游乐场的“祈福头香”和“优先入场帣”,而企图妄想将“人间天上”的一切福祉都涓滴归己入袋。(《联合早报》)(三)独用字中的异体字情况

异体字频次比例和字种数比例分别占到6.50%和6.57%,前十位如表18所示:表18 华文语料中前十位独用异体字

1.歛

在华文语料中,“歛”字总共组词三个,分别是:

A.收歛 (20次,《联合早报》3,独立新闻在线1,《世界日报》16)

B.歛财(5次,《联合早报》3,独立新闻在线1,《世界日报》1)

C.内歛 (2次,《联合早报》2)。

三个词语的例句分别如下:

A.祈盼政府决策阶层秉打铁趁热的精神,整合相关法规和公权力,规范性侵儿童行为,以适切刑罚使有犯行意念者知所收歛。(《世界日报》)

B.不过,在政治上,他采取高压手段,铁腕打压异己,造成无数人死亡,加上他的家族和亲信透过贪污、垄断,巧取豪夺,大肆歛财。(《联合早报》)

C.只有内歛,我们才能在那些大国吵吵嚷嚷的时候发展自己的力量。(《联合早报》)

在华文语料中,“歛”的正字“敛”的频序为2 908,频次为825,文本数为559,在六个词语中共使用825次,如下:

A.敛财(频序16 226,频次338,文本数137)

B.收敛(频序17 981,频次282,文本数260)

C.内敛(频序30 293,频次105,文本数99)

D.敛(频序44 368,频次46,文本数44)

E.聚敛(频序45 402,频次44,文本数35)

F.暴敛(频序91 736,频次10,文本数10)

2.歎

在华文语料中,“歎”字总共组词八个,除了“可歎”来自独立新闻在线外,其他都来自《世界日报》:

感歎(6次) 歎为观止(3次) 赞歎(2次) 惊歎 (2次)

可歎(1次) 自歎不如(1次) 令人慨歎(1次) 令人浩歎(1次)

部分词语的例句分别举例如下:

A.她感歎,出国度假前吃了饭,回来也没见到面,就分手了。(《世界日报》)

B.KASET和PRG都是袋装米产销商,股价随著米价同步高升,涨幅令投资者歎为观止。(《世界日报》)

C.无论如何,今年在泰国举行的奈米技术研讨会还吸引国外300多专家和研究人员共聚一堂,共同观摩和交流奈米研究的经验,并向社会展示相关的研究成果,相信不少奈米应用技术制品会赢得赞歎与好评。(《世界日报》)

D.而刘松仁宝刀未老,这次扮演忍辱负重、卧薪尝胆的越王勾践,精湛演技让人惊歎。(《世界日报》)

在华文语料中,“歎”的正字“叹”频序为2 199,频次为2 981,文本数为2 432,在44个词语中总共使用2 981次,前十个词语如下:

A.感叹(频序9 286,频次857,文本数742)

B.叹(频序12 704,频次513,文本数442)

C.惊叹(频序16 751,频次320,文本数275)

D.叹息(频序20 149,频次228,文本数197)

E.赞叹(频序21 078,频次211,文本数182)

F.叹为观止(频序22 498,频次187,文本数184)

G.慨叹(频序27 031,频次131,文本数121)

H.兴叹(频序32 716,频次89,文本数82)

I.可叹(频序37 833,频次65,文本数63)

J.哀叹(频序41 498,频次53,文本数51)

3.剷

在华文语料中,“剷”字全部由词语“剷除”产生。例句全部来自独立新闻在线,举例如下:

A.不过他同时呼吁此建议应配合剷除警队中的贪污及滥权行为的决心。(独立新闻在线)

B.许多人在担心,那些重要的建议如:剷除贪污舞弊、确保警方尊重法律和人权、有系统地处理犯罪案件等等,將不再受重视。(独立新闻在线)

在华文语料中,“剷”的正字“铲”频序为2 372,频次为2 150,文本数为1 570,在11个词语中总共使用2 150次,前五个词语如下:

A.铲除(频序8 119,频次1 070,文本数799)

B.铲(频序8 636,频次975,文本数719)

C.铲子(频序48 637,频次38,文本数37)

D.铁铲(频序56 950,频次27,文本数18)

E.锅铲(频序74 430,频次15,文本数11)第四节基于频序比的汉字使用对比分析

这里的频序比指的是华文语料汉字的频序(按频率降序排列的位序,如“的”频率最高,频序为1)与监测语料汉字频序的比值。对考察范围内的汉字的频序比从低到高排列,可以得到华文语料中频序与监测语料相差较大的汉字,这在一定程度上反映了华文语料用字的特点。

我们统计了华文语料前2 000位汉字和监测语料前2 000位汉字的频序比,按频序比从低到高排列的前100个汉字如下:

党 坡 政 马 湾 国 府 选 台 吉 扁 泰 席 拉 美 民 及 议 令 表 阿 示 统 指 亚 他 伊 巴 隆 朝 警 陆 督 岸 贪 宪 印 吁 阵 官 早 哈 总 鲜 日 阁 须 加 署 玛 港 媒 曼 举 威 论 禽 说 华 恐 陈 怖 票 会 捕 将 独 长 谈 括 联 透 反 述 否 言 必 宗 洲 宣 立 尼 局 沙 谷 希 讨 达 盟 兹 该 贸 因 至 军 露 炸 报 若 新

从上面的汉字可以发现,其中很多是具有东南亚特色的用字,如东南亚地域用字“坡、马、湾、国、府、台、吉、泰、伊、巴、隆、岸、印”等,反映东南亚时政新闻的用字,如“党、政、选、民、议、统、督、贪、宪、阁”等。

[1] 由于自动分词难以切分出含非规范字的词语,本书中,凡是非规范字组成的词语及其次数都是人工从语料中归纳出来的。列举时,只列举了部分高频、代表性较强的词语,而且存在单独使用该字的情况,所以,列举词语的次数之和可能少于该字的总次数。下同。第五章 华文语料字表与现行规范字表的对比分析

为了更好地观察华文语料用字的情况,我们将华文语料字表和《现代汉语常用字表》、《现代汉语通用字表》进行了比较。第一节前2 500字与《现代汉语常用字表》(一级常用字)的比较

华文语料中前2 500字与《现代汉语常用字表》的一级常用字(2 500字)的比较数据参见表19。表19 华文语料中前2 500字与一级常用字(2 500字)的比较

当范围为前500字时,“尔、伊、媒、铢”四个字没有出现在一级字表中。

其中“尔”在华文语料中的频次为155 647,频序为264,主要见于地名、人名有关的词语中,如“布莱尔、保尔森、默克尔、希尔、戈尔、斯塔尔、华尔街、诺贝尔”(按频次从高到低列出)等等。这是时政新闻用字的体现。“伊”在华文语料中的频次为148 833,频序为277,也是见于地名、人名有关的词语中,如“伊朗、伊拉克、卡伊达、伊斯兰、伊万诺夫、伊斯兰堡”(按频次从高到低列出)等等。“媒”字的频次为115 534,频序为357,主要见于“媒体、传媒、媒介、多媒体”(按频次从高到低列出)等词语中。这与社会变迁和信息时代的发展有关。“铢”字在华文语料中的频次为89 148,频序为445,主要见于“泰铢”及其简称“铢”等词语中。这是比较典型的东南亚特色用字。

当范围为前1 500字时,总体上看,华文语料中多数独用字与时政新闻中重大时事用字、人名、地名(特别是东南亚、中国港台)有关。

当范围为前2 500字时,总体上看,独用字的使用比较综合,中国大陆的常用字也较多。第二节前3 500字与《现代汉语常用字表》(3 500字)的比较

华文语料中前3 500字与《现代汉语常用字表》用字(3 500字)的比较数据如表20所示:表20 华文语料中前3 500字与《现代汉语常用字表》的比较

本次调查的华文语料中频率前1 000的汉字中,“铢、槟、迪、兹”没有在《现代汉语常用字表》中出现。

其中“槟”的频次为62 228,文本数为14 262,频序为600,主要用于“槟城、槟州、槟岛、槟榔、香槟”等词语中。“迪”的频次为52 069,文本数为11 342,频序为674,主要用于“马哈迪、弗连迪纳、庄迪澎、迪拜、巴拉迪、肯尼迪、迪士尼”等词语中。“兹”的频次为28 826,文本数为10 634,频序为948,主要用于“阿兹、纳兹里、聂阿兹、旺阿兹莎、阿兹拉、阿兹米、爱德华兹、阿齐兹、乌兹别克”等词语中。第三节前7 000字与《现代汉语通用字表》的比较

华文语料中前7 000字与《现代汉语通用字表》用字(7 000字)的比较数据如表21所示:表21 华文语料中前7 000字与《现代汉语通用字表》的比较(续上表)

华文语料中频率前3 000的汉字中,“峇、後、堃、菸、喆、钜、嬅、锺、飚、镕”没有在《现代汉语通用字表》中出现。

其中,“峇、飚、钜、锺”为规范字,“堃、菸、喆、镕”为异体字,“後、嬅”为繁体字。

1.规范字“峇”在华文语料中共使用12 244次,在4 628个文本中出现,在总字表中排在第1 481位,主要用于“峇厘岛、峇峇、峇迪”等有东南亚地域特色的词语中。“飚”在华文语料中共使用503次,在369个文本中出现,在总字表中排在第3 192位,主要用于“飚车党、柴飚、马飚”等词语中。“钜”字在华文语料中共使用587次,在429个文本中出现,在总字表中排在第3 086位。“钜”字主要用于人名和机构名,如“胡钜发、钜能化油”,也有部分用于“钜额、钜款、钜子、艰钜”等词语。“锺”字在华文语料中共使用553次,在350个文本中出现,在总字表中排在第3 175位。“锺”字主要用于地名、人名、机构名中,如“锺欣桐”,部分用于常用词中,如“锺情、铜锺、情有独锺、分锺、锺爱”等词语。

2.异体字“堃”字在华文语料中共使用2 657次,在1 027个文本中出现,在总字表中排在第2 254位。“堃”字全部用于人名,如“游锡堃”等。“菸”字在华文语料中共使用2 234次,在322个文本中出现,在总字表中排在第2 351位。“菸”字用于“吸菸、禁菸、香菸”等等。“喆”字在华文语料中共使用615次,在224个文本中出现,在总字表中排在第3 086位。“喆”字主要用作人名,如“陶喆(486次)、黄喆宇(7次)、冯喆(5次)、王喆(5次)”等。“镕”主要是人名“朱镕基”的用字。

3.繁体字

在华文语料中,“後”基本上是用于表示时间先后的“后”,“嬅”则全是“杨千嬅”或“千嬅”的姓名用字。第六章 华文语料非规范字使用分类研究

本章主要对华文语料的繁体字、异体字、其他字中的旧印刷字形、旧计量用字和日本汉字进行了用字分析,如这些非规范字在华文语料中的来源分析、例字详细分析以及与监测语料的共用独用分析,并且将其与监测语料进行了对比。第一节繁体字使用情况研究

一、概况

华文语料中,繁体字总频次为20 831,字种数为858,所有繁体字共出现文本数为8 566;繁体字总频次在汉字总频次中所占比例为0.01%,总字种数在汉字总字种数中所占比例为10.18%;繁体字总频次在非规范字的总频次中所占比例为57.73%,总字种数在非规范字总字种数中所占比例为68.31%。从频次上来看,繁体字在本次调查的华文语料所有汉字中使用的次数非常少,但是用到的繁体字字种数相对比较多。在所有非规范字中,繁体字使用的次数比例和字种数比例都是最高的。

监测语料中,繁体字总频次为31 512,繁体字字种数为1 181,繁体字总频次占汉字总频次的比例为0.00%,占非规范字总频次的比例为26.91%。繁体字字种数占汉字字种数的比例为10.01%,占非规范字字种数的比例为59.62%。

表22是二者繁体字的基本情况对比:表22 繁体字基本情况对比

① 指所有汉字构成的字表,包括规范字和非规范字。下同。

从表22可以看到,在汉字总表中,华文语料的繁体字频次比例比监测语料的高0.01%,在非规范字中,华文语料的繁体字频次比例是监测语料的两倍多。无论是在汉字总表中还是在非规范字中,华文语料和监测语料的繁体字字种数比例都相差不大。

二、华文语料和监测语料繁体字使用对比

表23列举了前十位的繁体字使用情况:表23 频率前十位的繁体字使用情况

① 在华文语料繁体字中的频率。

② 在监测语料繁体字中的频率。

从表23可以看到,二者的前十个繁体字中,只有“後、嬅”均有出现,而且都排在前三位。在华文语料中,“後”基本上是用于表示时间先后的“后”,“嬅”则全是“杨千嬅”或“千嬅”的姓名用字。

监测语料中前十个繁体字的总频率为51.82%,主要以人名等专名用字为主,典型的如“濛、嬅、蟯、暐、馼、鏸、鮰”,其中又以人名用字占绝大多数。在正常的行文中,常用字的繁体字形式很少。

华文语料中前十个繁体字的总频率为41.12%,部分为人名等专名用字,典型的如“嬅、镕”,但是其余大部分是常用字的繁体字形式,用在正常的行文中。例如,一个“後”字就占了所有繁体字频次的1/ 4以上。

这说明,在前十个高频繁体字中,在监测语料中,除了不得已将繁体字用在人名等专名中之外,在正常的行文中很少主动使用常用字的繁体形式,文字使用更规范。而在华文语料中,相对于监测语料,其繁体字的使用更随意,规范性更低。

三、华文语料繁体字的来源和分类

1.各媒体繁体字的来源情况

华文语料来源于七个报纸和网站,这些报纸和网站使用繁体字的具体情况按来源语料统计了繁体字的频次和字种数及其各自的比例后,如表24所示:表24 华文语料中七种媒体的繁体字来源情况

① 占该来源语料中所有汉字总频次的比例。

② 占该来源语料中所有字种数的比例。

③ 占所有来源语料中繁体字总频次的比例。

④ 占所有来源语料中繁体字字种数的比例。由于每个来源语料中的字种数有交叉,此处的字种数比例之和大于100%。

从表24可以看到,华文语料繁体字的频次中,37.76%来自于《联合早报》,33.33%来自于马新社中文网,二者合计为71.09%。其余报纸和网络中,繁体字使用得较少。从媒体内部的繁体字使用频次比例来看,马新社中文网的频次比例最高,为0.05%,独立新闻在线和《联合早报》次之,分别为0.02%和0.01%,其他媒体皆为0.00%。

2.各媒体繁体字使用的分类情况

七种媒体中,繁体字使用的具体情况如何呢?我们列出了这七种媒体各自的前十个繁体字,具体情况如表25所示:表25 七种媒体各自的前十个繁体字

① 占该来源语料中繁体字总频次的比例。本表中其他“频率”同此。

从频率来看,新动网的繁体字使用次数最集中,一个“嬅”字就占了79.13% ;《联合早报》次之,“後”字占了72.71% ;《光华日报》电子新闻中“嬅”占了67.93%;亚洲新闻网中“後”占了51.36%;独立新闻在线、《世界日报》则相对分散;而马新社中文网更分散,排在第一位的“華”只占7.02%。《联合早报》中,“鎔、嬣、鏻”三个字主要用于人名等专名中,其他是常用字。

独立新闻在线中,“靂、韓”是地名用字,其余全部是常用字。《光华日报》电子新闻中,皆为人名等专名用字。

马新社中文网中,“華、馬”是专名用字,如“華社、馬来、馬英九”等,其余全部是常用字。《世界日报》中,“鍚、鋐”主要用于人名等专名中,其余全部是常用字。

新动网中,“魟”主要用于常用字中,其他是人名等专名用字。

亚洲新闻网中,“嬅、鐏”两个字主要用于人名等专名中,其他是常用字。

四、华文语料和监测语料中繁体字共用独用分析

1.汉字覆盖率为90%时的共用独用分析

当汉字覆盖率为90%时,华文语料共用到繁体字字种219个,监测语料共用到繁体字字种309个,二者的共用和独用情况,具体如表26所示:表26 华文语料和监测语料中繁体字的共用独用分析(汉字覆盖率为90%时)

二者共用字种数为112,按华文语料字表的频率从高到低排列,前十个如下:

後 來 嬅 華 爲 國 鎔 將 師 暐

监测语料独用字种数为197,按监测语料字表的频率从高到低排列,前十个如下:

蟯 鏸 鮰 鱀 訢 瞡 銶 瑩 蘋 燦

华文语料独用字种数为107,按华文语料字表的频率从高到低排列,前十个如下:

學 嬣 闢 導 問 應 狀 靂 總 獲

2.全部繁体字的独用共用分析

全部语料中,华文语料共用到繁体字字种858个,监测语料共用到繁体字字种1 181个,二者的共用和独用情况,具体如表27所示:表27 华文语料和监测语料中繁体字的共用独用分析(全部)

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载