档案修复与历史资料的数字化:第六届东亚史料研究编纂机构联席会议论文集(txt+pdf+epub+mobi电子书下载)


发布时间:2020-09-15 03:02:52

点击下载

作者:中国社会科学院近代史研究所

出版社:社会科学文献出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

档案修复与历史资料的数字化:第六届东亚史料研究编纂机构联席会议论文集

档案修复与历史资料的数字化:第六届东亚史料研究编纂机构联席会议论文集试读:

·中文·韩国历史资料数据库(DB)的开放性和影响韩国学中央研究院 朴成镐1.序论

韩国在2000年前后正式开始从国家的政策上推进历史资料的信息化。经过近20年的努力,现已把数量庞大的历史资料构建为电子资料,并通过网络技术实现了资料在线上环境的自由应用。

本文难以全面介绍韩国所有历史资料信息化的成果,在此仅以韩国已公开的,并具有代表性的几个历史资料数据库(DB)为主,简单介绍这一进程,特别是对通过互联网将历史资料公开的积极影响和资料库开放的重要性加以重点论述。韩、中、日三国资料收藏机构的管理政策虽各有不同,但历史资料的信息化无疑都产生了积极的影响,并相互促进着向更好的方向发展。本文以韩国历史资料信息化进程中的几个主要示例为中心进行说明(参见图1)。图1 韩国历史资料信息化进程2.韩国的主要历史资料数据库

这里向各位介绍韩国主要的几个历史资料数据库。(1)《朝鲜王朝实录》。实录按照日期记载了从朝鲜王朝始祖太祖到哲宗的500余年历史,资料大约5000万字,全部通过网络为学者提供阅览。在同一页面上可以看到汉文原文、现代韩文译文以及实录的原件照片(见图2)。图2 《朝鲜王朝实录》网页

最近,该网站也提供《明实录》和《清实录》的原文阅览,使用者如果发现原文或翻译错误可以立即申请修改。(2)《承政院日记》。承政院可以说是国王的秘书机构,《承政院日记》就是承政院以国王为中心所做的日志记录。该日记自朝鲜建国初期开始记录,其间经历战乱有所烧损。《承政院日记》从朝鲜仁祖到纯宗时期记录了约2亿4000万字,目前这些数量庞大的资料都可以提供网络浏览服务(见图3)。我们目前在提供原文检索服务的同时也一直在进行现代文翻译工作。最近有关承政院运营的文献《银台条例》《银台便考》也同时提供网络浏览。图3 《承政院日记》网站(3)国家编纂委员会创建的韩国史资料库。该资料库提供从韩国古代史到现代史相关的主要史料(见图4)。截止到2017年拥有约14亿6000万字的资料,这项工作目前还在持续进行中且规模逐年扩大。此数据库为韩国史的研究积累了充实的基础史料,并为国内外的韩国史研究学者提供了巨大帮助。(4)文物厅“国家文化遗产官网”。作为政府机关的文物厅主要职责之一是记录遗产,迄今为止这一网站拥有包括国宝、宝物、有形文化遗产在内的共1247种资料数据(见图5)。这个数据库的优点是能展示高像素的原本照片。对于专家已认可的、有价值的资料,网站提供高像素的原本照片、原文以及现代译文等信息,可以让文化遗产研究工作更为细致化,也满足了阅览者阅览文化遗产资料的需要。(5)韩国古典翻译院创建的韩国古典综合数据库。韩国古典翻译院主要翻译韩国传统文集和历史文献,以迄今为止的翻译成果为主创建了有5600余种文献,约9亿字的数据库。中国清代的代表文献《四库全书》约有8亿字,我们可以将其想象为韩国的《四库全书》。该数据库的优点是同时提供详细的解析、带标点的原文与译文等(见图6)。(6)由韩国学中央研究院创建的韩国学资料中心。它由韩国政府、全国主要大学及研究机构提供的10年的研究基金创建而成(见图7)。图4 韩国史资料库网站

以现在韩国大规模的藏书处奎章阁和藏书阁为代表的江原道、全罗道、庆尚道,及海外古文献资料等已经实现数据化,并可以通过网页提供给学者阅览。该数据库为促进古文献的研究,在提供古书的同时也提供数万件民间古文书资料,以及特殊辞典、年表等阅览。图5 国家文化遗产官网图6 韩国古典综合数据库网页图7 韩国学资料中心网页3.韩国历史资料数据库的开放性和扩展性

以上简单介绍了过去20多年韩国积极推进历史资料数据库创建的工作成果,这项事业以后也将持续进行。接下来介绍韩国历史资料数据库的开放性和扩展性。

第一,韩国的历史资料数据库大部分有国家的预算支持。国家的支持使曾经在民间难以进行的古典资料研究得以大规模、中长期地开展,并且国家政策规定,研究成果必须通过数据库在网上公开,所以现在韩国很多研究人员和民众能够很方便地接触到历史资料数据。

第二,通过互联网,全世界所有地方都可以接触到韩国构建的大部分历史资料数据。此外,每个网页都不需要加入会员和支付使用费。虽然各国加入会员和使用费政策有差别,但现在韩国基本实现了免费开放。因此,外国学者也可以通过便利的互联网检索到和自己研究项目相关的资料。

第三,使用网络的优点之一是资料和原文等信息的提供者和使用者之间可以实现互动。举例来说,如果使用者指出数据库的错误或不便,双方就可以讨论如何改进并持续进行完善。

第四,通过一个网页即可检索或联想到不同的数据库结果,使资料利用达到最大化。这是以网络为基础,积极利用数据库扩展性质的结果。国家预算的支持以及历史资料数据库的公共性质,使其成为可能。

第五,以原始资料为基础,通过创建历史资料数据库,其内容不断充实、延展。数据库最基本的功能是能够检索数量庞大的历史资料,能够实现原文和现代翻译的对比。此外,数据库还提供高解析度的原文照片,公众均可查阅(见图8)。针对已出现的错误,数据库对其进行修改,并正在努力改善,使其更为便利。图8 《朝鲜王朝实录》的示例4.历史资料数据库开放的积极影响

接下来介绍一下韩国开放历史资料数据库的几点积极影响。

第一,韩国的历史资料数据库创建工作,大部分是由研究机构主导的,所以开展学术活动是其工作重点。因此,研究学者很容易在线上接触到资料原文。与过去相比,研究者可以更为便利地在论文和报告中大量引用各种资料。另外,随着提供的资料日益增多,不同资料间很容易相互验证,除古书外,目前古文书和地图等新资料的使用率也在进一步提高。

第二,随着数据库构建事业的进行,不仅现有的资料广为人知,越来越多新的资料也被不断发现。线上阅览的便利使直接接触原始资料的频率减小,从资料保存的角度来看,它们得到了更好的保存。古文献资料随着时间流逝会损毁或丢失,但是构建数据资料后就可以实现资料的长期乃至永久保存。

第三,创建历史资料数据库除了在学术研究领域产生了积极影响之外,在文化产业领域也获得了衍生效果。数据库资料被广泛用于以历史为素材的创作活动,也被用于重现过去的仪式或技术中。历史资料数据库还对以“韩流”为代表的韩国文化传播做出了巨大的贡献。5.结论

以上简单介绍了韩国创建历史资料数据库的经过及其积极影响。进入21世纪以来,韩国的历史资料数据库建设事业在近20年间蓬勃开展,以后这项工作也将不断推进。迄今为止,通过20世纪发明的电脑技术,我们已经收获了非常有意义的成果。现在我们希望借助日益发达的现代技术,韩国、中国、日本、越南等汉字文化圈的历史资料数据库相互紧密联系,使各国的历史研究更加便利、更加活跃,以进一步深化东亚史和世界史的研究。亚洲历史资料中心的新课题与工作国立公文书馆亚洲历史资料中心 浅井良亮

亚洲历史资料中心(以下简称“中心”)是建立数据库,通过互联网公布近现代日本与亚洲邻国相关历史公文档案的数字档案机构。截至2018年4月,已公布文件213万份,图片3087万张。

本报告将以具体事例介绍中心近年来所面临的各种课题及为解决这些课题而开展的工作。关于中心成立的经过和近年来的情况,已有[1]另文介绍,请各位加以参考。1.扩大公布资料的范围(1)战后资料的正式公布

2015年5月,在“回顾20世纪、构思21世纪世界秩序与日本职责[2]的有识者恳谈会”(以下简称“构思21世纪恳谈会”)第五届会场上,出现了这样的意见:在赞赏“中心作为提供战前日本历史资料的网站,至今在东亚获得广泛使用,对于历史认识问题与和解问题做出了很大贡献”的同时,也提出“能不能不限于目前的战前部分,也公[3]布战后的‘和解’过程,向外界传递信息”的要求。

根据这个意见,我们在这一年8月由构思21世纪恳谈会提交的报告里,在“在战后70周年之际日本应采取什么样的具体措施”的条目中,提议“目前选取的史料限定于第二次世界大战之前,今后有必要搜集、公布战后资料”,把亚洲历史资料的公布范围扩大到了战后。[4]

以“充实亚洲历史资料中心”这一提议为基础,2016年3月,在[5]亚洲历史资料中心咨询委员会(以下简称“中心咨询委员会”)上,讨论了“公布战后资料所需方针”。中心咨询委员会以此前提议为基础,对于准备新公布的战后资料,认为“有必要确定具体范围”,从内阁会议决定与国立公文书馆相关法令之间的整体性、国内外使用者的期望等角度进行了探讨。最终决定以“在今后一段时间内,公布对象‘大体为1972年前完成的史料’”为中心工作方针。

以中心咨询委员会的提议为基础,中心决定公布1945年到1972年间的亚洲历史资料,在外务省外交史料馆和国立公文书馆的配合[6]下,从2017年开始正式公布战后史料。在开始公布的第一年,由外务省外交史料馆提供了《战后外交记录A门:政治、外界、国际纠纷》中GHQ驻军及帝国宪法修订方面的资料,由国立公文书馆提供了从东久弥宫内阁到第三次吉田内阁时期(1945年8月至1952年12月)内阁会议、事务次官会议等会议资料为代表的5个资料群,并都通过中心的数据库予以公布。(2)通过链接扩大信息提供范围

2012年12月,中心数据库公布的图片数量已经接近当初的目标3000万张,因此中心咨询委员会提出了“为扩大公布数据量而采取的具体方针”。其中指出,中心的职责应该指向“亚洲历史资料的枢纽”。具体方针是将国立公文书馆、外务省外交史料馆、防卫省防卫研究所战史研究中心(以下简称“三机构”)提供的资料数据库化并予以公布,又提出“今后应增加资料的提供,并构建链接其他机构数字资料的系统”。

根据中心咨询委员会的提议,中心开始与其他通过数据库公布亚洲历史资料的机构进行协商。最终在2013年5月,中心与琉球大学附[7]属图书馆签订了系统合作协定,中心的数据库开始以链接方式公布[8]“宫良殿内文库”。

此处所说的链接方式,其机制是在中心的数据库中进行资料检索,根据检索结果阅览资料图片时,会跳转到协作机构运营的数据库内的相应位置上。因此在资料公布之前,有以下三个流程要做:①中心接受协作机构运营的数据库公布的资料群中的元数据;②把对方机构提供的元数据,按中心数据库中元数据的格式进行调整(此时对于需要追加的字段等,中心会设置新的元数据);③把经过调整的元数据上传到中心数据库中。

采用这种方式,不但有异于一般的跨库检索,能同时检索中心公布的其他资料群,还可由中心数据库规格的元数据完成高精度检索,并能经由中心来提高协作机构所运营数据库的利用率。

到2018年4月,签署链接合作协定的同类机构已经有6家(参见表1)。表1 签署链接合作协定的机构(2018年4月)表1 签署链接合作协定的机构(2018年4月)-续表2.多语种检索(1)打造英语检索体系

1991年的内阁会议决定,中心的目的之一是方便“普通国民及相关国家人民的使用”。这意味着中心在筹备阶段就确定了使用者不限于日本人。因此,针对海外用户打造一个多语种检索体系,是中心成立时就受到重视的一个课题。

在中心数据库中,我们把日语的元数据进行英译,使用英语检索数据库成为可能。英语检索系统自2002年6月启动,这是中心成立后[9]第7个月的事情。

关于英语元数据,日语元数据中的资料群、簿册、件名的标题(title)、制作者(creator)、机构介绍(organization)等部分为翻译对象。对于资料的分层性(hierarchy),也和日语版一样,重现了资料提供机构原有的分层结构,可以沿着分层来进行检索。

在构建英语元数据方面,我们每年进行数万件的翻译工作。关于翻译业务,由于仅靠中心员工难以完全解决,采用了竞标的方式选择翻译业者,并由中心对业者的翻译内容进行检查。

近年来,我们又听到了使用者的呼声:除了英语检索外,中心能不能提供中文或韩语等其他语种的检索服务?能不能把内容摘要(summary)翻译了?这些呼声,也证明了中心的海外使用者不断增加的事实。多语种化方面还存在各种各样的问题,目前还是优先充实英语检索体系。(2)对译文的核查

在翻译数据的核查工作中,主要针对的是已存在正式译法的用语是否得到了正确的翻译,是否存在正式译法,译词是否具备正确性和统一性等问题。制作者和机构的介绍中很多时候存在以固有名词为中心的专业性用语,要具备很高的专业能力才能对其进行核查。

为了解决上述问题,中心定期召开亚洲历史资料中心数据核查委[10]员会(以下简称“数据核查委员会”),对译文进行核查。数据核查委员会对核查对象词就是否存在学术上的正式译法以及翻译是否正确、格式是否统一进行一一复核。

这里我们举“正院”的例子。从1871年到1877年设于太政官的正院,是太政官中的决策机构,也是管辖各省的部门。对于正院的英译,既有单纯音译的“Seiin”,还有表述其在太政官中定位的“Highest Political Organ”,以及相对于左院、右院而言的“Central Chamber”,这些译法在各种专业书中都有,并无统一译法。我们曾考虑使用“Cabinet”,因为正院是管辖各省的,与后来设置的内阁是一样的机构,但最后还是确定以“Central Council of State(Sei-in)”为正式译法。

通过数据核查委员会的复核后成为“亚洲历史资料中心正式译法”的词,会实时反映到中心数据库中的元数据上,并通过互联网特展等方式向社会公布。3.提高检索功能(1)打造字典功能

在对中心及其他机构的数据库进行检索时,有一个很大的问题,就是检索条件。也就是说,检索中使用的关键词,与登录为目录信息的元数据未必一致。

使用者在检索时使用的关键词,多为社会上的常见用词。这些关键词中,也有不少并非历史资料中实际使用的用语(史料用语),而是通过历史研究或教育、媒体所形成、普及的用语。而中心立足于资料原文主义,制作了元数据,因此对资料中的用语(史料用语)原样照录(包括笔误和误植)。

例如“明治维新”这一用语。明治维新这个词对应的是1868年前后日本的社会变化,在当时就有使用的例子。但在当时,也有很多场合使用的是其同义词,包括“御一新”及“百事御一新”等词。还有一些词与明治维新有紧密的相关性(相关词),例如“癸丑以来”“王政复古”等,不掌握这些情况,就难以顺利地检索明治维新的相关资料。

此外,外国的地名和人名,在音译为假名时规则未能统一,因此出现了一词多译的情况。比如明治初期美国驻日公使Charles E. DeLong一般译为“デロング”,但在当时的外交档案中存在很多有/[11]无浊音的“デロンク”和“テロング”,以及有/无长音的“デ[12]ローング”和“デイロング”等情况。不用说,对于用了后面这些译法的资料,仅使用“デロング”来检索,是无法找到的。

像这样,为了消除中心数据库中关键词与史料用语不一致的情况,有必要对检索功能进行强化。为此,中心把社会上的常用关键词设为检索基本用词,而对与此相关的同义词、相关词和一词多译,则[13]进行了字典数据的强化。

经过强化的字典,在使用检索基本用词时,屏幕上会出现“指定字典及译法进行检索”的标签,点击标签,就可以对数据库中登录的同义词、相关词和一词多译进行选择,还可以多选。这样一来,就可以得到包括同义词、相关词和一词多译在内的检索结果。

至2018年8月,已登录的基本用词约有1.1万个,同时还在进行用词追加及其内容的复核工作。(2)亚洲历史资料中心地名人名事件辞典

为了解决上述检索用词方面的问题,我们于2017年开始运行“亚洲历史资料中心地名人名事件辞典”。这一内容,是以辞典形式介绍检索用关键词,还能向使用者介绍与关键词相关的同义词、相关词和一词多译。

在辞典的首页,按地名、人名、事件各设置一个按钮,点击按钮,就跳转到各辞典的选择页面上。在此通过下拉可以从门类和关键词中选择使用者感兴趣的词条。选择后点击“表示”按钮,用语解说页面就会显示出来。解说页面中除了对用语的简单解说外,与其相关的同义词、相关词和一词多译也会显示。此外,点击“使用该关键词进行检索”,还可以对使用了该用语的数据库进行检索。

辞典中登录的用语,原则上都具备上述字典功能。因此根据用语检索结果,可以打开“指定字典及译法进行检索”标签,进行再次检索,从而得到更广泛的检索结果。(3)亚洲历史资料中心杂货铺

中心每年都举办数字企划展,称作互联网特别展。从2015年度开始,会在特定主题展之外运营具有资料检索导航功能的“亚洲历史[14]资料中心杂货铺”。

2017年度,中心开始公布那些曾在战前日本的殖民地、占领地行政机构中工作过的官员的资料,称作“档案中的‘外地’和‘内地’:旧殖民地、占领地的人的回流”。

在“用表检索”页面,可以通过机构变迁表、年表来检索设在旧殖民地、占领地的行政机构。关于机构变迁表,使用者可以对想要检索的地区(台湾、朝鲜、“关东州”及满洲、萨哈林、南洋等),用下拉的方法进行选择,可以直观地看到详细的机构组成情况。如果点击机构变迁表中的部门名称,还可以跳转到相应的解说页面。

在“检索官僚履历”页面(见图1),可以直观地看到曾在这些行政机构工作过的官员的履历和工作地点。如果选择想查的机构名或官职,可以跳转到相应的履历页面,能够详细地了解其人的履历和奉职地区的变化。此外,在跳出的机构名和人名解说页面上点击“用本关键词检索”,则可以对使用了该关键词的数据库进行检索。

另外,中心还分别在2015年度和2016年度公布了“从档案看终战:复员和回国的记录”“从档案看战时与战后:统治机构的变化”。2018年度,中心计划举办以明治时期为主题的特展,以开展明治150年纪念活动。图1 “检索官僚履历”页面参考文献牟田昌平、小林昭夫:《亚洲历史资料中心》,《情报管理》Vol.45,No.7,2002年10月。《Archives》Vol.27,国立公文书馆,2007年3月。内海爱子:《村山谈话与亚洲历史资料中心》,黑泽文贵编《战争、和平、人权》,原书房,2010。国立公文书馆亚洲历史资料中心编《瞄准数字档案的尖端》,国立公文书馆亚洲历史资料中心,2012。构思21世纪恳谈会编《战后70年谈话的争论点》,日本经济新闻出版社,2015。波多野澄雄、大野太干:《国立公文书馆亚洲历史资料中心15年来的工作》,《情报管理》Vol.59,No.7,2016年10月。大野太干:《如何理解日本的历史档案》,《档案》第16卷第1期,2017年6月。波多野澄雄:《亚洲历史资料中心的16年》,《中央史学》41号,2018年3月。黑泽文贵:《亚洲历史资料中心的设立目的和面向海外的传播》,《中央史学》41号,2018年3月。熊本史雄:《数字档案与历史研究》,《中央史学》41号,2018年3月。浅井良亮:《亚洲历史资料中心的研究利用》,《中央史学》41号,2018年3月。亚洲历史资料中心协力室:《与亚洲历史资料中心的合作经过及现状》,《外交史料馆报》31号,2018年3月。水泽光:《如何搜索档案》,《化学史研究》Vol.45,No.2,2018年6月。[1] 关于中心的成立经过,请参考内海(2010)。关于近年来的情况,请参照波多野、大野(2016)及波多野(2018)等文。[2] 构思21世纪恳谈会是以在战后70周年的2015年进行“回顾20世纪、研究21世纪应有的国际秩序的研讨”为目的,于安倍晋三内阁设立的。[3] 请参考构思21世纪恳谈会(2015)。发言人为川岛真。川岛在中心成立10周年纪念会“亚洲历史资料中心10周年回顾与展望”中,也针对中心的亚洲历史资料提出“如何横向、纵向扩展”的问题[国立公文书馆亚洲历史资料中心(2012)]。[4] 构思21世纪恳谈会的报告,可通过首相官邸官网(https://www.kantei.go.jp/jp/singi/21c_koso/)阅览。[5] 中心咨询委员会是“根据中心理事长的要求,对于中心负责的业务进行调查审议,并提出必要建议”的机构。[6] 关于外务省外交史料馆向中心提供的战后资料,请参考亚洲历史资料中心协力室(2018)。[7] 签署协定的仪式是在琉球大学举行的,冲绳当地报纸对此进行了报道(《冲绳时报》2013年5月29日,《琉球新报》2013年5月31日)。[8] “宫良殿内文库”(みやらどぅんちぶんこ)是冲绳县石垣市的公良家所继承下来的资料群,目前琉球大学附属图书馆藏有约300件。该资料群还包括从琉球王国时代到明治初期与清朝及美国的外交档案,以及明治初期煤矿开发、与冲绳本岛间的海运档案。[9] 黑泽(2018)。前文所提论文也有很多。[10] 数据核查委员会是为了“对中心构建数据库工作的结果进行核查审议,从而保证公布的数据库的正确性、客观性及信赖性”,由中心理事长召集的委员会。[11] 例如「単行書·生蕃事件」(Ref.A04017197200)和「4月 テロング全権公使 長銃4挺等銃類被差贈蒔絵中箪笥差進」(Ref.C10071872100)等。[12] 例如「3.明治三年対话书二米国之部二/1庚午(明治3年)6月3日」(Ref.B03030035500)和「1.明治四年対话书四米国之部一/1辛未〔明治4年〕2月7日」(Ref.B03030047800)等。[13] 关于字典功能的完善,可以参考牟田、小林(2002)。[14] 关于亚洲历史资料中心杂货铺,请参考大野(2017)及浅井(2018)。“数据”与史学研究——抗日战争与近代中日关系文献数据平台介绍中国社会科学院近代史研究所 罗敏 姜涛

历史学是一门高度依赖材料(sources)的学问。著名近代中国学者胡适就曾说过“有几分证据,说几分话”,扼要地道出了“史学”与“史料”的关系。不过,胡适此言针对的是史学研究中缺乏直接证据的空谈,并非为束缚住史家的手脚,使研究者为史料所困;相反,正因为材料的极端重要性,要求研究者尽可能地去扩充材料,甚至要有“上穷碧落下黄泉”的穷尽可获取史料的精神。

不可否认的是,随着近十几年电子计算机、信息化技术的高速发展与全面普及,史料的载体不再拘泥于纸本与实物,各类形态不一的电子资源与数据库日渐成为学者们著书立说的材料基础。“找材料”这一过程也相应发生了改变。相较十多年前,研究者现如今更多的是在电脑前动动鼠标,在自己的硬盘或是在各类商业、公益数据库中找寻相关材料,而花大部分时间在图书馆的某个角落里扒拾积灰发霉纸书的学者已经变得越来越少。可以说,专业数据库俨然已成为研究者的“第二图书馆”。

本文拟通过介绍“抗日战争与近代中日关系文献数据平台”(以下简称“数据平台”)的缘起、宗旨与特色,探讨大数据时代史学研究与“数据”之间的关系。“数据平台”之缘起与宗旨

最初提出建设数据平台设想的是中国社会科学院近代史研究所已故前任所长步平先生。与一般商业数据库不同的是,步先生构想的“数据平台”不是由出版社或数据库公司创建,而是由研究机构直接主持,旨在尝试突破既有的数据库商业模式,更好地为研究人员提供数据资源服务。除了由研究机构直接策划、建设大型专业数据库这一新兴模式外,步先生还反复强调这一新数据平台须秉持“公益”“共享”的理念,从而使史料数据真正成为“学术之公器”,进一步推动整个近代史学科的发展。自“数据平台”线上推出以来,步先生提出的由专业研究机构主导,走“共享”“公益”路线一直是其两大突出特点。

2016年5月,步所长在与病魔斗争期间亲自修订了“数据平台”的相关申报材料,在生命最后阶段还为史学研究的未来贡献力量。2016年6月,“数据平台”的建设作为国家社科基金课题“抗日战争研究专项工程”正式立项。在全国哲学社会科学规划办公室领导下,平台由中国社会科学院、国家图书馆和国家档案局合作筹建,中国社会科学院副院长李培林研究员主持项目。近代史研究所则具体负责平台建设,百度公司提供技术支持和维护(见图1)。图1 “抗日战争与近代中日关系文献数据平台”首页(http://www.modernhistory.org.cn)

由“抗日战争与近代中日关系文献数据平台”这一命名可知,“数据平台”是以抗日战争相关文献为核心。以抗战与近代中日关系资料为平台的一个亮点,主要有如下考虑。

首先,近代以来,中日关系错综复杂又极为重要,甲午战争、抗日战争等标志性事件深刻地影响了中日两国的发展,挖掘保存抗日战争与中日关系史料的意义也就尤为重大。

其次,从学术层面而言,抗日战争史与近代中日关系史又是中国史学科中的重要组成部分,能够衍生出不可胜数的研究课题。抗日战争作为中华民族的宝贵历史记忆,越来越得到国人的重视。无论是政府层面还是研究机构,抑或民间团体,都在努力抢救、保有这份重要的民族记忆。而这段历史更亟待让全世界各国人民了解与熟知,因而更需要一个整合性的公益开放的资源平台,而不单单是一个受众面较窄的纯学术数据库。

再次,相对而言,国内近代史研究中,抗日战争史、近代中日关系史的研究尚属薄弱,其中一个主要原因就是研究资料的获取与使用非常不便。抗战时期的图书、期刊、报纸、档案等分散于全世界各地。而战时生成的文献史料由于纸张和印刷质量往往较差,现在的保存状态也十分堪忧。多种主客观因素导致史料传播与挖掘的滞后。目前,作为当时侵略国的日本,实际上早已推出了免费开放近3000万页档案图像的亚洲历史资料中心(アジア歴史资料センター,网址:https://www.jacar.go.jp),而作为战胜国的中国还难有与之相匹敌的抗战文献数据库,实为憾事。因此,打造一个能够涵盖海内外有关抗战与近代中日关系的综合性文献共享平台与学术交流平台,具有巨大的学术价值与现实意义。

不过,需要强调的是,抗战与中日关系文献只是平台的特色资源,整个数据平台从推出伊始便是旨在全力囊括19世纪末至1949年中国的文献史料,并不限于抗战或中日研究本身。因此,它并不局限于抗战与中日关系,整个晚清民国时期的重要文献资料“数据平台”都尽力搜集、整合、上传,呈现给海内外的读者。

就文献类型而言,“数据平台”除搜集整合晚清民国时期的公开出版品(图书、期刊、报纸三大类)外,还着力于汇集1949年以后整理产生的各类档案、研究文献、影像资料、史料集等。“数据平台”将搜集到的材料进行分类、整理、编目、数字化的转制与修复,整个过程由有历史学、信息技术等相关专业背景的研究生负责处理,以更有效地降低错误率,提高数据质量。尔后,团队再与百度公司对接,将所有处理完成的史料文献以“数据平台”的形式呈现在互联网上,免费向全球开放。使用数据平台的用户,不用注册便可轻松浏览全部公开的高清图像(150dpi),如需下载300dpi图像,则只要注册一个免费账号即可,每个账号每月可下载2000页图像。

与目前世界上几个较大的在线数字典藏库相比,“抗日战争与近代中日关系文献数据平台”虽然仍在起步阶段,但优势与特色十分明显。为方便比较,此处需要简要介绍一下海内外若干与近代中国历史相关的数据库。

目前,无论在体量还是在开放程度上,最出类拔萃的在线数据平台之一,仍是前文提及的日本亚洲历史资料中心。亚洲历史资料中心于20世纪末开始筹划,2001年作为日本国立公文书馆的一个部门正式成立。该中心在线免费开放国立公文书馆、外务省外交史料馆、防卫省防卫研究所图书馆收藏的部分电子化资料。这些档案史料的时间跨度是从明治初期到太平洋战争结束,内容主要与亚洲有关。据该中心推测,现有资料以图像数据计算,已超2800万个图像,并且还在陆续更新上传新近扫描的档案。亚洲历史资料中心不仅涵盖几个机构的档案资料,在线免费开放阅览、下载,而且做到了档案卷宗的细化,每卷档案拆分为若干个文件,且每个文件都有摘要说明,摘要内容在搜索时亦可命中,用户使用体验十分好。美中不足的是,该在线资料中心仅整合了公文档案,同时期相关图书、期刊、报纸、影像等则付之阙如。

另一个与中国近代史密切相关的,以档案免费开放为目标的大型数据平台,是台湾地区的“国史馆档案史料文物查询系统”(https://ahonline.drnh.gov.tw/index.php?act=Archive)。该史料系统自2017年改版以来,正式向全世界免费开放在线浏览,2018年伊始又开放下载,尤为便利研究者。“国史馆”主要典藏中华民国“总统”“副总统”史料、各行政院部档案等,囊括了大陆时期以及迁台后国民党政权的各类公文档案。不过,该在线数据库同样是单一档案类而非综合性的平台,且目前公开档案约在300万页,相较亚洲历史资料中心,在体量上仍略显单薄。

以上两个在线数据平台都是由官方主导的公益、免费的数据资料库,“抗日战争与近代中日关系文献数据平台”同样旨在将没有版权限制与纠纷的史料、档案无偿免费地开放给全世界读者,但是“数据平台”的资源更具多样性,并不限于档案,特别是在晚清民国书籍、期刊、报纸方面颇具特色。

提及晚清民国期刊,上海图书馆推出的“晚清民国期刊数据库(1833—1949)”(http://www.cnbksy.com/)是目前全世界范围内中国近现代期刊数据库中的领头羊。自2009年正式上线以来,基于上海图书馆馆藏文献,“晚清期刊数据库(1833—1911)”已收录期刊520余种,53万余篇文章,“民国时期期刊数据库(1911—1949)”则收录了25000余种期刊,1000余万篇文章,涵盖了晚清民国时期出版的绝大部分期刊。其收录文献数据堪称巨量。不过,首先,该数据库是商业开发的收费数据库,目前仅部分经济条件许可的大型研究机构与高校图书馆购买了此库,而且绝大部分只是部分购买,这就大大限制了受众。数据库将期刊文献按上线先后顺序分为若干辑,据笔者有限的观察,绝大部分用户机构可能仅从中挑选几辑购买使用,很难做到全部收录。其次,“晚清民国期刊数据库(1833—1949)”隶属上海图书馆“全国报刊索引”,除期刊外,上海图书馆确在致力于近代报纸的数据库开发,但目前规模似不如期刊类,晚清民国时期图书的数字化也较为滞后。与“抗日战争与近代中日关系文献数据平台”相较,文献多样性上存在劣势。

近期,国家图书馆出版社也推出了整合性较高的“中国历史文献总库”(http://mg.nlcpress.com/library/publish/default/Login.jsp),虽然目前可供阅览的文献以民国时期图书为主,但在数量上具有绝对优势,目前该数据库中已有18万种民国图书,总计页数3200万余页。其中,不少还是平孤本与珍稀文献。遗憾的是,“中国历史文献总库”同样是收费数据库,且目前只供研究机构购买使用,绝大部分研究者短期内恐难以受惠。

综上言之,“数据平台”因刚刚推出试用一年,在数据体量上与海内外大型数据库相较,目前可能不占绝对优势,但是作为一个多类型文献的整合型数据库,如果稳步发展,其未来前景必定优于单一类型的数据库,可称得上是“大数据”运用在文科研究型数据库中的先声。此外,“数据平台”有别于商业收费数据库,始终秉持互联网时代“公益”“共享”的宗旨,向全世界读者承诺永久免费浏览与下载;不仅现在如此,即便将来数据量日益提升,网页不断改进,“数据平台”“公益”“共享”的追求也是不变的。“数据平台”的优势与现状

上节笔者从宏观角度重点介绍了“数据平台”的缘起与宗旨,本节则从相对微观的层面来呈现平台的优势与现状(见图2)。图2 “抗日战争与近代中日关系文献数据平台”优势要素

截至2018年6月,“数据平台”已经上线的晚清民国时期报纸近400种,期刊突破800种,图书8000余册,此外还包括图片等资源,如以图像数据计算,总数已超过800万页。近期“数据平台”建设团队主要重心放在近代报纸的数字化与线上公开,力求先在报纸上突出亮点。“数据平台”目前公开的报纸文献,兼具著名大报与地方小报特色。从报纸内容与类别而言,近代中国的四种“大报”——《申报》《大公报》《益世报》《民国日报》均已上线,近代上海出版的各类小报、画报,包括《福尔摩斯》《金刚钻》等也已经可以在线阅览下载。此外,“数据平台”目前还推出了中国共产党发行的《红色中华》《解放日报》《晋绥日报》等20余种重要党史文献,而国民党及其他党派的重要报纸,如《中央日报》《民吁日报》等也能在“数据平台”中找到。伪满洲国与华北、华中、华东沦陷区的各种日伪报纸,平台也努力收集、整合、上线了近30种。

从报纸地域分布而言,目前上线的近代报纸的出版地基本涵盖了中国的主要省份和地区,包括北京、上海、天津、安徽、福建、广东、河南、黑龙江、湖北、湖南、吉林、江苏、江西、辽宁、山东、山西、陕西、四川、云南、重庆、香港等。“数据平台”还收录了几份海外的华文报纸与国内出版的西文报刊,如《大汉公报》《诚报》《北华捷报》《字林西报星期周刊》等。地方报纸的大量上线,是“数据平台”报纸库的一大特色。这些地方报纸分布在中国许多中小城市,而非省会城市,更能体现出地域性与市民生活的面相,例如《徽州日报》(安徽屯溪)、《嘉陵江日报》(四川巴县)、《新民日报》(河南许昌)、《新民日报》(安徽贵池)等。这些地方报纸的上线,为深化近代中国地域史、社会史研究提供了极具价值的史料来源。另外,平台尚有诸多贴近社会、日常生活与专门技术的报纸,涵盖电影、戏曲、儿童、妇女、经济、军事、文教、宗教、科学、无线电、航空、医疗卫生等方面,类型繁多。

平台在开放试用的第一年中,亦上传了多种期刊,至今上线期刊已突破800种。期刊的数字化制作与上传,不仅在数量,而且在种类与地域分布上亦可与平台上线的报纸相媲美,甚或在个别点有所超越。例如,“数据平台”在上传期刊时,将期刊篇目完整录入,以便于更细致的搜索。这一点看似与上海图书馆“晚清民国期刊数据库(1833—1949)”相比无甚亮点,但是上海图书馆处理期刊时,是将篇目与刊物的关联打破,在关键词搜索时,仅显示命中的篇目,如若进行二次筛选,进入某个特定刊物,其卷期同样是散乱的,无意中隐去了不少潜在的关联性与时间性,成为一个纯粹关键词检索导向(key word search oriented)的篇目数据库。“数据平台”则是将篇目与刊物关联,保留其中的历史感。

此外,平台近期上传的书籍、稿本中,最突出的是中国近代藏书家刘承干的《求恕斋日记》。《求恕斋日记》起于1900年,止于1962年,跨越半个多世纪,详细地记录了一个近代中国士绅对辛亥革命、北伐、抗日战争与新中国建立的观察与思考,并为研究近代中国的学术、思想、文化、经济、政治与社会提供了许多鲜活的细节性资料。值得一提的是,所有晚清民国图书的著录都录入了完整目录,并导入“数据平台”的关键词检索库中。

总之,“数据平台”的所有图书、期刊目前支持文献基本信息与完整目录的关键词检索。因规模巨大,全文检索在短期内可能难以实现,但上述内容全字段检索已突破现有大多数历史学数据库的检索“粗放”的局限性。目前,中国社会科学院、北京大学、中共中央党校、南京大学、武汉大学、山东大学、复旦大学、东北师范大学、南加州大学、乔治·华盛顿大学等20余所海内外院校及地方公共图书馆网站陆续收录了“数据平台”,提供访问链接。

此外,“数据平台”有一个有待未来进一步开发的特色:发展以研究专题为核心的用户导向的(researcher-oriented)“研究型”数据库。现在我们在这一思路指导下,正在开发并初具规模的是“红色文献”专题版块。该专题集中展示了从1919年到1949年有关中国共产党的各种文献资料。“红色文献”不是一个独立版块,而是在一个主题下汇聚不同种类文献的总和,是我们向“研究型”数据库探索的初步尝试,给史料文献进行简单的标注。预计将来能有更多诸如南京大屠杀、平型关战役、滇缅战场等不同专题。并且,平台努力的方向是让每一个使用者都能定制自己感兴趣的专题库,成为真正互动性的个性化研究数据库。“数据平台”建设至今略有遗憾的是,版权问题一直是困扰其进一步壮大发展的因素。虽然“数据平台”绝大部分文献是过了版权保护年限的公版文献,但是取得国家图书馆、社会科学院图书馆、各档案馆等单位授权的文献占比仍然不少,目前仍有大量未能公开上线,只在平台内部暂做著录整理工作。如近代史所档案馆典藏的胡适档案、顾维钧档案,美国哥伦比亚大学藏卡尔逊档案、李顿调查团档案等,档案史料价值极高,但由于版权与相关协议限制,目前暂不能公开发布。因而,“数据平台”公开档案类文献目前仍是空白。此外,随着项目的开展,今后需要大规模购买各类已出版的档案文献、资料汇编等成果。这部分文献基本都是由各级政府财政资金资助出版的,但是编者、出版社拥有出版权。所有这些文献史料的开放只能有待时日。大数据时代下的史学研究与“数据”

2015年12月,《中国史研究》编辑部与上海大学历史学系联合主办的“传承与开启:大数据时代下的历史研究”国际学术研究会在上[1]海召开。2016年11月4—6日,南开大学历史学院与《史学月刊》编辑部联合主办了“首届新史学青年论坛:大数据时代的史料与史[2]学”。两次主题类似、关怀一致的会议颇具迎接新兴互联网时代的热情与主动性。两次会议提交的论文基本都涉及了“大数据与历史学问题的具体结合”“数据库、电子资源建设”“大数据在史学研究领域的优势与缺陷”等多个命题。

首先,令人惊喜的是,近几年已涌现出多个历史学相关的研究型数据库,不仅数据体量颇大,有个别数据库还突破了单纯为学者提供[3]储存与检索的功用,朝着提供问题主导的结构化数据方向发展。当然,会上介绍的绝大多数数据库是单一类型史料库,或者是纯粹问题导向的个性化数据库,真正与大数据时代意义相吻合的整合性数据库仍有待来者。不过,数据的结构化处理,以及与研究问题意识相关联,这些做法本身便在史学领域具有跨时代的意义,也是大数据理念的部分反映。

其次,作为近年来国内讨论大数据对史学研究影响的大型会议,其基调实际上仍是一种平衡的中间路线。一方面,多数与会学者认可大数据对史学研究有一定促进作用,但仍有“警惕”的声音,对大数据的意义持“谨慎的乐观”(cautiously optimistic)态度。部分研究者提交论文的字里行间流露出担忧“大数据时代”可能使史学研究者过[4]度依赖“数据”,堕入数据的陷阱之中。必须承认,从某种程度上说,人文学者谈论的“大数据”与数据技术领域中的“大数据”仍有较大的差距。大数据最初的定义是“传统数据处理应用软件无法有效处理的巨量而繁杂的数据集”,而现如今更意指“趋势分析”、“用户[5]行为分析”或是“其他高级数据分析方法”。技术领域中的“大数据”强调的是先进的分析手段,而人文学科争论实质大多仍是聚焦“资料的收集”方式。乐观者倾心于便利的资料索取,谨慎者担忧各类“数据库”搜索结果的有效性与代表性,担心过度依赖数据检索使人文学者疏于文本分析。无论乐观者与谨慎者,实际上似乎都误判了大数据在人文研究领域的趋势前景与未来性的意义,未能着眼于对数据本身的分析、结构化处理等具有的潜在研究范式转换的意义。

毋庸置疑,数字技术对人文学科的渗透已有相当之程度,不仅技术上改变了资料找寻与研究写作的模式,而且已经悄然改变人文学者[6]的思考方式与思维模式,单纯为人文学科的纯粹性与数据的有效性而拒斥数字技术与信息科学在史学领域的运用,似已无必要,而仅将数字技术视作便捷的储存方式与检索技巧也只是其中最为基础的一步。

事实上,在史学领域,中国古代史学科在追赶“大数据时代”潮流中已领先一步。中国历代人物传记资料库(CBDB)即是代表。中国古代史学者借助GIS、SQL等基本技术,已经从史料单纯的“电子化”向结构性的“数据化”——对数据特殊性、研究性的分析——迈进。在中国近代史领域,由于史料的几何数量增加,基础性的电子化似仍“前路漫漫”。对“大数据”的隐忧不能让我们因噎废食,恰恰是“数据”(电子化的史料)积累得不够才使人文学者产生对“数据”的不信任感。

中国近代史领域为迎接大数据时代的到来,首要的是史料的巨量收集与电子化,使之构成值得分析的“数据集”。也有学者认为大数据时代,第一步是形成混杂的大规模数据集(messy big data),第二步便是努力由问题意识出发,向小而精的数据集(clean small data)[7]推进。由第一步向第二步推进并不是某些论调认为的抛弃人文传统,弱化辨析思维,研究者通过必要的技术辅助与研究型数据库的支持,使数据形成某些内在的逻辑联系与结构,这一过程本身与传统的人文思维是并行不悖的。

抗日战争与近代中日关系文献数据平台便是朝着最初的一步努力前行。尽管史料的大量汇集与电子化仍是本平台当前阶段的重点,但是“大数据”与“大数据”技术在史学领域的应用与融合,是本平台的最终关怀。目前阶段是数据检索细化到目录,加上时间与关键词等筛选。以后,“数据平台”借助日益先进的光学识别技术(OCR)与平台合作方百度的先进计算能力,在不远的将来真正实现“电子化”向“数据化”的跨越并非不可能。届时,“数据平台”也许能进一步为史学研究带来新视角与新生命。[1] 舒健主编《大数据时代的历史研究》,上海译文出版社,2018。[2] 《史学月刊》编辑部主编《大数据时代的史料与史学》,人民出版社,2017。[3] 赵思渊:《地方历史文献的数字化、数据化与文本挖掘——以中国地方历史文献数据库为例》,舒健主编《大数据时代的历史研究》,第66—79页。[4] 从论文集总体把握,《大数据时代的历史研究》相较《大数据时代的史料与史学》更为积极地看待数据在史学研究中的意义。[5] 引自维基百科,https://en.wikipedia.org/wiki/Big_data。[6] Katherine Hayles,“How We Think:Transformation Power and Digital Technologies,” Daivd Berry ed.,Understanding Digital Humanities,Palgrave Macmillan,2012,pp.42-66.[7] Christof Schöch,“Big?Smart?Clean?Messy?Data in the Humanity,” Journal of the Digital Humanities,Vol.2,No.3(2013),pp.1-13.韩国近代户籍资料的收集现状与数据库建设成果——以韩国国史编纂委员会收集的日本所藏户籍资料为中心仁荷大学历史系 林学成1.朝鲜时代韩国的户籍制度和户籍资料

朝鲜王朝主要以户口为依据征收赋税,户籍制度的产生与户籍资料的编订成为其必然的需要。朝鲜王朝于1896年9月制定的《户口调查规则》(9月1日,第61号敕令)及《户口调查细则》(9月3日,第8号内部令),推动了朝鲜时代的户籍制度由原来的每三年编订一次的“旧式户籍”演变为每年编订的“新式户籍”。

朝鲜的户籍资料一向被当作最适合研究人口、身份、村落等朝鲜时代社会现象的资料。然而,以往的户籍研究大都以韩国南部庆尚道地区的“旧式户籍”(1896年以前的户籍资料)为主,其中主要局限在大邱、丹城、蔚山、彦阳等部分地区。现存的资料(约430册)中90%左右(约400册)偏重于庆尚地区,不免导致了这种局限的产生(济州岛地区的户籍第二稿资料300余册除外)。2.“近代”(1896—1908年)韩国的户籍资料“新式户籍”即1896—1908年这13年间编订的近代户籍资料,它摆脱了过去偏重部分地域的现象,扩大后的范围包括汉城府与全部的[1]13道以及“间岛”地区等93个地区(府、郡)的资料。这与带有地域偏重性(全部37个地区中庆尚地道区占21个)的“旧式户籍”相比是巨大的进步。现将迄今为止所调查的“新式户籍”资料的地域分布情况整理为表格,如表1所示。表1 现存“新式户籍”资料的地域分布情况

另外,迄今为止所调查的“新式户籍”资料的数量分布为韩国收藏49册、日本收藏175册、美国收藏2册(参见表2)。表2 “新式户籍”资料的收藏机构情况表2 “新式户籍”资料的收藏机构情况-续表

各个收藏机构中,日本京都大学综合博物馆藏“新式户籍”资料134册,数量最多。其次是韩国首尔大学奎章阁韩国学研究院藏41册,日本学习院大学图书馆藏29册。因此,仅日本的两大机构所藏的“新式户籍”资料就超过了全部数量的70%。3.韩国国史编纂委员会收集的日本所藏韩国“新式户籍”资料

韩国的国史编纂委员会主要职责是:全面调查收集藏于国内外的韩国历史资料,编纂普及历史资料。收集的国外资料中包含藏于日本京都大学综合博物馆与学习院大学图书馆的韩国户籍资料。这些户籍资料是日本两个机构所藏的包括19世纪“旧式户籍”与“新式户籍”的全部资料。

之前,由于一般人不容易接触到(阅览及复印、拍照)京都大学综合博物馆所藏的“新式户籍”资料,所以长期以来从事研究工作的时候存在诸多不便。因此,尽管国史编纂委员会收集的“新式户籍”资料是以黑白微缩胶片(MF)的形式保存,但是韩国的研究人员还是很高兴能够如此容易接触到这些资料。

现在可以在韩国国史编纂委员会的官网“电子史料馆”(http://archive.history.go.kr)通过目录检索“国外史料—日本—京都大学/学习院大学所藏资料”查看京都大学综合博物馆(134册)和学习院大学图书馆(29册)所藏韩国“新式户籍”资料,访问史料馆可以阅览微缩胶片。4.日本所藏韩国“新式户籍”资料数据库建设成果

韩国仁荷大学韩国学研究所在韩国学中央研究院“韩国学振兴事业”的赞助下,自2009年3月至2019年2月十年间,实施了“新式户籍”资料的调查、收集及数字化管理工作。这一研究项目的完成意味着为韩国、日本及美国所收藏的“新式户籍”全部资料创建数据库,将更方便相关研究人员从事研究工作。

下面就仁荷大学韩国学研究所正在进行的“新式户籍”资料数据库建设项目内容做一简单介绍。(1)“新式户籍”资料数据库建设

使用Microsoft Office Access系统录入包含户籍资料的信息。(2)数据库建设录入要素“新式户籍”资料的内容是构建数据库所必需的录入要素,大致划分为㉮时间、㉯地理、㉰户主、㉱户主的四祖、㉲共居亲属、㉳寄户及雇佣人、㉴房屋、㉵统计等模块整理,各个必需要素所录入的详细信息如下所示(参见图1)。

㉮时间信息:①时间1(年号),②时间2(公元),③时间3(月)。

㉯地理信息:①地名1(道),②地名2(府/郡),③地名3(坊/面),④地名4(契/里),⑤地名5(洞、里),⑥番地1(统),⑦番地2(户)。

㉰户主信息:①姓名,②年龄,③籍贯,④职业,⑤前居住地,⑥迁入日期。

㉱户主的四祖信息:①户主父亲的姓名和职业,②户主生父的姓名和职业,③户主祖父的姓名和职业,④户主曾祖父的姓名和职业,⑤户主外祖父的姓名和职业、籍贯。

㉲共居亲属信息:①户主的妻子,②户主的子女,③户主的亲属等。

㉳寄户及雇佣人信息:①按男女性别划分的寄户数,②按男女性别划分的雇佣人数。

㉴房屋信息:①私有瓦房及草房间数,②借用瓦房及草房间数。

㉵统计信息:①寄户及雇佣人合计,②按男女性别人口数合计,③房屋间数合计。图1 1900年汉城府“新式户籍”表(3)“新式户籍”资料数据录入窗口形态及录入示例(参见图2)图2 “新式户籍”资料录入窗口(4)“新式户籍”资料数据录入表格示例(参见图3)图3 “新式户籍”资料数据录入表格5.韩国“新式户籍”资料数据库的价值与应用

户籍资料是最适合用于分析一个朝代的财政、对民政策、人口身份史、生活史、村落史等信息的资料。因此,调查收集在韩国以及日本、美国等国所藏的“新式户籍”的全部资料(成册户籍230余册与单张户籍表等),进而创建数据库,对于研究19世纪末至20世纪初韩国社会的历史状况是十分有益的。

韩国“新式户籍”资料数据库的价值与实用性具体如下。(1)整合韩国近代“新式户籍”资料

学术界一向侧重于应用汉城府或京畿道、忠清道等部分地区的“新式户籍”资料。但是现存的“新式户籍”资料不仅数量庞大,而且分散于国内外许多地方,很难实现全部资料的整合分析,这是创建数据库的主要理由。

基于这种情况,在数据库建设前后,分析“新式户籍”资料研究成果的数量与质量层面展现出明显的差异。自仁荷大学韩国学研究所开始进行韩国的“新式户籍”资料数据库建设项目之后,至2017年底,参与研究的人员共发表了28篇论文。而“新式户籍”资料数据化之前,研究“新式户籍”资料的论文不过10余篇,与此相比,可以说是产出了丰硕的研究成果(参见表3)。表3 数据库建设后“新式户籍”资料的应用研究成果

特别是2009年以前“新式户籍”资料的分析研究多以汉城府或京畿道、忠清道等部分地区为研究对象,但是数据化之后,研究对象由朝鲜南部扩展到朝鲜北部地区,这无疑是令人瞩目的成果(参见表4)。表4 数据库建设后“新式户籍”资料的研究对象地区(2)综合性了解韩国近代社会、经济、文化情况“新式户籍”资料不仅包含既有的“旧式户籍”资料的内容,还包含因为记载方式的变化而出现的多样的新内容。“新式户籍”资料具体提供了各代人口的人口学的属性(户主的年龄、籍贯、职业、前居住地、家庭构成及雇佣人等)信息,以及各代人口房屋的属性(形态、所有关系、规模等)信息。

因此,收集整理全国范围内的大量“新式户籍”资料,建设数据库,使得这些资料可以被应用于多种研究领域。第一,各个地区人口分布或人口构成的差异、户口的前居住地资料,可以应用于研究当时人口迁移形式等人口史相关的多种研究领域;第二,草房与瓦房的住宅形态、私有与借用的所有形态、间数等居住特征及住宅构成,可以应用于生活史研究的诸多领域;第三,结合以上两者,应用于各地域人口分布、经济水平、职业分布、住宅规模、通婚情况等综合性研究。(3)构建提供网罗全国范围的朝鲜末期最大的人口信息检索系统“新式户籍”资料记录了户主以及户主的四祖、妻子、子孙等的名字与年龄、职业等信息,还记录了他们的姐妹、侄子侄女、儿媳、女婿等众多人物相关的户籍情况。一张户籍表多者可以记录10余名人物的信息,本项目创建的户籍表达到了8万张,由此看来,集成的人名数据数量将达到几十万个。现在,在韩国还没有像这样集成朝鲜末期的人物数据信息如此庞大的先例。

另外,我们从实录或榜目数据中看到的近代以前的人物信息大部

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载