学术机构知识库效益模式研究(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-29 22:11:50

点击下载

作者:李大玲,杨琪,赵秀敏

出版社:知识产权出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

学术机构知识库效益模式研究

学术机构知识库效益模式研究试读:

作者简介

李大玲,管理学博士,副研究员,就职于天津市科学技术信息研究所。主要研究领域为开放获取、企业竞争情报。发表论文近20篇,出版专著2部,先后主持和参加科技部、教育部、天津市项目26项。

杨琪,哲学博士,副教授,硕士研究生导师,天津商业大学会展研究所所长。主要研究领域为知识管理、中国传统哲学。发表论文34篇,出版专著5部,主持省部级项目4项、教育部重大项目子课题1项,参与国家级重大项目1项、一般项目3项,参与省部级课题10项。

赵秀敏,2012年毕业于天津师范大学管理学院,获图书馆学硕士学位,现就职于吉林省社会科学院。主要从事数字图书馆方面的研究,发表学术论文10余篇,参与著作编写2部,参与教育部课题和院青年课题各1项。第一章相关概念界定为了更好地理解本研究内容,需要对研究相关的几个概念进行辨析,从而避免在研究问题理解上出现误差。下面将对知识库、学术机构知识库、相关利益者、成本效益、可持续发展等概念进行辨析。1.1知识库

知识库的概念出现在数据库研究、人工智能、知识管理领域和知识工程中。首先,知识库(knowledge base)是数据库理论研究的产物。正如Codd所说:“数据库是把数据从应用程序中分离出来,交给系统程序处理。”知识库类似地把知识从应用程序中分离出来,并交给知识系统程序进行处理。从存储知识的角度看,知识库以描述型方法来存储和管理知识,是事实、规则和概念的集合。事实在知识库中是短期信息,这种信息在与用户交互过程中迅速改变。规则是从专家的经验中总结出来的知识,是长期信息。概念包含信念和常识。其次,在人工智能领域,知识库指以特定的存储结构存储领域知识,包括事实和可行的操作与规则等。再次,在知识管理领域,知识库的理论涉及知识表达、知识模式、递归信息元素、目标与定向模型、知识检索和知识传递等。知识库形成一个知识域,包含非精确推理、归纳和演绎方法,面向约束的推理,逻辑查询语言,语义查询优化和自然语言访问等。最后,知识库在知识工程中是结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。

从上面的介绍可以看出,虽然知识库作为一个概念,出现在不同的领域中,有不同的定义,但总的来讲,知识库是事实、规则和概念的集合,能够以特定的结构存储领域知识,并通过知识表达、知识序化,起到加快知识和信息流动的作用,能够有利于知识共享与交流,促进组织的协作与沟通。1.2学术机构知识库

学术机构知识库的英文是Institutional Repository(IR),业内也称为机构知识库,“学术典藏库”“机构库”“学科知识库”“机构仓储”“机构型电子文献库”“机构知识库”,香港科技大学翻译成“知[1-9]识成果全文仓储”,我国台湾地区的研究者翻译成“机构典藏”。 下面从研究内容及其语义来源的角度对IR进行一个合理的定义。

自从2002年Raym Crow第一次把IR定义为“获取和保存一个或多[10]个大学的智力产出的数字化集合”之后 , Clifford A.Lynch、Mark Ware、Cathrine、Carol Ann Hughes、MacKenzie Smith、Richard K.Johnson、David Prosser和李广建等国内一些专家学者都对IR进行[11-18]了定义。 虽然这些定义对IR的描述并不相同,但通过仔细分析,可以看出有关IR的定义可以划分为两大类,一类侧重于对IR是一种服务体系的论述,持这种观点的文献认为以机构为基础的IR是一整套的服务体系,它是某一机构对其机构或社区内工作人员所产生的数字学术成果进行管理、传播、存储,并向其社区内外工作人员提供这些资源有效使用的服务体系。另一类文献主要侧重强调IR的机构性、学术性、累积和持久性、开放和互操作性。认为IR是对一个或多个大学社区工作人员所产生的智力成果进行数字收集和保存,并向机构内外的终端用户提供无获取障碍的使用,它是学术交流体系改造中的重要组成部分,也是对机构品质的一个明确体现。

综合各家之言及本研究内容,笔者认为IR是在信息化、网络化环境下,以方便学术资源存取、促进学术交流、提升学术机构核心竞争力为目的,利用信息技术和知识技术,依附于特定学术研究机构或者学术联盟而建立的服务和数字化学术数据库的集合。它收集、整理并长期保存该机构及其社区工作人员和学术团队所产生的学术成果,并将这些资源进行规范、分类、标引后,按照开放标准与相应的互操作协议,允许机构及其社区内外的工作人员通过互联网来免费地获取使用。它不同于知识管理系统中的机构知识库,而是把知识管理的理论和方法应用到学术机构中,主要是研究性的大学和研究所。

因此,IR是一个关于学术机构知识管理的概念。在IR的中文翻译中,学术典藏库、机构库、学科知识库、机构仓储、机构型电子文献库、机构知识库、知识成果全文仓储、机构典藏等要么没有突出知识管理,要么没有突出学术机构,所以都不是翻译的最佳选择。

笔者认为,一个得体的翻译,必须全面考虑这个语词的字面意义和它实际所指的内容。从语词意义上看,institutional指机构的、机构性质的、公共机构特征的、惯例的、制度上的等意思;repository指仓储、知识宝库、储存库。从所指的内容上看,IR的建设和主要研究目的是促进学术机构的学术交流和学术成果的推广,从而促进学术创新。有“知识宝库”意思的repository在实际中并不是只注重仓储,而是注重知识管理,这和翻译成“知识库”的知识管理中的知识库“knowledgebase”概念有着同样的知识管理内涵。知识管理中的知识库主要是为了把显性知识整理成文件,并把这些知识储存起来,以容易获得的形式流通。换言之,就是将知识转化成有形的符号,进行结构化,建立索引系统,供查询使用。知识库的价值在于知识的活用,而非文件的管理本身。知识库管理的焦点是未来的知识,所以知识库管理必须与创造未来价值的活动相结合。因此,从内容上看,把repository翻译成“知识库”这个侧重知识管理的概念是合乎IR的实际情况的,而把institutional翻译成学术机构又更合乎IR研究对象的实际,同时也与“机构”一词没有语义上的冲突。所以,笔者主张把IR翻译成“学术机构知识库”,这样既能突出学术机构和学术交流的特征,又能体现出IR的目的。1.3学术机构知识库相关利益者

相关利益者(stake holders)一词最早由斯坦福研究所于1963年提出来。其目的是指研究企业运营中经营阶层必须关注利益相关者的需求利益,否则会危及机构的生存和发展。学术机构知识库的利益相关者的定义根据范畴不同,可以分为三种类型。第一类是最宽泛的定义,即凡是能影响机构知识库建设与服务活动或被机构知识库所影响的人或团体都纳入利益相关者的范畴。机构知识库资金提供者(学术机构、基金及其他资金提供者)、建设人员、维护人员、服务人员、数字内容提供者、用户、政府部门、相关的社会组织和社会团体、周边的社会成员等均纳入利益相关者范畴。第二类较第一类范围窄,凡是与机构知识库有直接关系的人或机构才是利益相关者,这就排除了一些间接与机构知识库有关系的部门、团体、机构和成员。第三类范围最窄,认为只有那些为学术机构投资的人或者团体才算是利益相关者。

从学术机构知识库可持续发展的角度,本研究采用第二种分类界定学术机构知识库相关利益者,认为学术机构知识库的利益相关者是一个学术机构知识库相关活动的合法、稳定、长期的参与者(包括个人或群体)。他们被自己的利益和目标所驱动,通过交换关系的存在建立起来,向机构知识库提供关键性资源,以取得其目标的实现。他们能够影响学术机构知识库目标的实现,对机构知识库有合法的权利。利益相关者是学术机构知识库实现目标必须依赖的人或群体。根据学术机构知识库建设、运维与服务的不同环节,我们对相关利益者进行了划分,如表1.1所示。表1.1 机构知识库相关利益者分类

机构知识库建设和维护资金提供者,包括学术机构知识库所在的学术机构的决策者、学术机构联盟或提供项目支持的基金会或委员会等。建设资金提供者和维护资金提供者均为投资人。机构知识库的可持续发展可充分调动学术机构知识库相关利益者的积极性。1.4学术机构成本效益

成本效益分析作为机构知识库可持续发展的研究内容之一,既有优点,又有缺点。优点是在于并非所有的成本和效益都可以用货币来衡量,特别是社会效益,只能进行定性分析。成本与收益是社会生产经营活动中最基本也是最重要的两个指标。无论是生产商品还是提供服务,一个组织机构都要投入成本。学术机构知识库建设、运营维护和服务,同样也需要投入成本。缺点是机构知识库的成本主要包括机构知识库建设成本、维护成本、服务成本;效益主要包括经济效益和服务效益两部分,以服务效益为主。建设成本主要是立项建设机构知识库需要投入的资金和人力成本;资金成本主要用户购置服务器,平台搭建等费用,对内容提供人员进行培训的费用,知识内容二次加工费用等;维护成本主要是为了实现机构知识库的正常运行所需要投入的资金和人力成本;如网络费用、电费、材料费用等;服务成本主要包括为了服务进行的二次开发、资金、人力、信息成本。1.5学术机构知识库可持续发展

可持续发展一词最早出现在1980年,国际自然保护同盟(IUCN)制定的《世界自然资源保护大纲》,提出确保全球的可持续发展。《我们共同的未来》最早提出“可持续发展”的定义,认为可持续发展是指既满足当代人的需要,又不对后代人满足其需要的能力构成危害的[19]发展。 此后相继出现了百余种关于可持续发展的表述,如有人从经济属性出发,把可持续发展定义为在不损害后人的利益时,从资产中可以得到的最大利益。以科学技术属性为出发点的观点认为,可持续发展是建立极少废料和污染物的工艺和技术系统。以社会属性为出发点的观点认为,可持续发展是为全世界而非少数人的特权而提供公平机会的经济增长,不进一步消耗世界自然资源的绝对量和涵容能力。以上可持续发展主要是相对于整个社会而言的。学术机构知识库的可持续发展是社会发展的一个点,其可持续发展主要是为了保证机构知识库健康、长期、持续的发展,需要建立在学术机构知识库相关利益者之间的生态平衡、群体公平及利益相关者自身发展决策基础之上,使各利益相关者相互协调,促进机构知识库的稳定持续发展,在满足现有的知识存储与服务的基础上,为未来技术的发展和服务的拓展提供生存和发展空间。学术机构知识库可持续发展体现了公平性、持续性和共同性的基本原则。公平性原则包含现有机构知识库利益相关者之间的公平,现有与未来参与者之间的公平和有限资源的分配公平。持续性原则指发展的过程应该联系、无间断地进行,即发展不能损害相关利益者的利益,不能超越各相关利益者的承载能力。共同性原则是指机构知识库的可持续发展是知识共享和开放获取发展的总体目标,其公平性和持续性原则是共同的。通过对十年来国内外学术机构知识库发展现状的文献分析,可以发现普遍存在可持续发展的危机。导致这一危机的原因有很多,比如各个大学对学术机构知识库的态度不是完全认同,甚至有极端的理解,学术机构知识库成员的自存储积极性不高等内容建设方面问题,学术机构知识库的承建者面临的资金、技术和政策等种种困难,这些都影响学术机构知识库的可持续发展。参考文献

[1] 厦门大学图书馆.厦门大学学术典藏库[EB/OL].(2013-07-05)[2014-09-01].http://dspace.xmu.edu.cn/dspace/.

[2] Libseeker.机构库学习资料[EB/OL].(2013-05-06)[2014-09-01].http://blog.sina.com.cn/s/blog_4b01f015010006sr.html.

[3] 柯平,王颖洁.机构知识库的发展研究[J].图书馆论坛,2006,26(6):243-248.

[4] 祝忠明,马建霞,张智雄,等.中国科学院联合机构仓储系统的开发与建设[J].图书情报工作,2008, 52(9):90-93,144.

[5] 李大玲.学术机构知识库构建模式研究[M].上海:上海交通大学出版社,2009:44.

[6] 中国科学院文献情报中心.中国科学院文献情报中心机构知识库[EB/OL].(2013-04-06)[2014-09-01]. http://ir.las.ac.cn/.

[7] 香港科技大学图书馆.HKUST institutional repository[EB/OL].(2009-04-01)[2014-09-01].http://repository.ust.hk/dspace/.

[8] 台湾大学图书馆.台湾大学机构典藏[EB/OL].(2013-02-08)[2014-09-01]. http://ntur.lib.ntu.edu.tw/.

[9] 李大玲,柯平.基于知识管理的学术机构知识库激励模式研究[J].图书情报工作,2009,53(10):98-101.

[10] CROW R.The case for institutional repositories:a SPARC position paper[J/OL]. ARL,2002(8) [2014-09-02].http://www.sparc.arl.org/sites/default/files/media_files/instrepo.pdf.

[11] LYNCH C A.Institutional repositories:essential infrastructure for scholarship in the digital age[J]. Libraries and the Academy,2003(2):327-336.

[12] W ARE M. Pathfinder research on web-based repositories[EB/OL]. (2008-12-01)[2014-09-02]. http://www.markwareconsulting.com/wordpress/wp-content/uploads/2008/12/pals-report-on-institu-tional-repositories.pdf.

[13] CATHRINE,HUGHES C A. Arrow: Australian research repositories onlineto the world[EB/OL]. (2009-10-15)[2014-02-21].http://eprint.monash.edu.au/archive/00000046/.

[14] HUGHES C A.Escholarship at the University of California:a case study in sustainable innovation for open access[J].New Library World2004,105(3/4):118-124.

[15] SMITH M.DSpace fore-printarchives[J/OL].High Energy Physics Libraries Webzine,2004(9) [2010-09-20].http://library.cern.ch/HEPLW/9/papers/3/.

[16] JOHNSON R K.Institutional repositories:Partnering with faculty to enhance scholarly communica-tion[J/OL].D-Lib Magazine,2002,8(11)[2014-09-20].http://www.dlib.org/dlib/november02/john-son/11johnson.html.

[17] PROSSER D.Information revolution:can institutional repositories and open access transform schol-arly communications? [J/OL].The ELSO Gazette,2003(15):1-5[2014-09-20].http://www.the-elso-gazette.org/magazines/issue15/features/features1.asp.

[18] 李广建,黄永文,张丽,等.IR:现状、体系结构与发展趋势[J].情报学报,2006,25(2):236-241.

[19] 世界环境与发展委员会.我们共同的未来[M].长沙:湖南教育出版社,2009.第二章学术机构知识库发展的现状2.1学术机构知识库发展的缘起

近年来,随着电子出版的迅猛发展,数字资源由于其可检索、可获得、传递方便和可利用性相对纸质文件资源更强,文献数据库包含的电子期刊、电子图书等数字文献市场逐渐侵蚀纸质出版市场,越来越多的研究人员使用数据库来获取文献资源,造成了各类科研机构中纸质资源的采购比例逐年下降。甚至部分研究机构已经停止了纸质文献资源的采购。当数据库商羽翼已丰,科学研究大量依赖数据库的文献资源时,科研机构在数据资源商面前的议价能力越来越弱,而数据库资源的采购和利用从最初节约馆藏空间、方便用户使用、提高利用率的优势,到逐渐产生了一些问题,比如利用费用的增加,如资源使用费、平台使用费、文献下载费、专线访问费等方面涨价幅度大,远远超过通货膨胀的涨幅,特别是一些外文资源数据库保持了较高的年度价格涨幅。

2012年1月13日一篇报道,揭示2010年科学技术和医药学术出版[1]商的利润(见表2.1)。 表2.1 科技出版商2010年利润情况

经对Elsevier2002~2014年的年报分析可知,在过去的13年里,其利润率保持在30%以上的水平,特别是从2006年开始,利润率呈现逐年上升趋势(见表2.2)。表2.2 Elsevier科技和医药领域近10年的利润增长情况数据来源:RELX Group.RELX Group annual reports and financial statements2014[EB/OL].(2014-12-31) [2015-03-06].http://www.relx.com/investorcentre/reports%202007/Pages/2014.aspx.

一方面是科技资源商不断提价,利润率不断提升,另一方面,科研机构的文献经费却没有同步增长,越来越受到数据库商的牵制,学术文献资源的价格上涨,影响了学术交流的顺畅,严重影响了知识的传播。2012年,在硅谷开公司的数学博士Tyler Neylon,受到英国数学家Tim Gowers一篇有关抵制世界上最大的出版商爱思唯尔集团博[2]文的启发,建立了一个名为“知识的代价”的网站。 他提出,多年来学者抗议爱思唯尔的商业活动并没有取得什么效果,他们的反对意见如下:①他们(爱思唯尔)对订阅单个期刊收取不可思议的天价。②许多图书馆面对这样的天价,只得选择同意购买大量的“捆绑”期刊,而其中许多期刊并非是这些图书馆本想要的。爱思唯尔从中获取了巨大的利润。③支持诸如“禁止网络盗版法案”(SO-PA)“保护知识产权法案”(PIPA)的活动,旨在限制信息的自由交流。④所有这些问题的关键,是作者希望他们的成果易于被他人获取的权利受到了限制。如果你想公开发布成果,你将不会支持任何爱思唯尔期刊的做法,除非他们从根本上改变这样的运作方式。截至2015年12月,全球有15476名科学家在网站上签名抵制爱思唯尔旗下的期刊发表论文,不做审稿人或不担任编辑。2012年4月,哈佛教授委员会向全校教师公布的一份备忘录指出,哈佛大学图书馆遇上了“防守不了的形势”。认为,大的期刊出版商不断涨价,已经使目前的学术交流环境在经济上“不可持续”,哈佛大学每年花在期刊上的钱达到了375万美元。一些期刊每年订阅价格高达4万美元。在过去6年里,两家出版商的电子文献价格已经涨了145%。该委员会向哈佛大学师生征集意见,如建议哈佛师生将自己的论文提交到“DASH”——哈佛自己的向所有读者提供免费访问的知识库,或者考虑向免费的“开放获取”期刊投稿。如果教师担任期刊编辑,可推动该期刊成为“开放获取”期刊,如果不行的话,可以考虑辞职。“开放获取”期刊,即免费向公众公布研究成果的期刊。美国康奈尔大学图书馆的“ar Xiv.org”,是世界著名的“开放获取”电子文库。俄罗斯数学家格里高利·佩雷尔曼证明数学难题庞加莱猜想的论文,就发表在这家网站上,而不是学术期刊上。

伴随信息化、网络化、全球化的发展趋势,学术机构不再是独立于社会的象牙塔,学术机构的研究也不再主要以单个学术机构来完成,学术机构之间的合作越来越多,学术机构知识成果的推广和传播速度将对学术机构的竞争力产生重大的影响。对于学术机构的工作人员来讲,其知识成果被更多的人认知和接受:能够为自己带来学术地位的提升和学术影响力的增强;对于研究机构而言,需要建立本机构学术成果与历史传承的完善保存机制并增加本机构知识成果的认知度。

但是传统出版模式已经大大地制约了学术成果的交流范围。一方面,开放获取的理念正被越来越多的工作人员接受,现在工作人员在传统的学术交流方式之外,通过博客、开放获取期刊、网站等多种方式拓展学术交流的范围和对象。另一方面,知识成果具有一定的实效性,如果学术机构不能够充分利用工作人员的知识成果实现其价值,将是学术机构的重大损失。再就是,学术机构工作人员的流动会带来学术机构知识的流失。学术机构应当积极地把本机构工作人员的知识成果组织起来进行知识管理,在版权许可的范围内通过构建开放获取平台——学术机构知识库对本机构的知识进行组织和管理,并协助工作人员的知识成果在全球范围内的推广和传播,这对学术机构、工作人员和获取者来说是三赢。这为学术机构知识管理和研究共享提供了一个新的研究视角。在这种迫切的情况下,越来越多的学术机构开始一些学术机构知识库的研究与构建项目,对本机构的知识成果进行存储,并在一定范围内开放获取。2.2国外机构知识库的发展情况

2001年,俄亥俄州立大学的高级行政官员和该校图书馆馆长布兰宁(Joseph J. Branin)提出建立俄亥俄州立大学知识库(Ohio State University Knowledge Bank),以保存该校师生员工的数字知识资源,这就是学术机构知识库最初的雏形。2002年麻省理工学院(Massachusetts Instituteof Technology,MIT)和惠普公司(Hewlett-Packard Corporation)合作推出DSpace,宣告学术机构知识库的正式诞生。本研究为了大致了解国外学术机构知识库的研究情况选取学术数据库Webof Science、Emerald、OCLCFirst Search、EBSCO等为检索对象,检索时间为2003年至2013年,选取“Institutional Repository”“Institutional Repositories”为检索关键词,检索关系为逻辑或(or)。检索结果如下:Webof Science检索入口为标题,共得文献255篇,检索入口为主题,共得文献806篇;Emerald检索入口为abstract、title、keyword,检出147篇文献;OCLCfirstsearch,检索数据库为Article First、OAIster、World Cat,检索入口为关键词,检索出文献254篇;EBSCO检索入口为主题词,检索结果为1043篇。通过对检索结果进行分析发现,这些国外学术机构知识库研究的文献类型大致可以分为三类。第一类是概述性的研究,主要是对学术机构知识库的兴起背景、存在问题、实施影响等方面进行论述。第二类属于具体项目介绍,是对一些具有代表性的学术机构知识库的建设项目进行介绍与总结报告。第三类是对学术机构知识库实施中所采用的各种软件进行介绍和比较的。由于本研究主要对学术机构知识库可持续发展前提下成本效益进行研究,因此对国外机构知识库发展现状的了解、对于系统地了解机构知识库的建设具有重要意义。下面对全球机构知识库的建设情况进行分析。2.2.1 国外机构知识库发展数量统计

开放存取知识库名录(The Direct of Open Access Repositories, [3]Open DOAR)是关于开放存取知识库的权威目录 ,在开放社会研究所(Open Society Institute, OSI)、英国联合信息系统委员会(Joint Information Systems Committee, JISC)、英国大学学术图书馆联盟(Consortium of University Research Libraries, CURL)、欧洲学术出版与学术资源联盟(Scholarly Publishing and Academic Resources Coalition Europe, SPARC Europe)的资助下,由英国诺丁汉大学(University of Nottingham, UK)和瑞典兰德大学(University of Lund, Sweden)于2005年共同创办,2006年1月登录互联网提供服务,由英国诺丁汉大学维护。

由于Open DOAR是通过对全球范围内的开放存取知识库资源进行系统的搜集、描述、组织和传递,目的是提高开放存取学术资源获取和使用效益,所以本研究通过对Open DOAR进行统计可以较全面地了解国外研究构建学术机构知识库现状。表2.3为Open DOAR统计的机构知识库的统计数据,图2.1是统计数据的折线图。可以看出,机构知识库的数量从2008年开始平缓上升,2012年增长速度有一定提升,而2013年增长速度稍微放缓,然后继续上升。表2.3 机构知识库数量增长趋势图2.1 2008~2014年机构知识库数量统计

本研究以2008年有学术机构知识库的国家为基准,分别统计了这些国家在2012年、2014年机构知识库数量超过10个的情况。其中2008年为9月份数据,2012年为3月份数据,2014年为7月份数据。统计结果见表2.4。从表2.1中可以看出,2008年共有73个国家有机构知识库,其中24个国家有10个及以上机构知识库,这个数量2012年增加到38个,2015年增加到54个。表2.4世界各国构建学术机构知识库数量统计表注:2008年为1~2个,2014年小于10个的国家包括爱沙尼亚、冰岛、以色列、哥斯达黎加、新加坡、巴基斯坦、保加利亚、纳米比亚、斯洛文尼亚、牙买加、埃及、阿塞拜疆、哈萨克斯坦、泰国、埃塞俄比亚、阿富汗、孟加拉国、吉尔吉斯斯坦、佛得角、玻利维亚、菲律宾、津巴布韦、乌干达、埃尔维亚和黑山、摩尔多瓦、格鲁吉亚、乌干达;2008年克罗地亚为4个,沙特阿拉伯为3个,2014年均小于10个。资料来源:http://www.opendoar.org.

图2.2是2008年机构知识库数量排名前23的国家在2012年和2014年机构知识库数量的分布,可以看出,中国、西班牙和波兰机构知识库数量增加较明显。

从图2.3中可以看出,美国、英国、西班牙增长数量位于前三强,中国增长数量排名第四,说明中国机构知识库建设取得了一定的进展。芬兰、新西兰和荷兰数量有所减少。总体来讲,发达国家的机构知识库的发展从数量上均呈现出上升态势。图2.2 2008年机构知识库数量前20的国家在2012年、2014年的数量分布图2.3 各国2014年相对2008年增长数量(按照降序排列)2.2.2 国外机构知识库各大洲分布情况

通过对比分析发现,国外学术机构知识库在各大洲的分布具有较大的差异性,(见图2.4)。欧洲国家的构建数量占比超过了全球学术机构知识库数量的45.7%,相对2012年的50%下降了4.3%。北美占19.9%,亚洲占18.2%,分别位于第二和第三位。中国占比3.5%,比2012年的4%降低了0.5个百分点,从总量和增长速度来看,学术机构知识库在我国的发展还有很长的路要走。图2.4 2014年机构知识库各大洲分布情况2.2.3 学术机构知识库运行组织统计

学术机构知识库与学术机构之间的关系有“一对一”“一对多”和“多对一”三种情况。其中,“一对一”即一个学术机构建设并运行一个机构知识库;“一对多”即一个学术机构建设并运行两个或以上机构知识库的情况;“多对一”指多个学术机构形成学术机构联盟,建设并运行一个联盟机构知识库的情况。

在对机构知识库组织者进行统计时,如果每个机构知识库对应一个学术机构知识库组织者,一个学术机构运维2个机构知识库时,学术机构知识库的组织者计数为2,按照这种方式对机构知识库的运行状态统计、分析发现,共有2699个机构知识库,其中美国的比例最高,占16.7%,英国占8.5%,德国占6.3%。美国、英国、日本、西班牙、波兰、法国、巴西、意大利和印度的机构知识库组织者共占55.8%,其他国家的机构知识库的组织者占44.2%,见图2.5。各国学术机构知识库组织者具体统计数据见表2.5。图2.5 机构知识库组织者占比(运营多个机构知识库,不剔重)表2.5 各国机构知识库组织者统计(运营多个机构知识库,不剔重)

为了进一步精确地统计,我们在一个学术机构有2个及以上学术机构知识库的情况下,只对学术机构知识库组织者计数,统计结果见图2.6。从图2.6可以看出,学术机构知识库组织者从图2.5的2699个减少到2263个。其中美国的占14.9%,英国站7.9%,日本占6.1%,德国占5.7%,美国、英国、日本、西班牙、波兰、法国、巴西、意大利和印度共占53.7%,其他国家占46.3%。各国学术机构知识库组织者具体统计数据见具体统计见表2.6。图2.6 各国机构知识库组织者占总数比例(运营多个机构知识库,剔重)

通过表2.6和表2.5的对比发现,在对学术机构知识库组织者去重之后组织者的数量减少了436个,美国减少了113个,英国减少了48个,德国减少了39个,西班牙、法国、巴西各减少了18个,说明这些国家一个学术机构运行2个及以上机构知识库的情况相对其他国家较多。表2.6 各国机构知识库组织者统计(运营多个机构知识库,剔重)2.2.4 机构知识库运行状态统计

学术机构知识库建设完成后可能存在四种状态,分别是正在运行状态(operational)、试验运行状态(trial)、故障状态(broken)和关闭状态(closed)。正在运行状态指所有的功能都正常运行,能够对外提供系统设置的服务;试验运行状态指目前机构知识库正处于测试阶段,还没有正式对外服务;故障状态指目前正存在技术故障,部分或者全部服务功能无法提供服务;关闭状态指机构知识库不再接收数字对象的提交,不再对外服务。2699个机构知识库的运行状态及数量统计分别见图2.7和表2.7。从图2.7中可以看出,93.48%的机构知识库处于正在运行状态;处于关闭状态的机构知识库只有23个,仅占0.85%;试验运行状态的机构知识库有94个,仅占3.48%;故障状态的占2.19%。这说明大部分机构知识库运行良好。表2.7 2699个机构知识库运行统计表图2.7 2699个机构知识库运行状态2.2.5 机构知识库运行软件统计

机构知识库所应用的开发软件主要可分为开放源代码软件、自行研发的软件和现有商业软件三种。以开源软件为主,开放源代码软件是机构知识库建设最常应用的软件。其免费的特性、齐备的功能一直都是机构知识库建设者的首选。像应用最多的DSpace、EPrints等都是开放源代码软件。自行研发的应用于本机构的机构知识库软件的版权,根据著作权法的规定,遵从“谁开发谁享有版权”的原则,即软件著作权属于软件开发者;如遇到合作开发、受托开发、指令开发和职务开发四种特殊情况,则按照开发前双方签订的版权协议确定版权归属。此类软件的代表为德国斯图加特大学开发的OPUS以及荷兰NIWI-KNAW和Tilburg大学开发的i-Tor。就目前来讲,自行研发软件的版权归属问题还是比较清晰的。现有商业软件的版权一般归属于软件的发行者。在机构知识库建设者购买该商业软件之后,即具有使用该商业软件的权利,可以自由地将该软件应用于机构知识库建设中。

通过对2699个机构知识库的运行软件进行统计发现,共有140种软件用于建设机构知识库,绝大部分机构知识库采用开源免费软件,其中采用DSpace、EPrints开放源代码软件的占50%以上,采用DSpace软件的有1145个机构知识库,采用EPrints的有379个机构知识库,分别占机构知识库总量的42.42%和14.04%;采用自行开发软件OPUS的仅有71个机构知识库(见表2.8)。开放获取机构知识库采用开源软件有利于降低机构知识库的成本,同时有利于机构知识库的建设与推广服务。表2.8 2699个机构知识库运行软件类型统计2.2.6 开放存取机构知识库类型统计

学术机构知识库开放存取范围存储的知识对象的组织有三种方式。①以联盟的形式进行组织和管理。如DSpace联盟是由众多不同的社区和馆藏组织而成的,而Caltech的CODA也是基于各个院系为基础的知识库建立而成。国内也有部分学术机构知识库采用联盟式组织方式。比如中国科学院与多个学术机构合作构建的学术机构知识库,分别应用到中国科学院不同的研究所、浙江大学、上海图书馆等多个学术单位。我国台湾数字典藏“国家型”科技计划建设的学术机构知识库被应用到台湾省的多个高校。②学术机构知识库的建设和运行除了通过学术联盟的形式进行组织之外,还可以由学术机构的主管部门或者学术机构图书馆的主管部门来组织建设。比如可以由中国图书馆工作委员会统一牵头,以各地图书工作委员会根据本地学术机构和学术成果的特点以及不同学术机构的技术、人力、资金、资源为前提来组织学术机构知识库的建设和运行,也可以由图书馆工作委员会和相关学科的科学研究委员会合作来牵头。③单个学术机构组织和管理。学术机构也可以单个学术机构独立完成学术机构知识库的创建与运行。这种情况一般适用于机构实力比较强、学术资源比较特殊、技术支持有所保障的学术机构。机构知识库无论采用哪种组织方式,学术机构知识库开放存取的类型可以分为四种类型,分别是学术机构知识库、学科型机构知识库、集成型学术机构知识库和管理型机构知识库。学术机构知识库主要存储学术机构或部门的知识对象;学科机构知识库以学科为存储对象,收录的内容可能是跨机构的主题机构知识库;集成型学术机构知识库主要从下属单位或部门的机构知识库收集知识对象;管理型机构知识库主要用于存储管理型的知识对象和数据。对2699家机构知识库的开放获取机构知识库类型统计结果见图2.8和表2.9。图2.8 机构知识库类型

从图2.8和表2.9可以看出,以学术机构为开放获取存取范围的机构知识库有2235家,占总量的82.8%;学科型机构知识库有2925个,占总量的10.8%;集成型和管理型机构知识库合计占总量的6.4%。这说明学术机构知识库以学术性为主。表2.9 机构知识库类型统计表2.2.7 机构知识库常用语言统计

由于建设机构知识库的国家官方语言可能有一种以上,因此机构知识库采用的语言也各不相同。机构知识库建设数量最多的两个国家美国和英国,均为英语语系国家。英语在世界各个国家应用程度最高。机构知识库大多采用两种或以上的语言,非英语国家在构建机构知识库时,除使用本国语言外,第二种语言基本上选择英语。因此,英语版本的机构知识库数量最多,远远超过其他语种的。机构知识库建设数量超过100个以上的语种包括英语、西班牙语、德语、法语、日语、葡萄牙语与和中文。这基本与各国机构知识库建设数量一致。当一个机构知识库提供2个或以上语言版本时,我们给这两个语种分别计数为1,统计结果见表2.10。表2.10 机构知识库使用语言统计2.2.8 机构知识库元数据重用规则统计

机构知识库通过元数据仓储实现对提交和采集进来的数字对象的内容、结构以及保藏等方面的元数据描述信息的集中存储和管理功能,知识库提供对数字对象的统一存储和管理,并与元数据仓储共同构成支持数字对象的保藏、组织和利用等功能实现的基础。机构知识库元数据重用对于节约知识对象加工成本具有重要意义,由于大部分机构知识库遵循OAI-PMH协议,使得各机构知识库资源能被通用搜索引擎和专业搜索引擎所收录。所以一般从机构知识库的OAI-PMH识别相应政策中寻找元数据重用的规则要求,或者从机构知识库具体的“关于(About)”页面或者“政策(policies)”页面寻找元数据重用的规则要求。学术机构知识库的元数据重用规则共有7种,分别是未知、未提及、未定义、没有权利、不清楚、非商业性用途、商业性用途。在对机构知识库元数据重用规则进行统计时,如果找不到关于重用规则的任何信息,我们就把元数据重用状态设置成“未知”;如果机构知识库有规则信息,但是没有具体提及元数据重用的规则,则元数据重用规则设置为“未提及”;当在机构知识库政策页面为元数据重用政策留有位置,但是显示还没有定义,则我们把元数据重用状态设置为“未定义”;“没有权利”指禁止本机构知识库元数据的任何重用;“不清楚”指元数据重用规则没有明确声明;“非商业”指元数据可以用于非商业用途,商业用途被禁止;“商业性用途”指元数据可以应用于商业用途的重用。对学术机构知识库的元数据重用规则统计结果见图2.9和表2.11。图2.9 机构知识库元数据重用规则统计表2.11机构知识库元数据重用规则统计表

从表2.11和图2.9中可以看出。70.51%的机构知识库没有定义元数据重用规则,只有7.67%的机构知识库明确指出其元数据可以用于非商业用途,4.45%的机构知识库明确提出其元数据可以用于商业用途。这说明大部分机构知识库建设与运行者还没有对其元数据的重要性引起足够的重视。没有定义、未知和未提及的机构知识库总量达到2059个,这样学术机构知识库的元数据就得不到应有的保护,在被搜索引擎和商业性数据库商采集加工后用于商业目的,会继续加大学术交流的成本。2.2.9 机构知识库数据重用政策规则统计

机构知识库存储的内容包括期刊论文、图书、会议论文、数据集、学习对象(learning objects)、多媒体文件、专利文献、参考文献、软件、学位论文及未发表的数字对象等。这些机构知识库的对象称为数据。这些数据的重用受到机构知识库数据重用政策及规则的制约。比如中科院机构知识库的数据重用规则由内容提交者规定。具体来讲,对于规定要公开发布的作品,中国科学院机构知识库网格(CAS IR GRID)要求提交者按创作共用协议(creative commons license,CC)的“署名-非商业性使用-禁止演绎”进行传播授权,鼓励提交者按CC协议的“署名-非商业性使用-相同方式共享”进行传播授权。

2699个机构知识库的数据重用规则设定主要存在以下9种情况,分别是未定义、非商业性用途、未知、禁止机器收割、可变规则、未提及、商业性用途、没有权利、不清楚。其中,“未定义”指在政策规则设定位置为数据重用留了位置,但是显示“还没有进行定义”;“非商业性用途”指机构知识库的数据对象可以用于学习和科研用途,不能用于商业用途;“未知”指机构知识库的数据对象重用政策没有提及,同时也没有预留相应的位置;“禁止机器收割”指学术机构知识的数据对象重用时禁止使用程序和机器人进行数据的收割和采集;“可变规则”指机构知识库的各个数据对象的数据重用规则是不同的,根据提交者自己的设定来进行个性化设置;“未提及”指机构知识库网站有规则信息,但是没有提及数据重用规则;“商业性用途”指允许把机构知识库数据对象用于商业用途;“没有权利”指所有机构知识库的数据对象都不能重用,无论是否用于商业目的。

2699个机构知识库的数据重用规则设定统计如图2.10和表2.12所示。67.73%的学术机构知识库没有对数据对象的重用进行定义,比未对元数据重用的比例越低,说明学术机构知识库组织者对知识内容的保护相对重视度要高一些。6.89%的机构明确指出数据对象不能用于商业用途。允许商业用途的机构知识库仅占0.48%,这远远低于元数据商业用途允许率,说明学术机构保护知识库收录全文版权的意识相对较强。图2.10 机构知识库数据重用规则统计表2.12 机构知识库数据重用规则统计2.2.10 机构知识库内容政策规则等级统计

机构知识库的政策不仅包括元数据重用规则要求,还包括对内容的提交政策及提交许可协议。目前主流的政策及提交许可协议主要遵循Creative Commons(知识共享)框架。它只保留了几种权利,除此以外的权利全部放弃。使用者可以明确知道所有者的权利,不容易侵犯对方的版权,作品可以得到有效传播。作为作者,可以选择以下1~4种权利组合:①署名(attribution, BY)即引用时必须提到原作者。其常用标识为“”。②非商业用途(noncommercial, NC)指不得用于营利性目的。其常用标识为“”。③禁止演绎(no derivative works, ND),不得修改原作品,不得再创作。其常用标识为“”。④相同方式共享(share alike, SA),允许修改原作品,但必须使用相同的许可证发布。其常用标识为“”。

知识共享协议允许作者选择不同的授权条款和根据不同国家的著作权法制定的版权协议,在没有指定“NC”的情况下,将授权对本作品进行商业利用;在没有指定“ND”的情况下,将授权创作衍生作品。这些不同条件共有16种组合模式,参见表2.13,其中4种组合由于同时包括互相排斥的“ND”和“SA”而无效;1种没有以上任何条件的协议,相当于公有领域。在CC2.0以上的版本,又有5种没有署名条款的协议列为淘汰,因为98%的授权者都要求署名。版权持有人可以指定条件。6种组合分别是:①署名(BY);②署名(BY)-相同方式共享(SA);③署名(BY)-禁止演绎(ND);④署名(BY)-非商业性使用(NC);⑤署名(BY)-非商业性使用(NC)-相同方式共享(SA);⑥署名(BY)-非商业性使用(NC)-禁止演绎(ND)。比如清华大学机构知识库为作者提供两种版本的选择,“署名-非商业性使用-禁止演绎”,即作品作者依法拥有该作品的著作权,允许任何人可以复制、发行、展览、表演、放映、广播或通过信息网络传播本作品。但署名必须按照本作品固有的署名方式对作品署名。非商业性使用指不得将本作品用于商业目的。禁止演绎,不得修改、转换或者以本作品为基础制作衍生作品。“署名-非商业性使用-相同方式共享”,即作品作者依法拥有该作品的著作权,允许任何人复制、发行、展览、表演、放映、广播或通过信息网络传播提交作品。创作演绎作品,署名必须按照作品固有的署名方式进行;非商业性使用,不得将作品用于商业目的。相同方式共享:如果改变、转换作品或者以作品为基础进行创作,只能采用与本协议相同的许可协议发布基于作品的演绎作品。用户使用清华大学机构知识库时,在遵循相关知识产权的情况下,只能用于个人学习、教育和研究目的。不可用于商业用途。任何其他个人或组织若需引用、转载网站中的论文内容,须注明出处。表2.13 creative commons 6种协议组合资料来源:http://creativecommons.net.cn/licenses/meet-the-licenses/.

通过对2699家机构知识库的内容规则的统计发现,75.9%的机构知识库没有定义,有定义的机构知识库仅有17.9%。未定义和未提及的占总量的77.7%,说明大部分学术机构知识库建设与运行者没有对知识对象使用的规则做出具体的要求。这样就为资源商对机构知识库的内容进行收割,然后进行商业化运营提供了机会。由于机构知识库的检索系统没有资源商的数据库系统应用广泛,因此,科研人员可能无法获取机构知识库资源的信息,而是通过资源商的数据库获取相应的信息,这增加了对资源商资源库的依赖性,从而增加了知识获取的成本。

学术机构知识库的元数据重用规则共有5种,分别是未知、未提及、未定义、不清楚、定义。“未知”指找不到关于内容政策规则的任何信息;“未提及”指机构知识库有规则信息,但没有具体提及内容政策规则的任何信息;“未定义”指在机构知识库政策页面为内容政策规则留有位置,但没有具体的定义;“不清楚”指未清楚的声明内容政策规则;“定义”指明确定义了内容政策规则。“不清楚”指元数据重用规则没有明确声明;“非商业”指元数据可以用于非商业用途,商业用途被禁止;“商业性用途”指元数据可以应用于商业用途的重用。对学术机构知识库的内容政策规则统计结果见表2.14。表2.14 机构知识库内容政策规则登记统计2.2.11 学术机构知识库数据提交政策规则统计

各个机构知识库对数据提交需要设定相应的规则,从而实现对数据对象的可控性,便于机构知识库数据对象的组织。比如,英国Nottingham ePrints机构知识库对数据提交政策的规定是:只有组织认定的人员或者代理才能够向机构知识库提交数据对象;作者只能提交自己的作品;管理人员仅对作者或内容提交者的数据对象的合格性进行审核,主要包括是否符合Nottingham ePrints的收录范围,布局和格式是否合理,垃圾数据排除等;内容的真实性和有效性由提交者负责;数据对象能够随时提交,但是只有过了发布者或者自助者定义的保护期才能公开;违反版权的责任由提交者或者作者负责;如果有发现侵权的数字内容的证据则,会即刻从机构知识库中删除。机构知识库的数据提交政策情况调研发现,主要包括5种情况,分别是未知、未提及、未定义、定义、不清楚。“未知”指提交政策未知;“未定义”指提交政策没有具体定义;“未提及”指在政策规则规定中没有提及提交政策;“定义”指明确定义了机构知识库数据对象提交政策和规则;“不清楚”指提交政策和规则没有明确的表述。2699个学术机构知识库的数据提交政策与规则的情况统计结果见表2.15。66%的机构知识库没有定义数据提交政策和规则,仅有17%的机构知识库定了提交规则,这样会给机构知识库的质量控制带来一定的困难。未提及机构知识库提交规则的和未知的共计5.89%。表2.15 学术机构知识库数据对象提交规则情况统计2.3国内研究发展现状2.3.1 发表论文数量统计

为了解国内学术机构知识库的研究现状,通过万方学术(http://www.sciinfo.cn)搜索,本研究对学术机构知识库有关的“中文学术论文”“会议论文”“学位论文”“博士学位论文”“硕士学位论文”,以高级检索方式,分别以“机构知识库”“机构库”“学术机构知识库”“机构仓储”“开放获取”为关键词的表达式,选择精确匹配方式,检索时间为2004年至2015年(因本研究主体是学术机构,而2004年以前的与机构知识库关键词相匹配的论文是机械制造方面的故排除),跨库检索结果为3130篇。其中,中文期刊论文合计2760篇,学位论文合计208篇,会议论文合计162篇。同时,对2004~2015年以年度为单位进行分别检索,可以得出每年期刊论文、会议和学术论文的增长量,见表2.16。从表2.16中可以看出,2004~2014年各年机构知识库的期刊论文发表数量呈现快速上升趋势,仅有2011~2012年发表数量平稳,2007年、2010年、2014年均有大幅增加。表2.16 2004~2014年发表机构知识库论文情况

关于研究学术机构知识库方面的期刊论文增长共分为三个阶段。

第一阶段是2004~2008年。在这一阶段学术机构知识库从2004年相关期刊论文只有吴建中(上海图书馆馆长)发表《图书馆vs机构知识库——图书馆战略发展的再思考》。到2008年,越来越多的学者关注并研究学术机构知识库。同时,在这一阶段也有相关的硕博学位论文和会议论文出现。在这一阶段学术机构知识库逐渐被学术界所熟知,更多的学者开始更全面地论述学术机构知识库,主要从学术机构知识库的概念、功能、作用和意义、软件、内容收集策略、知识组织、知识产权政策、运行管理与维护以及国外机构知识库介绍等方面开展研究。

第二阶段是2009~2012年。这个阶段,机构知识库稳步发展。根据中国知网对论文基金项目支持的论文的不完全统计,这个阶段获得各类项目资助的论文不少于95篇,其中31篇论文获得国家社会科学基金资助,9篇获得国家自然科学基金资助,7项获得中国科学院知识创新工程基金资助,还有46篇受到各类其他国家和省部级项目资助。研究学科也从图书馆情报与数字图书馆向计算机、出版、法律等学科延伸;研究主题包括高校图书馆机构知识库建设、学术资源,和机构知识库版权、知识管理、资源建设、知识服务、元数据、质量控制、知识产权等方面。这一阶段发表含有“中国科学院”这一关键词的论文有21篇。

第三阶段是2013年至今。根据中国知网对论文基金项目支持的论文的不完全统计,该阶段获得基金资助论文不少于110篇,国家社科基金资助论文52篇,国家自然科学基金资助论文11篇,中国科学院知识创新工程基金资助论文3篇,获得其他省部级项目资助论文33篇。这一阶段的机构知识库研究主要集中在高校图书馆机构知识库资源建设、评价指标、网络影响力、资源共享、策略、版权等方面。本阶段的研究在之前研究基础上增加了发展趋势、开源软件、开放创新、数据同步等方面的研究。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载