知识图谱理论在教育与心理研究中的应用(现代教育学论丛)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-18 17:15:49

点击下载

作者:郭文斌

出版社:浙江大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

知识图谱理论在教育与心理研究中的应用(现代教育学论丛)

知识图谱理论在教育与心理研究中的应用(现代教育学论丛)试读:

前言

中所指出的,全书既保持了《教育研究方法》撰写的主要原则,也凸显了知识图谱研究的新意和多学科协调研究的特点。诚然,由于我国教育研究的信息化、数据化还处于发展的初级阶段,还有许多著作和论文没有列入电子文献,这使运用知识图谱来定量化地处理文献,研究宏观和中观的教育问题还受到某些限制。但是,随着我国教育研究信息化、数据化程度的提高,我相信,知识图谱,作为一种现代学科的研究原理和方法,将会越来越展示出研究的效能和诱人的前景。

阅后有感,姑且为序。华东师范大学终身教授 方俊明2014年12月6日前言

笔者自1994年参加工作以来,一直从事科研和教学工作。随着全球数字化时代的到来,海量电子文献不断涌现。如何在这样的时代背景下,对海量信息进行更为高效、客观的处理,快速选择出自己需要领域的有效信息,成为长期困扰笔者的难题。凭借2009年笔者承担学校研究生精品课程“教育研究方法”的契机,笔者进行了大量文献的筛选和查找,终于接触到了科学计量方法,通过科学网联系到了陈超美教授和崔雷教授,向他们请教了知识图谱方面的事项,得到了他们的指点。在他们的鼓励和指点下,笔者开始尝试写作发表了几篇以知识图谱为主题的文章,获得了很好的反响,应邀到陕西师范大学、西北师范大学、衡水学院、新疆教育学院等高校进行讲学和示范。为了更好地对知识图谱方法进行梳理,为今后更好的驾驭它,也为了给授课的学生带来更多的关于知识图谱方面的内容,笔者斗胆尝试着撰写了本书。

本书作为《教育研究方法》(科学出版社2012年版)的姊妹篇,是对其第九章第四节中的“内容分析法新走向”内容的进一步延展,因此在撰写过程中,保持了《教育研究方法》撰写的几个原则:

第一,为了保持内容的前沿性和准确性,在文献选取上,大量引用了最近5年在权威刊物发表的论文和有代表性的著作。

第二,为了便于读者阅读,在相应章节增加了延伸阅读,通过延伸阅读,将一些有关的概念、材料、操作示范等内容呈现给读者,供他们拓展阅读使用。

第三,为了促进读者更好地掌握每个章节介绍的内容,在每个章节都提供了应用举例,供读者进一步将理论和应用结合起来进行体会领悟。

第四,为了使本书内容更加实用,切合读者的需求,结合笔者近几年对授课学生的实际教学情况和自身使用情况对每个章节撰写的内容进行了取舍。

本书对每个章节的总体框架是:先介绍每个章节的主要内容,再以具体例子来巩固已有的内容。为了更好地使学习者深入学习每个章节的相关内容,在每章具体内容部分还不时插入延伸阅读材料,供有需要的学习者根据自身学习需求灵活阅读使用。

本书共以六章内容对知识图谱理论在教育与心理研究中的应用进行了初步的论述和示范展示:第一章,通过知识图谱的概念及发展历程、知识图谱的原理及特征、知识图谱在教育与心理研究中应用的意义三个方面对知识图谱进行了概述;第二章,知识图谱的基本方法,主要介绍了引文分析法、共被引分析法、多元统计分析法、词频分析法、社会网络分析法五种具体方法的含义、使用步骤、评价和展望;第三章,重点介绍CiteSpace、BICOMB和SPSS、HistCite三种知识图谱应用软件的操作原理、运行环境以及操作步骤;第四章,文献信息的查询和保存,较为详细地介绍了两种常用绘制知识图谱文献库Web of Science文献库和CNKI文献库中文献的查阅和保存技巧;第五章,绘制知识图谱的操作,通过对CiteSpace、BICOMB和SPSS结合绘制知识图谱的详细操作步骤以及操作示意图展示,来详细呈现其使用的具体过程;第六章,知识图谱论文的呈现,通过知识图谱论文的构成以及知识图谱论文示例具体说明如何撰写知识图谱论文。

在本书的撰写过程中,美国德雷赛尔大学信息科学与技术学院陈超美教授、中国医科大学医学信息学系崔雷教授、上海交通大学图书馆熊海强教授提供了很多有用的资料;我的硕士生导师彭德华教授、博士生导师方俊明教授都在我撰写书稿期间给予了我热情的鼓励、殷切的期望和可行性的建议,方俊明教授还特意为本书作序,尤其令我感动;我校教师教育学院的各位领导和同事给予了我精神和物质方面的大力支持;浙江大学出版社的吴伟伟编辑为本书的顺利出版对书稿的校对付出了辛勤的劳动;我远方父母的报喜不报忧的处理方式,爱人和女儿悉心帮助我打理生活中的点点滴滴,都是为了支持我全身心的投入书稿的撰写。在此一并表示衷心的感谢!

本书虽然在撰写中借鉴和参考了大量的文献资料,但由于本人能力有限,加之时间较为仓促,书中错误和疏漏在所难免,恳请大家批评指正。郭文斌2015年3月于温州第一章知识图谱概述

过去,人们对一个学科研究进行资料综述的时候,更多的是基于[1][2]个体主观经验对于资料的加工,较少采用科学计量的方法对资料进行综合分析。在今天浩如烟海的文献中,如果没有科学的计量分析方法,仅凭个人的主观经验判断,难免会产生错误或者不当的归类和[3]总结。随着互联网技术的普及和数字化时代的到来,采用数据挖掘和信息可视化技术,对已有信息进行整理,产生新的知识的科学计量[4]学逐渐发展并且成熟起来。知识图谱作为当前国际科学计量学领域热门的方法之一,在近年越来越受到研究者的重视和青睐,2003年美国科学院组织的“Mapping Knowledge Domains”讨论会,预示着世界科学计量学中知识图谱和可视化研究的春天已经到来。要认识和把握知识图谱的准确含义,需要对其概念、发展历程、应用原理以及意义进行全面的了解。第一节知识图谱的概念及发展历程一、知识图谱的概念

了解地图、知识地图以及图谱的概念有助于准确把握知识图谱的概念。(一)地图与知识地图

地图(map)指以二维或三维空间形式显示地形和人类活动及相关特征的地理学概念。地图能够科学地反映出自然和社会经济现象的分布特征及其相互关系。在电子和数字时代,地图已经由传统的纸质地图,演变成了数字地图和电子地图。但不论其形式如何演变,依然[5]不变的是地图的主要特征:第一,由特殊的数学法则产生的可量测性。特殊的数学法则包含地图投影、地图比例尺和地图定向三个方面。第二,由使用地图语言表示事物所产生的直观性。地图语言包括地图符号和地图注记两部分。第三,由实施制图综合产生的一览性。第四,必须遵循一定的数学法则。地图是绘制在平面上的,必须准确地反映它与客观实体在位置、属性等要素之间的关系。第五,必须经过科学概括。缩小了的地图不可能容纳地面所有的现象。第六,具有完整的符号系统。

知识地图(Knowledge Map)也称为知识分布图或知识映射图。最初源于美国捷运公司绘制的充满知识资源的美国地图。此后,知识地图表示带有索引号或用其他方式表示层次关系的表格和文件,以及用来表示信息资源与各部门或人员之间关系的信息资源管理表和信息[6]资源分布图。知识地图描述了一个组织在知识转化周期过程中的知[7]识资源具体分布及变化情况,有助于组织成员把握本系统内部知识配置,为其进行知识寻求、创造提供准确的可用信息。知识地图产生的步骤如图1-1所示。图1-1 知识地图的绘制步骤

从图1-1可以看出,知识地图的绘制包括三个步骤:首先是通过知识收集和知识预处理获得知识元;其次,通过对知识的甄别、筛选[8]和分类,将无序的知识元间信息进行重组,以构建知识之间的相互关系;最后,在各个知识之间建立索引,通过索引来链接和标识它们之间的位置和关系,以此来呈现知识地图。绘制知识地图的目的就是对组织知识资源总体分布情况进行可视化描述,包括组织知识资源的存在情况及其载体,以及资源之间可能存在的联系。实质上就是利用现代信息技术制作的组织知识资源的总目录和各知识条目之间关系的综合体以及组织专家的导航系统,是利用构造地图的方法将各类知识[9]资源中的知识关联起来,使之成为一个网络,提高了知识的利用率。(二)图谱与知识图谱

图谱(atlas)指系统地编辑起来的、根据实物描绘或摄制的图,[10]是研究某一学科所用的资料。后来,泛指按类编制的图集。

知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱、知识域可视化或知识域映射地图,是可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术[11]知识的合作和深入。它以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。知识图谱能够用直观图像展现出最前沿领域和学科知识的信息会聚点,从宏观、中观、微观等不同层面来揭示一个领域或学科的发展的概貌,使人们便于全面审视一个学科的结构和研究热点、重点等[12]信息,生成新的知识。借助于知识图谱,人们可以将知识和信息中引人注目的最前沿领域或学科制高点,以可视化的图像直观地展现出来,挖掘、分析和显示知识及其联系,进而判定学科前沿的历史演进路径。

值得注意的是,虽然可以将知识地图作为知识图谱的一种形式,但知识图谱比知识地图更能揭示知识之间的联系及知识的进化规律。知识图谱与知识地图的区别在于前者一般不提供方便使用者快速获取与知识资源关联的相关信息。二、知识图谱的发展历程(一)知识图谱的产生

人类经历过了五次信息革命:语言的使用;文字的创造;印刷术的发明;电报、电话、广播、电视的发明和普及;计算机技术及现代通信技术的普及与应用。现在,正在经历第六次信息革命:云计算与物联网的发展与应用。在互联网和数字化时代没有到来之前,学者们为了解一个学科领域发展的整体状况,必须查阅该领域的几乎所有文献,然后经过自己的加工,从大量文献中筛选出相对重要的文献。这样的工作不仅耗费时间,而且也非常困难。不同学者选取文献时,因为站立角度和主观判断的差异,就如盲人摸象中的各个盲人,往往选取的材料有很大出入,结论也难以得到重复验证。

随着知识大爆炸和信息化时代的到来,海量信息时代也随之到来,它就像一头不仅奔跑而且还在不断变化形状的大象。这个时候想通过传统方法来捕捉学科发展的脉动越来越困难。在对多学科领域进行研究时,对文献的动态发展做一个综述性的回顾尤其困难。这个时候,迫切需要具有更大客观性、科学性、高效性的方法来研究科学学科的结构与发展。1955年加菲尔德(E.Garfield)在Science上发表关于引文索引的文献,奠定了引文分析的基础。这不仅推动了代表学术共同体的多学科数据库——SCI的发展,而且还为研究科学的动态发展状况设计了一系列成熟的概念性关注。引文分析概念成为当今科学计量学、文献计量学、信息计量学、网络计量学的基础。加菲尔德的发明极大地改变了科学计量学家们研究科学共同体的方式。经过多年发展,特别是美国信息研究所(ISI)提供的引文数据库使引文结构的大样本统计分析越来越便利,知识图谱已成为科学共同体结构与发展实证研究的主流方法,广泛用于很多学科领域。(二)知识图谱的发展

知识图谱的发展经历了三个阶段:

第一阶段,引文分析技术的出现。1999年斯莫尔(H.Small)明确提出借助引文图谱实现科学可视化途径。从普赖斯(D.Price)、加菲尔德到斯莫尔,已确立起日臻完备的引文分析理论与方法,构成科学计量学的基础与主流,在一定意义上形成了科学计量学中一门成熟的分支学科——引文分析学。20世纪90年代以来,科学计量学运用统计分析、引文分析和网络分析的方法,以及计算机图形学、图像处理与可视化技术,在科学知识图谱和知识可视化方面得到了迅猛的发展。

第二阶段,社会网络分析技术阶段。在引文网络研究中,引入复杂网络和社会网络的基本概念与最新成果,把引文分析、复杂网络和社会网络三种理论与方法统一起来,将科学知识图谱理论与方法提高到一个新的水平。这种变化不仅可以对引文网络知识分布、知识流动、知识演化等特有规律产生深化认识,而且还可以促进探索普遍存在于自然、社会和人文的复杂网络的一般规律,具有重大的学术价值。

第三阶段,可视化知识图谱阶段。1987年,美国国家科学基金会发表《科学计算中的可视化》,标志着科学可视化的诞生。信息可视化(information visualization,InfoVis)最早由罗伯逊(G.Robertson)等在1989年提出,指在计算机、网络通信技术支持下,以认知为目的,对非空间的、非数值型的和高维信息进行交互式视觉表现的理论、方法与技术。计算机可视化信息处理软件,是通过直观的动态图像信息处理的方式,显示出专业领域中出现的交叉学科的复杂现象,从而获得详尽的前沿科学信息分析结果,它不仅有助于科学家在最短的时间里了解和预测前沿科技研究动态,而且还有助于在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据。2003年,美国科学院组织的“Mapping Knowledge Domains”讨论会预示着世界科学计量学中知识图谱和可视化研究的春天的到来。我国大连理工大学的刘则渊教授以此次会议为契机,展开了对知识图谱的研究。他于2005年在国内提出知识图谱研究,于2008年出版了《科学知识图谱:方法与应用》一书。此后,知识图谱的应用研究在国内不断涌现,取得了丰硕的成果。注释

[1]郭文斌:《马斯洛人际关系心理学思想初探》,《渭南师范学院学报》2006年第1期,第82—85页(《人大复印资料•心理学》2006年第5期,第74—77页。全文转载)。

[2]陈秋珠、郭文斌:《当前我国心理学中国化进程中存在的问题》,《渭南师范学院学报》2002第1期,第80—82页(《人大复印资料•心理学》2002年第5期,第2—4页。全文转载)。

[3]郭文斌、陈秋珠:《特殊教育研究热点知识图谱》,《华东师范大学学报》(教育科学版)2012年第3期,第49—54页。

[4]郭文斌、方俊明、陈秋珠:《基于关键词共词分析的我国自闭症热点研究》,《西北师大学报》(社会科学版)2012年第1期,第128—132页。

[5]祝国瑞:《地图学》,武汉大学出版社2004年版,第1—5页。

[6]乐飞红、陈锐:《企业知识管理实现流程中知识地图的几个问题》,《图书情报知识》2000年第3期,第15—17页。

[7]Alavi M,Leidner D E.Review:Knowledge management and knowledge management systems:Conceptual foundations and research issues.MIS Quarterly,2001:107-136.

[8]梁勇、章成志、王昊:《基于CSSCI的期刊知识地图的构建》,《现代图书情报技术》2008年第2期,第58—63页。

[9]秦长江、侯汉清:《知识图谱——信息管理与知识管理的新领域》,《大学图书馆学报》2009年第1期,第30—37页。

[10]中国社会科学院语言研究所词典编辑室:《现代汉语词典》(修订版),商务印书館1996年版,第1275页。

[11]刘则渊、陈悦、侯海燕等著:《科学知识图谱:方法与应用》,人民出版社2008年版,第5页。

[12]郭文斌、陈秋珠:《特殊教育研究热点知识图谱》,《华东师范大学学报》(教育科学版)2012年第3期,第49—54页。第二节知识图谱的原理及特征一、知识图谱的原理及种类(一)知识图谱的原理

知识图谱的基本原理是科学文献、科学家、关键词等分析单位的相似性分析及测度。根据不同的方法和技术可以绘制不同类型的科学知识图谱。该方法首先,通过计算机和互联网搜索引擎强大的自动查询功能,在极短的时间里面完成对海量信息的准确查询。其次,通过计算机对已查询到的海量零散信息进行文献计量统计分析,不仅可以通过量化模型将其以科学的、可视化的形式直观地呈现出来,而且还可以发现它们之间的深层次关系和趋势,为今后在该领域的研究提供[1]更有力的客观数据和科学支持。其主要的绘制流程见图1-2。[2]图1-2 知识图谱的绘制流程

从图1-2可以看出,知识图谱绘制流程主要有:首先,确定并选取合适的数据源,对数据源数据进行采集;其次,选取绘图工具绘制知识图谱,揭示选取数据之间的深层次关系。它是一个涉及多学科交叉的领域(见图1-3),是科学计量学和信息计量学的新发展。[3]图1-3 知识图谱的学科背景

从图1-3可以看出,知识图谱是一门多个学科的交叉与结合的分支学科,其涉及信息科学、计算机科学、科学学、科学计量学以及应用数学等学科。(二)知识图谱的种类

知识图谱分为传统科学计量图谱、三维构型图谱、多维尺度图谱、社会网络分析图谱、自组织映射图谱、寻径网络分析图谱等多种类型。[4]

1.传统科学计量图谱

通过线性函数产生二维或三维统计图形(柱状图、线性图、扇形图、点分布图等),以最直观、简单的方式来展示对知识的统计结果。构成传统科学计量知识图谱以静态嵌合(mosaic)为主要特征,构成部分之间按照外在确定的标准安排,孤立呈现,彼此间几乎无交流和沟通存在。

2.三维构型图谱

三维构型图谱是基于三维图形所产生的知识图谱。三维图形由国际著名科学计量学家德国人克雷奇默(H.Kretschmer)教授1987年所创立。她受梅茨格(W.Metzger)1986年创立的心理学中的“构型”(configuration,或者格式塔)理论启发,将新的数学方法引入科学计量学领域,借助非线性函数形象地描述了科学家合著网络构型的三维图形。三维构型知识图谱中的各组成部分和点处于动态交互中,它们较密切地交流和相互作用。一旦形成某种有序的格局,不仅其他组成部分和点的位置会被确定,而且,构成自身的组成部分和点的位置也被其他部分所确定。

3.多维尺度图谱

多维尺度图谱是基于多维尺度分析绘制出的知识图谱。多维尺度分析是通过非线性方法,把高维空间的数据转换到低维空间,转换后的数据仍可以较好地反映出原数据间的关系。多维尺度知识图谱中,点表示每一个事物或物体。点的位置凭借事物或物件间的相似关系安排。越相似的事物或物件,其所代表的两点间的距离越近;反之,其所代表的两点间的距离越远。多维尺度知识图谱中点处于欧几里得几何空间,可以采用二维、三维或者多维图形来展示它们之间的关系。图1-4就是一个多维尺度图谱。[5]图1-4 远程教育研究热点多维尺度图谱

从图1-4中,不仅可以看出远程教育研究的8个组成领域,而且还可以根据各个领域中点与点之间的空间位置距离远近,判断出它们所代表的关键词间的关系远近。

4.社会网络分析图谱

社会网络分析图谱是基于社会网络分析绘制出的知识图谱。社会网络分析(social network analysis,SNA)开始于20世纪二三十年代的英国人类学研究。在社会劳动中,每个劳动者与其他劳动者间存在或多或少的关系。社会网络分析就是通过构建上述关系的模型,描述和揭示群体间关系的结构对群体功能或者群体内部个体带来的影响。社会网络分析的计量法源于美国社会心理学家莫雷诺(J.L.Moreno)创立的社会测量法。如今,社会网络分析法广泛应用于网络社会关系发掘、支配类型发现以及信息流跟踪,判断和解释信息行为和信息态度。

5.自组织映射图谱

自组织映射图谱是基于自组织特征映射模型理论绘制出的知识图谱。自组织映射模型理论于1981年由芬兰赫尔辛基理工大学卡汉[6][7](T.Kohone)教授提出。他针对传统图像分割技术存在的缺陷(无法模仿人对颜色进行主观区分,提取出森林火灾图像的火焰区域),提出了人造神经中枢网络对信息可视化及其重要的自组织特征映射模型(Self-Organizing Feature Map)。它非常适合对图像进行自适应分割,能够模拟人脑中处于不同区域的神经细胞分工不同的特点,采用无监督的自适应分类方法,按照有序的拓扑映射结构,将任意维的输入信号自动转换到一维或者二维的离散网格上。

6.寻径网络分析图谱

1990年,美国心理学家斯科沃斯慈恩巴克(R.W.Schvaneveldt)提出寻径网络分析图谱(Pathfinder Network Scaling Map,PFNET)。该方法模拟人脑的记忆和联想方式,形成不同概念或实体间的语义网络。首先,对不同概念或实体间联系的相似性或差异性进行经验性评估;然后,应用图论中的基本概念和原理生成特殊的网状模型。二、知识图谱的特征

知识图谱具备动态性、空间性、知识依赖性、关联性四方面的特[8]征:

第一,动态性。这是知识图谱区别于传统知识地图的本质特征,它以静态的图谱中点与点以及连线的关系形式,揭示知识间隐含的动态结构变化信息。

第二,空间性。知识图谱以二维或者三维图形展示知识之间的空间结构,通过坐落空间位置和所占据领域大小来标示知识所处战略位置的重要程度。

第三,知识依赖性。知识图谱与一般图像的区别在于,一般图像是对原材料进行直接加工所生成,而知识图谱是建立在对知识进行数据统计或者文本分析后,所构建的客观知识综合体的基础上的再次加工处理。知识图谱一般无法直接从原始知识材料中加工产生,它依赖于对原材料的再次加工。

第四,关联性。知识图谱可以揭示各知识点之间的相互关系,点与点在图谱中所处的距离远近表示它们间关系的亲疏,点与点之间连线的粗细表示它们关系连接的力度大小。注释

[1]郭文斌、高崚峰:《国内心理学界记忆研究热点——基于2003—2013年900余篇的关键词共词分析》,《渭南师范学院学报》2014年第7期,第37—43页。

[2]胡泽文、孙建军、武夷山:《国内知识图谱应用研究综述》,《图书情报工作》2013年第3期,第131—137页。

[3]刘则渊、陈悦、侯海燕等著:《科学知识图谱:方法与应用》,人民出版社2008年版,第5页。

[4]陈悦、刘则渊、陈劲、侯剑华:《科学知识图谱的发展历程》,《科学学研究》2008年第3期,第449—460页。

[5]郭文斌、俞树文:《我国远程教育研究热点知识图谱——基于3170篇硕士及博士学位论文的关键词共词分析》,《中国电化教育》2014年第2期,第45—49、67页。

[6]Kohonen T,Oja E,Simula O,et al.Engineering applications of the self-organizing map.Proceedings of the IEEE,1996,84(10): 1358-1384.

[7]Kohonen T.The self-organizing map.Proceedings of the IEEE,1990,78(9): 1464-1480.

[8]陈祖香:《面向科学计量分析的知识图谱构建与应用研究》,2010年南京理工大学硕士学位论文,第26页。第三节知识图谱在教育与心理研究中应用的意义

知识图谱由于计算机运行速度提升和数字化时代的到来而日显重要,未来,知识图谱在教育与心理研究中应用的意义主要体现在四个方面:对教育与心理科研进行科学信息管理、对教育与心理专利技术进行评价和预测、对各学科的教育科研进行计量学研究、对出台教育科研战略决策提供帮助。

第一,对教育与心理科研进行科学信息管理。通过知识图谱可以探寻需研究的教育与心理专家、机构、出版物等领域的关键主题词,对其进行综合性科学计量分析,为了解和掌握教育科研的结构、热点变换和发展过程提供更直观的图形展示。知识图谱作为科学管理工具可以完成如下活动:对教育与心理研究期刊、教育与心理学者、教育机构或社团在研究中的角色提供客观地评价;确定教育(或心理)期刊与期刊之间、教育(或心理)期刊和研究领域之间的关系;测度当前教育研究的影响;向社会提供有关重要的、新的交叉教育学科关系的早期预警;认定进展突然加速的教育与心理研究领域以及确定导致重大教育科学进步的进展次序。

第二,对教育与心理专利技术进行评价和预测。专利文献具有重要的经济价值,因此对专利文献的科学计量分析显得尤为重要。1964年,世界上第一部专利文献的引文索引SCI出版,为进行专利技术评价和预测提供了很大的便利。因为它不仅列出了出现在期刊文献中的专利引文,而且还给出了专利中的引文。研究者可以非常方便地通过知识图谱来分析和研究专利文献间的相互引证关系,借助于可视化图像评价和定位某一专利,掌握该专利技术的水平,并预测其未来可能的发展方向。

第三,对各学科的教育科研进行计量学研究。知识图谱属于科学[1]计量学研究的范畴,它可以通过量化手段完成如下任务:分析学科进展及发展趋势;分析学科核心作者群;分析学科核心期刊群体的结构;分析时空分布特征、主要热点领域、研究前沿、研究动态和发展趋势;分析论文产出的主要领域、国家、机构、科学家和期刊。

第四,对出台教育科研战略决策提供帮助。知识图谱可以描述相关教育文献所代表的特定领域内的研究主题及其关系,揭示研究主题内各领域的研究热点、领域构成及变化,探寻关注教育领域的战略发展目标和政府项目应用实效,预测该领域内未来研究的发展趋势,为出台教育科研战略决策提供帮助。

推荐进一步阅读文献

[1]寇继虹,楼雯.概念图研究演进的知识图谱分析[J].图书情报知识,2012(2):117—123.

[2]廖宇峰.国外知识地图研究现状和展望[J].新世纪图书馆,2009(3):80—83.注释

[1]梁秀娟:《科学知识图谱研究综述》,《图书馆杂志》2009年第6期,第58—62页。第二章知识图谱的基本方法

知识图谱的基本方法主要包括五种,它们分别是:引文分析法、共被引分析法、多元统计分析法、词频分析法、社会网络分析法。第一节引文分析法

最早关注引文分析的学者是美国人谢泼德(Shepard),他于1873年创办了《谢泼德引文》(Shepard's Citation)供律师或法学家查阅法律判例及其引用情况。1948年,英国学者布拉德福德(S.C.Bradford)在专著《文献工作》(Document)中提出可定量描述文献序性结构的经验定律:某学科大量的文献相对地集中在一定数量的杂志上,而剩余部分的文献则分散在其他大量相关杂志上。这奠定了核心期刊与非核心期刊的思想。1955年美国著名情报学家加菲尔德(E.Garfield)提出利用引用文献追踪科学进展的概念,引文分析法正式产生。他1963年创办了《科学引文索引》(Science Citation Index,SCI),用于探讨科学的结构、评价与选择情况,考察科学著作及其科学家的社会影响等,产生了重要的影响。一、引文分析法概述(一)参考文献的含义

参考文献(references)可以看成是一种列在文后的文献注释,它提供被引用或参考的内容所在文献的基本书目信息,如文献的责任者、文献题名、文献的出版单位、出版时间、出版地点、页码等。美[1]国《MLA文体手册和学术出版指南》指出,参考文献和文献注释的区别有两点:一是参考文献可以有表示文献出处的页码,也可以不标注引文在原著中的出处页码,因为它是对某一著作或论文的整体借鉴或参考,而文献注释则一定要有出处的具体页码;二是参考文献的著录项目、次序、标记符号等格式有严格规定,而文献注释则格式较为随意,除书目信息外,还有关于文献流传、存轶等信息,经常使用逗号。国家标准《文后参考文献著录规则》2005年修订版的定义则为:“文后参考文献,为撰写或编辑论文和著作而引用的有关文献信息资源。”(二)引文的含义

引文(citations)是引用参考文献的简称,是作者、编者根据其认可的学术理念和规范对相关文献的阅读、筛选、取舍、利用的产物,是有利于表述尤其是支撑其研究成果的他人文献或成果,是引用者自[2]己认为“有用”的资料。引文是科学对话的一种方式,它既是定性的,又是定量的。前者体现在作者对相关文献的主观判断,后者表现在其引文的数据是客观的。引文一般分3种情况:直接引用文献原文、引用文献的大意、引用文献的观点或者数据。引文一般在引文页末以脚注形式给出。

引文一是指引用资料,即在著作中引用其他作品的片段内容或他人所发明的定义定理;二是指参考文献(bibliographic references),是指为撰写或编辑论著而引用或参考的有关文献资料,通常附在论文、图书或每章、节之后,有时也以注释(附注或脚注)形式出现在正文中。

综上所述,引文是指“为撰写或编辑论著而引用或参考的有关文献资料”中的部分内容,常以直接引语、有时亦以间接引语的形式出现,通常引语部分有数字或作者、出版年的标记;而参考文献则通常是附在论文、图书或每章、节之后,有时也以注释(附注或脚注)形式出现在正文中,列出引文所在文献的题名、责任者、出版地、出版者和出版年、页码,或期刊卷期、年月、页码等书目信息的一些“文献信息资源”的条目,而非“资源”。引文数量是指有多少文献被引用或提到,而参考文献数量则是指一篇论文中以文后注释、脚注等形式出现的被引文献的书目数量。严格说来,引文的数量与参考文献的数量并非一回事。普赖斯(Price)指出:“如果论文R包含一篇用于和描述论文C的书目脚注,那么论文R就包含了一条有关论文C的参考文献,而论文C则有了一条来源于论文R的引文。一篇论文拥有的参考文献数量由作为文后注释、脚注等形式出现的被引文献的书目数量所测定;而一篇论文拥有的引文数量则通过查找某个引文索引和观[3]察被多少其他的论文提到所确定。”(三)引文分析法的含义

引文分析法(Citation Analysis)就是利用各种数学、统计学的方法,以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用和被引用现象进行分析,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的一种信息计量研究[4]方法。引文分析的出发点是正文和引文,即引用的文献和被引用的文献。引文分析法中多次被引用的文献足以说明它们涉及的主题或内容受到更多的关注,能够反映出学科领域普遍关注的热点问题。普赖斯认为在科学论文之间形成的引文网络结构中,只有极少数论文被新发表的论文较多引用,被引频次高的这小部分论文可视为学科的新的生长点,成为热门的科学前沿,为利用引文分析探测科学前沿的可行性奠定了理论基础。(四)引文分析法的作用

一是测定学科的影响和重要性;二是研究科学结构;三是研究学科情报源分布;四是确定核心期刊;五是研究情报用户的需求特点;六是科学水平和人才的评价;七是国家、地区科研状况的评价;八是研究科学交流和情报传递规律;九是研究文献老化和情报利用规律。二、引文分析法的类型(一)按照获取引文数据来源的方式分

引文分析法按照获取引文数据来源的方式可以划分为直接引证法和间接引证法。直接引证法指直接从来源期刊中统计论文被引的文献,并进行引文分析;间接引证法指通过引文分析工具(如SCI、SSCI、CSSCI、CSBD等引文索引数据库,ENDNOTE、REFERENCE MANAGER、JCR等引文标注和统计的工具)直接获取需要的引文数据,对其进行分析。(二)按照分析方法的角度分

从分析的出发点可以将引文分析划分为两种类型:引文网状分析、引文链状分析。引文网状分析指通过对特定对象的引文间形成的网状结构(例如作者与作者、期刊与期刊、学科与学科,等等)进行分析,试图揭示研究对象间的科学结构以及学科相关程度等。引文链状分析指各研究对象之间存在着类似生物链的结构,通过这种链状结构和指向标志关系可以尝试揭示科学的发展过程并展望其未来的发展趋势。各文献间存在着一种“引文链”,引文链有指向的标志。例如,甲作者的文献被乙作者引用,丙作者又引用乙作者文献,丁作者引用丙作者文献等,由此展开了一个简单的作者系列引文链:丁—丙—乙—甲。(三)按照分析的内容分

从引文分析的内容可以将引文分析划分为引文类型分析、引文语种(国别)分析、引文年代分析、引文数量分析。

1.引文类型分析

按照科学研究引用的具体类型可以细分为:期刊论文、图书和特种文献。对被引文献的类型进行分析,可以有助于明确不同类型文献在研究所关注领域的影响力,缩小查找重点文献类型的范围。

2.引文语种(国别)分析

地球村的出现使人们非常容易获得各种不同语种的文献。如果研究者所关注的某一语种(国别)的文献被多个语种(国别)的研究者所共同引用,则说明该语种(国别)的文献在该研究领域占据较为重要的地位,其参考价值也较大。

3.引文年代分析

研究者对感兴趣研究领域的文献以年代为一个维度,以引文数量为另外一个维度,在二维坐标上描绘不同年代引文数量的变化分布曲线。对上述分布曲线进行分析,不仅可以有助于发现被引文献的出版、传播和利用情况,而且还有助于探寻研究领域发展的进程和规律,特别为文献老化和科技史的研究提供强有力的凭据。

4.引文数量分析

引文数量分析主要指通过引文的数量来评价期刊和论文学术质量。一般情况下,期刊和论文学术质量高低的评定可通过被引用的总的数量来测定。被引用的总的数量越高,其对应的学术质量也就越高;反之,则学术质量较低。研究者通过对感兴趣研究领域的文献的引文数量的分析,可以揭示不同的文献引用与被引用之间的相互关系。如果不同论文或期刊间的引文数量大,则可以认定它们之间的联系较为紧密,引证强度大。该方法已成为确定核心期刊最常用的方法。三、引文分析法的步骤

引文分析法的详细步骤如图2-1所示。图2-1 引文分析法详细步骤

从图2-1可以看出,引文分析法的主要步骤有:第一步,指定文献来源、出处、时间选取统计对象;第二步,统计被引文数据,可以直接对来源文献中的参考文献进行原始数据统计,也可以采用引文分析工具进行引文数据统计;第三步,分析引文数据,包括引文的数量、语种、文献类型、年限分布及高被引期刊分布等;第四步,得出结论。四、常用的引文分析技术

常用的引文分析技术主要包括三种:文献合配分析法、影响因子[5]分析法和共引用分析法。(一)文献合配(bibliographic coupling)分析法

如果两篇论文共同具有同样一篇或多篇参考文献,也就是说,它们共同引用了一篇或多篇论文,则这两篇论文间就有合配关系(也称为耦合关系)。这两篇论文共有参考文献的数量称为合配强度。如果两篇文章间相同的参考文献越多,就称两篇文献合配程度越高,也意味着两篇文献在学科内容或专业性质上越接近、联系越紧密。利用这种文献群的关系,便可分析文献的发展。(二)影响因子(impact factor)分析法

所谓影响因子就是每篇已发表论文的平均引用率。在任何期刊中,质量不等的论文对期刊质量的影响是不同的,影响因子将反映它们的平均被引用情况,对期刊质量给以合理评价。影响因子既可以用来观察期刊的实际使用量,评价期刊质量,选择核心期刊,还可以用来评价学科和单篇文献。在影响因子中,除了文献被其自身之外的文献应用外,还包括文献自引(包括同一学科文献的自引、同一期刊的自引、同一作者的自引、某一机构的文献自引、同一语种文献自引、同一时期文献的自引等)。学科自引可以用来评价该学科的相对稳定性。一般来说,学科自引率较大,则说明该学科比较成熟、稳定,但其吸收外界成果的能力差;反之,则说明该学科与其他学科交叉渗透,具有强烈的吸引能力,易于吸收和采纳新的思想、技术和方法。期刊自引率高表明该刊的用稿有连续性,前后衔接较好,有自己的学术风格和独到的特点,在本学科领域中占领先地位。但同时也说明该杂志所载论文反映的专业面较窄,对口杂志少。(三)共引用(co-citation)分析法

如果有A、B两篇论文,被后来的论文同时引用,就称A、B两篇论文有共引用关系。两篇论文被其他论文共同引用时,以共引用论文数量的多少为度量标准,称为共引用强度(co-citation strength)。这两篇论文共引用的次数越多,即这两篇论文的共引用强度就越大。共引用频次愈高,两篇论文的相关性愈强。共引用分析不单用于文献检索,还用于研究文献的关系结构、主题相似关系及学科结构等问题,也可揭示共引用关系网在知识结构上建立模型的方法,以及预测一个专业的发展趋势。[6]

延伸阅读2-1:科学文献的自引分析计算五、引文分析法的评价及新走向(一)引文分析法的评价

1.引文分析法的优点[7](1)广泛适用性;(2)简便易用性;(3)功能强大性;(4)评价结果的客观性和可靠性。

2.引文分析法的缺点(1)被引频次——引文分析法的不可靠性。历史上,许多重要的发现,开始时往往知音很少,甚至遭到压制,以致常常被埋没相当长的时期。(2)引文分析法的无层次性、无多类型性是其重要致误原因。(3)学科间质的差异导致引文分析法得出似是而非的结论。(4)量的区别不等于质的差异。引文分析法是按期刊被摘储、被引文的数量的多少来区别期刊的重要性程度的,但是事物间仅有量的区别是不[8]足以显示出其质的差异的。[9]

延伸阅读2-2:引文分析假设前提(1)文献的被引用意味着文献被引用者所利用;(2)文献的被引用反映了文献的优点;(3)所引用的文献都是最适于作者所用的;(4)被引文献在内容上总是与引用文献相关的;(5)所有的被引文献在引文分析研究中,都将具有同等的地位。(二)引文分析法的新走向

1.引荐分析

引荐分析法是基于领域内h指数(domain h-index,Dh指数)的一种新的引文处理方法。它是运用批量h变换方法对某一研究领域的引文数据集进行分析而得到的数字指标,它能用于表征该领域绝大多数研究者的相对学术地位。其计算方法是:将作者在特定领域内发表的文献按被引次数降序排列,被引次数不大于行号时的行号即为该作者的领域内h指数。其步骤是:首先,界定领域范围以确定数据集;其次,运用程序执行批量h变换,得到该领域全部作者的Dh指数。有了Dh指数这一新的科学计量指标,再利用h指数思路寻找领域专家时,无需像传统的h指数研究那样费力地逐一输入可能的作者姓名继而甄别其论文和被引信息,只需构建评价视域,然后使用软件工具执行批量h变换,即可准确得到领域或数据集内全部作者的Dh指数。这样,可以使普通检索者通过简单的操作就能拥有一定程度的专家知识,能快速识别出领域内的高影响力专家,继而借助专家的学术视野和学识[10]判断为自己的信息检索和知识创新服务。

2.全文本引文分析

传统的引文分析以科学文献中的脚注或尾注形式的参考文献(引文)为数据源,通过统计其被引频次分析作者、文献以及期刊的学术影响力。然而,传统的研究套路忽略了引文在文献中的具体引用情况(比如引用次数、引用位置和引用语境等)以及作者的引用动机等重要信息。作为引文分析法的新发展,全文本引文分析(citation in full-text或者citation con-text analysis)通过自然语言处理、文本挖掘、情感分析以及可视化等方法技术对引文的引用情况和引用动机等进行挖掘、分析和展示,从而更加准确地测度和评价被引作者、文献、期刊、机构和国家的学术影响力并透视作者的引证动机等,对科学计量学和科学学的发展大有裨益。全文本引文分析的方法包含多种,主要有文本挖掘、自然语言处理、情感分析和可视化分析等。需要指出的是,全文本引文分析引用位置的划分和赋值尚未形成统一的标准,引文聚[11]类算法仍需改进,引用动机分析有待突破。

3.网络引文分析

随着网络的迅速发展,“网络计量学”的概念应运而生,其主要思想是将引文分析方法应用于网络环境中,在不断研究的过程中,学者发现与网络链接相比,网络引文的概念与传统引文更相似,于是诞生了网络引文分析方法。学术交流目前呈现出传统方式和网络方式并存的状态,我们可以把引文分为print-to-print引文、print-to-web引[12]文、web-to-print引文、web-to-web引文。print-to-print引文属于传统引文分析的范畴,我们这里不作讨论。而后面的三种都归属于网络引文分析的研究范畴。国内对网络引文的研究大部分属于print-to-web引文,而国外的研究更多的关注web-to-print引文和web-to-web引文。print-to-web引文更多的是探讨传统出版物参考文献中的电子成分,本质上属于传统引文分析的范畴。对print-to-web研究的一个障碍是网络的动态变化特性。由于链接对象物理位置(URL)发生变化而出现死链是有目共睹的事实,由此给print-to-web引文分析带来了困难。DOI(Digital Object Identifier)的使用以及URL搜索定位法的提出,为确保网络学术资源的稳定链接提供了保障。对print-to-web研究的另一个障碍是对网络引文文献的著录标准化问题,加菲尔德在Impact factors,and why they won't go a way一文中,对网络引文提出了一种设想,他希望网络引文能够标准化,形成一系列的参考标准从而适于精确计算。前者指的是网页之间的关系,而后者指的是网络文献的引用或者提到已出版的文献,因此,我们现在更多探讨的是网络超级链接,而并非网络引文。PageRank最早由Google公司提出,用以解决网络中网页排序的问题。该算法将网络中页面的链接看作是投票的过程,也就是说,被链接的次数越多,证明被投票的次数越多,因此获得的认可度越高。这一方法对解决网络中海量数据的排序问题具有极高的应用价值,因此受到了广泛关注。哈维利瓦拉(T.Haveliwala)于2003年提出了一种与主题相关的PageRank改进算法,该方法首先根据文本给定的主题在每一个主题范围内计算PageRank权值,然后[13]将这些主题的权值进行线性整合得到网页最终的排名结果。

4.同被引聚类分析与容词分析相结合

随着计算机的广泛应用和信息技术的发展,引文分析的方法日益多样化,不少学者从文献的引用动机、引用习惯、影响引用行为的因素入手,研究引文的两重性,揭示引文分析方法的局限性,试图探索发展更深层次的、有效性和可靠性更高的引文分析方法。同被引聚类分析与容词分析相结合,是引文分析的一种最新方法。同被引聚类分析可以对重要的参考文献分门归类,形成引文网状图。容词分析可以对聚类中形成的文献类组进行相似性验证,二者具有互补性。通过计算同类文献相似度以及类与类之间的主题相异性,检验聚类的效果,有利于文献主题进行深层次的、具体的微观研究并作出科学的解释。定量化、模型化的分析方法也是近年来引文分析发展的一个显著特征。

延伸阅读2-3:引文分析法研究举例

安徽大学管理学院的程晴晴以安徽大学管理学院情报学2010—2012年83篇硕士毕业论文中的28篇被引论文作为统计数据源进行分析。作者利用Excel 2003对28篇论文涉及的2640条引文采用引文分析法,从引文类型、引文语种分布、中文引文类型、中文引文文献类型、图书情报类引文期刊的分布等方面进行了统计分析。作者找寻出了情报学研究生对期刊需求的特点。第一,从引文类型来看,期刊、专著、硕士及博士学位论文和互联网是情报学研究生常用的中文文献类型;在外文文献中,期刊、专著和互联网是引用最多的文献类型。在中文和外文的引文中,中文期刊占总引文量的44.39%,外文期刊占总引文量的17.54%,期刊占总引文量的61.93%。期刊是情报学研究生撰写学位论文的主要参考文献来源。第二,从期刊引文语种分析来看,中文期刊1172篇,占引用期刊总量的72%;英文期刊463篇,占引用期刊总量的28%。就外文期刊而言,安徽大学管理学院情报学研究生多是利用英文期刊,利用小语种期刊资源的非常少。第三,从中文引文类型分布来看,2640篇引文中,中文期刊论文的引用数量为1172篇,占中文文献引用总量的59%;著作的引用数量为496部,占中文文献引用总量的25%;而其他类型的文献引用率就相对较低。第四,从中文引文期刊类型的分布来看,被引用最多的是图书情报类期刊论文,共237篇,占总期刊引文量的20.2%;其次是大学学报上发表的论文,共195篇,占总期刊引文量的16.6%;然后是经济类论文,共178篇,占总期刊引文量的15.2%。第五,从图书情报类引文期刊的分布来看,共引用图书情报类期刊39种,作者列出引文超过9篇的期刊有9种。作者依据研究结果提出了关于图书情报期刊的2条[14]建设对策。注释

[1][美]约瑟夫•吉鲍尔迪著:《MLA文体手册和学术出版指南》(第二版),沈弘、何姝译,北京大学出版社2002年版,第342页。

[2]叶继元:《引文的本质及其学术评价功能辨析》,《中国图书馆学报》2010年第1期,第35—39页。

[3]Price D J D.Little science,big science and beyond.New York:Columbia University Press,1986:301.

[4]邱均平:《信息计量学》,武汉大学出版社2007年版,第315页。

[5]屈宏明:《文献质量评价与引文分析法》,《现代情报》1997年第6期,第7—8页。

[6]佚名:《引文分析法》,2010-07-10[2014-05-06].http://wenku.baidu.com/view/fb044142a8956bec0975e3fb.html.

[7]郑尚标:《对引文分析法的认识与再思考》,《中小学图书情报世界》2010年第4期,第30—31、45页。

[8]李健生:《“引文分析法”质疑》,《图书情报工作》1992年第5期,第41—45、57页。

[9]思萌:《引文分析法的作用、局限性及其改进》,《图书馆建设》1992年第6期,第17—20页。

[10]周春雷:《领域内h指数及其应用研究》,《图书情报工作》2012年第10期,第45—49页。

[11]赵蓉英、曾宪琴、陈必坤:《全文本引文分析——引文分析的新发展》,《图书情报工作》2014年第9期,第129—135页。

[12]苏芳荔:《国内外网络引文分析研究比较》,《情报资料工作》2009年第6期,第10—13页。

[13]Haveliwala T H.Topic-sensitive Pagerank: A context-sensitive ranking algorithm for web search.Knowledge and Data Engineering,IEEE Transactions on,2003,15(4):784-796.

[14]程晴晴:《引文分析在图书情报类期刊建设中的应用研究——安徽大学情报学专业硕士毕业论文引文分析研究》,《科技情报开发与经济》2013年第20期,第109—111页。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载