信息检索(第5版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-24 13:28:53

点击下载

作者:袁曦临

出版社:东南大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

信息检索(第5版)

信息检索(第5版)试读:

内容提要

本书为《信息检索》(第4版,张厚生主编,东南大学出版社)的修订版。随着信息环境的变化,网络和搜索引擎已成为本科生及研究生们获取信息的主要途径,学生们的信息检索行为和信息获取方式都发生了根本性改变。本次修订切合本科生、研究生的学习需求、信息行为和信息心理,从学生的学习和研究出发,帮助他们优化学习策略,提高信息检索和学习技能,解决学习和科研中的困难。

本书汲取了国内外图书馆学和信息素养教育的有关研究成果,强调信息和信息技术在各个层次学习中的应用,以期达到成为学习指南和科研工具书的目的。

本书既可以作为本科和研究生“信息检索”课程的教材,也可以作为普通高校学生和已走向工作岗位的从业人员的必备参考用书。

编写说明

本书为张厚生教授主编,东南大学出版社出版的《信息检索》(第4版)的修订版。本次修订从学生的学习和研究出发,汲取了国内外信息素养教育的有关研究成果,强调信息素养和信息技术在各个层次学习中的应用,对于研究生在学习和科研方面遇到的诸如信息焦虑、资料收集、文献检索获取、论文写作、学习和阅读策略等方面问题予以了重点关注。

全书共分8章,围绕学习计划的制定,研究课题的发现、筛选,研究资料的检索获取,研究报告、综述、文摘等的撰写,学术论文的写作以及学术规范等一系列与大学本科与研究生学习、科研直接相关的环节,对《信息检索》(第4版)教材进行了内容和编排体例上的重新组织和认真修订。

本书大纲由袁曦临确定并最后统稿,主要撰稿人为东南大学情报科技研究所与东南大学图书馆的中青年博士教师与资深馆员。具体章节的分工如下:

袁曦临:第1章,第8章8.1节、8.5节

李爱国:第2章

常娥:第3章

唐权:第4章4.1节、4.4节

隆新文:第4章4.2节

陆美:第4章4.3节

钱鹏:第5章,第8章8.2节、8.3节、8.4节

刘利:第6章

宋歌:第7章序

现代高等教育的目的可以概括为:Learning to know(学会认知)、Learning to do(学会做事)、Learning to together(学会合作)、Learning to be(学会生存);也就是说,现代高等教育模式更重视培养学生发现问题、研究问题、解决问题的创新意识和能力。

大学生的学习能力和学业水平,一直是高校和社会关注的焦点,特别是研究生的学习与研究能力。在我国目前的研究生教育中,对研究生学习的认知多数集中在考试成绩和科研产出方面,而对学生的学习风格、学习类型、学习困难、学习资源、学习潜能等的认知与帮助相对匮乏。如何帮助研究生更新学习认知,优化学习策略,提高学习技能,解决学习困难,定制发展课程是目前国内研究生教育中的一个盲点。

研究生入校后进行的主要是自主式研究型学习,因此很多研究生对于如何选择研究课题,查找资料开展研究工作,撰写毕业论文、学习和阅读策略等等方面深感压力。纵观现有的研究生公共基础课程系列教材,基本没有能够体现出现代高等教育模式中所强调的以研究型和资源型学习为中心的特点,也没有切合研究生的学习需求、信息行为和信息心理,从研究生的学习和研究出发,进行教材内容的组织和体例的编排,亦缺乏相应的指导用书。

本书为《信息检索》(第4版,张厚生主编,东南大学出版社)教材的修订版。张厚生教授主编的《信息检索》自1987年出版以来,在全国各大高校深受好评,2006年已出版了第4版。但是,随着信息环境的变化,网络和搜索引擎已经成为研究生们获取信息的主要途径之一,学生们的信息行为,包括信息获取手段和获取途径都发生了根本性的改变,这一点在我们的授课中感受十分明显。而目前使用的《信息检索》教材仍侧重文献信息检索原理和检索工具介绍,随着时间的推移,我们认为有进一步修改、完善的需要。

因此,在本次的修订中,更多的从本科生、研究生学习培养的角度,切合学生的学习需求、信息行为和信息心理,从学生的学习和研究出发,围绕学习计划的制定,研究课题的发现、筛选,研究资料的检索获取,研究报告、综述的撰写,学术论文的写作以及学术规范等一系列与学生学习和科研直接相关的环节,重新组织教材内容和编排体例,进行认真的修订,以期能够体现出现代高等教育模式中所强调的以研究型和资源型学习为中心的特点,帮助研究生更新学习认知,优化学习策略,提高学习技能,解决学习困难,达到研究生学习指南和科研工具书的目的。

时光荏苒,转眼之间,张厚生教授已经去世3年了,图书馆的书影树荫之中不再见到先生的身影。他是那么热爱图书馆学、热爱工作的一位长者,长期置身于书苑,时常提挈后生晚辈,以教学写作、教书育人为乐,是多么让人尊敬的一位学者。然斯人已去,斯馆空留回声。作为他的学生,我时常想起他的教诲,也曾想写一些文章纪念他,但终究未能落笔,因为我觉得纪念还是要放在心里的。

这部教材能够再版,既是信息社会发展和信息素养教育的需要,也是张厚生教授的心愿之一。本书对于正在大学校园中学习和研究的学子们,以及关心信息社会未来发展的人,相信是有意义的。

谨以此作为对张厚生教授深深的怀念。袁曦临2010年10月10日

1 制定学习和科研规划

每一个进入大学的学生,不论是对于某个学科或专业知之甚少的本科生,还是对该专业已有入门认识或较为深入了解的研究生,都会经历一个循序渐进的专业学习过程。在某一具体的学科专业领域中,从一无所知的入门者到对该领域有所认识,从一个新手到这个领域的专家,期间势必要经历一个相当漫长和深入的学习过程。

不同学科的知识,通常以书本等各种载体的形式存在,并为人类所共同拥有。但当一个人通过各种载体获取知识,并将知识储存于头脑中时,知识便为个人所拥有,成为个体的知识,而这个过程是通过个体的学习来实现的。所谓个体的学习,究其根本就是在其原有认知结构的基础上,通过特定的活动吸收、内化外部信息,或者说知识,进而丰富、完善自身认知结构的过程。

这里所说的知识特指专业领域知识(Domain Knowledge),即个体拥有的关于某个特定的专业领域的所有知识。其结构涵盖了该专业领域的陈述性(Declarative)知识、程序性(Procedural)知识和策略性(Strategic)知识3个部分。

根据认知心理学家安德森(J·Anderson)的观点,通过信息加工,人们可以获得两类知识:陈述性知识和程序性知识。

陈述性知识(Declarative Knowledge)是指个人具有有意识的提取线索,能直接陈述的知识,在某种程度上是静态的(不变的)事实信息,包括各种事实、概念、定律、公式、原则和理论等知识,是关于“是什么”、“为什么”的知识,这些知识一般都可以比较容易地用文字描述出来。“书本知识”往往指陈述性知识。例如牛顿定律、数学公式、化学元素、历史、地理、生物知识等。图1.1 一个命题的组成

安德森认为陈述性知识是以命题和命题网络来表征的。命题是知识或信息的最小单元,每个命题都由论题和关系两个成分构成。例如“维C预防感冒”就是一个命题,见图1.1。“维C”和“感冒”均为论题,而“预防”是两个论题之间的关系。在命题的图式中,圆圈或椭圆代表一个命题,S代表主体(Subject),O代表客体或对象(Object),R代表关系(Relation)。命题网络是由命题之间相互联系而形成的。命题之间由于有相同的论题而相互联系起来,就形成了命题网络。例如“维C预防感冒”、“维C促进白血球的生长”、“白血球消灭病毒”、“病毒引起感冒”4个命题可以形成如图1.2所示的命题网络。陈述性知识一般通过记忆获得,可以称为记忆性知识或语义知识。图1.2 命题网络

程序性知识(Procedural Knowledge)是关于“如何做”的知识,包括如何完成各种活动的技能,是指作为技巧性动作基础的知识,倾向于变化的。它主要包括解决问题的过程、执行过程、控制过程、使用过程、操作过程、思考过程、交流过程、加工过程、计算过程、设计过程、管理过程、调查研究过程、各种专业的思维方式和行为方式。例如怎样骑自行车,怎样用计算机编写程序,怎样用遥控器调节空调,怎样推理,怎样进行观察和实验。这类知识往往很难用直观文字表达,学习过程性知识的主要方法是通过实践。

陈述性知识与程序性知识有许多不同的特点。安德森认为,绝大多数的陈述性知识是可以言传的(比如,美国的首都在华盛顿);而很多程序性知识则不能言传(比如,学习游泳,几乎不可能仅仅通过言传让他人掌握这种技能)。当然,这种区别并非绝对的。

陈述性知识的学习可以通过回忆、再认、应用以及与其他知识的联系等方式来表现;而程序性知识的学习则要通过完成各种操作步骤来表现;陈述性知识可以通过听课、听讲座、看书本、看电视等等方式获得;而程序性知识则必须通过大量的练习和实践才能获得。

陈述性知识与程序性知识并不是截然分开的,在许多情况下,两者是密切联系的。陈述性知识的获得与程序性知识的获得是学习过程中的两个连续的阶段。程序性知识的获得是以陈述性知识的掌握为前提的。根据认知心理学家安德森(J.Anderson,1990)和加涅(E.Gagne et al,1993)等人的观点,程序性知识的获得通常要包括以下3个阶段:

第一阶段:陈述性阶段。学习者获得有关步骤或程序的陈述性知识。比如描述在驾驶汽车时该如何换挡。在此阶段,学习者需要逐条记忆每一项规则,并缓慢地操作每一步骤。

第二阶段:联合阶段。在这一阶段,学习者仍需思考各个步骤的规则,但经过练习和接收到的反馈,学习者已能将各个步骤联合起来,流畅地完成有关的活动。

第三阶段:自动化阶段。在此阶段,学习者常常无需有意识地控制或努力就能够自动完成有关的活动步骤。例如,开车时可以一边说话,一边流利地换挡,在交通拥挤的路面上连续地改变方向。

可见,程序性知识的获得过程就是陈述性知识向技能的转化过程。练习与反馈是陈述性知识转化为程序性知识的重要条件。在个体的学习过程中,最初获得的通常是一些陈述性的知识,首先要具有概念,理解因果关系,然后通过实践过程,真正理解和记忆的过程。经过大量的练习,当这些知识具有了自动化的特点之后,就变成了程序性知识。比如,学习外语时,词汇和语法规则的学习是掌握陈述性知识,当我们通过大量的实践、练习之后,对外语的理解和运用与母语一样好,一样流利时,关于外语的陈述性知识就转化为程序性知识了。

美国心理学家梅耶(R.E.Mayer)又进一步提出知识应包括3类,除陈述性知识、程序性知识外,还有一类策略性知识。策略性知识(Strategic Knowledge)是关于如何学习、如何感知、如何记忆、如何思维等方面的知识,即有关学习策略或认知策略等方面的知识。可见,策略性知识属于程序性知识中的一部分。策略性知识的单独提出有助于我们进一步认识智力的本质以及如何培养智力的问题。

简单地说,现代认知心理学从信息加工的角度,将知识看作是个体与其环境相互作用后获得的信息及其组织。现有研究发现,知识、策略性加工和兴趣是获得学科领域专长的关键要素,获得学科领域知识的学习一般分为习得、巩固与转化及迁移与应用3个阶段。见表1.1。表1.1 学习阶段与知识类型的关系(1)在习得阶段,知识以陈述性的形式进入命题网络。(2)在巩固与转化阶段,知识开始被加工。一方面,一部分知识通过复述和精加工等活动,在认知结构中与原有知识产生交互作用,内化于认知结构中,此即陈述性的知识;另一方面,另一部分知识通过练习等形式将命题转化为产生式,并融入相应系统,此即程序性知识。“产生式”这个术语来自数学和计算机科学。计算机由于储存了一系列以“如果—那么”(If-Then)形式编码的规则而具有了完成各种运算和解决问题的智能。同样可以设想,人脑之所以能进行计算和解决问题,也是由于人经过学习,在其头脑中储存了一系列以“如果—那么”形式表征的规则,这种规则称为产生式。(3)在迁移与应用阶段,各类知识被激活。个体在特定的活动中,通过新旧知识的交互作用,使认知结构得到改组或重构,进而丰富、完善自己的认知结构的过程。

国内传统的教学大多更注重陈述性知识,而忽视了程序性知识,特别是认知策略的教学与训练,使得学习者的认知结构在知识的构成上过于单一,尤其缺乏层次性。

通过以上阐述,可以了解到在个体学习的过程中,其实涉及对一个专业领域中不同知识的获得以及这些不同类型知识的整合。不同的知识类型的学习方法也是不同的,比如陈述性知识强调理解记忆,而程序性知识则更看重实践。

而且,不同学科领域对于陈述性知识与程序性知识的学习要求也是有所不同的,例如工科的学生对于程序性知识的获得的要求要高于人文社会科学的学生。学科领域的差别,无疑影响着学生的学习策略和学习方式,因此对知识的学科专业有较为清晰的理解对于建立个体的学习模式不仅是十分必要的,而且是大有裨益的。

在现行的认知体系中,人们通常将人类的“知识之树”粗分为理科和文科两大类,又将理科细分为自然科学和工程技术,文科细分为人文学科和社会科学。

一般而言,理工科思维的定式是思考两类问题:“是怎样”和“怎么做”。“是怎样”属于理,“怎么做”属于工。理工科以严谨的、记录可靠的试验为基础,以数理逻辑思维为基础,强调思维的逻辑严密性。

而社会科学是探讨人与人之间的关系,以人类为研究对象的一门实证性、客观性、经验性、统一性、认知性、实践性的学科,其研究目标是发展规范性或经验性理论,比较强调实证性及科学方法的运用,趋向量化研究,需要一方面对社会现象提出原理原则的解释,另一方面进行社会科学理论的验证。

人文学科的研究者所关注的焦点,是人的思维和精神产物的个体及表现,容易受到地域或文化限制,且深植在历史的脉络之中,因而必然受到社会环境与文化意识的影响。

只有在了解和明晰学科结构的含义后,才能有意识地选择与之相匹配的学习方式。通过认识不同学科的方法论的特点与差异,才能形成学习内容的探究和学习方式的探究。1961年,美国著名教育学家约瑟夫·施瓦布(Joseph J.Schwab)在哈佛大学作了《作为探究的理科教学》(The Teaching of Science as Enquiry)的报告,提出了探究式学习(Enquiry Learning)的概念。他主张,必须把科学看作是当有新证据时要进行修改的概念结构,学生在学习过程中,不但要掌握这个结构,还要体验探究学习的过程。施瓦布强调,只有以科学知识为基础,在探究过程中掌握科学知识,通过探究活动学些科学方法,把科学知识、科学方法与探究过程相结合,才是探究式学习的正确方法。

1.1 学科领域及其认识

普朗克在《世界物理图景》一书中指出:“科学乃是统一的整体,它被分为不同的领域,与其说是由事物本身的性质决定的,还不如说是由于人类认识能力的局限性造成的。”这说明,自然本身并没有分裂成为隶属不同学科的实体,只是人类为研究之方便,才把自然肢解为一门门独立的科学。

学科是科学的个体,是科学分类的产物,是指一定科学领域或一门科学的分支。按照研究方法和对象之间的联系和区别对学科进行划分,并确定其在整个科学体系中的位置,就构成学科分类体系。学科分类体系是人为的,目的主要是为了研究的方便,因而无法避免存在一定的局限性。但是没有学科分类,就无法认清学科之间的关系,科学的存在和发展也就失去了基石。学科分类揭示了知识的谱系,反映了科学的系统、信息的脉络。

古希腊哲学家亚里士多德把知识分为理论知识、实用知识和创造知识3大类。理论知识包括数学、几何、代数、逻辑、物理学和形而上学;实用知识包括伦理学、政治学等;创造知识包括文学、艺术、演讲等学问。这一分类在西方一直沿袭到15世纪。

15世纪以后,近代自然科学开始萌芽,其特征是从哲学中分化出来,整个科学体系分成社会科学和自然科学。1883年,德国哲学家威廉·狄尔泰在他的《人类研究导论》中最早提出以自然界为研究对象的知识成果为自然科学,以人类社会为研究对象的知识成果为社会科学的知识二分法。这种划分被后人称为现代知识体系诞生的标志。

到19世纪中叶,自然科学的分化已经形成了许多各不相同的研究领域,诞生了学科,这是学科发展的第一阶段。19世纪末爆发物理学革命以来,学科发展突出地表现为分化的步伐大大加快,学科越来越多,专业化程度越来越高。如统一的自然科学又分化为了基础理论科学、技术基础科学和工程应用科学3个层次,每一层次又分成各种不同的门类。各种学科之间出现了交叉学科、边缘学科等,这是学科发展的第二阶段。学科的发展既体现在它的高度分化又体现在它的高度综合。

20世纪中叶,知识的发展出现了高度分化和高度综合的有机统一。一方面,知识的分门别类的研究比近代科学更精细、更深入;另一方面,横断学科、综合学科、交叉学科的出现使知识综合化、整体化的趋势更加突出。这是学科发展的第三阶段。

一门独立学科的形成需要的要素有3个:一是研究的对象或领域,这门学科要具有独特的、不可替代的研究对象;二是理论体系,要形成特有的概念、原理、命题、规律,构成严密的逻辑系统;三是研究方法,要形成该学科特定的研究方法。

自然科学是以客观的自然世界作为自己的研究对象,工程技术是人们运用自然科学知识来改造自然世界的手段和工具,自然科学和工程技术的组合即构成了人们通常所说的“科学技术”。人文科学是以人类的精神世界为自己的研究对象,社会科学是以人类社会作为自己的研究对象。相对于客观的自然世界来说,人类精神世界和人类社会充满了种种不可预知的随机性和偶发性。

与“学科”这一概念密切相关的另一个概念是“专业”。所谓“专业”,《辞海》的解释是“专门的学业”。大学中的专业是依据社会的专业化分工来确定的,社会分工的需要作为一种外在刺激促成了专业的产生。有学者认为,高等学校的专业是以学科为依托,根据社会职业分工的需要,分门别类进行人才培养的基本单位。因此可以说,专业是学科及其分类与社会职业需求的结合点或交叉点。

专业包括研究生专业和本科专业,但它们与学科的联系是不相同的。通常情况下,本科生专业比研究生专业宽,如本科生专业目录中的建筑学、土木工程学专业,在研究生学科专业目录中都是一级学科,前者分4个二级学科专业,后者分6个二级学科专业。本科专业之所以比研究生二级学科专业来得宽,这和本科是通识教育、培养的是通才,而研究生教育是属于专业教育、培养的是专才的认识有关。

按照国务院学位委员会办公室制定的《授予博士、硕士学位和培养研究生的学科、专业目录》的分类,我国将包括自然科学和人文社会科学在内的所有科学划分为哲学、文学、史学、法学、经济学、管理学、教育学、理学、工学、农学、医学、军事学12个学科门类、88个一级学科、382个二级学科,其中二级学科就是研究生的专业,通常被称为学科专业,研究生的培养主要是按照二级学科进行的。“专业”的本质就是围绕特定领域形成的知识和能力的组合,表现在形式上,就是不同课程的组合。因为社会需要的多种多样,所以这种组合肯定也是多种多样。高校和学生有权根据科技发展和生产实际以及本校的教学科研基础和专业兴趣进行不同的组合,以满足市场的多元需求和学生的个性需求。因此专业是灵活的、暂时的,专业会随着科技发展和个人、市场需求的变化而变化。不同学校对同一专业的课程设计是不尽相同的,一般都会有所差别。

1.1.1 自然科学领域

在17世纪牛顿力学出现之前,关于自然和社会的知识在西方被通称为“哲学”,有关于自然的知识被称为“自然哲学”。随着物理学的成功,以物理学为先导和典范的近代自然科学,在17~18世纪形成了关于科学知识及其研究态度的典范模式。具体表现是:(1)科学活动由研究主体与作为研究对象的客体构成。科学研究主体与研究对象分立并保持距离,研究主体不与研究对象产生情感或评价关系,仅仅客观地认识对象。未受主体干扰介入的客体自身的状况才是科学的对象。这种客观认识的态度也就是理性态度。(2)研究主体主动探索,作为研究对象的客体则是被动的。这种将自然物客体化的态度,与近现代科学有着深刻的渊源关联。(3)自然科学放弃了古代思维无所不包的终极真理抱负,而自限于有限的认识。康德哲学对以牛顿为代表的近代科学的一个总结原则是:科学及其理性放弃了古代思维对整体性对象的把握,而只从特定角度研究对象。例如,与古代思维关联的中医把人体作为整体把握,而近代科学的西医则分别以内、外、儿、妇、五官、皮肤等不同部分为研究对象。

近代自然科学的主流具有还原论的倾向,把宏观整体现象看作由其构成因素造成的结果。科学把整体看作部分的结合,因而对整体对象的分割,从宏观对象到原子、基本粒子的分解,不仅是一个追根溯源的深化本质认识的过程,而且这一分解还是无穷深入的过程。以上科学观,正是近现代学科分化愈来愈细密多样的一个根据。

简言之,自然科学就是自然界物质形态、结构、性质和运动规律的科学,是人类生产和自然科学实验的知识概括和总结。它以自然界、自然现象为研究对象,其目的在于揭示自然界各种现象的本质,认识它的运动规律,并遵循自然规律,利用和改造自然,为人类造福。自然科学来自生产实践,并为生产实践服务,它随着生产的发展而发展,并积极推动生产的发展。换言之,自然科学是知识形态的生产力。

1.研究领域

现代自然科学一般分基础科学、技术科学和应用科学3大类。基础科学是研究自然界物质的本质和各种不同运动形式的基本规律的科学,是技术科学与应用科学的理论基础,包括数学、天文学、地学、物理学、化学、生物学等;技术科学是研究技术理论性质的科学,如电子技术、激光技术、能源技术、空间技术等等;应用科学是直接应用于生产和生活的技术和工艺性质的科学。基础科学、技术科学、应用科学互为条件,互相促进,相辅相成。(1)数学:包括代数、逻辑学、平面几何、立体几何、平面解析几何、空间解析几何、微积分、线性代数、概率统计、复变函数、实变函数、拓扑学、泛函分析、数论。(2)力学:包括理论力学、实验力学、固体力学、弹性力学、塑性力学、流体力学、振动力学、声学等。(3)物理学:物理(Physics)是研究物质结构、物质相互作用和运动规律的自然科学,是一门以实验为基础的自然科学,物理学的一个永恒主题是寻找各种序(Orders)、对称性(Symmetry)和对称破缺(Symmetry-Breaking)、守恒律(Conservation Laws)或不变性(Invariance)。包括:理论物理学、实验物理学、计算物理学、数学物理学、粒子物理学、核物理学、原子分子物理学、固体物理学、结晶学、表面物理学、热学、光学、电磁学等。(4)化学:化学(Chemistry)是研究物质的组成、结构、性质及其变化规律的科学。世界是由物质组成的,化学则是人类用以认识和改造物质世界的主要方法和手段之一,它是一门历史悠久而又富有活力的学科。包括:理论化学、计算化学、实验化学、元素化学、无机化学、有机化学、高分子化学、分析化学、合成化学等。(5)天文学:天文学(Astronomy)是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射,发现并测量它们的位置,探索它们的运动规律,研究它们的物理性质、化学组成、内部结构、能量来源及其演化规律。包括:观测天文学、理论天文学、光学天文学、射电天文学、X射线天文学、红外天文学、紫外天文学、γ射线天文学、粒子天文学、结构天文学、宇宙天文学、天体演化论等。(6)地球科学:地球科学是以地球系统(包括大气圈、水圈、岩石圈、生物圈和日地空间)的过程与变化及其相互作用为研究对象的基础学科。主要包括地理学(含土壤学与遥感)、地质学、地球物理学、地球化学、大气科学、海洋科学和空间物理学以及新的交叉学科(地球系统科学、地球信息科学)等分支学科。包括:外层空间科学、大气科学、海洋科学、地质学、自然地理学等。(7)生命科学:生命科学是研究生命现象、生命活动的本质、特征和发生、发展规律,以及各种生物之间和生物与环境之间相互关系的科学。包括:分子生物学、细胞生物学、个体生物学、形态学、生理学、生物化学、生物物理学、前生物学、微生物学、植物学、动物学、人类学、遗传学、胚胎学、进化论、时间生物学、古生物学、生态学、生物地理学、病理学、药理学、免疫学等。

2.核心研究方法(1)科学实验

科学实验是自然科学理论的源泉和检验标准。在自然科学研究中,任何新的发现、新的发明、新的理论的提出都必须以能够重现的实验结果为依据,否则就不能被他人所接受,甚至连发表学术论文的可能性都会被取缔。科学实验是自然科学发展中极为重要的活动和研究方法。

科学实验大致可以分为以下8种基本类型:

①定性实验:判定研究对象是否具有某种成分、性质或性能;结构是否存在;它的功效、技术经济水平是否达到一定等级的实验。一般说来,定性实验要判定的是“有”或“没有”、“是”或“不是”,从实验中给出研究对象的一般性质及其他事物之间的联系等初步知识。定性实验多用于某项探索性实验的初期阶段,把注意力主要集中在了解事物本质特性的方面,它是定量实验的基础和前奏。

②定量实验:研究事物的数量关系的实验。这种实验侧重于研究事物的数值,并求出某些因素之间的数量关系,甚至要给出相应的计算公式。这种实验主要是采用物理测量方法进行的,因此可以说,测量是定量实验的重要环节。定量实验一般为定性实验的后续,是为了对事物性质进行深入研究所应该采取的手段。事物的变化总是遵循由量变到质变,定量实验也往往用于寻找由量变到质变关节点,即寻找度的问题。

③验证性实验:为掌握或检验前人或他人的已有成果而重复相应的实验或验证某种理论假说所进行的实验。这种实验也是把研究的具体问题向更深层次或更广泛的方面发展的重要探索环节。

④结构及成分分析实验:它是测定物质的化学组分或化合物的原子或原子团的空间结构的一种实验。实际上成分分析实验在医学上也经常采用,如血、尿、大便的常规化验分析和特种化验分析等。而结构分析则常用于有机物的同分异构现象的分析。

⑤对照比较实验:指把所要研究的对象分成两个或两个以上的相似组群。其中一个组群是已经确定其结果的事物,作为对照比较的标准,称为“对照组”,让其自然发展。另一组群是未知其奥秘的事物,作为实验研究对象,称为实验组,通过一定的实验步骤,判定研究对象是否具有某种性质。这类实验在生物学和医学研究中经常采用,如实验某种新的医疗方案或药物及营养品的作用等。

⑥相对比较实验:为了寻求两种或两种以上研究对象之间的异同、特性等而设计的实验。即把两种或两种以上的实验单元同时进行,并作相对比较。这种方法在农作物杂交育种过程中经常采用,通过对比,选择出优良品种。

⑦析因实验:是指为了由已知的结果去寻求其产生结果的原因而设计和进行的实验。这种实验的目的是由果索因,若果可能是多因的,一般用排除法处理,一个一个因素去排除或确定;若果可能是双因的,则可以用比较实验去确定产生结果的真正原因或主要原因。

⑧判决性实验:指为验证科学假设、科学理论和设计方案等是否正确而设计的一种实验,其目的在于作出最后判决。如真空中的自由落体实验就是对亚里士多德错误的落体原理(重物体比轻物体下落得快)的判决性实验。

此外,科学实验的分类中还包括中间实验、生产实验、工艺实验、模型实验等类型,这些主要与工业生产相关。(2)数学方法

这里所要阐述的数学方法不是指进行研究和发展“数学”时的方法,而是指在自然科学研究中经常采用的一种科学抽象的思维方法。

其根本特点在于撇开研究对象的其他一切特性,删繁就简,只抽取出各种量、量的变化及各量之间的关系,也就是在符合客观的前提下,使科学概念或原理符号化、公式化,利用数学语言(即数学工具)对符号进行逻辑推导、运算、演算和量的分析,以形成对研究对象的数学解释和预测,从而从量的方面揭示研究对象的规律性。这种特殊的抽象方法,称为数学方法。(3)系统科学方法

系统科学是关于系统及其演化规律的科学。这门学科20世纪上半叶产生,因其具有广泛的应用价值,发展十分迅速,现已成为一个包括众多分支的科学领域。系统方法是认识、调控、改造、创造复杂系统的有效手段。

系统是一种普遍存在,一切事物和过程都可以看作组织性程度不同的系统,从而使系统科学的原理具有一般性和较高的普遍性。系统科学方法为人们提供了新的思维模式,它突破了传统的只侧重分析的机械方法的栏栅,指导人们从总体上进行思维,探索科学技术发展的新思路。

①整体性原则:系统方法的首要原则。它把研究对象视为有机整体,探索组成、结构、功能及运动变化的规律性,从系统的整体出发,探索系统内外环境中和内外环境间的辩证关系。

②动态性原则:任何现实的系统,一般来说,都处于动态的活系统。系统总是动态的,永远处于运动变化之中,都有一个产生和消灭的过程,所以任何系统都经历着实在的历史。因此,在研究系统时,应当把系统发展的各个阶段统一加以研究,以把握过程与未来趋势。

③最优化原则:就是通过研究系统的要素、结构以及与环境的关系,经过科学的计算、预测,作出系统目标的多种方案,从中选择最佳的设计和实施方案以及所能达到的最佳功能目标,同时,还要制定最佳控制和进行最优管理。

④综合性:这是系统方法的一个突出的特点,它突破了传统分析方法的局限,把分析与综合有机地结合起来,在综合的指导下进行分析。综合性就是把任何整体都看作是以诸要素为特定目的而组成的综合体,要求研究任一对象都必须从它的成分、结构、功能、相互联系方式、历史发展等方面进行综合的考察。

⑤模型化:运用系统方法,需要把真实系统模型化,即把真实系统抽象为模型,如放大或缩小了的实物模型、理论概念模型、数学模型、符号系统模型或其他形式化的模型等。

对于复杂系统,需在系统分析的基础上,适当地采用模糊方法,经适当简化和理想化,才能建立起系统模型。一旦建立起系统模型,就可以进行模拟实验,运用电子计算机进行系统仿真。模型化原则是采用系统方法时求得最优化的保证。

整体性、动态性、最优化、综合性、模型化是系统方法的基本特点,也是运用系统方法的基本原则。前两个是基础,第三个是目标,后两个是手段。系统方法的广泛应用,推动了自然科学、社会科学、应用技术、管理科学、医学、环境科学的新进展,同时也带来人们思维方式的变革。

1.1.2 人文学科领域

所谓人文科学,是指以人的内心活动、精神世界以及作为人的精神世界的客观表达的文化传统及其辩证关系为研究内容、研究对象的学科体系,它是以人的生存价值和生存意义为学术研究主题的学科,因此可以说,它所研究的是一个精神与意义的世界。“文明以止,人文也。观乎天文,以察时变;观乎人文,以化成天下。”在中国传统文化中,“人文”指一切与以自然为对象相对应的那些文明与文化现象。可以泛指人事、为人之道或社会规范等。“人文”一词在西方包含如下含义:①人道或仁慈的性质或状态,慈爱或慷慨的行为或性情;②人性,人的属性;③人类;④人文学(又称“人文学科”或“人文科学”)或人文学的研究。“人文学科”(Humanities)一词源自古罗马政治家西塞罗(M.T.Cicero)关于理想的论述。Humanitas有“人性”或“人情”之意,为“人文主义”(Humanism)及其相关词汇的辞源。而Humanitas又来源于更早的希腊词汇paideia。paideia则来自希腊词pais(儿童),它所衍生的拉丁词pasco,意指牧养,使之成长,即教育。可见“人文学科”的来源包含了两个彼此依靠的关联性观念:人性的理想(理念)与教育。这种人性教育的完整性或全面性是paideia与humanitas的基本精神,也是近现代人文学科概念基本的依据与来源。

15世纪意大利人文主义学者开始在与“神的研究”对立的意义上,使用hu-manitas,即人文学科的研究,包括语法、修辞、诗歌、历史和道德哲学;作为教育,则是指在“世俗学校”中开设的同基督教神学和经院哲学针锋相对的有关世俗文化方面的课程,以人和自然为研究对象,其内容包括对古希腊罗马学术和语言、文学以及自然科学的研究。

人文学科是研究人本身或与个体的精神直接相关的文化世界的学问,是指以人的情感、心态、理想、信仰、文化、价值等作为研究对象的学科。《大英百科全书》对人文学科的界定是:“人文学科是那些既非自然科学也非社会科学的学科的总和。人文学是一门对人的自我了解、自我认识、自我定义最贴切、最直接的一种学问,一般人认为人文学科构成一种独特的知识,即关于人类价值和精神表现的人文主义的学科。”

人文学科究竟要研究什么?著名学者林毓生认为:①人是什么?②人活着干什么?③人与社会的关系是什么?人文研究的中心目的是寻找人的意义(In Search of the Meaning of Man)。究其根本,人文学科的功能、目的或宗旨,就在于“呈现意义”。而所谓“意义”,即什么样的生活是值得追求的?也就是说,人文学科是关于人的灵魂、人的价值的学说,它的对象是人本身,而不是别的自然事物或社会事物。生命与历史是具有意义的,意义是各种事件的价值、行为目的以及相互关系所组成历史事件之间的关系,它不是物理事件之间的简单的因果关系。

1.研究领域

人所创造的文化和文明是人文学科的两个根本层面。人文学科是指那些既非自然科学也非社会科学的学科的总和。一般人认为人文学科构成一种独特的知识,即关于人类价值和精神的人文主义的学科。人文学科包括如下研究范畴:现代与古典语言、语言学、文学、历史学、哲学、考古学、法学、艺术史、艺术批评、艺术理论、艺术实践以及具有人文主义内容和运用人文主义方法的其他社会科学。

人文学科的原始载体是文、史、哲3大学科,伦理学、宗教学和美学是从文、史、哲之中分化出来的学科。宗教、伦理、艺术、文学等人文学科研究的核心始终落在人的内心世界、人与人、人与自然的关系上。至于教育学和历史学,到底属于社会科学还是人文学科,还有争议。比如历史学,西方普遍列入社会科学,而在中国则列入人文学科。

人文学科通常包括:语言学、哲学、文学、历史学、考古学、法学,以及具有人文主义内容和采用人文主义方法的社会科学和其他各学科如军事学、宗教学、民族学、人口学、传播学、人文地理学和文艺学等一大批学科。

2.核心研究方法

如果自然科学通过对于对象的解剖、实验的手段来达到目的,那么对于人文学科来说,探讨生命的价值、行为、目的及其意义,则就必须通过“解释”与“理解”。人文学科的研究方法是历史的、伦理的、哲学的、美学的,因而也是情感的、理想的和人性的。(1)思辨方法:这是一种形而上学的、或哲学的、或准哲学的思考方法。概念是思维的基本形式之一,是反映客观事物的一般的、本质的特征。思辨的一个核心问题就是概念,对概念思辨的逻辑前提是3大逻辑定律,即同一律(A=A)、矛盾律(A≠A)和排中律。任何一种成系统的思想都有一种逻辑,即思想的逻辑要素的构成:假设、概念、主题、资料(数据)、理论、主张、含义、推论(后承)等等。每一学科都依赖概念、假设和理论,提出主张,给出理由和证据,避免矛盾和不一致,有蕴涵和后承等等。(2)历史方法:19世纪中期就在德国历史学派的著作中得以表达,其后广泛应用于人文社会科学。历史方法的主要目标是,“通过发现过去有关的事实、事件和态度的趋势,通过划分思想和行为发展的界限,把见解用在各种社会问题的素材之中。”历史方法在社会科学和人文学科的研究中屡试不爽,甚至缺乏历史感被认为是莫大的缺憾。(3)“理解”方法:与自然科学量化方法不同,人文学科共通的方法是“理解”,它必须“从内在的经验出发”,以生命的体验、表达和理解为基础,所以“理解”是人文学科有效的认识过程,具有普遍的方法论意义。“理解”的关键就是体验与经验。(4)“解释”方法:可以被看作是理解的实践过程,即“阐述或解释”。对照比较是诠释学传统中比较常用的一种方法,指的是寻找两个文本的相似之处,加以比较,从而可以从已知文本的意思推出另一个与其相似的文本的内容。找出相似性本身就是一种独立的精神活动,是一种理解,意味着两者尽管非常相似,但又不是相等同一,而是互相区别。也就是说,为了把握和理解对自己完全陌生即崭新的东西,理解者自己必须进行创造性的劳动。

1.1.3 社会科学领域

在17世纪牛顿力学出现之前,关于自然和社会的知识在西方通称为“哲学”,关于自然的知识被称为“自然哲学”,相应的关于社会的知识称为“道德哲学”。随着物理学的成功,以物理学为先导和典范的近代自然科学,在17~18世纪形成了关于科学知识及其研究态度的典范模式,由此树立的科学范型不仅为自然科学各个学科领域仿效推广,而且进入传统人文与社会领域,将用于自然物质对象的科学方法及观念转用于人类。

社会领域中这些以自然科学为范型所建立的学科,在19世纪形成了社会科学这一大类。社会科学的研究对象是社会客体,它不同于自然科学对象的自然客体。但社会科学在其客观规律知识论、理性概念系统与追求预见功能等方面又与自然科学并无本质的区别。在这一基本点上,可以将社会科学与自然科学统归于“科学”名下。

社会科学建立之初,相当多的一批学者希望它能成为一门综合性的单一科学。但后来的事实证明这一愿望是不现实的。由于社会问题的复杂性和多面性,加之社会分工越来越细,社会科学不久即开始发生分化,专门化的趋势越来越明显,经济学、政治学、人类学、社会学、法学等社会科学的主要学科先后按自身规律发展成为独立的学科。从18世纪中叶到19世纪中叶整整一个世纪中,社会科学得到了较大发展,其主要特点之一便是不断分化,形成许多新的分支学科。

截至第一次世界大战爆发时,历史学、经济学、社会学、政治学、人类学、心理学、法学等学科基本在西方绝大多数主要大学里制度化了。1945年前后社会科学的全部学科的制度化在世界范围内完成,“道德科学”遂改称为“社会科学”。至此,西方主要国家知识体系中基本确定了“人文科学、社会科学、自然科学”三大学科分类的模式。社会科学是研究各种社会现象、社会运动变化及发展规律的各门科学的总称。社会科学用客观和系统的方法研究社会体制、社会结构、社会政治与经济进程以及不同群体或个人之间的互动关系。

1.研究领域

社会科学是一个涵盖内容极为广泛,然而又颇多争议的概念,它的范围往往依国家和发展阶段的不同而不同,甚至不同学者也有异议。

在西方,一种较有影响的看法是:社会科学的核心部分包括经济学、社会学、人类学和政治学等学科;外围部分包括跨学科的社会心理学、社会和文化人类学、社会生物学、社会和经济地理学等学科。教育学通常也包括在内;少数学者主张把心理学也划归社会科学。在西方不少大学里,社会科学发展演变为众多的教学领域和研究领域,不仅包括其核心部分的若干学科,而且还涉及像劳资关系、国际关系、商业经济或企业管理研究,以及社会(公共)管理等领域。人们有时宽泛地把人文科学各学科也归并在社会科学的名下,即为广义的社会科学。

社会科学大体上包括:经济学、政治学、社会学及社会心理学。在20世纪晚期,行为科学这一术语也越来越广泛地用于人们称之为社会科学的各个学科。(1)经济学:主要涉及有关商品和劳务的生产、供销、消费等方面的描述和分析。主要分支学科一个是个体经济学,研究经济活动中个别范畴的行为,诸如个体农民、商号及商人的经营活动。另一个主要分支学科是总体经济学,其研究对象是整个经济体系,尤其注重产出和所得的一般水准以及不同经济部门之间的相互关系。(2)政治学:就狭义和传统而言,这门学科一直被看作是研究国家及其赖以发挥治理效能的各种机构和制度。国际关系是政治学的一个分支学科,研究国家与国家之间的关系以及各国的外交政策。(3)社会学:包括有关人类社会、社会风习和社会关系等科学研究,这门学科也可以明确界定为对人类有所组织的团体之发展、结构、相互影响及集体行为等方面所作的系统研究。与此相等的一门学科是社会心理学,研究有关个人性格、态度、动机和行为所受社会团体影响的方式。(4)文化人类学:研究人类文化,侧重于社会结构、语言、法律、政治、宗教、巫术、艺术、技术等范畴的探讨。文化人类学特别要对人类行为的种种方式进行归纳,并对社会现象作出总体的描述。(5)比较法学:也可视为社会科学之一部分。这门学科涉及不同国家和不同文化的法学原理、法律体制、法律程序,并对之进行系统的比较研究。(6)心理学(Psychology):是研究人和动物心理现象发生、发展和活动规律的一门科学。心理学既研究动物的心理(研究动物心理主要是为了深层次地了解、预测人的心理的发生、发展的规律)也研究人的心理,而以人的心理现象为主要研究对象。

2.核心研究方法

以经验性、实证性为特征的社会研究方法使社会科学与人文学科相区分。社会研究作为一种特定的科学研究类型,有3个方面的基本特征:①研究的主题是社会的,而非自然的;②研究的方式是经验的,而非思辨的;③研究的问题是科学的,而非判断的。所谓经验性,指的是社会研究必须依据可感知的资料。

社会研究中的困难在于社会研究者所研究的是社会现实中的人、人的社会行为,以及与人有关的社会现象,有其主观性、特殊性、复杂性和难验证性。

社会科学所研究的社会事物(或社会历史现象)一般都是非常复杂的,它们受众多自然和社会变量的制约,而这些变量之间往往又是彼此相关的、非线性的关系,表现出较强的随机性和模糊性。人们很难从这些随机因素背后找出必然性因素,很难从思想动机中发现其客观动因。社会研究除了会受到与自然科学相同的各种自然条件限制外,有时还受到伦理的、政治的因素的限制。而且研究者也是人,在与被研究者之间会产生情感,不知不觉影响他对资料的反映和对研究结果的解释。对社会事物的认识和评价要受到众多主观因素(特别是感情因素)的制约,而这主要取决于观察者与观察对象之间的利益关系(特别是经济利益关系),各种社会科学因而很容易带有强烈的民族性和阶级性。这种由利益关系所引起的“先入为主”的主观因素(特别是民族感情和阶级感情),诱导人们形成非中性的、非客观的、非理性的观察态度,这就容易形成代表不同民族利益和阶级利益的“社会科学”,而且互不妥协,各自为政,从而阻碍着社会科学研究的客观性。

另一方面,社会事物一般有较长的运行周期,且在时间上具有不可逆性,有些社会事物的运行容易产生巨大的利益冲突,并会引起一些不可预测的灾难,因而难以进行重复性实验,许多社会科学的假设、预言难以在短期内和较小范围内得以验证。

以上所有这些问题,都给社会科学进行精确、客观的分析带来了巨大的困难。在研究方法上,社会科学的思维方式和研究态度与自然学科无二,以定性、定量和实证手段为主要研究方法。(1)定性研究方法(Qualitative Research)——非数量化资料、非统计分析

关于定性研究的定义,目前还没有一个统一的观点。国外学术界一般认为定性研究是指“在自然环境中,使用实地体验、开放型访谈、参与性与非参与性观察、文献分析、个案调查等方法对社会现象进行深入细致和长期的研究;分析方式以归纳为主,在当时当地收集第一手资料,从当事人的视角理解他们行为的意义和他们对事物的看法,然后在这一基础上建立假设和理论,通过证伪法和相关检验等方法对研究结果进行检验;研究者本人是主要的研究工具,其个人背景以及和被研究者之间的关系对研究过程和结果的影响必须加以考虑;研究过程是研究结果中一个必不可少的部分,必须详细记载和报道”。近年来盛行的所谓质的研究方法,实际上也是属于定性研究的范畴。

换言之,定性方法是根据社会现象或事物所具有的属性和在运动中的矛盾变化,从事物的内在规定性来研究事物的一种方法或角度。它以普遍承认的公理、一套演绎逻辑和大量的历史事实为分析基础,从事物的矛盾性出发,描述、阐释所研究的事物。进行定性研究,要依据一定的理论与经验,直接抓住事物特征的主要方面,将同质性在数量上的差异暂时略去。定性研究是以研究者本人作为研究工具,在自然情境下采用多种资料收集方法对社会现象进行整体性探究,使用归纳法分析资料和形成理论,通过与研究对象互动对其行为和意义建构获得解释性理解的一种活动。

定性研究注重从研究者本人内在的观点去了解他们所看到的世界。最主要的研究工具是研究者本人,大多是采用参与观察和深度访谈而获得第一手资料,具体方法主要有参与观察、行动研究、历史研究法、人种志研究方法。其中参与观察,是定性研究中经常用到的一种方法。参与观察的优势在于能观察到被观察者采取行动的原因、态度、努力程序、行动决策依据。通过参与,研究者能获得一个特定社会情景中的一员的感受,因而能更全面的理解行动。然后通过对观察和访谈法等所获得的资料,采用归纳法,使其逐步由具体向抽象转化,以至形成理论。与定量研究相反,定性研究是基于“有根据的理论”为基础的。这种方式形成的理论,是从收集到的许多不同的证据之间相互联系中产生的,这是一个自下而上的过程。(2)定量研究方法(Quantitative Research)——数量化的资料、统计分析

定量的意思就是说以数字化符号为基础去测量。它通过对研究对象的特征按某种标准作量的比较来测定对象特征数值,或求出某些因素间的量的变化规律。定量研究是指确定事物某方面量的规定性的科学研究,主要搜集用数量表示的资料或信息,并对数据进行量化处理、检验和分析,从而获得有意义的结论的研究过程。定量研究是指研究者事先建立假设并确定具有因果关系的各种变量,然后使用某些经过检测的工具对这些变量进行测量和分析,从而验证研究者预定的假设。

定量研究的理论基础是西方哲学史上发展了一百多年的实证主义哲学。实证主义认为,现实事物是不以人们的意志为转移的,是客观存在的,不受主观价值因素的影响。主体和客体是两个截然分开的实体,主体可以通过对一套工具的操作而获得对客体的认识。在对客体的认识上,必须建立在经验的基础之上,社会现象可以被经验地感知,一切概念必须还原为直接的经验内容,理论的真理性必须由经验来验证。“定量研究”的基本原则是:知识的发现要依靠归纳法,检验研究的结果所形成的假说或理论要以“假设—演绎”的(Hypothetico-Deductive)模式所需求的逻辑程序给予检验。例如,对于“定量研究”来说,下面的3个步骤是不可缺少的:

①研究数据要能被同行或其他研究者所认可。这就是说,一个研究者所获取的研究数据、资料必须有其合法性,能被其他的研究者在相同的条件下也可同性质地获取。表现于研究实践,研究者在进行具体研究时,要以观察、实验的方法为手段,去收集可观察性的、可检验性的数据。

②依据数据进行分析、总结、概括,并在此基础上去建立假设(或理论);而且要遵循“假设—演绎”的检验逻辑,让这假设接受严格检验(通常,统计学中的显著性检验法被广泛地运用)。

③依据检验后的假设性质去构建一个理论或理论性的结论,以便让这种理论或理论性的结论对原先所研究的问题给以合理性的解释(Explanation),对所研究问题中关于“什么”和“为什么”的问题作出合理性的回答。

定量研究主要用观察、实验、调查、统计等方法,对研究的严密性、客观性、价值中立都提出了严格的要求,以求得到客观事实。定量研究是基于一种称为“先在理论”的基础研究,这种理论以研究者的先验想法为开端,这是一个自上而下的过程。(3)定性定量相结合的研究方法

定性与定量方法的主要差别见表1.2。表1.2 定性与定量方法的差异分析

①着眼点不同。定性研究着重事物质的方面;定量研究着重事物量的方面。

②在研究中所处的层次不同。定量研究是为了更准确地定性。

③依据不同。定量研究依据的主要是调查得到的现实资料数据;定性研究的依据则是大量历史事实和生活经验材料。

④手段不同。定量研究主要运用经验测量、统计分析和建立模型等方法;定性研究则主要运用逻辑推理、历史比较等方法。

⑤学科基础不同。定量研究是以概率论、社会统计学等为基础;而定性研究则以逻辑学、历史学为基础。

⑥结论表述形式不同。定量研究主要以数据、模式、图形等来表达;定性研究结论多以文字描述为主。定性研究是定量研究的基础,是它的指南,但只有同时运用定量研究,才能在精确定量的根据下准确定性。这是二者的辩证关系。

在实际研究中,定性研究与定量研究常配合使用。在进行定量研究之前,研究者须借助定性研究确定所要研究的现象的性质;在进行定量研究过程中,研究者又须借助定性研究确定现象发生质变的数量界限和引起质变的原因。

1.1.4 跨学科、交叉学科、综合性学科领域

美国科学学与情报学家普赖斯(D.Price,1922—1983)曾在20世纪60年代提出“大科学”这一概念,指出随着科学社会化和社会科学化的程度不断加深,科学逐渐从“小科学”时代过渡到“大科学”时代。大科学时代的一个突出特点是科研活动不再是分散的、单纯的个人行为,已经演变成为一种跨学科、聚焦型、多人员参加的集体性协作。

按照美国国家科学院协会的最新定义:跨学科研究(Cross-Disciplinary)是团队或个人的一种研究模式(Mode of Research),它把来自两个以上学科或专业知识团体的信息、数据、技术、工具、观点、概念和(或)理论整合起来,以推进基本的认识,或解决那些不能用单一学科或研究领域来解决的问题。而交叉学科是指:“两门或两门以上的学科相互结合、彼此渗透交叉而形成的新学科。”

对于跨学科和交叉学科这两个概念的界定,迄今也没有完全达成共识,有跨学科、交叉学科、边缘学科、混合学科、多科性、学科互涉等多种说法,港台地区还有“科际整合”等不同说法。

现代科学的学科发展正处于高度发散与高度聚合相伴共生的特殊时期,一方面,由于先进的实验技术和精密观察工具的出现,人类对客观物质世界和主观思维领域都有了更加深刻的认识,科学分化也因此而越来越细,形成了包含数千门学科的庞大知识体系;另一方面,由于客观世界与各门学科间相互联系和相互转化的复杂性、科研方法的多样性以及科研目的的综合性,人类逐渐认识到,依靠单一的学科知识体系,无法更深入地揭示研究对象的本质特征,学科间的交叉、渗透和综合成为一种新的必然趋势。见图1.3。

科学上的重大发现和国计民生中的重大社会问题的解决,常常涉及不同学科的相互交叉和相互渗透。学科交叉逐渐形成一批交叉学科,如化学与物理学的交叉形成了物理化学和化学物理学,化学与生物学的交叉形成了生物化学和化学生物学,物理学与生物学交叉形成了生物物理学等。跨学科研究则是学科聚合的图1.3 交叉学科分类图具体体现。跨学科研究是指科研主体在科学分化的基础上,打破不同学科之间的界线、跨越不同研究领域而进行的一种科学创造活动,是解决复杂的科学技术问题和社会问题而达到不同学科相互渗透的一个重要手段。“学科分界线的流动性日益增强,概念在学科间的流动也更加容易”,新型交叉学科和横断学科的不断出现,不断地拓展了人类的认知领域。

由于跨学科研究的对象高度综合,所涉及的学科理论种类繁多,因此从不同领域借鉴和移植成熟精致的研究方法能够达到事半功倍的效果。以体育科学为例,体育科学以运动着的人作为自己的研究对象,研究对象的自然属性与社会属性的双重复杂性决定了其必然同时涉及自然科学、社会科学两大科学门类,具有自然性和社会性的双重特征,也决定了在体育科学的研究过程中必须从其他自然科学学科和社会科学学科移植借鉴并综合运用多种研究方法。

1.2 学习资料类型

无论是本科学习,还是研究生阶段的学习,都离不开学习资料的获取和利用,因此清楚地了解在学习过程中有哪些可资利用的学习资源是很关键的。从某种意义上说,有良好的信息意识,有足够的信息能力去获取有用的学习信息资源,并能够加以正确的分析评价,进而加以利用,是区分一个会学习和不会学习的人的标准之一。

1.2.1 教材及教辅资料

教材是学习过程中最常见,也是最必要和重要的学习资料类型。《中国大百科教育卷》对教材的解释是:①根据一定学科任务,编选和组织具有一定范围和深度的知识技能体系,一般以教科书的形式来具体反映;②教师指导学生学习的一切教学材料。教材就是根据教学大纲和实际需要,为师生教学应用而编选的材料。主要有教科书、讲义、讲授提纲等。

教材的定义有广义和狭义之分。

广义的教材,包括教材及其教学参考资料,是指课堂上和课堂外教师和学生使用的所有教学材料,比如课本、习题集、手册、学习指南、补充练习、辅导资料、自学手册、录音带、录像带、计算机光盘、复印材料、报纸杂志、广播电视节目、幻灯片、照片、卡片、教学实物等等。教师自己编写或设计的材料也可称为教学材料。另外,计算机网络上使用的学习材料也是教学材料。总之,广义的教材不一定是装订成册或正式出版的书本。凡是有利于学习者增长知识或发展技能的材料都可称之为教材。

狭义的教材就是教科书。教科书是一个课程的核心教学材料。从目前来看,教科书除了学生用书以外,几乎无一例外的配有教师用书,很多还配有练习册、活动册以及配套读物、挂图、卡片、音像带等。

1.2.2 学术论文

所谓学术论文就是在学术领域内表达学术研究成果的文章。学术论文是某一学术课题在实验性、理论性或观测性上具有新的科学研究成果或创新见解和知识的科学记录;或是某种已知原理应用于实际中取得新的进展的科学总结,用以提供学术会议上宣读、交流或讨论;或在学术刊物上发表;或作其他用途的书面文件。

从这一意义上理解,学术论文一般包含下面3层含义:

①学术论文的范围限制在学术研究领域,非此领域的文章不能算学术论文,如新闻报道、报告文学、小说、散文和杂文等不能算学术论文。

②这里所说的学术论文限制在学术领域,但并不是说,学术领域的所有的文章都是学术论文,只有表达学术研究新成果的文章才是学术论文。例如,科普作品就应被排除于学术论文之外。

③具有科学性,即论点成立,论据充足,论证富有逻辑。具有创见性,是独立思考与分析的新发现,或在原有成果基础上开拓、加深。具有专业性,是对某一问题的专门研究。

从上述3点来看,学术论文的灵魂必须是学术研究的成果。学术论文是对自然、社会、人文科学诸领域中的问题进行探讨、研究,表述科学研究成果的文章。学术论文是学术研究的结晶,不是一般的学习心得、体会或收获报告,是对某一学科领域科学规律的揭示,不是某些现象的直录与材料的罗列,事件经过的描述,不是对他人研究成果的重复而是对研究对象做进一步探求与思考的结果,论文一般运用各种事实与材料来引述、分析、论证研究者的新发现与新见解。

如果依据撰写者的不同情况、不同要求或社会需要,学术论文可以分为:

①期刊论文——研究人员写给学术期刊、杂志或学术出版社,并经同行评审,刊出发表的学术论文。

②会议论文——研究人员参加学术会议,所撰写的用于同行之间学术交流的文章。

③学位论文——是由不同层次的高等院校的学生所撰写的论文,目的是要求授予学位。

其中,期刊论文和会议论文反映的是最前沿、尖端的研究方向和成果,其新颖性和前沿性突出,是了解某个研究领域最新研究成果的必读文献资源。

学位论文是攻读硕士、博士学位研究生所撰写的论文。其内容一般对所研究的题目有新的独立见解,具有一定的深度和较好的科学价值,对本专业学术水平的提高有积极作用,因而也是在校大学生、研究生学习和关注的一种重要的学习资源。

1.2.3 学术专著

专著通常比单篇论文的学术论文更具理论性、系统性,因而也更具学术价值。国家科学技术学术著作出版基金委员会在《国家科学技术学术著作出版基金资助项目申请指南(2008年度)》中明确指出:学术专著是指“作者在某一学科领域内从事多年系统深入的研究,撰写的在理论上有重要意义或实验上有重大发现的学术著作”。

所谓“学术专著”,指“国内外科学专家所撰写的学术著作”。从内容来说,专著是对某一知识领域所做的探索,是新的学术研究成果,在理论上有重要意义或实验上有重大发现。通常它是属于一(学)派一家之言,并以本专业的研究人员及专家学者为主要读者对象的。“专著”区别于“编著”。所谓编著,是指把现成的文字材料经过选择加工而写的著作,通过将他人的作品按照编著者的思路进行排列、修改和编辑,从而使书籍形成一定的主题思想。编著与专著相比,不强调创造性。

对于人文社会科学领域的学生来说,对于专著的阅读和利用从某种程度上甚至要比学术论文更重要,因为专著是对一个专题的系统的阐述,通过对专著的阅读,有助于比较深入和全面的了解某一个方面的研究成果,前因后果、来龙去脉、逻辑关系和系统阐述。专著与论文的不同在于,论文反映的是最前沿、尖端的研究方向和成果,新颖性和前沿性是期刊论文的主要特色;而系统性、完整性和理论性是专著的主要特点。

1.2.4 特种文献

特种文献是出版发行和获取途径都比较特殊的科技文献类型,通常指有特定内容、特定用途、特定读者范围、特定出版发行方式的文献。特种文献一般包括会议文献、科技报告、专利文献、学位论文、标准文献、科技档案、政府出版物等八大类。特种文献特色鲜明、内容广泛、数量庞大、参考价值高,是非常重要的信息源。(1)会议文献

会议文献指在学术会议上宣读或交流的论文及其他资料。包括会议录、汇编、论文集、报告、学术讨论会报告、会议专刊等。其中,会议录是会后将论文、报告及讨论记录整理汇编而公开出版或发表的文献。(2)学位论文

学位论文指高等学校或科研机构的本科生、研究生为获得学位,在导师指导下所撰写的学术论文,包括学士学位论文、硕士学位论文和博士学位论文。学位论文讨论的问题比较专深,一般都有一定的独创性。博士学位论文,多具有创建性的科研著述。(3)专利文献

专利文献是专利制度的产物。世界上最早建立专利制度的是威尼斯城邦,1416年2月20日它批准了第一件有记载的专利。

狭义的专利文献是指由专利部门出版的各种专利出版物,如专利说明书、权利要求书;广义的专利文献还包括说明书摘要、专利公报以及各种检索工具书、与专利有关的法律文件等记录有关发明创造信息的文献。

由于专利可区分为发明专利、实用新型专利、外观设计专利、植物专利、再公告专利、防卫性公告、商标、技术诀窍等,专利文献也可相应的按内容作如上类型划分。

专利说明书是专利文献的主体,它是个人或企业为了获得某项发明的专利权,在申请专利时必须向专利局呈交的有关该发明的详细技术说明,一般由3部分组成:

①著录项目。包括专利号、专利申请号、申请日期、公布日期、专利分类号、发明题目、专利摘要或专利权范围、法律上有关联的文件、专利申请人、专利发明人、专利权所有者等。专利说明书的著录项目较多并且整齐划一,每个著录事项前还须标有国际通用的数据识别代号(INID)。

②发明说明书。是申请人对发明技术背景、发明内容以及发明实施方式的说明,通常还附有插图,旨在让同一技术领域的技术人员能依据说明重现该发明。

③专利权项(简称权项,又称权利要求书)。是专利申请人要求专利局对其发明给予法律保护的项目,当专利批准后,权项具有直接的法律作用。

从专利文献中可了解发明技术的实质、专利权的范围和时限,还能根据专利申请活动的情况,觉察正在开拓的新技术市场及其对经济发展的影响。(4)政府出版物

政府出版物是指政府及其所属机构出版的,具有官方性质的文献,又称官方出版物。各国对政府出版物尚无一致定义。是政府用以发布政令和体现其思想、意志、行为的物质载体,同时也是政府的思想、意志、行为产生社会效应的主要传播媒介。政府出版物大致可分为2类:一类是行政性文件,包括会议记录、司法资料、条约、决议、规章制度以及调查统计资料等;另一类是科技性文献,包括研究报告、科普资料、技术政策文件等。政府出版物数量巨大,内容广泛,出版迅速,资料可靠,是重要的信息源。(5)科技报告

科技报告又称研究报告,是记录某一科研项目调查、实验、研究的成果或进展情况的报告。每份报告自成一册,通常载有主持单位、报告撰写者、密级、报告号、研究项目号和合同号等。按内容可分为报告书、论文、通报、札记、技术译文、备忘录、特种出版物。大多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进行中的科研工作,是一种重要的信息源。

按形式可分为:技术报告(Technical Reports,简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers,简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations,简称TT)、合同户报告(Contractor Reports,简称CR)、特种出版物(Special Publications,简称SP)、其他(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)等。

由于有专门的出版机构和发行渠道,科研成果通过科技报告的形式发表通常比期刊早一年左右。且科技报告报道的题目大都涉及尖端科学的最新研究成果,对问题研究的论述包括各种研究方案的选择和比较,各种可供参考的数据和图表、成功与失败的实践经验等,内容很具体。从出版形式上看,每篇科技报告都是独立的、特定专题的技术文献,独自成册,以单行本形式出版发行。但是,同一单位、同一系统或同一类型的科技报告都有连续编号,每篇报告一个号码。科技报告一般无固定出版周期,多数不公开发行。(6)标准文献

标准文献指按规定程序制定,经公认权威机构(主管机关)批准的一整套在特定范围(领域)内必须执行的规格、规则、技术要求等规范性文献,简称标准。标准按性质可划分为技术标准和管理标准。技术标准按内容又可分为基础标准、产品标准、方法标准、安全和环境保护标准等。管理标准按内容分为技术管理标准、生产组织标准、经济管理标准、行政管理标准、管理业务标准、工作标准等。标准按适用范围可划分为国际标准、区域性标准、国家标准、专业(部)标准和企业标准;按成熟程度可划分为法定标准、推荐标准、试行标准和标准草案等。

标准一般有如下特点:①每个国家对于标准的制定和审批程序都有专门的规定,并有固定的代号,标准格式整齐划一。②它是从事生产、设计、管理、产品检验、商品流通、科学研究的共同依据,在一定条件下具有某种法律效力,有一定的约束力。③时效性强,它只以某时间阶段的科技发展水平为基础,具有一定的陈旧性。随着经济发展和科学技术水平的提高,标准不断地进行修订、补充、替代或废止。④一个标准一般只解决一个问题,文字准确简练。⑤不同种类和级别的标准在不同范围内贯彻执行。

标准对于生产实践来说是至关重要的文献资源,具有法律效应。(7)档案

档案是“国家机构、社会组织或个人在社会活动中直接形成的有价值的各种形式的历史记录,是组织或个人在以往的社会实践活动中直接形成的清晰的、确定的、具有完整记录作用的固化信息”,具有历史再现性、知识性、信息性、政治性、文化性、社会性、教育性、价值性等特点,其中历史再现性为其本质属性,档案是再现历史真实面貌的原始文献。

档案是直接形成的历史记录。“直接形成”说明档案继承了文件的原始性,文件是档案的基础,档案是文件的精华;文件是档案的素材,档案是文件的组合和归宿。“历史记录”说明档案在继承文件原始性的同时,也继承了文件的记录性,是再现历史真实面貌的原始文献。正因为档案继承了文件原始记录性,具有历史再现性,所以档案才具有凭证价值的重要属性,并以此区别于图书情报资料和文物。

档案是由官方机构、半官方机构、非官方机构以及一定的个人、家庭和家族形成的。其中“个人档案”,是一个人一生生命轨迹的缩写,是用人单位了解一个人情况的非常重要的资料,也是一个人职业生涯中的重要组成部分,绝不可小看和忽视。

1.2.5 网络信息资源

网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。具体来说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。

目前关于信息资源的含义有很多种不同的解释,但归纳起来主要有2种:一种是狭义的理解,认为信息资源就是指文献资源或者数据资源,或者各种媒介和形式的信息的集合,包括文字、声像、印刷品、电子信息、数据库等,这都是限于信息本身;另一种是广义的理解,认为信息资源是信息活动中各种要素的总称,这既包含信息本身,也包含了信息相关的人员、设备、技术和资金等各种资源。

网络信息资源也称为虚拟信息资源,它是以数字化形式记录的,以多媒体形式表达的,存储在网络计算机磁介质、光介质以及各类通讯介质上的,并通过计算机网络通讯方式进行传递信息内容的集合。目前网络信息资源以因特网信息资源为主。

网络信息资源的数字化存储方式,使得信息的保存、传递和查询更加方便,而且所存储的信息密度高,容量大,可以无损耗地被重复使用。既可以在计算机内高速处理,又可以通过信息网络进行远距离传送。网络信息资源可以文本、图像、音频、视频、软件、数据库等多种形式存在的,数量巨大,增长迅速,具有信息传递和反馈动态性和实时性等特点。但同时网络的共享性与开放性,使得人人都可以在互联网上索取和存放信息,由于没有质量控制和管理机制,这些信息没有经过严格编辑和整理,良莠不齐,各种不良和无用的信息大量充斥在网络上,形成了一个纷繁复杂的信息世界,给用户选择、利用网络信息带来了障碍。

网络信息资源在我们的社会发展中将日益占据主导地位,网络信息资源的管理水平将直接影响到它的合理利用,只有对网络信息资源进行有效的管理,才能使网络信息环境变为有序的信息空间,实现信息资源效用的最大优化。

1.3 安排学习计划

如何有效的、有意义的度过大学校园生活,在本科四年或短暂的研究生两三年时间里得到更好的锻炼和发展,为以后的工作或发展赢得机会和筹码,是每一个进入大学的学生必然会考虑的,由此,就涉及一个如何在有限的时间内安排学习计划的问题。

1.3.1 大学学习的基本目标和要求

大学校园是学生走向社会前的最后一站,必须要认识到在大学的学习是与未来的职业发展和人生幸福直接相关的。无论是本科生,还是研究生,都应该努力实现接受大学教育的基本目标,达到大学对于一个学生的基本要求。

现代高等教育的目的可以概括为:Learning to Know(学会认知)、Learning to Do(学会做事)、Learning to Together(学会合作)Learning to Be(学会生存)。也就是说,学生必须学会对自己和自己的行动负责,自主地采取有力的措施,在教师的指导和帮助下获取知识和技能,学会终身学习和解决问题的方法,从而适应社会的需求。

所谓研究型学习(Research-Based Learning)就是以发现、探索为学习核心,以信息能力为基础,由学生在一定情境中发现问题、选择课题、设计方案,通过主体性的探索,求得问题解决的学习活动过程。学习内容是综合开放的。学生通过学习,了解科学探究过程,获得探究体验,养成自主探究、创新的意识和习惯,形成独立获取知识、信息搜集和加工、应用知识的能力,以及通过解决问题获得与课题相关的知识。

所谓资源型学习(Learning Based Resource),是一种通过对各类不同资源的开发和利用,来完成课程目标的学习模式。在基于资源的学习中,学生扮演着主动的角色,是信息的搜寻者和发现者,以及问题的最终解决者。其目标是学生成为具备学习能力和解决实际问题能力的终身学习者。

现代高等教育主要体现在以下4个方面:

①人文与技术相结合。

②理论与实践相结合。

③渊博知识与独立思考相结合。

④理想精神与务实态度相结合。

具体落实到学习方面,就是要达到:(1)建立合理的知识结构。尽量广的涉猎学科基本知识,尽量深的了解所研究领域的方方面面、过去和现在。(2)掌握独立研究的方法和技能。尽量多的学习各种研究方法,熟练掌握研究过程和步骤。(3)学会写论文。写论文不仅能训练表达能力,更能训练思维的逻辑性,论文体例是一种非常严谨的学术规范,对于学生的学术训练而言是十分重要的。

网络环境下大学教学模式向研究型和资源型模式的转变,要求教师必须在信息资源的基础上向学生提供学习方法,以便学生所有学科的学习过程不限于教材、辅助教材与讲义范围,而是以相关信息资源及相应的信息素养作为基础。同时,要求学生学会独立学习,确定学习目标,能够有效地查寻、评价和使用所需要的信息,成为自我发现的学习者。

1.3.2 培养计划

以硕士研究生的培养为例,个人培养计划是培养方案和要求的具体实施,指导教师应充分重视并指导研究生认真制定出切实可行的培养计划。

制定培养计划的原则如下:(1)要根据每个研究生的具体情况制定培养计划,要有利于发挥学生的特长及主动性,有利于培养学生的独立见解和工作能力。(2)根据本专业特点及发展,精选课程和教学环节,恰当选择课题,满足培养时间的整体安排。(3)根据各专业关于研究生培养方案的说明及课程设置选择相应的学习课程,要注意满足研究生学位所要求的学分。(4)培养工作还应反映出工作实践的内容、时间安排及进行的方式,其工作量应满足培养方案的要求。(5)培养计划要确定研究生的研究方向,要使研究生尽早接触课题。研究方向及课题要发挥研究生的特长和能力。(6)培养计划中应简明写出论文的工作计划,包括论文的研究方向(或题目)和研究工作的主要内容。各个阶段的计划要满足培养方案的要求。

研究生入学在填写和制定培养计划时,需要认真思考和严肃对待。因为一旦确定,通常就不允许修改。

培养计划中的课程分为3类:学位课、公共课和选修课。

学位课与公共课在制定研究生个人培养计划时必须选,任选课和选修课可以任意选。总学分要求:工学、理学、管理学类各学科至少32学分,不超过36学分;文学(艺术)类至少34学分,不超过38学分;研究生教学实践是必需的环节,缺少此项将不允许毕业。

此外,研究生应该在和导师共同商量的基础上,进行课程学习计划、阶段计划的制定以及导师对主要课程、论文选题以及科研工作要求的填写工作,这样在填写研究生信息管理系统培养计划时才能做到心中有数。

1.3.3 学习管理规划

首先,要考虑自己的长远发展计划,要考虑好毕业后想做什么,是想在本专业领域继续读博士深造,还是去公司搞技术开发或管理,是想去国企还是外企,或者出国,等等……。这些是需要考虑的,因为“机会总是给有准备的人的”。

其次,慎重选择研究方向。因为这与你未来的职业规划有直接的关系。如果你想读博士深造,那么最好是偏重理论研究的;如果你想去公司从事研发工作,最好偏向工程性或应用性的领域,这样你可以在学习期间积累项目工程经验。

第三,要注重实践和实习。充分利用资源,比如说,你想去大公司或国企、事业单位从事管理类的工作,那么你需要综合素质,最好在学期间多参加学生活动组织,积累相关经验,同时还要提高英语技能等。如果你想去公司搞研发,最好学好专业,多做工程项目积累经验。比如学计算机的最好熟练掌握一两门开发语言与工具,现在的公司非常欢迎有项目研发经验的毕业生,而偏重理论方面的学生往往会受到冷落。

1.时间管理

时间管理是个人在学习期间首要和必要的前提,只有做到对自己时间的有效管理,合理安排学习和活动时间,有张有弛,劳逸结合,才有可能达成大学教育的目标和对自己的期望。(1)设立目标:事先规划好是行动成功的关键。因此有必要将自己的学习目标一一分析,根据自己的能力和现有条件与可获得的资源,确定要实现的分目标,列成清单。没有清单,所有遇到的事情都可能会改变你自己的运行方向。(2)确定时间进度:根据目标的难易、轻重、缓急,设定完成任务和目标的优先次序,并设定期限。重要的事情和紧急的事情优先去做。(3)学习记录:一定要将时间分配和学习的情形记录下来。这是培养专注力的有效方法,也是发现问题、帮助思考、避免拖延的好方法。(4)阶段成绩和关键成果:在学习过程中,要注意检查学习的收获,既要有平时的点滴积累,也要有可见的成果。(5)发挥团队合作的力量。在和学友的交流和讨论中,分享学习经验和知识。(6)注意学习和生活的平衡。身体健康、年轻的心灵、良好的人际关系也是学习过程中不可或缺的组成部分。

2.学习规划制定(1)选课

踏入大学之后,面临的最重要的一个问题就是接受大学选修教育。选课中存在着许多技巧和学问。读书过程中的选课技巧,有以下2点建议:

首先不要贪多,以免给自己带来沉重的功课负担。而要做到这一点,需要结合自身知识贮备和知识结构,注意所修课程的难易度,也就是说,要了解相关课程的资料内容,有些课程相对容易,而有些课程相对较难,结合课程内容合理调配难易课程进行选择,这样才不至于因半途而废而怀疑自己的实际能力。

研究生阶段在选课时比较重要的一点,就是一定要了解课程的主讲教授。最好做到在选课时事先了解一下自己选课后教授的教研水平如何、为人如何、教学方式如何等等。教授的名声、学生对教授的评论也是选课时另一重要因素。第一学期选课不要贪多、贪深。在选课前,一要细读课程描述,弄清所选课程的选课要求、具体内容;二要“翻阅”选修课的课本和参考书目,从中了解自己是否能承受这门课程的压力。在美国大学,每个学生都有指定的学业顾问DEAN,主要负责学生的选课、调课、转学、转专业、毕业评估等事务。

以研究生学习为例,第一学期的公共课较多,因此主要任务可以概括为:一是完成公共课;二是考虑自己对所学专业的哪些方面比较感兴趣,这个问题可以多与导师交流,进而为自己确定一个研究方向。到第二、三学期,就要开始筹划毕业论文了,这个阶段主要是收集资料,明确毕业论文的选题等。第四、五学期要抓紧时间做毕业论文。

找工作在毕业前一年的10月底就要开始考虑。如果这个时候毕业论文还没有眉目,那么肯定影响找工作。因此研究生两年半到三年的学习时间必须要认真规划,否则不仅影响学业和知识的增长,甚至可能影响到未来的职业规划和人生规划。(2)制定学习计划

以硕士研究生为例,硕士研究生一般要经历上课、论文材料的收集、论文的开题、发表小论文、毕业论文的答辩、找工作或考博士等几个关键环节。

就时间的科学安排,有以下经验可供参考。按学期可分为5个阶段:

①第一学期——学习学期

主要目标是学好各门基础课程。因为不管以后是择业或者考博,都需要学习成绩和理论知识的支持。这一学期是研究生学习期间课程学习最为集中的阶段。

②第二学期——知识补充学期

经过第一学期基础课的学习和对周边环境的了解,同学们应该知道自己所缺乏的知识,在这个学期就应该好好补充。比如外语,这是很令工科同学头痛的科目。在这个时期学校也会组织一些活动,如机器人设计大赛、商业计划大赛等,多参加这些活动不但可以充分了解自己,获取知识,也可以学习团队精神和团队合作。

③第三学期——论文材料收集与开题写作学期

在这个时期,同学们开始进入论文的写作阶段。这就需要收集资料和进行一定的试验。在这期间一定要抓紧时间多阅读和收集资料,了解自己感兴趣或拟定选题领域的知识,定出好的论文框架。根据以往经验,这个阶段就应该开始发表小论文并投稿,这样才能保证你在毕业时能看到正式发表的论文。

④第四学期——论文完稿和择业思考学期

这一学期,同学们的精力主要放在论文写作上,写好论文可以锻炼自己的组织和时间安排能力。此外要开始进行择业思考。在以上几个阶段中,其实一直在为择业做准备,这时应该对自己的性格和拥有知识的贮备和知识能力有了充分的了解。并且通过对各种工作录用标准的了解,可以为自己以后想进入什么城市和行业进行初步的估计。如果想要考博,这时候也需要开始了解各种信息,为下个学期的考试做好准备。

⑤第五学期——论文答辩和择业冲刺学期

这一学期是忙碌的学期。首要关键的问题是要对论文进行扫尾工作,顺利答辩是非常必要的。其次重要的问题是择业或考博士,相信经过对以上几个阶段目标的逐个实现,这时的你一定可以做到胸有成竹。

以上的时间规划和目标不过是经验的总结,各位同学可以根据个人情况进行合理的调节。研究生期间学习流程图见图1.4。图1.4 研究生期间学习流程图

1.4 研究工作及其流程

大学阶段的学习与中学最主要的区别是自主性和一定的研究性。大学强调自主性学习和探究式学习,与中学时以教师和课堂授课为主的灌输式教育不同,大学教育在很多时候是以学生为主体的教育。教师是学生学习的引领者和启发者,而不是包办者,因此在大学期间的学习需要调整观念,学会学习。研究生阶段的学习更是以研究为核心的。概括起来,大学期间的学习和研究的主要方面有:

①专业学习和科研:系统学习某一领域的专业知识,以及一些实际的技术和方法,找到自己感兴趣的课题进行研究。包括研究方向的确定,数据的处理方法,以及编程和试验问题。

对于研究生来说,专业学习是研究生掌握专业基础知识,并进行科研创新的基础。随着时代的发展,研究生的专业课程设置也有了很大的改变。原来注重研究生的基础教育,现在已经形成了由公共课程、专业课程、选修课程组成的课程体系。但由于我国研究生培养制度的不完善,目前还存在着一些问题,如公共课程比例过大,但是实际作用并不理想;专业课程划分较细,造成学生的知识面狭窄;交叉学科课程选择余地较少。

②论文写作一直是本科生、研究生比较头疼的问题。我国绝大多数高校规定,研究生在开题之前必须有一篇以上的论文发表,有的学校还进一步规定要在本专业的核心期刊上发表。对于发表论文一说一直有不同的意见,但论文写作从根本上说,还是锻炼学生进行学术训练的一种手段,通过撰写论文,可以对最近研究的课题进行梳理和总结,同时也能了解论文写作的方式方法,为毕业论文做准备。

③信息素养方面:学科资源有哪些、如何查找专业文献以及外文文献、文献的利用、评价等有关信息素养方面的问题。现在的大学生普遍缺乏信息道德意识和信息伦理知识,计算机互联网在为学生的学习和科研提供便利的同时也产生了很多问题。

④实践能力和实践:如何将所学知识和未来的就业相联系,做到专业知识和实践是十分重要的环节。

1.4.1 研究方向的确定

进入一个领域最简单也是最有效的办法,是找一本这个领域最早的论述专著或教材仔细研读,当你把这个领域基本概念的内涵以及相互之间的关系搞清楚了之后,再去读这个领域的论文,你就会因为心中有数而能够很好地把握了。

这种工作必须先做,不可以在网上乱搜论文,否则,你会感到看了20篇文章,对这个领域的认识还没有形成,相关的理论和概念在头脑中混淆不清,反而备感迷惑。如果被偏见所误导而不自知,那就是最可怕的了。为了能够找准研究方向,在学习基础课程的同时不妨多做一些泛读:(1)浏览各有关协会的网站,看看最近召开的学术会议的议题;阅读本学科核心网站、核心期刊,寻找近期研究热点和亟待解决的问题。(2)翻阅国内有关的期刊,特别是要读中国学术期刊网CNKI中优秀博硕士论文的题目和文摘,考虑别人选题的思路,结合自己的知识结构,你会很自然地有所倾向,再多看看你感兴趣的话题,比较之后,也许就形成了你的论文选题了;(3)兼顾研究方向的系统性和全面性。选择阅读和浏览的文献类型以学位论文和期刊论文为主,而且在国内文献检索的基础上,还要向国外文献检索拓展。“研究方向”选择和“研究课题”选题的基本原则:(1)注意从“问题”着手,以求解决实践中具体问题。(2)注意学科的交叉点,多利用相关学科的知识来解决问题。(3)注意新生事物,但要注意研究角度。(4)切入问题的角度有时比问题本身更重要。(5)选择自己擅长的内容。(6)多利用好的方法,方法的创新在某种程度上就是理论的创新。(7)避免选题大而泛,这样写作的结果只能是建立虚的框架。

需要说明的研究方向是一个研究领域范畴的概念,可以集中在一个学科,也可以跨学科,而研究课题只是某个研究方向就某个研究问题而设计的一个专门研究,两者之间存在一个“点”与“面”的关系。

1.4.2 研究工作的基本流程

任何一项科学研究工作,都有其内在的研究路径,遵循一定的规律。从事学术研究的人经过长期探索,摸索出的研究规律,经过了人们长期的验证,从表现形式上说,就形成了我们今天所说的研究工作的基本流程,或者说学术研究的规范。见图1.5。图1.5 科研工作的基本流程图

1.大学科研工作的基本环节(1)确定研究课题并将其系统化。(2)设计研究方案和准备研究工具。(3)资料的收集。(4)实证研究。(5)资料的处理与分析。(6)结果的解释与报告。

2.影响研究课题确定的相关因素

主观因素:研究者理论素养、生活阅历、观察角度、研究兴趣。

客观因素:社会环境、科研条件、实验条件、经费等。

研究问题选择的好坏在一定程度上决定了这个研究工作的成败。选题阶段主要有两个任务:一是选取主题,即寻找研究领域;二是发现问题,形成研究问题。

3.研究设计阶段

研究设计阶段由研究路径的选择及研究方法与工具的准备两部分组成。

研究路径选择:为了达到研究的目标而进行的研究设计工作,包括设计研究的思路、策略、方式、方法以及具体技术工具等各个方面。

研究方法与工具准备:对研究所依赖的测量工具或信息收集工具如问卷、量表、实验手段等的准备。

4.研究的实施阶段

首先是文献调研和资料收集。任何一种学术研究活动,如果缺乏对其以前的研究史的必要的回应,本质上都是不合法的。换言之,任何一种学术研究成果,如果不包含着对前人和同时代人的代表性研究成果的必要的回应,那么,它基本上是不符合学术规范的。

其次是资料的分析处理。即对收集的原始资料进行系统的审核、整理、归类、统计和分析。

5.实证研究

通过实验、调查等方法获得研究的事实结果,包括数据等等。

6.得出结果阶段

撰写研究报告,评价研究质量,交流研究成果。

1.4.3 科研管理流程

科研管理流程包括项目申报、批准立项、开展研究、提交鉴定、成果登记、建立科技档案。即从申请项目到完成项目后归档的完整流程,这一过程是每个研究生都需要了解的,不仅是求学期间需要了解,进入工作岗位后也可能常常与此打交道,故而不可不知。

1.项目申报(1)申报内容:积累工作数据,挖掘科研主题;然后结合工作实际,解决工作难点,着手开展前期研究,为申报大项目作准备。(2)申报注意事项:首先要认真填写《项目建议书》,要做到内容丰富,思路前后一致,页面整洁。然后提交项目的科技查新报告。

2.批准立项

相关主管部门组织专家审查《项目建议书》,审查内容包括:

①项目负责人:能力、资格。比如承担两个项目以上未完成的,或有一个项目超出规定完成期限的,不能再作为新项目的负责人。

承担单位:是否具备相应的科研条件。

②项目负责人提交《项目计划任务书》和《经费预算表》,对申报立项的项目,经审批后,批准下达。在任务下达后,项目负责人须提交《项目计划任务书》,同时根据批准的经费,提交《经费预算表》。科技处或相关科研管理部门会根据《经费预算表》发放《经费使用表》。

③项目负责人领取《经费使用表》。财务处将科技经费拨付给项目承担单位后,项目负责人必须根据相应项目的“经费管理规定”使用科技经费。

3.开展研究

项目负责人要合理安排进度,若有调整,及时提交《变更申请表》。若未能按时完成,将影响申报新项目。

4.提交鉴定

系统内的项目只需进行鉴定,系统外的项目一般需要先鉴定后验收。①根据研究成果,组织和准备好鉴定材料。②鉴定材料准备完毕,及时提交鉴定申请。③由科技处组织专家进行鉴定。专家委员会一般为7人,其中2名必须为系统外专家。④验收一般由下达项目的单位组织专家进行。

5.成果登记

科技成果鉴定后,须在一个月内完成科技成果登记,成果登记是参加评奖的前提。成果登记所需材料清单:通过“国家科技成果登记系统”导出的纸质“成果登记表”一式3份,填写“科学技术成果鉴定证书”一式3份,技术资料册2份,质检系统自行立项科技成果验收(鉴定)备案表2份。

6.建立科技档案

每个科技项目必须建立一份相应的科技档案作为历史资料保存在档案室。档案建立工作贯穿于整个科研过程中,主要包括以下4个阶段的资料:(1)准备阶段的资料:计划任务书,项目委托书或协议书、合同等。(2)研发阶段:研究过程中重要的技术资料,往来技术文件,年度进展报告,计划项目变更申请书。(3)总结阶段:提交鉴定时用的技术手册。图1.6 科研管理工作流程图(4)成果鉴定、推广及应用阶段:科技成果鉴定证书,科技成果鉴定登记证书,获奖证书、公文,专利申请、受理等材料。成果登记之后,由项目负责人将前期的档案材料移交科技处归档管理。

思考题1.举例说明你怎样学习陈述性知识。2.举例说明你怎样学习过程性知识。3.学科是如何划分的?人文、社会科学、自然科学各包含哪些主要学科领域?4.人文、社会科学、自然科学最主要的核心研究方法是什么?5.什么是定性、定量研究方法?两者有何不同?6.什么是跨学科研究?7.请说明大学学习过程中主要有哪些学习资源。8.请思考在利用网络信息资源的过程中要注意哪些问题。9.请分析期刊论文与专著的差别,及其对学术成长和学习的影响。10.请说明特种文献中的哪些文献类型对你的个人学习有帮助。11.现代高等教育的主要目的。12.研究生培养计划的主要内容。13.科研工作的基本流程。14.请制订你自己的学习计划书。

参考文献1.国家技术监督局.中华人民共和国国家标准学科分类与代码(GB/T 13745—92).1993年7年1日实施.2.国务院学位委员会,国家教育委员会.授予博士、硕士学位和培养研究生的学科专业目录.1997.3.教育部.普通高等学校本科专业目录.1998.4.谭荣波.“源”与“流”:学科、专业及其关系的辨析.教育发展研究,2002(11).5.顾明远.教育大辞典.上海:上海教育出版社,1998.6.谢桂华.学位与研究生教育工作实践及思考.北京:高等教育出版社,2002.7.王正毅.世界知识权力结构与中国社会科学知识谱系的建构.国际观察,2005(1):31-33.8.华勒斯坦等.开放社会科学.北京:三联书店,1997.9.肖峰.论科学与人文的当代融通.南京:江苏人民出版社,2001.10.刘仲林.现代交叉科学.杭州:浙江教育出版社,1998.11.克莱恩J T著;姜智芹译.跨越边界.南京:南京大学出版社,2005.

2 选择研究课题

2.1 选题前的准备

2.1.1 选题的重要意义

科研是科学和技术研究的简称。所谓科研选题,就是形成、选择和确定所要研究和解决的课题。而课题是为了实现某个特定目标所需要研究的一个或一组科学技术问题。进行科学技术研究,最重要的工作便是科研选题。这不仅因为它是科学技术研究的起点,而且还因为它对科研全局具有决定性的意义,是决定整个科研工作成败的关键。

首先,科研选题关系到科学研究的方向、目标和计划,具有战略意义。能否摸准科学技术发展的脉络,确定主攻方向,无论对一个国家的科学技术发展,还是对个人的科学研究成就,都是关键性的因素。

其次,科研选题还直接影响到科研的途径和方法,决定着科研成果的水平、价值和前途。科学史表明,具有开拓性和创造性的科研选题,能保证科研水平的提高,取得有价值的成果;而错误的选题则往往造成不必要的浪费,甚至断送科研工作者的前途。

最后,科研选题还起着聚焦、激励、导向3个方面的作用:(1)聚焦作用。确定了选题,就是确定了科研活动的计划,这个计划把科研工作者有限的精力集中在科研活动的某一领域或某一方面。这就是选题的聚焦作用。科研活动最忌讳漫无目标,因为一个人的精力是有限的,只有把有限的精力集中起来,才能取得突出的成就。科研需要聚焦,科研聚焦的途径就是选题。(2)激励作用。确定了选题就是确定了目标,目标会激励科研工作者随时朝着目标努力。选题是科研工作的强大动力。特别是有价值、有吸引力的课题会激发研究人员去思考、去学习、去研究。一个有选题的人,他会常常想着选题,读书、看报、逛书店,甚至与人交谈,他都会留心收集资料,有了一点心得他会马上记下来,看到一本有用的书他会不惜代价买下来,发现一段资料他会用心地抄下来。这就是一种目标激励作用。相反,没有选题的人,他不知道要研究什么问题,也不知道什么资料对他有用,即使是很有价值的资料他也会视而不见。(3)导向作用。只有具备正确的选题才能使科研工作者出成果。选题是一种方向。确定了选题就确定了研究方向,方向是否正确在一定程度上决定着研究的成败。选题选错了肯定出不了成果,而且为此而写的文章也很难发表。所以,选题正确与否至关重要。

2.1.2 科研课题类型

科研选题可以从不同角度划分为若干类:(1)按照科研选题的目的,科研选题的类型可以划分为基础研究选题、应用研究和技术开发选题、基础性应用研究选题3种类型。①基础研究(Basic Research):是没有特定的商业目的而进行的、为了使科学知识进展的原始性研究。它可以是研究者提出的现在或将来感兴趣的领域。②应用研究(Applied Research):是为了特定产品或工艺而进行的、发现新科学知识的研究。③开发(Development)研究:是将研究结果或其他的一般科学知识转移到产品或工艺所遇到的非常规问题所涉及的一系列技术活动。这3类科研的主要区别在于“应用”:基础研究没有特定的商业目的,或只是现在或将来感兴趣的领域;应用研究却是针对特定产品或工艺;而开发则进一步将成果转移而物化,并创造经济或社会效益。(2)按照题目来源可以划分为自定选题、委托或协作选题和指定选题3种类型,要尽可能地提倡自定选题,自定选题有利于提高自己独立研究的水平。此外,选题还有大小之分,但这种区分不是绝对矛盾的,而是统一的,要做到以小见大和以大证小。(3)按活动规模划分。这可分为大中小几级项目,分别称为一、二、三……级课题。低级课题也叫子课题。一般说来,大项目所牵涉的面较广,需要较多的协作单位,并要动员较多的科研人员参加科研工作。一级课题通常可分解为若干个二级、三级或更低级的子课题,由各有关单位分头开展研究,在统一组织领导下,通力合作来完成总任务。

2.1.3 选题的原则

研究者在纷繁复杂的科学和技术问题面前,如何正确地选择适合自己能力和条件的研究课题显得尤为重要,而且在这方面没有固定的模式和套路。但一般来说,必须遵循以下几条基本原则。(1)需要性原则。需要性原则是指科学与技术研究应选择能满足科学理论发展或技术创新发展或社会经济发展的需要,要注重科学与技术发展中的“热点”、“难点”、“前沿”、“超前”等问题。这是科研选题的首要原则,它体现出科研工作最终的目的性。需要性原则对于基础研究和应用研究具有不同的要求。基础研究要从学科理论发展的需要出发,包括开拓科学领域的需要、更新科学理论的需要、改进科学方法的需要等;应用研究要致力于解决国民经济发展和社会生活中所面临的实际科学技术问题,其任务在于把理论推进到应用的形式,要充分注意科研成果的经济价值、经济效益、社会效果、对环境的影响等现实性问题。需要性原则也可理解为目的性原则,具有针对性、必要性、价值性等属性。(2)创造性原则。创造性原则就是要求课题具有先进性、新颖性和突破性,科学和技术研究就是要解决前人没有解决或没有完全解决的问题,并预期能够产生创造性成果。创造必然要求创新,要有自己的独创之处。创造性是科研的最根本特点,是科研工作的灵魂。因此,从选题开始就要十分注重创新。主要表现在3个方面:一是概念和理论上的创新;二是方法上的创新;三是应用上的创新(包括解决新的实际问题和开拓新的应用领域)。总之,科研工作中的创新不是仅指纯理论创新的狭义概念,而是广义概念,涵盖了许多方面,如新理论、新技术、新工艺、新方案、新应用、新的管理模式、新服务、新市场等等。(3)科学性原则。科学性原则是指科研选题必须以科学事实、科学理论、技术原理等为依据,按客观规律办事,将选题置于当时的科技背景和社会发展时代之下,使之成为在科技上和实践上可以成立和可以探讨的问题,要持之有故、选之有理;同时,还要随着基础事实和背景理论的进步、变化而对选择的课题及其内容进行必要的调整,至少是局部调整和方案调整,否则就会失去科学性而陷入没有应答域的假问题。科学性原则也称为限制性原则。(4)可行性原则。可行性原则指选题应与自身的主、客观条件相适应。一是根据已经具备的条件;二是根据经过努力可以创造具备的条件。不过,符合需要的、有创新性和科学性的好的选题并非都是自己可以力所能及的,这一原则要求选题时要慎重,要有理论和可行性依据,不可好高骛远。在主观方面,要分析科研力量的结构,各种人才的配置和研究人员的素质、能力,对科研课题的认识程度、研究兴趣等因素,要求科研人员务必具备科学判断科研形势和科学精神的能力和素质;在客观上,要充分考虑科研经费、实验设备、试验材料、情报资料、时间期限和外部环境、国家政策、学术交流等因素。因此要解决好一个具体的课题,我们必须考虑3个条件:理论条件、物质条件和能力条件。其中,能力条件是指必须具有综合运用理论知识和应用相应的物质手段以解决科学问题的能力。在此基础上,从实际出发,扬长避短,量力而行,做到战略上知难而进,存其价值大者,战术上仔细准备,不放过每一个细节,并且知己知彼,充分发挥自己的优势,取得最佳效果。(5)效益原则。效益包括经济效益、社会效益和生态效益3个方面。经济效益原则包括两个方面的含义:其一,在选择课题时要考虑到本课题必须按经济规律办事;其二,在选题时要预测此课题完成后带来的经济效益。社会效益原则就是要考虑本课题完成后可能带来的社会影响。如与现行的文化传统、思想观念、伦理价值是否冲突等等;其三,生态效益就是要考虑本课题完成后可能带来的对自然环境的影响。

选题的各个原则不是彼此孤立而是有机联系的。需要性原则体现科研的目的,科学性原则体现了科研的依据,创造性原则体现了科研的价值,可行性原则体现了科研的条件。它们之间相辅相成、互相制约,选题时必须综合运用。

2.1.4 选题的一般程序

科研选题的一般程序包括下述4个步骤:(1)调研、分析、发现问题。首先,必须进行文献调研和实际考察,全面掌握科学问题各个方面的情况。如科研选题的社会价值如何,在当前科技发展中有何重要意义,国内外同仁的研究状况如何,已取得哪些成果,问题在哪里等等。然后,必须对所收集的资料进行深入分析,以便从中发现问题,并在新起点上选择研究课题。(2)初步论证和筛选课题。对经过调查研究提出的科学问题,必须进行初步论证,即对课题进行可行性研究,分析完成课题的主客观条件是否具备。有时还必须围绕课题设计一系列实验。如有几个备选课题时,必须用选题原则进行筛选,以确定一个更有价值、更有把握的课题。(3)评议和确定课题。课题初步选定后,还要举行开题报告会,由专家进行评议和论证,以确定课题是否完善。(4)制定规划,确保实施。科研课题经过确定和验证之后,就要拟定实施规则和研究工作方案。科研规划是对科研事宜的安排。例如,科研工作者应根据自己获得的直接和间接资料,接受别人的建议和教训,找出课题的突破口,进行科研设计,作出初步的全面安排,做到胸有全局。根据科研的特点,研究方案不宜过细,要有灵活性,应随工作的进展而变化,根据研究中出现的新问题和意外情况,修改计划方案,将计划性和灵活性结合起来,以保证研究课题获得满意的效果。

2.2 专业文献调研

2.2.1 文献调研的含义

文献调研指的是为了进行某项科学研究而进行的信息检索和信息利用活动。在科研课题开题之前,为了确定课题研究方向、研究重点和研究的技术路线,首先要熟悉所选课题领域的研究现状,掌握研究动向,因此,必须要进行文献调研,收集整理大量的文献信息。在研究过程中为了减少重复性劳动,了解其他学者的研究进展,也需要进行文献调研。

2.2.2 文献调研遵循的原则

(1)新颖性原则。文献调研的对象是学术信息,主要目的是了解学科进展、掌握研究动态,为进行特定课题研究做好理论、方法等准备。调研文献信息的内容必须要具备新颖性和先进性。做到调研工作的先进性,需要从两点做起:选择更新速度快、内容新颖的文献信息源;利用先进的信息检索系统获取文献资料。(2)完整性原则。完整性原则是指文献调研的信息源覆盖面要全,争取不漏掉任何有用的文献信息。在具体调研过程中,保证文献调研工作的全面性需要注意两个方面:在信息源选择方面要尽量选择文献来源广、文献来源级别高的数据库和检索工具;在检索过程中要制定科学合理的检索策略,提高查全率。(3)经济性原则。经济性原则是指文献调研要尽量节约成本。首先,本着就近原则。先考虑本地资源,后考虑外地资源,如首先调研的信息源应该是本校图书馆和系资料室资源,然后是本市其他信息资源,最后是外地资源。其次,要优先使用数字资源和网络信息资源。数字资源和网络信息资源可以大大节约检索时间,降低调研成本。再次,优先使用免费资源。本着先免费、后收费的顺序,分别利用各个信息源。(4)连续性原则。当今世界,科研进展速度和信息更新速度相当快。因此,文献调研不应是一次性消费,而应该是一种连续性的活动。作为科研工作者,应该时常关注世界科技的发展变化,关注周围信息源的变化,做到经常进行调研,不断更新个人的信息储备,才能把握学科发展趋势。(5)多样性原则。文献调研的途径很多,除了通过检索工具或检索系统进行文献检索外,参加学术会议、听取科技报告、进行个人交流、参加网上讨论等均是有效的调研途径。文献调研不应该拘泥于单一的途径,充分利用各种交流方式获取信息,才能获得最丰富的信息,取得最佳成果。

2.2.3 文献调研的检索步骤和方法

(1)数据库的选择

专业数据库是科技文献调研的首选。具体步骤为:

①了解图书馆资源中与本学科相关的数据库。通过电子资源/数据库导航系统或学术信息资源门户浏览,也可向图书馆馆员咨询。

②检索数据库的顺序:先国内再国外,即先中文后外文。

③充分利用文摘数据库进行文献检索。文摘数据库检索出来的相关文献全文可通过SFX链接、全文数据库及印刷版期刊、书籍获取。

中文常用数据库:万方数据资源系统、维普资讯和CNKI中国知网等;外文数据库有ProQuest学位论文全文数据库、IEL数据库、ACM数据库、Web of Science(SCI、SSCI、AHCI)、EI、EBSCO等。(2)检索词和检索式的确定

①选取最有代表性、最能说明问题、通用的、规范的、具体的检索词。

②根据检索系统的要求构造检索表达式,试查相关的数据库,进行初步检索;根据检索结果满意度,调整检索式。也可按照主题目录,进行浏览式检索。(3)文献的阅读分析技巧

①先看综述性论文,再看研究论文。

②先看文摘,再看全文。

③利用网络资源查找机构和相关产品信息。

④留意检索结果中相关文献的作者和机构,还可与研究方向相同的学者联系,展开讨论。

⑤留意检索结果的参考文献和被引文献。

⑥应用Web of Science、Ei Compendex的数据库分析功能。

⑦运用个人文献管理工具进行个人文献资料的管理与利用。

通过以上文献的检索,基本上可以了解国内外同行研究的基本概况,激发灵感,启迪智慧,为课题搜集了可靠而丰富的资料。在此基础上,就可以阐明课题的科学依据和理论基础,确定课题的研究内容、研究方法、技术路线,并最终突出课题的创新性。

2.3 文献综述

2.3.1 文献综述的含义及其目的

1.文献综述的含义

文献综述是指在全面收集、阅读大量研究文献的基础上,对某一时期内某一学科、某一专业或技术的研究成果、发展水平以及科技动态等信息资料进行搜集、整理、选择、提炼,并做出综合性介绍和阐述的实用文体,在论文写作中占据重要地位,同时也是论文中一个重要组成部分。

2.文献综述的目的

一般来说,文献综述的目的有以下几个:首先,文献综述总结了与自己的课题相关的研究成果,包括每个研究所涉及的具体问题、研究思路以及研究结果等;其次,在总结的基础上,作者会通过文献综述将所综述的每一个研究与整个文献相关联,并且对每一个研究在文献中的贡献加以评述,比如说填补了文献中的空白、对文献进行有意义的扩展等;最后,文献综述通过对相关文献的回顾建立了一个研究框架体系。通过这个框架体系,读者可以清楚地了解到作者所要进行的研究对于文献的重要性和贡献。同时,通过这个框架体系,也可以明确地界定文献中每一个研究的具体结果是什么、在这个框架中处于什么位置,并且能够和文献中其余研究结果相对比。

2.3.2 文献综述的写作

1.文献综述的写作原则

一篇好的文献综述需要周密构思、精心组织。文献综述要有综合性,研究者应具备敏锐的眼光,采用批判的态度,广泛阅读相关文献,对原始文献中大量数据、资料、不同观点加以梳理,有机地组织和整合前期的研究成果,而不是简单地罗列堆砌所有的研究结果。文献综述要有评价性,在综述中作者要指出他人研究中的优点,尤其是要指出研究中存在的问题和不足。以下是研究者在文献写作过程中应遵循的总的原则:(1)整理、组织相关文献的笔记。一篇好的文献综述要结构合理、层次分明,如引言、结论、段落之间要环环相扣,要衔接自如。(2)在文献综述写作过程中,要紧扣主题,清晰、有效、准确无误地表达观点。(3)采用批判的态度,广泛阅读相关文献。不能盲目接受他人的观点,对来自权威的观点要敢于质疑、敢于批判。(4)质疑、评价所阅读的内容,要始终记得:并非印成铅字发表出来的东西都是完美无缺的。(5)在阅读一篇论文时,要仔细阅读论文的引言和标题部分,看它们是否与论文其他部分的内容保持一致。(6)一篇好的论文应具有严密的逻辑性,在阅读时应找出每篇论文的逻辑关系,从而把握论文的论点、论据和结论。(7)一篇论文最容易出现错误和纰漏的地方是方法和结论部分。有些研究者通常不能有效地解释他们所使用的方法和得出的结论,因此,仔细阅读方法和结论部分,会找出该研究的瑕疵所在,以便完善后续研究。(8)阅读文献时,要注意看结论与前面的数据是否一致。

2.文献综述的写作步骤和方法(1)确定选题。选题往往是研究者根据自身的兴趣或研究的需要而定,也可根据所占有的文献资料的质和量,既不能太大,又不能太小。选题过大,可能会由于研究者自身知识结构、时间、精力等因素所限而难以驾驭;选题太小,难以发现各事物之间的有机联系。选题要反映学科的新成果、新动向。(2)收集文献。确定选题后,要着手收集与选题相关的文献。收集文献可以是手工检索,即将自己阅读专业期刊上的相关文献做成读书笔记卡片,也可以用计算机检索的方法,通过各种检索工具,如文献索引、论文期刊检索获得,也可以从综述性文章、著作等的参考文献中查到有关的文献目录。收集文献时,要采取由近及远的方法,找最前沿的研究成果,因为这些成果常常包括前期成果的概述和参考资料,可以使人很快了解到某一研究问题的现状。(3)拟定提纲。在收集了相关文献之后,大致浏览阅读一遍,确定是否将它们包括在文献综述中。然后,对所收集到的文献作进一步的筛选,仔细阅读,做好笔记,记下所要综述文献中研究的目的、方法、结果和结论等。在此基础上,拟定文献综述的提纲,准备撰写。提纲要缜密,条理要清楚,紧扣主题。(4)撰写文献综述。文献综述通常包括3个部分:前言、主体和总结。前言部分主要说明文献综述写作的目的,介绍主要概念、定义以及综述的范围(涉及问题的范围)、文献起止年月、问题的现状和争论焦点等。主体部分包括文献综述的主要内容,可根据时间的顺序对文献进行综述,也可对不同的问题、对不同的观点进行综述。在综述中,对文献进行综合、分析、比较、对照,阐明有关问题的研究历史、现状和发展方向,找出已解决的问题和尚存的问题,重点阐述对当前的影响及发展趋势,这样不但可以使研究者确定研究方向,而且便于读者了解该研究的切入点。总结部分是对文献中的主要观点进行总结,指出在研问题与前期相关研究的关联性,使读者既了解问题的过去和现在,又能展望未来,由此提出研究问题或研究假设。(5)文献综述编写流程如图2.1所示。图2.1 文献综述编写流程

2.4 提炼问题形成研究课题

2.4.1 选题的基本路径

选题的基本路径有:(1)自然科学和技术理论中的空白区和“处女地”。(2)两门或几门学科相接触的边缘区和结合部;现代科学注重学科相互渗透、交叉的研究,在学科渗透、交叉地带存在着大量的新课题供选择。(3)科学理论的实际应用,包括科学理论应用于新领域的探索性研究,扩大科学理论在新领域中应用范围的发展研究。(4)寻求古老经验事实的理论解释,揭示蕴藏在新的自然现象背后的机理和规律。(5)解决旧理论与新事实之间的矛盾的冲突;从中发现问题,拟定课题。(6)消除科学理论内在的逻辑不完备性,包括相对立的理论的辩证综合。(7)总结研究前人成果,学会站在“巨人肩上”拟定课题。(8)某一领域中的概念和理论向其他领域的移植,扩展或限定其适用范围,加以修改、完善。(9)某一领域中新的实验或测试技术在其他领域中的推广应用和改进、变革。(10)以取得研究成果为起点,跟踪追击;把握学科发展动态趋势,在各学科前沿选择课题。(11)抓住研究中意外出现的新问题和副产品,调整课题,转向进攻,甚至变副为主。(12)以失败的探索为借鉴,从反面提出问题。(13)接受正确的哲学预见和科学幻想的启迪。(14)从科研管理和规划中选题。国家、省、市及各种学术团体也经常提出许多科研课题,这些课题一般都是理论意义、现实意义比较重要的课题,是科研工作者选题的重要来源。

2.4.2 形成研究课题

如果说选题是科研的关键,那么课题题目新颖醒目、定位适宜、特点明确就是课题获准的关键。目前申请课题中一个较普遍的现象是大题目下做小课题,使人很难从课题题目判断申请者究竟要做什么,这样的命题就显得空洞,不会给评审专家留下好印象。如果让别人一看题目就能明白你在做哪方面的具体研究,对象是什么,解决什么具体问题,就会引起评审专家的注意和兴趣。科研课题名称是十分讲究的,因为课题题目集中体现了科学研究的方向、内容和目标。因此,拟出一个好的课题题目,可以说在同行专家的评审中就等于你下了一个“先手棋”,可见充分发挥课题题目的作用是十分有必要的。另外,任何一所高校都不可能在所有学科领域里具有很强的地位,说其科研力量强,除了整体科研水平和科研队伍相对较强外,关键是其在几个影响力较大的科研领域内取得了具有重大影响的研究成果,从而形成该校在这些学科领域内的科研优势和特色。因此,申请课题也应该注意结合本校科研优势和特色,这样可以在同类课题中充分体现出你的优势,同样也会得到评审专家的进一步认可。

2.4.3 选题的注意事项

(1)确定所涉猎的学科领域及其边界

学科领域必须明确。允许学科交叉或跨学科,但必须明确是哪个学科与哪个学科交叉?学科的边界在哪里?所选择的问题可能很有意义,但同时要清楚它与自己所学的学科知识体系的关系,这并不是说一定要从教科书的知识体系出发去选题,而是说无论通过何种途径与方式确定的选题,都有必要弄清该选题与自己所学专业知识体系的关系,以及其在本学科专业体系中的位置。否则跨学科的交叉研究,就有可能越界,从跨界变成过界。(2)确定准备使用的分析方法或手段

这一点与学科领域有密切的关系。从广义上理解,包括:是选择一个宏观问题还是微观问题?是运用抽象的数理分析还是具体的计量分析?是进行案例分析还是历史文献考察?等等。应当对自己在这些方面有一个预先的把握,或有所侧重。此外要注意根据自身特点,考虑个人的业务专长和兴趣爱好,扬长避短,要有所为也要有所不为,便于展开和深入。(3)题目要“小题大作”而不是“大题小作”

题目细而小,考验作者的功夫和底蕴。题目粗而大,结果往往无法深入,只能浮皮及微,泛泛而谈。一个题目的价值在于其研究内容和结论是否增加了人们对该选题的认识,即便这种新认识看上去是细小和微不足道的。

什么是题目细化和小化?就是要做到问题具体,概念清晰,边界分明,工作量要求适度。如何细化和小化?最简单的办法是从空间和时间两个角度去限定一个议题。例如,不要笼统地说“中国”,可以具体到中国的某一个地区或某一特定时段。再比如“行为金融”是一新兴分析方法,如何使之具体化呢?可以将一个理论方法运用于某一个特设环境。例如,已经有研究采用行为金融方法分析证券交易或股票投资者,那么,是不是可以用它来分析银行存款者或保险消费者的行为呢?就算是同样分析股票投资者行为,也可以将问题进一步细化为在何种信息条件下的决策行为。(4)选题最好从问题出发

论文主题如果不是一个带问号的问题(question),那么,论文作者很可能就相应缺少“争辩”(argument)。没有争辩,论文就很可能就变成一篇叙述文章,写成叙述性文章,或综述。(5)批判性阅读,审查性思考

在进行选题的过程中,必定会涉及文献调研,会选择性的阅读相关的专业文献和著作,在此过程中,一定要带有批判性的眼光,要看看作者的结论与论据是否吻合,所用方法是否得当,文中论述对自己有何启示,还存在什么缺陷或不足,等等。批判审查性的阅读不是消遣性阅读,而是有任务要求的。比如,类比他人的研究,是否可从一个什么新的角度提出同样的问题,或者使用别的方法对同样的问题进行探讨,或者发现甲乙两位作者的观点冲突,觉得有必要对对这个冲突进行新一轮探讨,等等。接着,是进行审查性思考审查,即就你发现的“问题”,思考能否将之升级为一个概念清晰的命题?为解决这个问题,还需要那些做哪些相关工作?在什么地方能找到相关学术文献作为支援?能在有限的时间资源范围内完成这个任务吗?遇到新困难该怎么办?等等。(6)做好读书笔记和案头记录

在阅读文献时,必须领会文献的主要论点和论据,做好“读书笔记”,并制作文献摘录卡片,用自己的语言写下阅读时所得到的启示、体会和想法,摘录文献的精髓,为撰写综述积累最佳的原始素材。阅读文献、制作卡片的过程,实际上是消化和吸收文献精髓的过程。制作卡片和笔记便于加工处理,可以按综述的主题要求进行整理、分类编排,使之系列化和条理化。最终对分类整理好的资料进行科学分析,写出体会,提出自己的观点。

2.4.4 开题报告的撰写

开题报告撰写涉及报告内容和形式两个主要方面。(1)开题报告的内容包括以下几个方面:

①开题报告名称

开题报告名称要求准确、规范、言简意赅。

首先,名称要准确、规范。准确就是开题报告的名称要把开题报告研究的问题是什么、研究的对象是什么交代清楚。开题报告的名称一定要和研究的内容相一致,不能太宽泛,也不能太狭窄,要准确的把研究的对象、问题概括出来。规范就是所用的词语、句型要规范、科学,似是而非的词不能用,口号式、结论式的句型不要用。因为我们是在进行科学研究,要用科学的、规范的语言去表述我们的思想和观点。

其次,名称要简洁,不能太长。开题报告名称不能太长,能不要的字就尽量不要,最长一般不要超过20个字。

②研究的目的、意义

研究的目的、意义也就是为什么要研究,研究它有什么价值,研究背景是什么。这一般可以先从现实需要方面去论述,指出现实中存在这个问题,需要去研究、去解决,本开题报告的研究有什么实际作用。然后,再写开题报告的理论和学术价值。这些都要写得具体一点、有针对性,不能漫无边际地空喊口号。

③国内外在该方向的研究现状及分析

④研究的目标和假设

开题报告研究的目标和假设也就是课题最后要达到的具体目的,要解决哪些具体问题。相对于目的和指导思想而言,研究目标和假设是比较具体的,必须清楚地写出来。只有目标明确、假设具体,才能明确工作的具体方向是什么,才能了解研究的重点是什么,思路就不会被各种因素所干扰。

⑤研究的基本内容

我们有了开题报告的研究目标和假设,就要根据目标和假设来确定我们这个开题报告具体要研究的内容。相对于研究目标和假设来说,研究内容要更具体、更明确,并且一个目标和假设可能要通过几方面的研究内容来实现。在确定研究内容的时候,往往考虑的不是很具体,写出来的研究内容特别笼统、模糊,把研究的目的、意义当作研究内容,这对我们整个课题研究十分不利。

⑥研究的步骤和进度

研究的步骤和进度是课题研究在时间和顺序上的安排。研究的步骤和进度要充分考虑研究内容的相互联系和难易程度。一般情况下,都是从基础问题开始,分阶段进行,每个阶段从什么时间开始,到什么时间结束都要有规定。

⑦研究方法和资料获取途径

课题研究的方法很多,包括历史研究法、调查研究法、实验研究法、比较研究法、理论研究法等。在研究性学习中的开题报告研究方法用得最多的是社会调查法和受控对比实验法。一个大的专题往往需要多种方法,小的专题可以主要采用一种方法,同时兼用其他方法。

开题报告研究资料的获取途径也很多,包括文献调查、考察调查、问卷调查、设计并进行实验、科学观测等。主要采用哪些资料获取途径,一定要经过充分的研究。

⑧研究的成果形式

开题报告研究的成果形式包括报告、论文、发明、软件、课件等多种形式。课题不同,研究成果的内容、形式也不一样。但不管是什么形式,课题研究必须有成果,否则,就是这个课题没有完成。(2)开题报告格式

由于开题报告是用文字体现的论文总构想,因而篇幅不必过大,但要把计划研究的课题、如何研究、理论适用等主要问题说清楚,应包含两个部分——总述、提纲。

①总述。开题报告的总述部分应首先提出选题,并简明扼要地说明该选题的目的、目前相关课题研究情况、理论适用、研究方法、必要的数据等等。

②提纲。开题报告包含的论文提纲可以是粗线条的,是一个研究构想的基本框架。可采用整句式或整段式提纲形式。在开题阶段,提纲的目的是让人清楚论文的基本框架,没有必要像论文目录那样详细。

③参考文献。开题报告中应包括相关参考文献的目录。

思考题1.科研选题的基本原则。2.文献综述的写作要领。3.开题报告的基本写作要求。

参考文献1.乔海霞.论科研选题的意义、基本原则与基本路径.沿海企业与科技,2009(2).2.肖纪美.创新论.材料科学与工程学报,2007(1).3.曹之然,曹娜娜.科研选题的流程设计.当代经济,2007(5).4.韦复生.论科研选题及基本原则.广西民族学院学报(哲学社会科学版),2002(5).5.姜清奎,王贯中.科研选题的原则与方法.云南科技管理,2007(3).6.李琴.科研工作者文献调研中的误区与科学原则.情报杂志,2003(4).7.张庆宗.文献综述撰写的原则和方法.中国外语,2008(4).8.段玉斌,毕辉,韩雪峰.文献综述的写作方法.西北医学教育,2008(1).9.张黎.怎样写好文献综述:案例及评述.北京:科学出版社,2008:6.10.金文正.写好文献综述性质文章的几个主要步骤.中国地质教育,2009(1).11.姜清奎,王贯中.科研选题的原则与方法.云南科技管理,2007(3).

3 查找资料

做课题、写论文绝大部分时间都将花在查找资料上,选题前的准备工作需要查找资料,做课题的过程中如果遇到困难得查找资料以寻找解决方案,最后课题完成整理研究报告,同样需要查找资料以补充相关背景知识,使报告更加充实。因此有人说科研人员大约有80%的时间都花在查找资料上了,实不为过。查找资料贯穿于整个科研活动过程中,尤其在当今信息过载的时代,学会快速准确地找到所需资料显得尤为重要。

本章主要介绍如何利用图书馆的专业数据库、网络搜索引擎、主题网关等查找资料,并且介绍在查找资料时使用的检索策略、检索途径和方法等相关知识。

3.1 检索原理与工具

3.1.1 信息检索的概念

信息检索(Information Retrieval)的全称是信息存储与检索(Information Storage and Retrieval),包括“存”和“取”两个基本环节。对于“存”来说,主要指将来自各种渠道的大量信息资源进行高度组织化的加工和存储的过程,即建立计算机检索系统或编制手工检索工具的过程,这可以看作是一种输入的过程;对于“取”来说,则指根据随机出现的各种用户的信息需求,按照一定方法从检索系统(检索工具)进行高度选择性查找的过程,这可以看作是一种输出的过程。存储是为了检索,而检索又必须进行存储,二者相辅相成。当然,对于用户而言,后者更为重要,因此,信息检索概念的定义有广义和狭义之分。从广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程和技术。狭义的信息检索是指从信息集合中找出所需要信息的过程。

3.1.2 信息检索的原理

信息检索基本原理的核心是用户需求与信息集合的比较与选择,即匹配(Match)的过程,如图3.1所示。一方面是用户的信息需求,另一方面是组织有序的信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术和手段,根据一定的线索与规则从中找出相关信息的过程。匹配有其匹配机制,其主要功能在于能快速地把需求集合与信息集合依据某种相似性标准进行比较和判断,进而筛选出符合用户需求的信息。匹配的相似性标准一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提供的。对于文本而言,最主要、最常用的匹配标准就是某个或若干个词汇表达的“主题”。通常将一篇文献用一个关键词条的集合来表示,用户的信息需求也表示成一个关键词条的集合,检索的过程就是采用一定的信息检索模型计算出两个关键词条之间的相似度,经典的信息检索模型包括布尔模型、向量空间模型和概率模型等。图3.1 信息检索原理示意图

3.1.3 信息检索的工具

如果按照检索时采用的技术手段划分,可以将信息检索分为手工检索和计算机检索两种方式。无论是何种检索方式都需要借助一定的信息检索工具或检索系统来完成。从基本功能上看,检索工具和检索系统都用于信息的存储和检索,两者之间没有严格的、绝对的界限,所以,可以把检索工具称为检索系统,或者把检索系统称为检索工具。一般来说,信息检索工具是指把信息按照便于检索与利用的方式存储在特定设备上,并在用户需要时检索出所需信息的集合体。

1.手工检索工具

手工检索(Manual Retrieval)使用的多为印刷型或书本型检索(Paper-Based Retrieval)工具,早些年有检索卡片,现在使用最多的是检索刊物,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。如果按照检索工具的揭示方式,可以将手工检索工具划分为目录型、题录型、文摘型和指南型4种。(1)目录型检索工具

所谓目录,是指按照某种常用顺序编排的文献清单,它是以一个完整出版单元或收藏单元作为著录的基本单位。目录也可以划分成多种类型,例如,按照功能可分为出版发行目录、馆藏目录、联合目录、来源出版物目录等;按照所收录的文献类型可以分为图书馆目录、期刊目录、标准目录等。常见的手工检索目录有《全国总书目》(国家图书馆编辑出版)、《全国新书目》(国家图书馆编辑出版)、《全国报刊索引》(上海图书馆编辑出版)等。(2)题录型检索工具

所谓题录,是由一组描述文献外部特征的著录项目构成的一条记录,通常以一个内容上相对独立的文献单元作为著录的基本单元。与目录型检索工具的主要区别在于,题录型检索工具以文献单元为著录单位,而目录是以出版单元为著录单位,在揭示文献的细致程度方面,题录做得比目录更为深入,在揭示文献的内容特征方面比文摘款目浅。事实上,题录是不含文摘的文摘款目。典型的代表检索工具有《最新目次》(Current Contents,简称CC,美国科学情报所编辑出版),《化学题录》(Chemical Title,美国化学文摘社编辑出版),《最新物理学论文》(Current Paper in Physics,英国电气工程师学会编辑出版)、《医学索引》(Index Medicus,美国国家医学图书馆编辑出版)等。(3)文摘型检索工具

论文摘要是文章的内容不加诠释和评论的简短陈述。摘要一般应说明研究工作的目的、实验方法、结果和最终结论等,具有短、精、完整三大特点。文摘型检索工具是一种既全面描述文献的外部特征,又简明扼要的介绍文献内容特征的检索工具,典型例子是《化学文摘》(Chemical Abstracts,美国化学文摘社编辑出版)。(4)指南型检索工具

指南型检索工具包括文献指南和书目指南。文献指南的主要内容包括介绍检索工具和参考工具的使用方法,介绍利用图书馆及其他文献机构的一般方法,介绍某一学科领域的主要期刊及其他类型的一次文献等。美国历史悠久、不断更新的《参考书指南》(Guide to the Reference Books)就是著名的文献指南。书目指南也叫书目之书目,它是检索工具的检索工具,如《世界书目之书目》(World Bibliography of Bibliography)。

手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,因此检索结果往往不尽如人意。

2.计算机检索工具

计算机检索(Computer-Based Retrieval),主要是通过数据库系统来实现的。计算机检索系统包括:计算机主机设备、外部存储器、输入输出设备、终端设备、通信设备等硬件设施;需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的、交互的方式从计算机存储的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。

计算机检索明显优于手工检索,主要表现在:(1)检索的信息量大

计算机检索的对象是磁性介质,仅从其物理特性来看,储存信息的密度就远远高于普通介质。尽管磁性介质储存信息的方式完全不同于一般纸张,但它经过转换后“释放”出的信息量却比记录在相同面积、体积或重量上的纸质品记录量大得多。例如,一个汉字,即一个中文,存储在计算机外存储器中,所占的空间大小是2个字节,那么,1 GB大小的外存储器,可以存多少个汉字?答案是1 GB/2 Byte=536 870 912个汉字。换句话说,《汉语大字典》是收录汉字最多的字典,共收录汉字54 678个,那么1 GB的外存储器,大约能存储9 819本《汉语大字典》。如今计算机存储容量已经进入GB时代,一台普通电脑硬盘都在120 G以上,计算机检索工具存储的信息量是海量的。(2)检索速度快

在手工检索过程中,人们需要逐张翻看卡片,或逐条参看题录等,费工费时,极易产生错误。而对于计算机检索来说,最大特点在于进行逻辑运算,既比较又判断,它能够对所筛选的对象是否符合某一条件作出迅速反应。例如查找几千、甚至几万条记录,计算机可以在瞬间完成,对于存储了百万篇文献的专业数据库,计算机也可以在几秒钟内完成一次检索,因此计算机检索信息的速度极快。并且,计算机不存在疲劳问题,能够始终如一,只要给出的条件合乎实际,计算机检索系统就能及时响应,快捷准确地提供答案。手工检索需要数小时甚至数日的课题,计算机检索只需要数分钟。(3)数据更新快

手工检索工具由于受到传统出版印刷速度的制约,更新周期较长,通常为一年左右。然而专业数据库的更新速度很快,多为月更新、周更新,网络信息检索系统甚至为日更新。由于计算机检索系统数据更新快,因此我们可以及时获得最新信息。(4)检索功能强

除手工检索工具提供的“分类”、“作者”、“题名”等检索途径外,还能提供更多的检索途径,例如《中国期刊网》全文数据库还可以提供“全文”、“摘要”、“关键词”、“作者机构”、“基金”、“参考文献”等等检索入口。尤其是涉及复杂条件的组合检索时,计算机检索的功能就显得更加强大。(5)检索结果输出形式多样

计算机检索系统除了可以检索到题目、作者、摘要等信息外,还可以直接检索全文,并可以选择打印、存盘或E-mail发送检索结果,有的还可以在线直接订购原文。

由于计算机检索明显优于手工检索,因此经过短短数十年的发展,计算机检索已经逐渐取代了手工检索。当前许多经典的印刷型工具都有其对应的电子数据格式、数据库,印刷工具则成了电子数据加工输出的“副产品”,许多新生的数据库不再与印刷型工具有缘,仅有其电子版本,并且越来越往网络化的方向发展。以搜索引擎为代表的网络信息检索工具已经成为人们工作和学习不可或缺的重要工具。

3.2 检索策略和方法

3.2.1 信息检索的流程

信息检索可以分为4个步骤进行,即分析研究课题、选择检索工具、指定检索策略、查阅原始文献(如图3.2所示)。图3.2 信息检索步骤示意图

1.分析研究课题,明确查找要求

首先得明确研究课题所需的信息内容、性质、水平等情况。比如,是要取得具体的文献资料还是要掌握某一地区或国家对某一问题发表过的文献资料,是要查找某一年限内某一问题发表过的文献资料还是要获得有关某一问题的全部文献资料等等。

然后在分析的基础上形成主题观念,包括所需信息的主题概念有几个、概念的专指度是否合适、哪些是主要的、哪些是次要的等等,力求检索的主题概念能准确反映检索需要。

最后根据检索主题概念的学科性质,确定检索的学科范围。学科内容范围越具体越有利于检索。信息检索,实际上是一种检索逻辑的思考和推理,其目的是要掌握检索的必然性,排除检索的偶然性。

2.选择检索工具

选择检索工具的主要方法有4种:(1)浏览图书馆检索工具室陈列的全部检索书刊,从中挑选确定最为合适的检索工具。(2)通过查阅国内外出版的检索工具指南介绍,挑选、确定检索工具。(3)浏览和选择合适的中外文专业数据库,进行检索。(4)选择搜索引擎,进行补充检索。

前面两种主要针对手工检索工具,第一种方法的优点是直接具体,缺点是不够全面,因为一般图书馆收藏的文摘刊物毕竟有限。第二种方法的优点是系统全面,提供了查找方法的指导,缺点是缺藏部分无法明确判断其是否合用。后面两种主要针对计算机检索工具,也是目前普遍选择、使用率最多的检索工具。

检索效果常取决于人们对检索工具的熟悉和了解程度。因此在查找文献资料之前,必须了解哪些检索工具中收录了与所查专题有关的文献资料,在哪些检索工具中该专题文献资料比较丰富,哪些检索工具中选录的文献资料质量较高,以及它们的报道速度的快慢、分类编排的粗细等等。

3.指定检索策略、途径和方法

所谓指定检索策略,就是根据检索目的和分析的结果,制定出一个合理的检索方案,使实行的检索行动能有目的、有计划和有步骤的进行。(1)根据检索分析,明确检索课题的学科范围,弄清所需信息的语种、类型、责任者、年代、国家等范围,估计哪些图书馆拥有自己所需的信息检索系统。如果本单位、本地区图书馆的信息检索系统不能适应自己的检索需要,那么可以通过网络查找最为合适的外地图书馆、信息所,以及合理安排先去哪个图书馆的网站,后去哪个图书馆的网站,甚至通过网络搜索引擎进行广泛性的查找。(2)在利用检索工具查找所需原始文献前,如确有查找图书、专著和述评等一次与三次文献的必要时,就应进行合理的检索安排。包括利用何种手段进行检索,检索出结果以后是否需要进行阅读后再进行原始文献的检索,因为图书、专著和述评等文献后的参考文献通常提供了许多其他原始文献的线索。(3)是否需要通过核心刊物直接检索出几篇所需的原始文献。如果有必要,就要作出怎样进行检索的合理安排,包括了解课题所需的核心刊物有哪几种,确定检索的次序和大体查找的年代范围等。如果事先已知有关文献的作者,可利用有关检索工具的作者索引,查获该作者所著的文献,然后根据某文献在检索工具所标引的分类号和主题词继续查找,以获得与该文献主题相同的其他文献。能否在选好的检索工具中既快又准且全的查获研究课题所需的信息,关键还要熟悉该检索工具使用的检索标识,因为如检索的主题词确定不准,即使检索工具中存储了所需文献信息,也是难以查获的。

制定好检索策略后,便在估计最有可能查获的年代范围内先试查1~2年,可能会得到更多的线索,然后再考虑是否要扩检或缩检。

4.根据文献线索查阅原始文献

通过以上查阅,如果确认所得的线索有一定的参考价值时,需要进一步了解和详细查阅原始文献资料,可从本单位图书馆(信息单位)、本省市图书馆(信息单位)、全国大型图书馆(信息单位)、国外著名图书馆(信息单位)等等,由近而远地查获原始文献资料。

如果我们花了很多时间仍查不到所需文献时,可以求助于图书馆、信息所的参考咨询人员。在较大的图书馆、信息所,一般都有专职的参考咨询和检索的服务人员,他们的任务就是向读者介绍文献的查找方法,帮助读者解决信息检索中存在的困难和问题。

随着计算机技术、通信技术和高密度存储技术的迅猛发展,利用计算机进行信息检索已成为人们获取文献和信息的重要手段。计算机检索可以再细分为6个步骤,如图3.3所示。(1)明确需求,分析主题。这是信息检索最基本的要求,也是制定检索策略的依据。图3.3 计算机信息检索步骤流程图(2)选择数据库。数据库的类型和学科范围不同,决定了它适用于不同的检索对象和满足于不同的检索要求。例如,只检索文献信息的题名、作者、出处和文摘,可用书目文摘型数据库,如MEDLINE(医学文摘)、INSPEC(科学文摘)等。检索文字、图形、声像等信息,可以用事实型数据库,如《中国法律法规大典》、《中国雕塑史图录》、《中国古典音乐大全》等。因此,要选择合适的数据库,需要参照各数据库的内容、类型、收录资料的范围、数据库的实时性、价格和使用费用等方面。(3)确定检索词。检索词是表达信息需求和检索课题内容的基本单元,也是数据库检索进行匹配的基本单元。检索词选择得恰当与否,会直接影响检索效果。(4)编写构造检索式。编写检索表达式的核心是构造一个既能表达检索课题需求,又能被计算机识别的检索表达式。构造检索表达式主要使用布尔逻辑运算符、位置算符等,将检索词进行组配,确定检索词之间的概念关系或位置关系,准确表达课题需求,以保证和提高检索质量。具体的信息检索技术见3.2.4小节。(5)提交检索式并进行结果分析。手工检索主要依靠人的大脑将检索需求中所涉及的有关提问特征(如主题词、分类号、作者姓名等)与检索工具中提供的标识进行比较分析,筛选出与信息需求一致的检索结果。计算机检索主要是将构造好的检索表达式输入计算机检索系统,使用检索系统中已有的检索模型和指令进行匹配运算,并输出或显示检索结果。此后,由人对检索结果进行阅览和筛选,找出满足检索需求的线索或内容。在计算机检索系统中,机器可以对检索结果进行归类整理,并按照相关度进行排序,从而让用户快速获取相关度最高、最有价值的原始信息。(6)修改与完善检索策略。检索策略的好坏与检索词的选用、检索表达式的建立、检索途径的选择直接相关,还与用户对事物的认知能力、专业知识水平的高低等密切相关。此外,对检索系统的特性和功能的掌握以及外语水平都会影响课题的检索结果。由于检索课题千差万别,检索系统又各不相同,加上用户检索水平不一,所以,给出的检索词往往具有较大的局限性、随机性和盲目性,有可能导致检索的失误。因此,要求用户在检索时不断反馈信息,及时修改检索策略。

3.2.2 信息检索的方法

信息检索的方法很多,分别适用于不同的检索目的和检索要求,归纳起来经常使用的信息检索方法有常用检索法、追溯检索法和循环检索法3种。

1.常用检索法

常用检索法是指以主题、分类、篇名、著者等为检索点,利用各种检索工具查找文献资料的方法,又称为常规检索法、工具检索法。根据检索要求,常用检索法又分为顺查法、倒查法和抽查法。(1)顺查法

顺查法是一种根据检索课题的起始年代,利用选定的检索工具,按照从旧到新、由远到近、由过去到现在的顺序逐年查找,直到满足课题要求的检索方法。通过这种方法可以掌握某课题全面发展的情况。顺查法由于是逐年查找,漏检较少,检全率高,在检索过程中不断筛选,剔除参考价值较小的文献。因是逐种期刊、逐年、逐卷地检索,检索的工作量非常大,费时、费力,多在缺少评论文献时使用。由于此方法的检全率高,适用于围绕某一主题普查一定时期内的全部文献信息,或者适用于那些主题较复杂、研究范围较大、研究时间较久的科研课题。(2)倒查法

与顺查法相反,倒查法是指利用检索工具,按照由新到旧、由近到远、由现在到过去的逆时序查找,直到满足课题要求的检索方法。这种方法多用于新课题、新观点、新理论、新技术的检索,查找的重点在近期信息上,目的在于获得某学科或研究课题最新或近期一定时间内发表的文献或研究进展情况。此方法省时,查得的信息新颖性高,但查全率不高,只需要查到基本满足需要为止。(3)抽查法

抽查法是一种利用选定的检索工具,针对某学科的发展重点,抓住该学科发展较快、文献信息发表较多的年代,拟出一定时间范围,进行重点抽查的检索方法。任何学科的发展都要经历高峰期和低谷期,高峰期所发表的文献数量远高于其在低谷期的文献数量,抽查法就是重点检索学科高峰期的文献。这种方法的检索效果较好、检索效率较高,但漏检的可能性也比较大,因此使用此方法的时候必须熟悉某学科的发展特点。

2.追溯检索法

追溯检索法是一种利用文献末尾所附的参考文献进行追溯查找的方法,是扩大信息来源最简捷的方法,又称为回溯法、引文法、引证法。通过追溯法所获得的文献,有助于对课题的立题背景和立论依据等内容有更深的理解。由于是由近及远追溯,年代越远与原文关系越少,而且由于引证文献间关系的模糊性和非相关性引起“噪声”,查全率往往不高。但此方法获得的文献针对性强,而且可以突破选定的固有检索词的限制,因此往往可以获得一些意想不到的相关文献,拓展研究思路。美国情报所于1961年出版了《科学引文索引》(Science Citation Index, SCI)、《社会科学引文索引》(Social Science Citation Index, SSCI)和《艺术和人文科学索引》(Art and Humanity Citation Index, AHCI),中国科学院情报中心于1995年3月编辑出版的《中国科学引文索引》,南京大学于1999年编辑出版的《中文社会科学引文索引》(Chinese Social Science Citation Index, CSSCI)等都是追溯检索的有力工具。

3.循环检索法

循环法是一种交替使用追溯法和常用法来查找文献的检索方法,又称为交替法、综合法、分段法。检索时,先利用检索工具的常用检索法查找出一批文献信息,然后通过精选,选择出与检索课题针对性较强的文献,再利用这些文献所附的参考文献进行追溯查找。由于参考文献对5年内的重要文献一般都会引用,根据这个特点,可以跳过这5年,然后利用检索工具再找出一批文献进行追溯,循环交替直至满足检索需求为止。循环检索法兼有常用检索法和追溯检索法的优点,可得到较高的查全率和查准率,尤其适用于那些过去年代内文献较少的课题。

总之,在实际检索中,究竟采用哪种检索方法最合适,应根据检索要求和检索背景等因素确定。在数据库检索中,除了上述3种检索方法外,还可引用检索系统中自设的加权检索、布尔逻辑检索、模糊检索、全文检索等方法。

3.2.3 信息检索的途径

进行信息检索必须对检索工具(或检索系统)的编排和组织原理有基本的了解。检索工具是把大量的各类信息资源进行分析加工之后,按照一定的特征排列组织的文献集合体。信息检索就是根据一些既定的标志(或检索点)从文献集合体总选出有关信息。因此,检索工具就其服务的过程来看应包括两个基本环节:一是标引人员所进行的信息有序存储;二是用户根据一定的信息需求所进行的信息检索。检索的过程实际上是存储的逆过程。检索者只有了解存储是怎样把文献存入检索工具中去的,才能知道应该怎样从检索工具中把所需的文献取出来。存储者也只有充分了解信息用户有哪些方面的需求,才能进行有效的存储,使事先组织好的检索工具更好地为检索者服务。

检索者的检索需求不外乎两种:一是要查出具有已知文献外表特征的文献,例如由书名、作者名等查文献;二是要查出具有所需内容特征的文献,例如根据学科要求编写一本讲义或围绕某一课题收集有关资料。为了满足检索者这两种检索需求,大多数检索工具均提供了按照文献的外表特征和内容特征进行信息检索的两种途径。

1.文献外表特征检索途径

文献的外表特征,是从文献检索载体的外表上标记可见的特征,如题名(刊名、书名、篇名)、责任者(著者、编者、译者、专利权人、出版机构等)、号码(标准号、专利号、报告号、索取号等)。将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,这样就形成了以篇名、作者名及号码等为检索途径来满足用户的需求。(1)题名途径

根据已知文献的书名、刊名、论文篇名来检索文献的途径。题名途径多用于查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等均提供了通过题名检索文献的途径。由于计算机检索技术的发展,用户即使不知道完整的题名也可以进行检索,题名检索是数据库检索系统经常使用的检索途径之一。(2)责任者途径

根据已知文献的责任者查找文献的途径。文献的责任者包括个人责任者、团体责任者、专利发明人、专利权人、合同户和学术会议主办单位等。利用责任者(著者)途径检索文献,主要利用著者索引、著者目录、个人著者索引、团体著者索引、专利权人索引等。

由于专业研究人员一般各有所长,尤其是某些领域的知名学者、专家,他们发表的作品具有相当的水平或代表该领域发展的方向,通过著者线索,可以系统地发现和掌握他们研究的发展状况,可以查找某一著者的最新论著。(3)号码途径

根据文献出版时所编的号码来检索文献信息的途径。例如已知某一文献的特定号码,如技术标准的标准号,专利说明书的专利号,科技报告的报告号或合同号、任务号,文献收藏单位的馆藏号、索取号、排架号等,可以以此为检索点,利用各种号码索引和目录直接检索到这一特定的文献。

以文献外表特征为途径进行检索,最大优点是它的排列与检索方法以字顺或数字为准,比较机械、单纯,不易误检或漏检,因而适用于查找已知篇名、著者名或号码的文献,可直接判断文献的有无。但是,在大多数情况下,检索者对所需文献的外表特征并不太清楚,检索需求是根据文献内容特征提出的。因此,为了满足用户的这一要求,标引人员还需要对文献的内容特征进行标引,形成以文献内容为特征的检索途径。

2.文献内容特征检索途径

文献的内容特征指的是文献所论述的主题、观点、见解和结论等等,这些内容往往隐含在文献所记载的知识信息中。以文献的外部特征作为检索途径适宜用来查找已知文献题名、著者姓名或序号的文献,而以文献内容特征作为检索途径更适宜用来检索未知线索的信息。

我们知道任何一篇科技文献的内容,无非是论述某个客观事物。任何客观事物都有一定的概念。概念是对客观事物所含的本质属性、本质特征的概括,是在实践的基础上运用科学抽象的思维产生的。表达主题概念的语言往往是科技名词或词组,以此作为主题的标识,既简明地揭示了文献的内容特征,又形成了严格有序的主题排检序列,为检索提供了重要的途径。从文献的主题内容出发来检索信息的方法,包括分类途径和主题途径两种形式。(1)分类途径

分类途径是指按照文献所属学科属性(专业类别)进行检索的途径。分类检索就是以课题的学科属性为出发点,依据一个可参照的学科分类体系来查找文献信息。分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。国内较权威的图书分类法有:中国图书馆图书分类法(中图法)、中国科学院图书馆图书分类法(科图法)、中国人民大学图书馆分类法(人大法)等。国外较权威的分类法有:杜威十进分类法(Dewey Decimal Classification, DDC)、国际十进分类法(Universal Decimal Classification, UDC)、美国国会图书馆分类法(Library of Congress Classification, LC)等。

分类检索以分类为检索点,主要利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找相关文献信息,能较好地满足族性检索的要求,使同一学科有关文献集中在一起,使相邻学科的文献相对集中。(2)主题途径

主题途径是指按照文献的内容主题进行检索的途径。主题检索就是从反映文献内容的有关主题词、关键词、叙词、标题词等出发来检索文献,以主题为检索点,主要利用主题词表、主题目录等按主题词的字顺编排的检索工具来查找有关文献信息。主题检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词的合理选择与使用对检索结果的优劣直接相关。目前我国通用词表是《汉语主题词表》,此外,还有很多专业词表,如《中国中医药主题词表》、《地理科学叙词表》、《电子主题词表》、《数学汉语主题词表》等。

主题检索能较好地满足特征检索的要求,使讨论某一事物或主题的不同学科文献信息集中在一起。主题途径适合于查找比较具体的课题。

分类途径和主题途径是常用的文献检索途径,两者各有特点,前者以学科体系为基础,按分类编排,学科系统性好,适合于族性检索;后者直接用词语表达主题,概念准确、灵活,直接性较好,适合于特征检索。

综上所述,以文献外表特征为检索途径可供用户从已知文献数据的角度进行查找,以文献内容特征为检索途径则可以根据用户的需要,从需要的主题内容出发对文献进行检索。比较而言,前一类途径可以迅速、准确地查找特定文献,但需要预先掌握确切的数据,否则无法使用,此外也很难在此基础上扩大对相关文献的查找;后一类检索途径则不必事先了解相应的数据,用户不仅可以根据使用需要直接检索特定主题的文献,而且还可以通过系统中主题内容之间的联系,扩大或者缩小检索范围,进行相关文献的查找,有利于信息资源的开发利用,是更为重要的检索途径,因而受到广泛重视。

3.2.4 信息检索的技术

计算机被引入信息检索领域后,突破了传统手工检索信息方法的局限,可以更加灵活的运用各种计算机信息检索技术,实现复杂条件的组合检索。计算机信息检索技术有初级和高级之分,初级信息检索技术包括逻辑检索、截词检索等,高级信息检索技术包括加权检索、相关信息反馈检索、模糊检索等。

1.初级信息检索技术(1)逻辑检索

这是计算机信息检索系统中最常用的方法。在专业文献数据库检索系统中,用户的信息需求是通过检索提问式表达的。布尔逻辑算符在检索提问式中起着逻辑组配的作用,它能把一些具有简单概念的检索单元组配成一个具有复杂概念的检索式,用以表达用户的信息需求。由于系统中采用的逻辑组配算符是布尔代数中的3种逻辑算符——逻辑与(AND)、逻辑或(OR)和逻辑非(NOT),故称为布尔逻辑检索。这3种逻辑算符各表示不同的逻辑思想,以此将用户提问转换成逻辑表达式。计算机可根据表达式所限定的各运算项(或称检索词,包括题名、主题词、关键词、分类号、著者、ISBN号码、化学物质登记号等)之间的关系确定命中文献的基本条件与查找途径,以便同文档中各篇文献的标识进行匹配。凡符合条件的文献即为命中文献,予以输出。

如果用A和B分别代表两个检索词,它们的逻辑关系如表3.1和图3.4所示。逻辑“与”,或称逻辑“乘”,检索表达式为“A and B”。数据库中同时含有检索A和B的文献为命中文献,用以缩小检索范围。表3.1 3种逻辑关系图3.4 逻辑关系示意图

逻辑“或”,或称逻辑“加”,“or”(“+”):检索表达式为“A or B”。数据库中的文献中含有检索词A或B的文献为命中文献,用于扩大检索范围。

逻辑“非”,“NOT”:检索表达式为“A not B”。数据库中凡含有检索词A而不含B的文献为命中文献,用于缩小检索范围。(2)截词检索

将检索词在适当处加以截断符号,用截断的词的一个局部(词)进行检索。截词分前截词、后截词、中间截词。不同的系统所用的截词符也不同,常用的有“?”、“$”、“∗”等,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。利用截词检索技术可以减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),可降低漏检率。

在Dialog系统通常用“?”表示截词符,包括以下3种方式的截词检索:

非限定性截词:在一个词尾加一个“?”号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。

如:smok?,它将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。

限定性截词:在一个词尾加有限个“?”号,n个“?”号表示其后可添加的字符数少于等于n个。

如:smok??,将对smoke, smoky, smoked, smoker, smokes等进行检索。对于最多允许添加一个字符的情况,则用“?空格?”的形式表示。

如:smok??,将只对smoke, smoky进行检索。

中间截词:在一个词中间出现若干个“?”号,表示可插入若干个字符。

如:ioni?ation,它将对ionisation和ionization进行检索。

如:cent??line,它将对centerline和centreline进行检索。(3)位置检索

位置检索也叫临近检索。文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。

根据两个检索词出现的先后次序和相互之间的距离,可以采用多种位置算符。进行控制不同的检索系统,规定的位置算符也不同,以美国DIALOG检索系统使用的位置算符为例,介绍如下。“(W)”与“(nW)”算符“(W)”中W的含义为“with”。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。“(W)”算符还可以使用其简略形式“()”。例如,检索式为“communication(W)satellite”时,系统只检索含有“communication satellite”词组的记录。“(nw)”中的“w”的含义为“word”,它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。如:silicon(1W)sensor,命中的记录中出现的匹配词除silicon sensor外,还可能有:silicon integrated sensor, silicon image sensor, sili-con-based sensor等。“(N)”与“(nN)”算符“(N)”中的“N”的含义为“near”。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。“(nN)”表示允许两词间插入最多为n个其他词,包括实词和系统禁用词。

如:internet(N)accessing

命中记录中出现的匹配词可能有:internet accessing, accessing internet。

如:internet(1N)accessing

命中记录中除上例之外,还会可能有:accessing internet, accessing the internet, internet/intranet accessing等。“(F)”算符“(F)”中的“F”的含义为“field”。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词项。“(S)”算符“(S)”中的“S”含义为“subfield”,表示其两侧的检索词必须在同一子字段中出现,两词的词序可以颠倒。子字段是指字段中的一部分,如一个句子,一个词组、短语。字段不限,词序不限。

如:silicon(S)sensor,命中记录出现的匹配情况如:

A vacuum magnetic sensor(VMS)using a silicon field emitter tip was fabricated and demonstrated.“(L)”算符

L是limit的缩写。(L)表示其连接的两个检索词之间有主副关系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录的规范词字段。

如:television(L)high definition

命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-High definition。(4)限制字段检索

限制字段检索是指对检索词出现的字段范围进行限定,执行时,机器只对指定的字段进行检索,经常用于检索结果的调整。在专业数据库中限制字段检索存在两种不同的形式:其一为利用下拉式的选择框将可供选择的检索字段全部列出,由用户选择需要限定的字段,然后在其后的输入框中输入相应的关键词即可。详见3.3.2小节;其二为使用一定的检索字段符进行操作。检索字段符分作两类:后缀式和前缀式。后缀式对应基本索引,反映文献的主题内容,一般用“/”连接;前缀式对应辅助索引,反映文献的外部特征,一般用“=”连接。

例如:(minicomputer/DE OR personal computer/ID)AND PY=2002

这个检索式所表达的检索要求是:查找2002年出版的关于微电脑或者个人电脑的文献,并要求“微电脑”一词在命中文献的叙词字段出现,“个人电脑”一词在命中文献的自由词字段出现。

字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。在搜索引擎中,限制字段检索多表现为限制前缀符的形式。如属于主题字段限制的有Title, Subject, Keywords, Summary等。属于非主题字段限制的有Image, Text等。作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(Host)、域名(Domain)、链接(Link)、URL(Site)、新闻组(Ne-wsgroup)和E-mail限制等。这些字段限制功能限定了检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,限制字段检索可以用来控制检索结果的相关性,以提高检索效果。在搜索引擎中,除了可以对字段进行限制检索外,还可以对搜索的文件类型进行限定,如限定搜索的文献类型为PPT、PDF、DOC等形式。在著名的搜索引擎中,目前能提供较丰富的限制检索功能的有google, Al-taVista, Lycos和Hotbot等。常用的搜索引擎限制检索技术参见3.4.2节。

2.高级信息检索技术(1)加权检索

所谓加权检索,就是在要检索时,给每一提问检索词赋予一个能够表示其重要程度的数值,这个数值称为权。在检索时,先查找这些检索词在数据库记录中是否存在,然后计算含有这些检索词的文献的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段。但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在,与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。

运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面又有不同的技术规范。

查找计算机情报检索自动化方面的文献资料,用加权法列提问式如下:

例如:W=计算机(1)情报检索(4)自动化(2)

上式中括号内的数字即给提问词加的权数。计算机检索时,首先在所有存储的记录中找到满足上述提问词的文献,然后对提问词加权,文献按匹配的检索词权数之和从大到小排列,加权检索的全部输出结果见表3.2。表中“√”表示相应提问词与文献的被检索词相匹配。按下限阈值为5设定时,由表3.2可知,满足组合1至3提问词的所检索文献为命中文献。表3.2 文献权值加权计算结果

在现有的网络信息检索工具中,多采用加、减号来表现检索词在检索提问中的分量。

用“+”表示某检索词一定要包含在检索结果中。

例如,检索式“+亚洲+金融风暴”的含义是:找出关于在亚洲发生的金融风暴的信息,即检索结果中必须同时含有“亚洲”和“金融风暴”这两个词。

用“-”表示某检索词一定不能包含在检索结果中。

例如,检索式“+亚洲+金融风暴-南美洲”的检索结果除一定包含“亚洲”和“金融风暴”这两个词之外,还要排除关于南美洲的信息,即检索结果中一定不能有“南美洲”这个词。

加权检索的优点是可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,表达式简捷。其缺点是,加权法提问式含义不如逻辑式那么明显直观,而且在盲目地给出权数的情况下容易出现误检。由于加权检索技术在网络信息检索上应用的时间较短,因此检索提问往往不能获得预期的效果。最突出的例子是如果在一个检索提问中使用了表示加权检索的加号或减号,其余未加符号的检索词在检索过程中的作用将大大减弱。(2)相关信息反馈检索

在检索过程中人们会发现某个结果非常符合自己的需要,因此希望能进一步检索到与该结果类似的结果,这称为相关信息反馈检索。它的基本原理是:检索工具将用户所选定的结果网页中包含的关键词找出,通过它们在这个网页中出现的频率和位置等来计算各自的相关度,然后选出相关度较高的词汇作为下一步检索的检索词。但由于词汇选择只考虑了词汇出现的频率和位置,而没有考虑用户对各个词汇重要性的主观判断,所以其结果并不一定非常合适。

在网络环境中,相关信息反馈检索可由检索工具自动进行。例如,Excite的“Search for more documents like this one”检索、Lycos的“More Like This”检索、google的“类似网页”检索,以及百度的“相关搜索”等。(3)模糊检索

模糊检索,指允许检索单元和检索提问之间存在一定的差异,这种差异即“模糊”在检索中的含义。模糊检索中所指的差异往往来自于用户在输入检索提问时的输入错误,如少键入一个字、打错一个字母等等。另一类差异来自某些词汇不同的拼写形式,例如,单复数,“catalog”和“catalogue”。这时检索工具应该能够检索到用正确词汇或其他变形形式标引的结果,而不是简单地告诉“输入错误”或“没有结果”。例如,google就带有自动纠错功能,可以实现模糊检索。(4)概念检索

概念检索,是指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类概念的词汇的结果。

例如,检索“automobile”时能找出包含“automobile”、“car”、“truck”、“van”、“bus”等任一词汇的结果。

又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得。

在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。至今为止,Excite在概念检索方面取得了比较明显的成就。(5)自然语言检索

自然语言检索,指用户在检索时可输入自然语言表达的检索要求。例如,用户输入检索提问:“please find for me some thing about automobile sale in New York State”,检索工具会按照提问检索出关于在纽约州(New York State)汽车销售(Automobile Sale)的信息。

自然语言检索的基本原理是:检索工具在收到用户提问后,首先利用一个禁用词表从提问中剔除那些没有实质主题意义的词汇,然后将余下的词汇作为关键词进行检索。禁用词对检索几乎没有帮助,包括各种副词、介词、代词、常用请求词(please、help、would、may等)、检索提问词(find、search、locate、check、informa-tion、materials等)。而关键词具有实质的主题意义,对于检索具有重要的区分作用,包括名词、动词、数量词等,例如,纽约州(New York State)、汽车销售(Automobile Sale)。

自然语言检索的效果取决于检索工具选择关键词的效率,而这方面仍然面临一些问题,如禁用词表的构成。在英文中,不同的词汇用空格进行分隔,而中文词与词之间没有自然的分隔,因此中文自然语言检索还存在分词问题。

中文分词首先遇到的难题是歧义识别。歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”,这种称为交叉歧义。

交叉歧义相对于组合歧义来说比较容易处理,组合歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,就是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个是词,哪个不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”,也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

新词识别是中文分词不可避免的另一个难题。新词,专业术语称为未登录词,也就是那些在字典中没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”作为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如,在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

3.3 检索专业数据库

数据库(Data Base, DB)是数据管理的最新技术,是计算机科学的一个重要分支。计算机技术运用到信息检索领域后,无论是检索技术还是检索工具都发生了巨大变化。借助数据库技术将来自各种渠道、不同类型的大量专业信息资源进行高度组织化的加工和存储,从而形成各种类型的专业数据库,如法律数据库、化学数据库、财经数据库、期刊论文数据库、学位论文数据库、专利数据库等等。计算机检索主要是针对各个不同的专业数据库展开的。

3.3.1 专业数据库的类型

目前国际上通常根据数据库内容将数据库划分为三大类:参考数据库(Refer-ence Database);源数据库(Source Database),在欧洲也称为数据银行(Data Bank);混合数据库(Mixed Database)。另一种划分数据库的实用方法是分为文献数据库与非文献数据库两大类,前者以书目数据库和全文数据库为主,后者以数值数据库和术语数据库为多。

1.参考数据库

这一类数据库中的数据是文献或事实的参考内容,主要为用户提供查找源文献或事实的线索,指引用户获取原始信息的出处。例如,图书馆的馆藏目录数据库就是一种参考数据库,它仅提供图书馆收藏文献的主要元数据,指导用户去具体的馆藏书库去查阅,从而获得完整的文献信息。参考数据库主要可以分为两种类型:一类是书目数据库,包括文摘数据库、索引数据库、图书馆馆藏目录数据库等;另一类是指南数据库,包括名录数据库、产品数据库等。总之,这类数据库信息一般不自足,用户从中获取信息源信息后还需进一步去查找原文。

2.源数据库

这一类数据库指包含原始文献信息全文、完整数据的专业数据库。通常有全文数据库、数值数据库、图像数据库、术语数据库、音频数据库等等。它与参考数据库的不同点在于:参考数据库仅提供获取原始信息的线索,源数据库则直接为用户提供最终需要得到的事实、数值或文字信息,即这类数据库数据自足,用户一般不必再查其他信息源即可满足需求。

3.混合数据库

此类数据库兼具以上两类数据库特点,即部分数据可以直接提供原始信息,部分数据只能提供查找的线索,如多媒体数据库(Multimedia Database)等。

在科研活动中,科研人员在立项、中期总结、结题、成果推广的全过程中,都要以专业数据库为桥梁;在教学过程中,专业数据库和高校的师资、实验室、图书馆、教室、宿舍等一样,是直接影响教学科研质量水平的基础性资源,因此各大高校纷纷购买了大量的中外文专业数据库。其中常用的中文数据库主要有中国期刊网全文数据库(CNKI)、维普中文科技期刊数据库(VIP)和万方数据库等,常用的外文数据库主要有Elsevier Science、EI、EBSCO、Web of Science等。熟悉数据库检索功能的用户不难发现,无论是中文数据库,还是外文数据库,它们在检索功能上有很多相似之处。比如在检索方式上,一般专业数据库都包含简单检索、高级检索和专业检索3种方式;在检索入口上,一般数据库都包含了题名、作者、关键词、摘要、刊名等检索入口;在检索技术上,一般专业数据库都包含逻辑组配和截词等检索技术。限于篇幅,无法将每个数据库的检索功能逐一进行详细说明,本小节将对常用中外文数据库的一般检索入口、检索方式和检索技术进行介绍。数据库的收录年限、学科范围、资源类型、文献数量等基本情况将在第4章中进行详细说明,此处不再赘述。

3.3.2 检索入口

文献检索指依据一定方法,通过对大量的、分散无序的期刊文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。存储的过程,主要是对信息源进行标引,将其外表和内容的特征(如文献的标题、作者、来源和主题等)用特定的检索语言转化为一定的标识(如篇名、关键词、分类号和摘要等),再将这些标识按一定的顺序编排后输入检索系统,从而为检索提供有规可循的途径。因此数据库提供的检索入口取决于该数据库存储文献时对文献的标引程度,不同数据库提供的检索入口不尽相同,CNKI、VIP等常用中外文数据库提供的检索入口如表3.3所示。

1.常用检索入口

我们在检索专业数据库的时候,最常用的检索入口主要是题名(Title)、作者(Author)、文摘(Abstract)和关键词(Keyword)这4个字段,几乎所有的中外文专业数据库都提供了这3个字段的检索功能。

在使用外文数据库作者字段进行检索的时候必须注意:中国作者姓名的多种不同拼写形式;外国作者采取名在前、姓在后的拼写方式。

例如,在EI数据库中作者“顾秉林”(Gu Binglin)的拼写方式有很多种:

gu, binglin或者binglin, gu

gu, bing-lin或者bing-lin, gu

gu, b. l.或者binglin, g.

2.其他检索入口

除了常用的4个检索入口外,全文、刊名、机构、ISSN等字段在检索的时候也往往会使用到。在常用的中外文数据库中,CNKI和EI提供的检索入口最为丰富,同时也反映了这两种数据库对文献的加工和标引深度,详见表3.3。表3.3 常用中外文数据库检索入口一览表

3.3.3 检索方式

数据库的检索方式主要有3种:一种是按照类别,分类浏览检索;另一类是关键词逻辑组配检索,即在检索输入框中输入关键词,然后通过下拉菜单选择关键词出现的字段(即检索入口),并且确定不同字段之间的逻辑关系进行检索;第三种是直接在检索输入框中输入检索表达式进行专家检索。

1.分类浏览检索

从分类的角度,通过链接一步一步进入下一级目录,直到找到所需要的内容,这种方式称为分类浏览检索。分类的方式有很多种,常用中文数据库一般使用中图法进行期刊文献的分类检索,或者根据数据库的自有专集进行分类检索。例如CNKI将期刊文献分为十大专集,包括:理工A(数学物理力学天地生);理工B(化学化工冶金环境矿业);理工C(机电航空交通水利建筑能源);农业;医药卫生;文史哲;政治军事与法律;教育与社会科学综合;电子技术及信息科学;经济与管理。其中值得一提的是,维普数据库的分类检索可以提供多个不同学科的交叉类目检索,如图3.5所示。图3.5 维普数据库分类检索界面

2.逻辑组配检索

通过菜单将单个或是多个检索词进行逻辑组配的检索。根据检索入口选项的多少,逻辑组配检索通常有简单检索和高级检索两种形式。当进入数据库的首页时通常提供简单逻辑检索,如果检索要求比较复杂,检索字段较多的时候,可以点击数据库的“高级检索”按钮,进入高级检索界面,图3.6为CNKI高级检索界面。图3.6 CNKI高级检索界面

3.专家检索

运用逻辑算符、截词符、位置符等连接检索词构成检索表达式,直接输入检索输入框进行检索,这种方式称为专家检索。如果用户对数据库的检索技术非常熟悉,可以使用专家检索提高检索的精确度。不同专业数据库构造专家检索式的模式略有不同,如表3.4所示,可检索的字段名称可以通过数据库的使用说明找到帮助。表3.4 常用中外文数据库专家检索式构造示例

3.3.4 常用检索技术

1.中文数据库

所有的中文专业数据库都支持关键词的逻辑与(And)、逻辑或(Or)和逻辑非(Not)的逻辑运算检索,以及字段限制检索。中文数据库一般不支持西文的截词检索和词干检索,但可以使用括号改变检索表达式的逻辑运算次序。重庆维普数据库除了具有一般检索功能外,还具有同义词库、同名作者库,用来提高查全率和查准率。图3.7 维普数据库的同义词功能演示图

如图3.7所示,勾选同义词功能,在关键词字段输入“CAD”并点击“检索”按钮,可查看到“CAD”的同义词,勾选“CAD系统”并点击“确定”按钮,即可得到“关键词=CAD+CAD系统”的检索结果。图3.8 维普数据库的同名作者功能演示图

如图3.8所示,勾选同名作者功能,选择检索入口为作者(或第一作者),输入检索词“张三”,点击“检索”按钮,即可找到作者名为“张三”的作者单位列表,用户可以查找需要的信息以做进一步选择。

值得注意的是,同义词功能只适用于三个检索字段:关键词、题名或题名与关键词;同名作者功能只适用于两个检索字段:作者、第一作者。

此外,中国知网(CNKI,包括中国期刊网)除了收录期刊发表的文章外,还收录该文章引用的参考文献,提供强大的引文检索服务,为用户提供更加丰富的科研信息。更多有关引文检索的知识详见第四章,此处不再赘述。

2.外文数据库

所有的外文数据库都支持关键词的逻辑与(And)、逻辑或(Or)和逻辑非(Not)的逻辑运算检索,并且可以使用括号改变检索表达式的逻辑运算次序。此外,由于英文单词由不同的字母拼写组成,外文数据库的检索技术和检索规则比较丰富。下面简单介绍一下常用外文数据库的检索技术。(1)Elsevier数据库

①支持通配符检索,“∗”代表单词中的任意个(0,1,2……)字母,“?”代表单词中的1个字母;

②支持W/n算符检索,表示该算符连接的两个检索词相隔不超过n个词,词语出现的次序不固定;

③支持PRE/n算符检索,表示该算符连接的两个检索词相隔不超过n个词,词语出现的次序固定;

④“”表示宽松短语检索,检索词语中包含的标点符号、连字符、停用字等会被自动忽略;

⑤‘’表示精确短语检索,所有符号都将被作为检索词进行严格匹配;

⑥支持ADJ算符检索,表示该算符连接的两个检索词按指定顺序排列,相当与短语检索;

⑦支持NEAR算符检索,表示该算符连接的两个检索词同时出现在一个句子中,次序可变;

⑧在作者检索字段(author)进行检索时,先输入某作者名的全称或缩写,然后输入姓,临近符W/n可以用于作者检索。此外,增加了特定作者字段(Specific au-thor),表示输入的作者姓名要求出现在同一个作者的名称中,这样可以使得作者检索更加准确。(2)EI数据库

①支持词干检索,在快速检索模式中,系统自动执行词干检索(除作者字段),例如输入management后,系统会将managing、manager、manage、managers等检出,如果要取消该功能,需点击“autostemming off”。

②在专家检索模式中,系统不自动进行词干检索。若做词干检索,需在检索词前加上“$”符号;

③支持截词检索,用星号“∗”表示,放置在词尾,例如comput∗,可以将com-puter, computerized, computation, computational, computability等作为检索词;

④支持词组或短语的精确检索,需要用“”或()将其括起来;

⑤除了a-z, A-Z,0-9,?,∗,#,()或{}等符号外,其他符号均视为特殊符号,检索时将被忽略,除非用引号或括号将其括起,如:{n<7}。(3)Web of Science数据库

①支持截词检索,“?”代表单词中的一个字符,“∗”代表单词中的一个或多个字符;

②支持same临近检索算符,表示用该算符连接的两个检索词必须出现在同一个句子中,即两个句号之间的字符串,检索词在句子中的顺序是任意的。

限于偏于无法将所有中外文数据库的检索技术一一穷尽,我们可以从数据库的帮助(help)文档中获得更多的检索技术介绍。

3.4 检索网络信息资源

互联网构成了人类历史上最大的信息资源网络系统,它已经成为人们工作、生活和交往不可缺少的工具。互联网用户遍布全球,用户数量巨大,且增长迅速,根据中国互联网信息中心统计截至2008年6月底中国互联网用户数达到2.5亿。网络信息资源极其丰富,涉及人类面对和从事的各个领域、行业及社会公用服务领域,包括自然科学、技术科学、农业、医学、社会学等各专业领域,社会、政治、历史、科技、科普、卫生、娱乐、政府决策、金融、商业等各个方面,以及各种社会公共服务领域,诸如体育、音乐、艺术、天气预报、旅游、消遣等。

要想从浩如烟海的网络信息资源中准确、及时、方便、迅速地获得所需信息,并不是一件容易的事情。网络信息检索工具数量众多、各具特色,用户在进行网络信息检索时必须加以选择。

3.4.1 传统网络信息检索方式

在互联网发展的过程中,先后产生过一些网络信息检索方式。互联网发展迅速,新技术、新工具层出不穷。一些传统的检索方式至今仍在使用,而另一些则被新的工具所代替。

1.远程登录方式

远程登录(Telnet)方式是在网络通信协议支持下以仿真终端的形式访问并检索远程计算机的资源。Telnet是互联网提供的最基本的信息服务之一,它对网络宽带要求很低,很多教育和科研机构以及政府部门的数据库都是通过Telnet方式提供服务的。在远程计算机上登录,必须事先成为该计算机系统的合法用户并拥有相应的账号和口令。登录时要给出远程计算机的域名或IP地址,并按照系统提示,输入用户名及口令。登录成功后,用户便可以实时使用该系统对外开放的功能和资源。

2.电子邮件方式

电子邮件(E-mail)方式是用户向所需要查询的数据库指定的电子邮箱发送包含查询命令的邮件,即可返回相应结果的方式。也可以采用网页订制查询条件或相关主题,并填写接收查询结果邮件地址的方法,所要求的资料会自动和定时地发送到查询者的电子邮箱。目前电子邮件已成为网络用户之间快速、简便、可靠且成本低廉的现代化通信手段,也是互联网上使用最广泛、最受欢迎的服务之一。

通过电子邮件可访问的信息服务有:FTP、Archie、Gopher、WWW、News、WAIS等。当用户准备向这些信息中心查询资料时,只要向其指定的电子邮件发出一封含有一系列查询命令的电子邮件,用户就可以获得相应的信息。此外,互联网的数据库也可以通过电子邮件检索。例如,由美国国家科学基金会、能源部等合作开发的专业数据库提供了邮件检索服务,其内容反映学科前沿研究成果,深受研究人员的重视。

例如,要检索近期《计算机应用和语言》有关云计算(Cloud Computing)研究的文章,可以给cmp-lg@xxx.lanl.gov发送一封主题为“find cloud computing”、内容为空的E-mail。不久你将收到一封包含有关云计算研究文献信息的回信。其他可访问的邮件地址如下:

astro-ph@xxx. lanl.gov 天体物理学

hep-th@xxx. lanl.gov 高能物理学

gr-qc@xxx. lanl.gov 广义相对论与量子宇宙学

chem-ph@xxx. lanl.gov 化学物理学

mtrl-th@xxx. lanl.gov 材料理论

supr-con@xxx. lanl.gov 超导

alg-geom@eprints. math.dukee.edu 代数几何

funct-an@xxx. lanl.gov 泛函分析

q-alg@eprints. math.dukee.edu 定量代数和拓扑学

ao-sci@xxx. lanl.gov 大气海洋科学

以上E-mail地址中可以将@xxx.lanl.gov换成@arXiv.org。

现在,各专业数据库和网络搜索引擎(如google、baidu等)推出的电子邮件订阅服务,定期将检索到的结果通过电子邮件自动传递给用户,这也可以看作是电子邮件检索服务方式。

3.文件传输方式

文件传输方式(FTP)是用户通过FTP客户端软件、操作系统的FTP命令实现登陆某台FTP服务器,检索和下载所需要的文件。通常会使用自动搜索服务工具(Archie)来查找标题满足特定条件的所有文档,Archie Server也被称为文档查询服务器,保存多台FTP服务器上文件的名称等信息,检索Archie Server即可从许多台服务器的文件目录中获取相关文件的地址信息,从而连接到指定服务器下载。现今的FTP检索基本上是通过WWW页面检索的方式,并整合网络搜索引擎进行工作。

4.Gopher方式

Gopher方式是基于菜单的网络信息检索工具,用户可以通过菜单方式标记的网络文件或目录,按照分级菜单的指引选取并访问指定的网络资源。

用户可以使用Netscape在Address正文框中输入gopher://Url。Gopher菜单选项由一些链接代表,单击一个链接就可以选中那个选项。如果这个选项引导另一个菜单,那么它会在窗口中显示出来。如果它引导一个某种类型的文件,这个文件将以标准方式被传输。并且如果Netscape能够显示和播放它,就可以显示完整的信息。如今的Gopher的特性很类似于信息传播系统,它可以被用来传播任何信息,当然也可以被用来作为商业客户服务系统等。

在WWW出现之前,Gopher软件是Internet上最主要的信息检索工具,Gopher站点也是最主要的站点。在WWW出现后,Gopher失去了昔日的辉煌,很多年轻一代的互联网用户都不太熟悉Gopher检索。

5.WAIS方式

WAIS是一种数据库索引查询方式,是一种对于文件内容的索引,可以提供关键词检索。WAIS是一种分布式文本搜索系统,基于Z39.50标准。Z39.50是一个面向连接、有关信息检索的协议,由于服务端的多个数据库可能是异构的,命令和检索方法也可能不一,所以需要客户端将检索命令转换为Z39.50标准格式,同样遵循相关标准的服务端将标准格式翻译成自己的检索命令,实现检索后,客户端接收标准格式检索结果,通过相应的转换在查询结果界面显示。

Z39. 50最初应用于图书馆机读目录(MARC)数据库的检索,如汇文、INNOPAC、Sirsi等绝大多数图书馆信息管理系统都提供了Z39.50的访问服务。美国国会图书馆还提供了可以查询全世界上百所图书馆馆藏目录的Z39.50查询网关(http://www.loc.gov/z3950)。它目前已经发展为一般性的信息查询和获取标准,扩大到全文信息检索服务和商业信息检索服务,如提供多种数据库检索的OVID检索平台即提供Z39.50的服务。

3.4.2 搜索引擎

传统的网络信息检索方式有的因为不是图形界面并需要记忆复杂的命令,有的因为无法实现交互式的检索,有的因为处理文档类型的限制以及遵守协议或标准的限制无法处理更大范围内的信息检索服务,逐渐不再使用或只在有限的范围及有限的行业内使用。随着WWW的出现,基于超文本的搜索引擎(Search Engine)检索服务因其不仅能够进行文本的信息检索,而且还能提供音频、声像、图片等多类型文档的检索,并整合软件检索、新闻组查询、电子邮件订阅、电子地图查询等一系列网络服务而成为当今网络检索工具的主流。

另外需要说明的是,同样被称为搜索引擎的还有企业搜索引擎,它一般只在机构内(不只是企业)提供基于网络的信息检索工具及平台。企业搜索引擎有着自身的特点,比如安全性的保证(需要经过授权才可以访问)、与业务相关的高查全率和高查准率的要求等,与普通的网络搜索引擎有着本质的区别。国内相关的有自主产权的产品包括北京的TRS和杭州的天宇(CGRS)等,我们也常称之为全文检索系统,基于其核心技术开发的应用系统有人大复印资料网络版、新华社多媒体数据库等。前面介绍的专业数据库检索也大体采用了类似技术。

本小节主要介绍针对网页内容、网站发布的软件和多媒体文件等信息的网络搜索引擎,这种类型的搜索引擎面向具有开放性、连接性、简便性、异构性、动态性、复杂性等特点的网络信息资源。如果不作特别说明,本小节提到的搜索引擎都是指网络搜索引擎。

1.搜索引擎的源起

1993年以前,多数WWW用户查找并获取信息的方法是从一个WWW服务器的某一个URL开始,并沿着其网页上的超文本链接连接到其他URL。但WWW上的信息量在快速增加,目前Internet能找到的网页已多达数百亿之巨,并仍以每几个月就翻一番的速度增长。因此,单纯依靠用户自己手工查询或通过人力组织所有的信息已经是不可能的了。人们迫切需要有一个Web发现系统,能够在较短的时间内、在指定的范围内自动地发现信息,并且对其所覆盖的信息进行自动更新。这就是我们常说的搜索引擎所完成的工作。

经历二十几年的发展,现在已经产生了多种不同类型的搜索引擎。一般来说,目前的网络搜索引擎可以按照索引方式、引擎功能和覆盖范围划分为不同的类型。

搜索引擎按照索引方式可以分为目录式搜索引擎(List-Based Search Engines)和关键词式搜索引擎(Word-Based Search Engines)。目录式搜索引擎,主要采用人工或机器采集Web信息,然后依靠专业人员对搜集到的信息进行筛选、标引,建立分类导航或分类摘要并提供浏览查询,是一种族性检索模式。关键词式搜索引擎,主要由网络搜索软件(Robot、Spider、Worm等)自动定期遍历各类网站,自动收集网页信息进行索引建库并提供全文检索。目录式搜索引擎和关键词式搜索引擎各自具有无法替代的优势,目前许多搜索引擎都在以提供一种检索方式为主的基础上兼顾了另一种检索方式。

搜索引擎按引擎功能划分可以分为单元搜索引擎和多元搜索引擎。单元搜索引擎一般拥有自己的索引数据库,可向用户提供基于自身索引库的查询服务,并根据数据库的内容反馈出相应的查询信息或链接站点;多元搜索引擎又被称为元搜索引擎或搜索引擎的搜索引擎,这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、排序等处理后,作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。

搜索引擎按覆盖范围划分可分为综合性搜索引擎和专题性搜索引擎。综合性搜索引擎是提供对网上多种类型、不同主题信息进行集成检索的检索工具,如google、baidu等;专题性搜索引擎是专门收录某一方面、某一行业、某一主题的信息,为满足用户某些比较特殊的需求,如医学搜索引擎、图像搜索引擎、职位搜索引擎等。

2.搜索引擎的工作原理

搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列。

搜索引擎的工作过程基本上分为4个步骤(见图3.9):图3.9 搜索引擎工作原理示意图(1)爬行和抓取

搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称为蜘蛛。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎会跟踪网页中的链接访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待抓取。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一。没有反向链接,搜索引擎连页面都发现不了,就更谈不上排名了。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。(2)索引

索引器对蜘蛛程序抓取的页面文件进行分解和分析,并以巨大表格的形式存入数据库,这个过程即是索引(Index)。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。(3)搜索词处理

用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。(4)排序

对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。检索结果并不是一个集合而是列表,如何实现基于内容的相关度排序,将最相关的结果排在最靠前的位置从而保证用户满意的查询系统的关键技术,所以当前搜索引擎所使用的排序算法作为核心技术,其完全公开信息的并不多。

再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有SEO的帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。

3.搜索引擎的检索特性

大多数搜索引擎都提供简单检索和高级检索两种检索方式。简单检索往往对检索提问式的构造要求较低,比较直观,检索过程相对简单,但对检索策略的优化和检索结果的精度提供的途径不够,适合于网络检索经验较少的用户使用。高级检索往往需要用户按照搜索引擎的检索规则和检索语法自行构造完整的检索提问式,检索过程相对较复杂。但由于高级检索提供的可以限制检索的途径较多,对检索需求的表达功能更强,检索更为快捷,因此检索效率和检索结果的精度都比较高,适合于对网络检索较为熟悉的用户使用。

搜索引擎发展到现在,虽然历史不长,但检索性能已得到了很大的改善,大多数搜索引擎已具备了过去大型书目检索数据库所达到的基本检索特性。(1)词语或短语检索

几乎所有的搜索引擎都支持词组或短语检索,即如果用双引号将一个词组或短语括起来,系统将检索出与其完全精确匹配的检索结果。采用词组或短语检索始终被认为是提高检索结果精确度的首选方法。(2)二次检索

有的搜索引擎允许在利用“词组或短语”检索的结果中进行二次检索,以提高检准率。(3)布尔逻辑检索

作为检索的常用模式之一,目前大多数搜索引擎都能支持布尔逻辑检索。对于逻辑“与”和逻辑“或”,基本上都采用“and”和“or”作为逻辑运算符;而对于逻辑“非”,各搜索引擎的表达不完全一致,有的用“not”,有的用“and not”。(4)词间位置限定检索

传统规范性数据库及其检索系统(如Dialog)就提供了一套十分完善的词间位置限定检索的语法体系,可以达到很好的检索效果。而网络搜索引擎在此功能上相对要薄弱许多,具有词间位置限定检索功能的搜索引擎并不多,即使提供了该功能,其灵活性和功能的完善性与Dialog相比也有不少差距。(5)字段检索

采用字段检索,可以有效地限制检索的范围,进一步提高检索的准确率。由于网络信息的非规范性,并不像规范性书目数据库那样有十分严格的字段划分,如今对网络信息的字段描述是为了更有效的标引网络信息特征。一般搜索引擎给出的可检字段主要有网页标题、域名、URL、链接等等。各搜索引擎支持的可检字段种类各不相同,即使同一字段所采用的字段标识符也可能相异。(6)截词检索和通配符检索

截词检索和通配符检索主要是为了解决同一单词因不同拼写、不同词形、单复数、缩略形式等导致漏检而采取的一种比较有效的方法,也大大减少了用户需要输入同一词的不同表达形式的麻烦。目前搜索引擎使用较多的是前方一致的截词检索。(7)大小写有别检索

区分大小写对人名检索、专有名词检索有特殊的功效,可提高查准率。部分搜索引擎提供了该功能。(8)禁用词(停用词)

为了提高检索效率和提高检索的准确率,搜索引擎常常将一些介词、冠词(英文)等作为禁用词。如果用禁用词进行检索,搜索引擎将不予作答。

搜索引擎除了提供网络信息搜索服务外,还提供比如股票、天气、航班、电视、地图、词典、图片、黄页的搜索。有的搜索引擎还提供网页快照,通过网页快照可以查看由于网页被删除或其他原因无法通过原站点链接访问的页面。

除了以上这些之外,不同的搜索引擎还各自具有其自身特有的检索特性,将在下一节逐个具体介绍。

4.常用搜索引擎

互联网上的搜索引擎很多,用户使用时要根据自己的要求选择搜索引擎。选择搜索引擎,主要考虑搜索引擎的收录范围、数据库容量、用户界面、响应速度和更新周期等因素。据中国互联网络信息中心报道,截至2010年6月,中国网民规模达到4.2亿,其中网民搜索引擎的使用率为76.3%,为中国第三大网络应用。常用搜索引擎主要有Baidu、Google、Yahoo和天网搜索等。(1)百度(http://www.baidu.com)

1999年底,百度成立于美国硅谷,它的创建者是在美国硅谷有多年成功经验的李彦宏及徐勇,2000年百度公司回国发展。最初,百度定位自己为一家向网站提供后台支持的公司。百度的产品和服务是针对不同企业及各机构网络化的基本需求而设计的,主要产品是基于全球互联网的中文网页检索。百度搜索引擎曾一度占领了国内最主要的门户网站,包括Sina、Sohu、Tom.com、263在线、21CN、上海热线等。百度在向门户网站提供搜索服务的同时,学习了Google的商业模式,把本公司的网站改为搜索网站,在技术上也迅速添加了包括网页快照、地图搜索等在内的功能。2001年10月百度依据李彦宏先生的第三定律和百度自身庞大的搜索用户群,适时地推出了搜索引擎竞价排名的商业模式。“众里寻她千百度”,“百度”二字正是源自辛弃疾的《青玉案》,它象征着百度对中文信息检索技术执著的追求。

百度提供了简单搜索、高级搜索和网页目录等方式。当打开百度主页时,直接进入简单搜索方式,如图3.10所示,在输入框中输入关键词,然后按下回车键或者点击“百度一下”按钮即可以得到相关资料。图3.10 百度简单搜索界面

点击输入框右边的“设置”,进入高级检索界面,如图3.11所示。高级检索可以定义搜索结果中包含检索词的“包含以下全部的关键词”、“包含以下的完整关键词”、“包含以下任意一个关键词”以及“不包括以下关键词”,还可以设置每页显示的搜索结果数、要搜索网页的时间、文档格式、关键词位置以及指定要搜索的站点等,通过这些限定条件,可以得到更准确的搜索结果。图3.11 百度高级搜索界面

百度也保留传统的网页目录的方式,在首页点击“更多”,然后点击“站点导航”,或者直接连接网址http://site.baidu.com/。网页目录依网页主旨按多个方式分别归类和罗列,如娱乐休闲、电脑网络、生活服务等;实用查询包括天气、时刻表、地图等;酷站大全包括门户、新闻、邮箱、音乐、小说等。如图3.12所示。图3.12 百度网页目录界面

百度除了提供网页搜索功能外,还可以对图片、音乐、资讯等内容进行搜索,此外还创建了百度贴吧、百度知道等日常问题的交流平台,并提供相应的查询服务。

百度搜索引擎除了具有一般优秀搜索引擎的特性外,还具有一些独特的检索功能。主要包括以下几个方面:

①支持二次检索功能。在检索结果的界面上点击“在结果中找”按钮,可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。

②相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的内容,统计表明可以使检索量提升10%~20%。

③百度快照功能。百度搜索引擎预览各网站,并拍下网页的快照,为用户存储大量的应急网页,巧妙地解决了搜索用户经常遇到的死链接或打开速度特别慢的问题。网页快照不仅下载速度快,而且已经将用户查询字串用不同颜色在网页中进行了标记,可以帮助用户进行快速阅读。

④支持多种高级检索语法,包括“+”(and)、“-”(or)、“”(not)、“site:”、“link:”、“inurl:”、双引号等。

⑤拼音提示和错别字提示。用户输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来,它实际上是一个功能强大的拼音输入法。拼音提示显示在搜索结果上方。此外,百度会自动给出错别字纠正提示,错别字提示将显示在搜索结果上方。

⑥书名号是百度独有的一个查询语法。加上书名号的查询词,有两层特殊的功能:一是书名号会出现在搜索结果中;二是书名号括起来的内容不会被拆开。因此,书名号在某些情况下特别有效果,如查询电影或者小说。比如,查电影“手机”,很多情况下出来的是通讯手机,而加上书名号后,《手机》结果都是关于电影方面的了。(2)Google(http://www. google.com.hk/)

1998年,Stanford大学计算机科学系的博士研究生Larry Page和Sergey Brin合伙开办了一个提供网络信息搜索服务的公司。Google成立的第一步始于Larry Page和Sergey Brin在斯坦福大学的学生宿舍内共同开发的全新的在线搜索引擎,然后迅速传播给全球的信息搜索者。Google目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间得到相关的搜索结果。2010年Google由于不同意中国政府提出的对不良信息的筛选协议,加上在中国耕耘4年之后,市场份额增长有限,部分退出了中国市场,并将总部搬至中国香港。但由于很多用户已经习惯了使用Google,并且由于百度搜索引文网页功能有限,因此很多人仍然通过其他方式使用Google搜索引擎和工具。

Google同样提供了简单搜索、高级搜索和网页目录等方式。当打开Google主页时,直接进入简单搜索方式。如图3.13所示。点击输入框右边的“高级”按钮,进入高级搜索界面,可以进行相关搜索限定。Google的搜索方法和百度基本相同。二者的主要区别在于:百度收录范围限于中文网页;Google收录范围更加广泛,世界各国的网页信息全部收录。此外,Google还提供了网页目录的搜索方式,点击Google首页的“更多”链接,然后点击“265导航”按钮即可进入。网页目录按照网页主旨进行归类。图3.13 Google首页界面

除了搜索网页外,Google还提供了学术资料、图片、音乐、博客、论坛、图书、资讯搜索等功能,并且提供货币转换、计算器、翻译、天气、股票、地图等服务。Google使用了独特的PageRank检索技术,它查询严谨细致,能帮助用户找到最重要、最相关的内容,并具有丰富的检索特性和检索特色,以下简要列出主要的相关特性。

①相关检索。Google对网页进行分析时就已经考虑与该网页链接的其他网页上的相关内容,所以Google的检索就会列出那些搜索关键词相距较近的网页。

②Google会自动使用“and”进行查询,不需要在关键词之间加上“and”或“+”。比如“信息检索”的检索,实际上也会返回“信息”+“检索”的查询结果。此外,也可以使用“-”进行逻辑非的查询,要求在减号前保留一个空格,使用“OR”进行逻辑或的查询。

③Google会忽略最常用的词和字符,这些词和字符称为停用词。Google自动忽略“http”、“com”和“的”等字符以及数字和单字,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。

④使用引文双引号可将这些忽略词强加于搜索项。例如输入“春天的故事”,加上英文双引号会使“的”强加于搜索项中。

⑤繁简体转换。Google运用智能型汉字简繁自动转换系统,为用户找到更多相关信息。这个系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。当用户搜索简体中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页,并将搜索结果的标题和摘要转换成和搜索项的同一文本,便于用户阅读。

⑥Google使用词干法。也就是说,在合适的情况下,Google会同时搜索关键词及与关键词相近的字词。词干法对英文搜索尤其有效。

⑦Google搜索不区分英文字母大小写。所有的字母均当做小写处理。Google运用智能软件系统对拼音关键词能进行自动中文转换并提供相应提示。例如:搜索“shang wu tong”,Google能自动提示“您是不是要找:商务通”。此外,Google还支持模糊搜索,如果单词拼写有误,它会自动提示正确的拼写方式。

⑧Google可以指定域名和指定文件类型搜索。利用“site:xxxx.com”可以在某个特定的网站或域中进行搜索;利用“filetype:文件类型”,可以在一类文件中进行搜索,比如,“filetype:pdf”,“filetype:ppt”等。此外,Google还通过在一些词后面加冒号,指定关键词出现的位置,例如:“inurl:”要求搜索的关键词包含在URL链接中;“intitle:”要求搜索的关键词包含在网页标题中;“inanchor:”或“allinanchor:”要求搜索的关键词包含在网页的“锚”中;“link:”要求搜索所有链接到某个URL的网页。(3)Yahoo(http://www. yahoo.com)

Yahoo是Yet Another Hierarchically Officious Oracle的首字母缩写。1994年4月,斯坦福大学两位博士生杨致远和David Filo共同创办了雅虎,通过著名的雅虎目录为用户提供导航服务。Yahoo是Internet搜索引擎的先锋,它的目录有近100万个分类页面,14个国家和地区的语言的专门目录,包括英语、汉语、丹麦语、法语、德语、日语、韩文、西班牙语等。Yahoo中文版(http://cn.yahoo.com)于1998年5月问世,被命名为“雅虎中文”,后改为“雅虎中国”。2005年8月11日雅虎公司宣布与阿里巴巴(中国)网络技术有限公司达成战略联盟关系,雅虎出资10亿美元成为阿里巴巴的股东之一。同时,阿里巴巴(中国)网络技术有限公司全面收购雅虎中国,并更名为阿里巴巴雅虎。2005年11月9日阿里巴巴正式宣布雅虎在中国的业务重点方向将全面转向搜索引擎,雅虎中国传统的门户型首页退出历史舞台,取而代之的是一个简洁的搜索引擎页面。2006年8月15号雅虎搜索新品种正式推出,包括两个方面:一是雅虎中文版首页(http://cn.yahoo.com)围绕社区化搜索进行调整;二是雅虎专业的搜索引擎独立域名www.yahoo.cn正式启用,满足个性化搜索的需求。2007年5月15日雅虎中国正式更名为中国雅虎。

Yahoo原以分类目录体系而著称,其类目主要由人工编排,通常有十几层,用户可以迅速找到相关站点,由于现已开发出独立的搜索引擎技术,进而也转向了全文搜索。中国雅虎已经不提供雅虎分类目录,只有一个类似上网导航的网址大全(http://site.yahoo.com.cn),而Yahoo总站和台湾地区的yahoo的分类目录仍保留,例如打开链接http://dir.yahoo.com,可以进入Yahoo的目录体系,14大类未变,小类略有调整。

中国雅虎搜索的首页如图3.14所示。界面简单而清晰,有网页、图片、音乐、资讯等搜索类别。用户输入关键词,点击“搜索”按钮,就可以根据输入的关键词执行搜索命令。当输入关键词时,搜索框会展开下拉的提示框,向用户展示与输入关键词最接近的热门查询词。例如,输入“奥运会”,雅虎搜索会下拉提示框显示“奥运会”、“奥运知识”、“奥运门票”等。如果无法打开某个搜索结果,或者打开速度特别慢,可以使用雅虎搜索的“快照”功能。如果想在搜索结果中不包含某些特定的词,可以使用减号“-”除去这些词(注意:减号前面必须加空格)。雅虎搜索不区分大小写,搜索引擎会把所有的字母当作小写处理。此外,雅虎高级搜索语法还包括以下几项:图3.14 中国雅虎首页“title:”针对标题进行搜索。例如,搜索“title:奥运会”,搜索引擎会返回所有标题中包含“奥运会”的网页。“link:”用于查找所有链接到某个网址的网页。例如,搜索“link:http://www.sina.com.cn”,会得到所有连接到“www.sina.com.cn”的网页;搜索“奥运会link:http://www.sina.com.cn”或“link:http://www.sina.com.cn奥运会”会得到所有连接到“www.sina.com.cn”的网页中包含“奥运会”一词的网页。“site:”或“domain:”用于限定搜索结果的来源。例如,搜索“奥运会site:http://www.sina.com.cn”或“奥运会domain:http://www.sina.com.cn”,或将“奥运会”与site、domain语句调换位置,搜索引擎会返回域名“www.sina.com.cn”及其子域名中所有包含“奥运会”一词的网页。“hostname:”的用法与site、domain相同,只不过使用hostname时返回的只是在当前域名下的网页,而不包括其子域名中的网页。“url:”用于精确搜索rul。例如,搜索url:http://www.sina.com.cn,搜索引擎只会返回一个结果——新浪主页。

④天网(http://www.tianwang.com)

天网搜索(http://www.tianwang.com)的前身是北大天网(http://e.pku.edu.cn)。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在CERNET上向广大互联网用户提供Web信息搜索及导航服务,是国内第一个基于网页索引搜索的搜索引擎。2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。天网搜索继承了北大天网的所有知识产权,并与北大网络实验室保持着密切的合作伙伴关系。天网搜索秉承北大天网研发团队的优良传统,致力于探索和研究中英文搜索引擎系统的核心技术并不断推出更新的搜索产品。目前天网搜索引擎维护的文档数量达到6亿之多,并正在以平均每月一千万页文档的数量扩大着规模。天网搜索的中文文档数量超过4亿,其中包括html、txt、pdf、doc、ps、ppt等多种类型的文档和资源。天网主页如图3.15所示。图3.15 天网搜索主页

天网搜索提供网页检索、Maze资源检索和FTP资源检索。其中天网Maze是北大网络实验室的研究成果,是一款集收集和下载为一体的,基于P2P底层技术的客户端软件。它的目的是通过P2P的方式解决当前FTP服务器的缺陷以及所导致的在FTP搜索引擎内找到资源却无法有效下载的问题,为广大网友提供一种文件共享的新方法和文件下载的新路径。目前也是CERNET上最流行的文件检索及共享软件之一。

天网搜索不区分英文字母大小写,所有的字母均当作小写处理。天网搜索支持精确的短语匹配,一般情况下,用空格隔开的查询词不进行短语查询,如果需要,可以用“”括起来,当作短语来查询。从首页访问天网FTP搜索引擎可以包含“∗”号(通配所有字符)、“?”(通配一个字符)、空格(表示几个查询词的逻辑或运算)进行搜索。在高级搜索页面,可以实现文件大小过滤、文件日期过滤、文件类型、搜索的站点范围等多个条件的限定检索。

3.4.3 主题网关

搜索引擎面对的使用对象、索引范围、检索机制和检索结果的排序方法对那些需要特定信息的人们来说仍然是无助的。

主题网关(Subject Information Gateway, SIG),又被称为学科信息门户,是围绕某个主题而建立的网络信息资源导航服务,通过因特网向用户提供对文献、网站和服务的链接,实现网络信息资源的检索和开发利用。被引导的信息资源是由专家按照一定的选择标准和质量标准进行严格的质量控制,因而由主题网关引导的链接都是高质量的。信息资源的描述是图书馆学情报学、计算机科学和信息科学专家对图书馆应用、实践与数据库技术有机结合的结果,而不是计算机自动抽取文摘,因此信息资源的描述更为准确和完整,便于信息用户利用。除了按照一定的分类体系对被引导的内容进行组织之外,大部分主题网关服务还提供主题检索功能。

主题网关最初是英国电子图书馆(the Electronic Libraries Program, eLib)项目第一阶段计划中包括的网络资源存取(Access to Network Resources, ANR)项目的一部分,它的运作开始于1995年,其中社会科学主题网关SOSIG在eLib资助之前就已经建立起来。目前,国外建设的著名SIG达50多个,英国、美国、北欧国家、荷兰、德国和澳大利亚SIG的建设比较活跃。由于主题网关具有优于搜索引擎的特点,2001年底我国正式启动了中国国家科学数字图书馆(the Chinese Sci-ence Digital Library, CSDL)项目,虽然起步较晚,但是在SIG建设方面已经做了大量的研究和开发工作,取得了一定的成绩和经验,目前已经由CSDL资助建成并投入使用的有物理数学、生命科学、图书情报、化学和资源环境科学5个主题网关。表3.5 国内外著名主题网关举例

资料来源:黄如花.学科信息门户信息组织的优化.图书情报工作,2005(7)

3.4.4 其他网络信息检索服务

除了搜索引擎和主题网关,其他网络技术和服务,如RSS技术、Wiki技术、P2P对等网络服务等逐渐成为人们获取网络信息的工具,本节将对这些技术进行简单介绍。

1.博客和RSS

RSS作为缩写,在英文中可以有几个源头,并被不同的技术群体做不同的解释,既可以是“Rich Site Summary”,也可以是“RDF Site Summary”,而最常见的被认为是“Really Simple Syndication”,所以也常被称为是简易信息聚合。不管名称如何,RSS所实现的是站点用来和其他站点之间共享及聚合内容的一种简易方式,是类似“推”(Push)的技术,目前也是一种比较流行的浏览访问网站的方式,保证用户不必登陆实际的网站就可以看到要浏览的网站的内容。其实RSS是一种XML格式的文档,或者说是一个XML的应用标准,并遵照W3C的RDF标准,它包含了设有兴趣组项目的频道,而这些兴趣组项目含有信息小结(摘要)以及指向真实全文信息的链接。简单地说,RSS是一种由网站直接把网络信息送到用户桌面的技术,用户可以通过RSS阅读器订阅自己感兴趣的内容,当网站内容更新时,用户会看到新信息的标题和摘要,并挑选其中更感兴趣的来阅读全文。

早在20世纪90年代末,RSS技术就已经由远景公司提出,并集成在当年红极一时的Navigator浏览器中。不过当时互联网上的信息非常贫乏,所以RSS在商业应用上失败也是理所当然的。随着博客(Blog)的兴起,以及博客广泛采用RSS作为信息交流技术,RSS开始受到人们的关注,加之User Land、Yahoo、Google等公司的大力支持,RSS才逐渐兴盛起来。现在许多博客网站都提供RSS服务,国内一些网站也开始推行这项服务,例如计算机世界网、新华网、天极网等等,通常只要在网站上看到RSS或XML的标志,就表示这个网站提供RSS服务。

目前,网络上存在着很多在线RSS阅读器,所以用户在选择的时候难免会无从下手。这里介绍几个常见的RSS阅读器。(1)Google Reader(http://www. google.com/reader)

Google Reader借助Google的声势,已经成为在线阅读器的领头羊,支持中文界面,还支持HTTPS,阅读速度非常快。(2)Bloglines(http://www. bloglines.com)

目前排在第二的位置。虽然做的最早,但据FeedBurner统计,Bloglines的市场份额已经远远低于Google Reader了。(3)NewsGator(http://www. newsgator.com)

英文界面,速度一般,对中文支持不太友好。阅读界面上会显示Google Adsense的广告。(4)Rojo(http://www. rojo.com)

英文界面,速度慢。中文支持极其不好,中文目录会出现乱码且无法修改删除,阅读界面上会显示Google Adsense的广告。(5)抓虾(http://www.zhuaxia.com)

一个国内的阅读器,目前已经是国内阅读器的翘楚。浏览速度尚可,但无法按目录浏览,这是一个很大的功能缺陷。

2.Wiki技术

Wiki的中文译名为“维客”或“维基”。简而言之,Wiki就是“大家协作撰写同一(批)网页上的文章”。其代表应用是知识库的合作编写。Wiki使用简便,内容开放,与其他文章内容固定的互联网应用形成了鲜明的对比。在Wiki网站上,访问者可以修改、完善已经存在的页面,或者创建新内容。通过Wiki协作,Wiki网站可以不断完善、发展,成为优秀的网站,例如维基百科全书(Wikipedia)、天下维客(Allwiki)等。

Wiki一般被认为正式诞生于1995年,历史并不长,无论是Wiki概念本身,还是相关软件系统的特性,都还在热烈的讨论中。但迄今已有大量活跃的Wiki站点。目前世界上最大的Wiki系统是Wikipedia,创建于2001年1月15日,其英文版网址为http://en.wikipedia.org,中文版网址为http://zh.wikipedia.org。Wikipedia是一个完全由网民撰写、管理的网站,在6年多时间里积累了253个语种版本、总计800万篇文章的项目。迄今为止,它是最为成功的Wiki项目,在短短数年间就超越《大不列颠百科全书》、Encarta(微软百科全书),在2008年成为全球流量最高的第9大网站。中文维基百科的主页如图3.16所示。图3.16 中文维基百科主页

在中文维基百科主页的右上角屏幕上有一个搜索框,在搜索框中输入您想搜索的字词,按回车键就可以得到结果。Wikipedia搜索支持逻辑运算符“and”、“or”、“not”及括号。或者也可以点击“分类”,直接按照分类索引的方式进行浏览检索。如图3.17所示。图3.17 中文维基百科分类索引

3.P2P对等网络

P2P是peer-to-peer的缩写,被称为对等互联网技术,或者称为点对点网络技术,它可以让用户直接连接到其他用户的计算机,进行文件共享与交换。短短几年内,P2P软件能在互联网中迅速普及,其中起到主导作用的是一款P2P文件共享软件Napster。Napster技术在1999年由美国东北大学的在校生Shawn Fanning开发成功,当时只不过想和他在弗吉尼亚的朋友共享mp3歌曲文件,但Napster迅速在众多mp3数字音乐爱好者中传播开来,人们可以通过Napster在网络上搜索自己需要的mp3音乐,并从任一台联网且使用Napster的计算机中下载。当然,如果您愿意的话也可以将自己觉得有价值的东西共享,让其他的网友进行下载。简单地说,P2P直接将人们联系起来,让人们通过互联网直接交互。P2P使得网络上的沟通变得容易、更直接地共享和交互,真正地消除中间商。P2P就是人们可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P另一个重要特点是改变互联网现在的以大网站为中心的状态,重返“非中心化”,并把权力交还给用户。P2P看起来似乎很新,但是正如B2C、B2B是将现实世界中很平常的东西移植到互联网上一样,P2P并不是什么新东西。在现实生活中我们每天都按照P2P模式面对面地或者通过电话交流和沟通。

到了2000年,P2P技术的发展就得使用月甚至日来记载了。直到现在使用P2P技术的软件比比皆是,人们也在不知不觉中感受到了P2P作为高科技发展载体的快乐。平常我们使用的QQ、MSN就不提了,其他软件更是铺天盖地,让人目不暇接,例如电驴(eMule)、OPENEXT、迅雷(Thunder)、易载(ezpeer)、酷狗(KuGoo)等等。其实说到P2P,就不能不提BitTorrent(中文全称比特流,简称BT),这个被人们戏称为“变态”的词几乎在大多数人的感觉中与P2P成了对等的一组概念,而它也将P2P技术发展到了近乎完美的地步。实际上BT原先是指一个多点下载的P2P软件,它不像FTP那样只有一个发送源。BT有多个发送点,当你在下载时,同时也在上传,使大家都处在同步传送状态。应该说,BT是当今P2P最为成功的一个应用。如果解释一下的话,BT首先在上传者端把一个文件分成了多个部分,客户端甲在服务器随机下载了第N部分,客户端乙在服务器随机下载了第M部分。这样甲的BT就会根据情况到乙的电脑上去拿乙已经下载好的第M部分,乙的BT就会根据情况到甲的电脑上去拿甲已经下载好的第N部分。

目前,P2P最流行的应用绝大部分还集中在上述文件共享软件上,但其与信息检索、搜索引擎技术的结合却是最有价值的。目前的搜索引擎如Google、Baidu等都是集中式的搜索引擎,即由一个机群在互联网上自动读取信息,然后按照某种算法根据关键字将信息保存在一个海量数据库内,当用户提交搜索请求的时候,在海量数据库内部进行搜索。这些传统的搜索引擎都依赖于服务器。基于P2P的搜索引擎为网络信息搜索提供了全新的解决方法,其最大优点在于应用先进的对等搜索理念,对互联网进行全方位的搜索,不受服务器、数字资源文档格式及宿主设备的限制,其搜索深度和广度是传统搜索引擎难以比拟的。当前基于P2P技术的信息检索还处于探索阶段,尚不成熟,但其蕴含着巨大的商业前景和研究价值,将是未来互联网发展的重要趋势,会给互联网检索带来革命性的变化。

思考题1.简述信息检索的原理。2.查找资料有哪些方法?3.简述信息检索的基本流程。4.检索网络信息资源除了使用搜索引擎外,还可以有哪些工具?

参考文献1.信息检索的基本概念.http://211.64.199.229/libconf/teach/retriconcept.htm,2010-6-30.2.王知津,崔永斌.科技信息检索.天津:南开大学出版社,2003.1:36-57.3.姚建文.论手工检索与计算机检索不可偏废.高校图书馆工作,2001(5):59-61.4.计算机存储设备及存储容量.[2010-6-30].http://www.dzwebs.net/2825.html.5.叶继元.信息检索导论(第2版).北京:电子工业出版社,2009.6.张厚生.信息检索(第4版).南京:东南大学出版社,2006.8:16-19.7.马张华,侯汉清.文献分类法主体法导论.北京:北京图书馆出版社,1999.7:1-5.8.张丽君.文献信息检索技术综述.四川冶金,2008(12):58-61.9.词性.[2010-8-23].http://baike.baidu.com/view/377635.htm?fr=ala0_1_1.10.Google.[2010-8-26].http://www.google.com.hk.11.百度.[2010-8-26].http://www.baidu.com.12.天网.[2010-8-26].http://www.tianwang.com.13.雅虎.[2010-8-26].http://www.yahoo.com.14.张兴华,王仕雪.百度检索引擎查询技巧.现代情报,2005(4):192-194.15.许芳敏.中文四大全文期刊数据库比较分析.图书馆工作与研究,2005(2):56-58.16.Wiki.[2010-8-23].http://baike.baidu.com/view/737.htm.17.P2P.[2010-8-23].http://baike.baidu.com/view/3280.htm.18.Blog.[2010-8-23].http://baike.baidu.com/view/560.htm.19.李黎.Elsevier电子期刊数据库的主要功能与检索.情报探索,2008(8):69-70.

4 学科信息资源

4.1 综合性学科

随着计算机与互联网络数据库技术的发展与成熟,国内外出现了许多大型综合性学科资源检索平台,将多个学科、不同文献类型的信息资源整合在一起,满足用户利用同一个检索平台检索多学科信息资源的需求。

4.1.1 核心学科资源

1.CNKI知识网络服务平台(1)资源概况(http://dlib.cnki.net/或http://dlib.edu.cnki.net/)

中国知识基础设施工程(China National Knowledge Infrastructure, CNKI)是由清华同方股份有限公司组织实施的国家信息化重点工程。CNKI知识网络服务平台的信息资源有:中国期刊全文数据库、中国期刊全文数据库(世纪期刊)、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、《中国统计年鉴数据库》(挖掘版)、中国专利全文数据库、中国工具书网络出版总库、中国医院知识仓库等多种数据库。目前,CNKI知识网络服务平台已收录7000多种期刊、近1000种报纸、18万本博士/硕士论文、16万册会议论文、30万册图书以及国内外1100多个专业数据库。

CNKI期刊全文数据库可提供丰富、及时的学习资源,推动图书馆期刊资源的广泛利用,保证图书馆长期、完整、连续的文献收藏;优秀博硕士学位论文库能反映国内科研的前沿水平,系统性强,提示新的研究课题和方向;而报纸全文数据库以时事性强,浅显易懂,易引起关注。CNKI系列数据库产品既拥有多种复杂功能,同时也提供方便简单的检索操作,可以让用户非常方便的获得全文。

利用CNKI数据库学术文献总库进行知识搜索,可以进行句子检索、科研基金检索、学者检索、作者发文检索和引文检索等,其中比较有特点的是“工具书和知识元检索”,该检索功能可以实现学术概念的定义、中英文翻译、学术发展趋势等多角度的揭示。以“信息素养”这一学术概念举例来说,可以了解“信息素养”这一学术概念的界定以及这一领域的学术趋势,见图4.1,图4.2:图4.1图4.2

CNKI数据库平台除了给用户提供种类齐全的信息资源外,还有一个非常有特色的服务功能:“知网节”。所谓“知网节”,是指提供单篇文献的详细信息和扩展信息浏览的页面。它不仅包括了单篇文献的详细信息,如题名、作者、机构、来源、时间、摘要等,还是各种扩展信息的入口汇集点,如参考文献、引证文献、共引文献、读者推荐文章、相似文献、相关研究机构、相关文献作者、文献分类导航、相关期刊、相同导师文献。这些扩展的链接信息是动态的,将随着系统中资源的增减而变化。扩展信息通过概念相关、事实相关等方法提示知识之间的关联关系,达到知识扩展的目的,有助于新知识的学习和发现,帮助实现知识获取、知识发现。(2)检索方法与范例

[检索实例①]查找东南大学师生发表的有关民用建筑方面的论文

CNKI可利用数据库导航来进行检索,包括期刊导航、基金导航、作者单位导航、内容分类导航、博士学位授予单位导航、硕士学位授予单位导航、会议主办单位导航、会议论文集导航、报纸导航、出版社导航等。

本实例可以先利用内容分类导航找到“民用建筑”这个类目,内容分类导航分十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。十专辑下分为168个专题和近3600个子栏目。通过分类检索,可以获得一个类目的全部文献,有较高的查全率。

检索步骤:

A:内容分类导航>专辑导航>理工C(机电航空交通水利建筑能源)>建筑科学与工程>建筑工程>建筑设计>民用建筑

B:限定单位:东南大学

有的读者对于“民用建筑”可能会采用关键词检索,其检索结果与分类检索的结果会有很大的不同,请读者自行分析比较。

[检索实例②]查找东南大学陆祖宏教授以第一导师所指导的硕士生优秀学位论文,根据学位论文内容了解国内相似研究概况

本实例可利用CNKI单库检索的高级检索方式,利用“中国优秀硕士学科论文全文数据库”,分别选择检索项“第一导师”及“作者单位”,输入检索词“陆祖宏”及“东南大学”,可以获得陆祖宏教授以第一导师所指导硕士生的优秀学位论文12篇,通过这些学位论文,能够大致了解陆祖宏教授近些年的研究课题方向,对于立志报考陆教授研究生的同学有很好的参考价值。

对于国内相似研究概况,读者可以通过每篇学位论文所包括的相关概念,提炼关键词进行检索,也可以利用CNKI数据库平台提供的“知网节”,快速获取参考文献、引证文献、共引文献、读者推荐文章、相似文献、相关研究机构、相关文献作者、文献分类导航、相关期刊、相同导师文献等链接资源,根据上述信息总体上了解国内相似研究的概况。

2.万方数据知识服务平台(http://www.wanfangdata.com.cn)

万方数据资源系统是建立在因特网上的大型科技、商务信息平台,内容涉及自然科学和社会科学各个专业领域。主要资源有数字化期刊、科技信息、中国学位论文全文数据库、中国学术会议论文全文数据库、中国标准数据库等。该数据库平台在全部论文上采用了万方最新WFIRC检索系统,增强了检索功能。

数字化期刊数据库收录自1998年以来国内出版的各类期刊6000余种,其中核心期刊2500种,论文总数量达1千余万篇,每年约增加200万篇,每周两次更新。

学位论文数据库收录自1980年以来我国自然科学领域各高等院校、研究生院以及研究所的硕士、博士及博士后论文共计136万余篇,其中211高校论文收录量占总量的70%以上,论文总量达110万篇,每年增加约20万篇。

会议论文数据库收录由中国科技信息研究所提供的1985年至今世界主要学会和协会主办的会议论文,以一级以上学会和协会主办的高质量会议论文为主,每年涉及近3000个重要的学术会议,总计97万余篇,每年增加约18万篇,每月更新。

外文文献数据库收录1995年以来世界各国出版的12634种重要学术期刊及1985年以来世界各主要学会、协会、出版机构出版的学术会议论文,每年增加论文20余万篇,每月更新,无全文。

专利全文数据库收录国内外的发明、实用新型及外观设计等专利2400余万项,其中中国专利331万余项,外国专利2073万余项,内容涉及自然科学各个学科领域,每年增加约25万条,中国专利每两周更新一次,国外专利每季度更新一次。

中外标准数据库收录中国标准、国际标准及各国标准约26万条记录,每月更新。

科技成果数据库收录国内的科技成果及国家级科技计划项目,内容涉及自然科学的各个领域,总记录约50万项,每月更新。

政策法规数据库收录自1949年建国以来的全国各种法律法规约27万条,内容不仅包括国家法律法规、行政法规、地方法规,还包括国际条约及惯例、司法解释、案例分析等。

3.读秀学术搜索(http://www.duxiu.com)(1)资源概况

从严格意义上来讲,读秀学术搜索是一个综合型的中文文献搜索和文献资源服务平台,既可以提供对图书、期刊、报纸、学位论文、会议论文等文献资源及全文内容进行深度检索,又能提供文献全文传递服务。现有280万种中文图书题录信息(约占1949年以来全部出版中文图书的95%以上)、160万种图书原文,可搜索的信息量超过6亿页,同时读秀学术搜索能将检索结果与馆藏各种资源库对接,订购该资源的图书馆可以对本馆图书和期刊等资源进行对接。另外,读秀还提供资料的部分原文试读,对读者需要的文献进行传递,将相关学术资料发送到读者邮箱。(2)检索方法与范例

读秀主要频道有知识频道、图书频道、期刊、报纸、学位论文、会议论文、视频等其他频道。

知识频道(即全文检索频道):是将数百万种图书等学术文献资料打散为6亿页资料,当读者输入一个检索词,将获得6亿页资料中所有包含该检索词的章节、文章等,并且可以对任何一个章节进行页数不等的试读。为方便快速地找到所需要的结果,可以使用多个关键词或较长的关键词进行检索。

图书频道:读秀以图书类信息的检索和提供最有特色。图书检索提供了书目、章节、全文等检索途径,实现了目录和全文的垂直搜索,当读者查找到某一本书时,读秀为读者提供该图书的封面页、版权页、前言页、目录页以及正文部分页(7~30页不等)的试读,显示的页面不能打印,如需要可进行图像的拷贝,或者是采用OCR文字识别的方式,转换成文本方式打印。

如果本馆订购了该本图书,读秀提供给读者“本馆馆藏纸书”和“本馆电子全文”两个相关链接,可以方便读者通过OPAC链接查找、借阅纸本图书或者直接阅读订购的电子全文。

文献传递服务是读秀服务的另一个特点。读者可以先根据显示的目录页选定所需的页数,通过“图书馆文献传递中心”提交需求申请,每次文献原文不超过本书的20%。读秀将原文以电子邮件的方式发送到读者的信箱中,每次发送的原文可以有20天的有效期,这一期间内,读者可以随时浏览。

[检索范例①]查找读秀学术搜索中有关新兴经济体方面的中文文献

选择知识频道,在搜索框中输入关键词“新兴经济体”,然后点击“中文文献搜索”,将在海量的图书数据资源中,围绕“新兴经济体”深入到图书的每一页资料中进行信息深度查找。得到相关条目1700余条,图书46种,期刊文献800余篇,学位论文、会议论文、视频、网页信息等若干条记录,如图4.3。点击相关条目“夹缝中的新兴经济体”,可查看图书中相关试读页面。点击“资料来源”可查看书名、作者、页码信息,还可用“文字识别”功能拷贝书中文字并粘贴到文本文档,如图4.4。图4.3 读秀学术搜索检索结果界面图4.4 读秀学术搜索图书中相关试读页面

4.中国科学引文数据库(http://sdb.csdl.ac.cn/)

中国科学引文数据库(Chinese Science Citation Database,简称CSCD),创建于1989年,收录我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术、环境科学和管理科学等领域出版的中英文科技核心期刊和优秀期刊千余种,目前已积累从1989年到现在的论文记录300万条,引文记录近1700万条。数据库内容丰富、结构科学、数据准确。系统除具备一般的检索功能外,还提供新型的索引关系——引文索引,使用该功能,用户可迅速从数百万条引文中查询到某篇科技文献被引用的详细情况,还可以从一篇早期的重要文献或著者姓名入手,检索到一批近期发表的相关文献,对交叉学科和新学科的发展研究具有十分重要的参考价值。中国科学引文数据库还提供了数据链接机制,支持用户获取全文。

中国科学引文数据库具有建库历史悠久、专业性强、数据准确规范、检索方式多样、完整、方便等特点,自提供使用以来,深受用户好评,被誉为“中国的SCI”。

中国科学引文数据库是我国第一个引文数据库。曾获中国科学院科技进步二等奖。1995年CSCD出版了我国的第一本印刷本《中国科学引文索引》,1998年出版了我国第一张中国科学引文数据库检索光盘,1999年出版了基于CSCD和SCI数据,利用文献计量学原理制作的《中国科学计量指标:论文与引文统计》,2003年CSCD上网服务,推出了网络版,2005年CSCD出版了《中国科学计量指标:期刊引证报告》。2007年中国科学引文数据库与美国Thomson-Reuters Scientific合作,中国科学引文数据库将以ISI Web of Knowledge为平台,实现与Web of Science的跨库检索,中国科学引文数据库是ISI Web of Knowledge平台上第一个非英文语种的数据库。

中国科学引文数据库已在我国科研院所、高等学校的课题查新、基金资助、项目评估、成果申报、人才选拔以及文献计量与评价研究等多方面作为权威文献检索工具获得广泛应用。主要包括:自然基金委国家杰出青年基金指定查询库;第四届中国青年科学家奖申报人指定查询库;自然基金委资助项目后期绩效评估指定查询库;众多高校及科研机构职称评审、成果申报、晋级考评指定查询库;自然基金委国家重点实验室评估查询库。中国科学院院士推选人查询库;教育部学科评估查询库;教育部长江学者申报人指定查询库;中科院百人计划申报人指定查询库等。

5.ISI Web of Knowledge平台(1)资源概况(http://www.isiknowledge.com/)

ISI Web of Knowledge是汤姆森科技信息集团(Thomson Scientific)2001年推出的基于Web的学术信息资源整合体系。通过该平台,用户可跨库同步检索多个数据库,并且可与图书馆的馆藏OPAC系统及期刊全文数据库等实现无缝链接。该检索体系还提供了几种信息管理工具,实现信息检索、获取、分析、管理与评价的一体化。2005年,Thomson Scientific在过去回溯到1945年的数据基础上,增加1900—1944年回溯数据文档Century of Science,将科学引文索引的数据回溯到百年之前。同年,加菲尔德(E.Garfield)博士论述了回溯数据访问的重要性:“无论从事哪个领域的研究,不可能与同一领域中50~100年前的研究毫无关联……有数据表明,人们对早期原始文献的参考相当频繁,人们仍频繁地研究着成千上万的论文,这些论文对人类十分重要。将这些资料作为调查的起点而加以利用,的确起到了扩大视野的作用。”

ISI Web of Knowledge检索平台下可检索Web of Science、JCR on the Web及Derwent Innovations Index等数据库。

①Web of Science

Web of Science是世界上第一个,也是影响力最大、最权威的引文数据库,收录内容涵盖自然科学、工程技术、生物医学、社会科学、艺术与人文等领域,由以下几个重要部分组成:1)Science Citation Index Expanded(SCI-Expanded,科学引文索引扩展版):收录6934种期刊,可回溯到1900年;2)Social Sciences Citation Index(SSCI,社会科学引文索引):收录2113种期刊,可回溯到1956年;3)Arts&Hu-manities Citation Index(A&HCI,艺术与人文科学引文索引):收录1170种期刊,可回溯到1975年;4)Conference Proceedings Citation Index(CPCI,原ISI Proceedings):收录国际会议、专题讨论会、研讨会、座谈会、研习会和代表会议的会议文集;5)Current Chemical Reactions:收录100万条化学反应,可回溯到1840年;6)Index Chemicus:收录260万个化合物,可回溯到1993年。

通过Web of Science,用户可从经过遴选的9300多种国际性核心学术期刊中检索到各个学科当前及过去100年里的相关信息。它还收录了每一篇论文中所引用的参考文献,并按照被引作者、出处和出版年代编制成索引。通过独特的引文检索,可以用一篇文章、一个专利号、一篇会议文献、一本期刊或者一本书的题名作为检索词,检索这些文献的被引用情况,轻松地追溯课题的起源和发展,了解研究内容和研究方向的演变,追踪其最新的进展,提示科学研究之间隐含的联系,全面掌握有关某课题的过去、现在与将来。既可以越查越旧,也可以越查越新、越查越深入,完全不限于关键词的变迁,突破了关键词检索的局限性。

②JCR on the Web(Journal Citation Reports,期刊引用报告,JCR)

JCR on the Web是一个综合性、多学科的期刊分析与评价报告,它客观地统计Web of Science收录期刊所刊载论文的数量、论文参考文献的数量、论文的被引用次数等原始数据,再应用文献计量学的原理计算出各种期刊的影响因子、立即影响指数、被引半衰期等反映期刊质量和影响的定量指标。JCR on the Web全面综合地评价和分析了国际性学术期刊。图书馆可利用JCR Web的信息选择期刊订购;论文作者可根据JCR Web的影响因子排名决定投稿方向。

③Derwent Innovations Index(DII,德温特发明专利索引)

将“世界专利索引”(WPI)和“专利引文索引”(PCI)的内容整合在一起,采用ISI Web of Knowledge平台,通过学术论文和技术专利之间的相互引证的关系,建立了专利与文献之间的链接。DII收录全球40多个专利机构的1300万条基本专利,3000万项专利。每周增加25000多个专利,分为Chemical、Electrical&Electronic、Engineering三部分。(2)基本概念

①引文(Citation)

指出现在文献末尾“参考文献”(References)或文中“脚注”(Footnote)中的被引用过的文献;其作者称为引文作者或被引作者(Cited Author)。

研究人员通过参考文献可了解该研究工作中基于前人的研究工作,如其理论基础、实验方法等。

②来源文献(Source)或施引文献(Citing Articles)

提供引文的文献本身称为来源文献(Source Item, Source Article),其作者称为引用作者(Citing Author)或来源文献作者。

研究人员通过了解论文被引用情况(查找施引文献Citing Articles),即可迅速掌握有关进展和动向,从中掌握某一项研究成果是如何被进一步发展和利用的。了解论文之间的联系,也就了解了深藏在大量文献背后的研究思路和方法,从而有利于进一步提出新的研究课题和方向。

③引文索引(Citation Index)

引文索引是以引文作者为检索出发点,查寻其历年发表的文献被他人引用情况的一种索引。

引文索引提示文献之间的内在逻辑与联系,反映文献之间引证与被引证之间的关系,在检索方面突破了关键词检索的局限性。从一篇高质量的文献出发,通过Times Cited(被引频次)字段可以越查越新,通过了解该论文被引用的情况,掌握有关最新动态和发展方向;通过References(参考文献)字段可以越查越旧,追根溯源,了解该论文中科学研究的源头;通过Related Records(相关记录)字段,可以越查越广或越查越深,检索到更多与本课题相关的文献,这些相关文献有可能不在同一领域或采用了不同的关键词。

④引文数据库(Citation Index Database)

引文数据库是包括引文索引在内的综合查寻系统,其检索点除引文作者外,还有来源文献作者及其所属机构、城市、国别、文献中的关键词、人物等以及来源出版物信息。

⑤被引频次(Times Cited)

被引频次指某文献发表后被数据库收录的其他论文作为参考文献加以引用的总频次,代表文献的影响力。

⑥影响因子(Impact Factor, IF)

影响因子是指某期刊前两年发表的论文在当年被引用次数与其两年发表论文总篇数之比值。IF值可较公平地克服不同期刊由于发文量多寡所致的引文量偏差,成为国际上通用的评价,是期刊质量的指标。(3)检索方法与范例

当Web of Science收录了一本期刊,除了广告和漫画外会收录其他全部内容,包括所有文献类型,如论文、社论、评论综述、信函、会议摘要、临床报告和其他内容。Web of Science中的每一条记录包含了如文献题名(Title)、作者(Author(s))、期刊来源(Source)、卷(Volume)、期(Issue)、页码(Pages)、出版时间(Published)、文摘(Abstract)、文献类型(Document Type)、语种(Language)、作者电子邮箱(E-mail)、作者单位地址(Address)、出版商(Publishers)、期刊的学科分类(Subject Cat-egory)、国际标准连续出版物号(ISSN)和Keyword Plus(即来自于本文参考文献题名中的关键词),此外还提供了3个独特的字段Times Cited(被引频次)、References(参考文献)、Related Records(相关记录)。

[检索实例①]查找论文被SCI收录及被引用情况

以东南大学医学院窦骏教授为例,查找其论文被SCI收录及被引用情况。在“地址”检索项输入检索词“SE OR southeast”,在“作者”检索项输入检索词“Dou J”。图4.5

共得到12篇文献,通过文献内容以确定是否均为东南大学医学院窦骏教授的文献。每篇文献均有被引次数字段,点击链接,可以得到该篇论文的被引用情况。论文被引用情况也可以通过“被引参考文献检索”界面检索。

图4.6显示了其中一篇论文“CELLULAR&MOLECULAR IMMUNOLOGY 2007,4(6):467—472”在SCI中被引用了19篇次。图4.6“CELLULAR&MOLECULAR IMMUNOLOGY 2007,4(6):467—472”被引用情况

[检索实例②]查找某研究领域高影响力论文或最具影响力的研究人员

SCI检索结果可以按照时间、被引次数、作者、期刊进行排序。默认的排序选项是时间排序,如果想找到高影响力的文献,可以选择按被频次数排序(Time Cited)。检索有关肿瘤干细胞(Tumor Stem Cells)方面的文献,检索结果还可以通过进一步限定检索词或学科类别、文献类型来精炼检索结果。

通过检索结果的限定检索(Refine)功能,可以快速了解某研究领域的学科、文献类型、作者、机构、国家等分布情况。如:可以查找综述性文献,以便在宏观上把握国内外在某一研究领域或专题的主要研究成果、最新进展、研究动态、前沿问题或历史背景、前人工作、争论焦点、研究现状和发展前景等等。

通过分析检索结果(Analyze Results)功能,还可以找到研究的合作者或合作单位、合适的论文评审人等。查找有关肿瘤干细胞(Tumor Stem Cells)方面的文献,选择分析被引用次数最高的前1000篇论文,通过分析这些高频次被引论文来发现最具影响力的研究人员。

[检索实例③]如何获得某个研究人员的引文报告和H指数

利用检索结果界面Create Citation Report(创建引文报告功能),可以了解论文收录和引用分布情况,同时获得H指数。通过观察每篇论文的每年被引次数,您可以了解某个研究人员的研究成果哪些目前还被重点关注和引用。

H指数最早是由加州大学圣地亚哥分校物理学家乔治·赫希(Jorge E.Hirsch)提出的一种定量科研人员学术成就的方法。“H指数=n”的定义是:某位科学家发表的所有文章中,有n篇文章的被引次数不低于n次。赫希认为H指数能够比较准确地反映一个人的学术成就。一个人的H指数越高,则表明他的论文影响力越大。该指数也可以延伸至一个数据集。

检索东南大学陆祖宏教授被SCI收录的文献,可以生成其引文报告并获得其H指数。图4.7图4.8

[检索实例④]如何找到最适合自己研究领域的期刊发表论文

利用检索结果的分析功能,可以了解本研究领域中发表论文最多的期刊,同时通过全记录页面的链接了解期刊的影响因子,在综合考虑之后就可以选择最佳的投稿方式。

[检索实例⑤]如何随时了解某个课题的最新进展

通过Web of Science的定题跟踪和引文跟踪服务(Citation Alerts),可以及时了解某个课题的最新进展。跟踪服务会直接将跟踪结果发到注册邮箱中。

6.ProQuest检索平台(http://proquest.umi.com/login)(1)资源概况

ProQuest数据库平台是由美国ProQuest公司(原ProQuest Information and Learning公司)创建的在线全文检索及传送系统。ProQuest Information and Learning公司创建于1938年,自1985年起,开始开发制作电子资源产品及检索利用技术,2007年与原美国CSA(Cambridge Scientific Abstracts)公司合并,成立新的ProQuest公司。公司通过ProQuest数据库平台提供系列数据库,涉及商业管理、社会与人文科学、科学与技术、金融与税务、医药学等领域,该平台的主要特点是将二次文献与一次文献“捆绑”在一起,为最终用户提供文献获取一体化服务。

通过该平台可以检索ProQuest数字化博硕士论文文摘数据库(ProQuest Dis-sertations&Theses, PQDT,原名PQDD)。ProQuest公司是世界上最早及最大的博硕士论文收藏和供应商,收录有欧美1000余所大学文、理、工、农、医等领域的博硕士学位论文。该库最早回溯到1861年,最晚为上学期的毕业论文,对1997年以来发表的论文,用户可免费浏览前24页。

国内若干图书馆、文献收藏单位每年联合购买一定数量的ProQuest学位论文全文(PDF格式),提供网络共享,即:凡参加联合订购成员馆均可共享整个集团订购的全部学位论文资源。ProQuest学位论文全文中国集团在国内已建立了3个镜像站,登录其中任一个网址检索该数据库,可下载博士论文的PDF全文。(2)检索方法与范例

检索方法主要有基本检索、高级检索及论文浏览检索。

[检索实例①]查找有关医学影像学中有关生物医学工程方面的论文

本实例采用论文分类浏览,按学科浏览,先选择学科类目“MEDICAL IMAG-ING”,再进一步限定学科类目“BIOMEDICAL ENGINEERING”。图4.9 学科浏览界面图4.10 有关“MEDICAL IMAGING”的学位论文图4.11 医学影像学中有关生物医学工程方面的论文

[检索实例②]查找加州大学伯克利分校有关医学影像学方面的论文

本实例采用论文分类浏览,按地理浏览,由UNITED STATES-CALIFORNIA找到UNIVERSITY OF CALIFORNIA, BERKELEY,再浏览“MEDICAL IMAGING”类目。图4.12图4.13

7.EBSCOhost数据库平台(http://search.ebscohost.com/)(1)资源概况

EBSCO检索平台提供以下几个数据库。

①学术期刊数据库(Academic Search Premier):多学科的全文数据库。涉及的文献主题主要有社会科学、人文、教育、计算机科学、工程、物理、化学、艺术、医学等等。收录期刊近8000种,其中4700多种为全文期刊。

②商业资源数据库(Business Source Premier):文献涉及所有的商业经济领域,主要包括营销、经济管理、金融、会计、经济学、劳动人事、银行以及国际商务等。收录期刊近9000种,其中1100多种为同行评审期刊(Peer-Reviewed Journals)。此外,还收录关于市场、行业、国家的研究报告。

③ERIC:收录关于各级教育的期刊等出版物,包括近1000种教育或与教育相关的期刊和摘要。

④History Reference Center:收录涉及历史的多种出版物,包括百科全书、传记、历史方面的期刊、历史资料、历史人物以及他们的照片及影像资料等。

⑤MasterFILE Premier:专门为公共图书馆而设计的多学科数据库,主要收录2000多种出版物,包括参考工具书、原始文献、传记、图像、地图、国旗等等。

⑥MEDLINE:收录文献涉及所有的医学领域,包括牙科和护理的文献。

⑦Newspaper Source:收录近30种美国及世界性的报纸全文;另外收录来自广播电视的及200种地区性的报纸全文内容。

⑧Professional Development Collection:为教育工作者而设计的数据库。收录550多种高质量的教育方面的期刊及教育研究报告。

⑨Regional Business News:收录的主要是美国的地区性的商业出版物,包括商业期刊、报纸及通讯等。

⑩Vocational and Career Collection:专门为职业教育者而设计的数据库。收录职业发展、教育、培训方面的出版物,主要是贸易与行业相关的期刊。(2)检索方法与范例

分基本检索、高级检索和视觉检索。

[检索实例]查找有关肝癌老年男性治疗后生存率方面的文献

本实例可采用视觉检索,输入检索词“liver cancer”,再根据导航(Male-Aged-Treatment Outcome-Survival Rate),获得最终文献,如图4.14所示。图4.14

8.EB Online(不列颠百科全书网络版)(网址:http://search.eb.com/)(1)资源概况《不列颠百科全书》网络版(Encyclo-pedia Britannica Online,简称EB Online)是世界上公认的权威参考工具书,它整合了Encyclopedia Britannica(大英百科全书完整版)和Britannica Concise Encyclo-pedia(大英百科全书简明版)两部百科全书。收录200 000多个词条,340 000多种词类变化,126 000多篇文章,23 000多篇传记,3 400多张的图解、地图、统计图,3 300多段影片、动画、声音文件等多媒体数据,可连结超过700种的电子期刊文章。还包括韦氏字典&辞典(Merri-am-Webster Dictionary&Thesaurus)、大英精选网站(The Web’s Best Sites)、大英知识部落格(Britannica Blog)、动物拥护站(Advocacy for Animals)、影音收藏柜(Video Collection)、大事年表(Timelines)、全球资料分析(World Data Analyst)、国家比较(Compare Countries)、世界地图(World At-las)、名人格言(Notable Quotation)和经典文献(Gateway to the Classics)。(2)检索方法与范例

EB Online同时具有浏览和检索功能。其中浏览功能包括:按字母顺序浏览、主题浏览、世界地图浏览、年鉴浏览和时间(大事纪年表)浏览等多种途径。检索方面,可根据不同需求,选择不同层次和类型的文献。

[检索实例]中美两国总况对比图4.15 EB Online主页面

选择主页检索工具中的Country Comparison,选择中国与美国(如图4.16),在得到的两国简要情况的对比后(如图4.17),还可以进一步选择国旗、统计数据等进行更详细的对照。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载