新编药学信息检索教程(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-13 15:19:28

点击下载

作者:赵鸿萍

出版社:东南大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

新编药学信息检索教程

新编药学信息检索教程试读:

前言——新探索、新理念、新体系、重实用

站在药学领域研究工作者的立场,该书从检索、获取、利用信息的角度积极探索如何重构药学信息检索的知识体系,和传统的药学信息检索教材相比具有以下7个方面的特色:1.全文数据库的讲解不再是重点

随着信息技术的飞速发展,特别是百链云图书馆的推出,获取文献全文的方式发生了根本性变化。在拥有宿主全文数据库使用权限的情况下,通过检索结果页面的“获取全文”“电子全文”按钮可以轻松下载全文,通过文献管理工具还可以批量下载全文;在没有宿主全文数据库使用权限的情况下,可以在百链中检索目标文献,然后点击检索结果页面的“邮箱获取全文”,输入检索者邮箱后很快会收到全文邮件。因此,学习全文数据库收录范围及使用方法已经不如过去重要。这些知识是情报机构选购全文数据库时关注的问题,而这些信息可以通过数据库服务商的推介按需获取。2.专利文献的重要性凸显

众所周知,新药研发是医药企业的生命线,立项调研极其重要。新药立项调研需要检索的信息种类很多,其中专利是重中之重。全面的专利检索与分析,是实现专利掘金、避免重复研究、应对专利侵权和纠纷的基础与保障。同时,专利文献含金量极高,世界知识产权组织的统计结果显示,世界上90%~95%的发明成果以专利形式问世,其中约有70%的发明成果无法通过其他非专利形式获取。对于药学研究工作者,专利的价值甚至超越了书籍、期刊。但药物专利有其固有的特点,常规检索很难检全、检准,必须借助化学结构、基因序列等专业化检索手段。因此,药物专利的特点、类型、检索策略、检索工具等方面的教学有待进一步地巩固和加强。3.凝练数据库检索规律

提供药学信息服务的数据库不胜枚举,穷尽阐述会出现大量知识点的重复;相反,整理共性的知识进行介绍,可以节约阅读者大量的时间和精力,取得事半功倍的效果。4.精讲研究中实用的重要数据库

SciFinder、PubMed、SCI、CNKI、DII对药学领域工作者的重要性非同一般,本书对这些系统的知识点进行详尽介绍,同时佐以案例,帮助阅读者更好地掌握知识点的使用。5.强调定制邮件推送服务,跟踪课题进展

主流的药学信息服务系统都提供邮件推送服务,一旦定制该服务,当系统中出现符合检索条件的新文献时,检索者就会收到邮件通知,及时获悉其他研究工作者取得的最新进展,极大地便利了课题跟踪。6.强化文献管理工具的使用

随着时间的推移,课题相关的文献资料会越积越多,使用文献管理工具,除了可以有效管理数目繁多的文献资料,还可以整理、分析、筛选文献,批量获取全文,助力论文撰写。掌握文献管理工具已成为对药学工作者的基本要求。7.补充新药立项调研的介绍

新药立项调研需要获取多方面的信息,涉及众多的数据库,要求调研人员不仅具备深厚的药学信息理论知识与扎实的检索技能,而且熟悉调研的基本程序。考虑到初学者在这方面还有所欠缺,因此本书将新药立项调研的内容也加以引入,希望能够帮助初学者了解新药立项调研的主要流程,为其今后从事相关工作奠定基础。

认真研读现有医药信息检索丛书,紧密跟踪检索理论与技术的最新进展,及时发掘权威药学信息系统的发布资讯,实时借鉴学术论坛牛人的检索经验,在此基础上,着力提高药学及相关专业学生的药学信息素养,帮助学生掌握系统、实用的信息检索技能,培养他们综合利用信息的能力,是我们撰写本书的动力与源泉。

本书系统介绍检索的理论、方法与技巧,并将编者积累的实战经验与读者分享;同时,尽最大努力向检索者推荐实用、先进、权威的检索系统及药学网站。

本书共分3篇,分别是

基础篇

、检索篇和管理利用篇。

基础篇主要包括第1章的内容,讲述信息与文献的概念、文献的分类、药学信息及其分布;重点讲述信息检索的概念、步骤、检索效果的评价方法、文献鉴别方法与阅读文献的技巧;最后阐述数据库检索的常识。基础篇的学习为后续检索篇和利用篇的学习奠定了理论基础。

检索篇包括第2、3、4、5章,按照信息资源的类型,分别讲述网站信息资源(第2章)、书籍与期刊(第3章)、特种文献(第4章)、其他药学信息资源(第5章)等常用的检索系统及其使用方法。掌握这些资源的概念、特点及检索技能,是做好信息检索工作的前提与保障。

管理利用篇主要包括第6、7章的内容,第6章介绍网页及文献管理的常用工具及其使用方法,重点介绍经典的文献管理软件EndNote;第7章介绍新药立项调研的基本内容及方法。

本书第1、3章由赵鸿萍编写,潘蕾编写了第2章,苏静编写了第4章,卢帅编写了第5、6、7章。本书的主要定位是本专科药学相关专业学生学习药学信息检索知识的教材,本书也可以作为医药行业工作人员手头查阅的参考工具书,服务于课题攻坚及项目调研。

由于作者水平有限,书中难免存在一些错误或不当的地方,恳请读者批评指正,来信请寄zhaohongping@cpu.edu.cn。真诚期待您的反馈,我们会在后续的版本修订时充分考虑您的建议,不断完善教材内容,力求做到精益求精。编者2016年6月基础篇第1章药学信息检索基础

提到检索,最常听到的两个概念是信息与文献。本章首先对信息与文献的概念及其分类进行介绍,然后介绍药学信息的概念及其分布,在此基础上,重点讲述信息检索的相关理论。鉴于权威药学信息大多集中存储于特定的数据库中,本章最后对数据库检索常识进行阐述。1.1 信息与文献1.1.1 信息、知识与文献

信息的定义很多,目前得到大家广泛认同的是“信息是人们通过感觉器官和大脑对客观事物运动状态及其改变方式的认识或反映”。

知识是人们对客观事物运动状态及其变化方式的正确的认识或反映,往往经过专业人士分析、研究获得。

文献是记录着知识的一切载体。

鉴于文献的正确性和权威性,信息检索应首选文献检索,两者检索的结果对检索者的指导作用经常大相径庭。

[例1-1] 南京郊区的一位患者因肾病来南京求医,患者首先想到通过信息检索获悉南京最权威的肾病医院,经搜狗检索得到结果如图1-1所示。图1-1 搜狗检索“南京肾病医院”结果

点击打开前3条结果,发现对于患者选择医院基本没有帮助。究其原因,搜狗收录的是信息,信息易得,但数量庞大,鱼龙混杂,良莠不齐,真伪难辨。

进一步选择百度百科进行检索,结果如图1-2所示。图1-2 百度百科“南京肾病医院”检索结果

点击打开第一条记录,获悉南京军区总医院整体医疗技术水平较高,在肾病方面,肾小球疾病的诊断和治疗、慢性肾衰的中西医结合治疗是其专长领域之一。可见,肾病特别是肾小球疾病的诊断和治疗以及慢性肾衰的中西医结合治疗,南京就医应首选南京军区总医院。之所以通过百度百科能快捷地获取所需的信息,原因是百度百科是文献数据库,其中收录的是知识,知识是正确的、可靠的信息。

文献除了百科辞典外,还有很多种类,下面对文献的分类进行阐述。1.1.2 文献的分类

从不同的角度,文献可分成不同的类别。常用的文献分类方法有两种,一种是按文献的内容分类,一种是按文献的加工程度分类。1)文献按内容分类

文献按照内容分,常分为图书、期刊、特种文献和其他4大类。

特种文献,又被称为灰色文献,是一种介于图书与期刊之间的文献类型,通常在出版发行方面或获取途径方面比较特殊。特种文献主要包括专利、会议文献、学位论文、标准文献、科技报告、科技档案和政府出版物等。其中,科技档案指单位在技术活动中所形成的技术文件、图纸、图片、原始技术记录等资料,包括任务书、协议书、技术指标、审批文件、研究计划及方案、调研资料等;政府出版物是各国政府部门及其所属机构发表或出版的各种文献的总称,一般可分为行政性文献和科技文献两大类。

除图书、期刊和特种文献外,还有一些其他种类的文献,常见的如数值型文献和事实型文献。其中,数值型文献提供数值型数据信息,包括各种统计数据、科学实验数据、科学测量数据等。例如专利统计信息、化学制剂、药物的各种理化参数、人体生理上的各种数值等,有的含有文本,主要是有关数值的定义和数值项的说明、解释等必不可少的文字。典型的数值型文献如各种参考工具书、国家知识产权局统计年报,再如美国国立医学图书馆的化学物质毒性数据库RTECS,包含有10万种物质的急、慢性毒理实验数据。事实型文献用来描述人物、机构、事物等信息源的情况、过程、现象、特性等方面的事实性信息,诸如名人录、机构指南、产品目录、科研成果目录、研究或开发项目目录以及大事记之类是事实型文献的检索工具。还有一些无法归类为书籍、期刊和特种文献的文献,如在研药物信息、临床实验信息等,本书将其一概归入其他文献这一类。2)文献按加工程度分类

文献按加工程度分,常分为零次文献、一次文献、二次文献和三次文献4种。

零次文献是指未公开于社会,即未正式发表的最原始的文献和那些通过公开订购不能获得的资料,如书信、手稿、笔记、秘密资料等。零次文献较难获取,但含金量很高,科学家和学者的博客是目前获取零次文献的珍贵的信息源。

一次文献又称原始文献,即人们以自己的生产、科研、社会活动等实践为依据产生的文献,如期刊论文、专利文献、会议论文、学位论文、科技报告、技术标准等。

二次文献是对一次文献加工整理后产生的文献,如题录(书目)、索引、文摘等检索刊物和各种参考工具书,我们后续使用的文献检索工具就是典型的二次文献。

三次文献是利用二次文献检索并选用大量的一次文献,经过系统的阅读、分析、研究,综合整理而成的文献,如综述、述评、评论、进展、动态等。

不同专业、不同领域因实际需要不同,对各类文献的重要性认知不同,但文献的重要性,特别是文献对科研的重要作用是毋庸置疑的,离开文献的科研是闭门造车,是不会成功的。1.1.3 信息检索与科研

信息时代的来临不仅迅速改变了人们的生活方式,同时也深刻影响着人们的思维、学习和科研工作的方式。美国科学基金会(National Science Foundation, NSF)的统计数据显示,一个科研人员花费在查找和消化科技资料上的时间占全部科研时间的51%,计划思考时间占8%,实验研究时间占32%,书面总结的时间占9%,科研人员总计花费在科技资料上的时间为全部科研时间的60%,如图1-3所示。

可见,科研人员要想保障科研工作的顺利进行,必须合理分配和使用自己的科研时间,必须熟练掌握信息检索的理论和技术。图1-3 科研人员时间分配图

在医药行业,药学信息具有促进日常交流、构建高效研发团队、提高医药管理层的预测和决策能力、加快新药发现和缩短新药研发周期等重要作用,可在一定程度上提升新药创制能力,因此,药学信息检索技能是药学及相关领域科研人员必备的技能之一。1.2 药学信息及其分布

信息检索首先必须解决信息在哪里的问题,其次是怎么检的问题。本节解决第一个问题,1.3节探讨第二个问题。1.2.1 药学信息及其特征

药学信息是指药物在研究、生产、流通、使用和管理过程中产生和涉及的药物有关资料,具体包括药名、结构、理化特性、药理毒理、合成与制备、作用机制、吸收代谢、排泄、诊断或治疗的适应证、用法、不良反应、禁忌证、相互作用、配伍禁忌、中毒症状和处理、临床疗效对比资料、鉴别、药品价格、药学教育等相关资料,同时还包括各过程相关的法律法规。

药学信息最突出的特征是数据量十分庞大,所有科技文献中,医药学文献约占总量的1/4。同时,新药研发高投入、高风险、高收益的特性,进一步提升了药学信息的价值。所有这些,为全球信息服务商提供了巨大商机,药学信息检索工具数量众多,各有侧重,总体呈现一种百花齐放、百家争鸣的局面。

同时,类似研究和一稿多投造成了文献重复;学科渗透使药学信息相对集中在医药专业信息源的同时,也大量发表在一些综合性和相关性信息资源上;发文者自身专业水平的高低不同又导致了信息质量的参差不一;地域分布的广泛性还造成了药学信息文种繁多;除此之外,传递迅速、寿命缩短已成为现代所有文献的共同特点,总体上看,科技文献的老化周期已经缩短到5~10年。

以上药学信息的特点在制定检索策略时应予以高度重视,这样才可以制定出科学合理的检索方案。1.2.2 药学信息的分布

网络载体的兴起和发展冲击了传统纸型载体的主流地位,改变了传统信息检索的方式。药学信息领域,几乎所有具有检索价值的药学信息都分布于互联网中。药学信息的具体分布可概括为网页和数据库两大类。

网页药学信息资源主要位于科学家、专业人士的博客,以及一些权威药学网站,这些网站主要包括药学组织机构、学术团体、制药公司、商务网站、讨论组、医药资讯网和一些综合性药学网站。

网页信息检索常用3种方法:一种是登录网站浏览网页;一种是使用大型网站提供的站点检索工具进行检索与定位,如辉瑞公司网站,首页右上角提供了检索工具实现站内信息检索,具体如图1-4所示;还有一种是最常用的,那就是搜索引擎搜索,然后点击跳转到相应页面。而网页中具体信息的定位常利用浏览器自带的页内查找功能。

药学信息数据库资源集中分布于信息服务商运营的文献数据库的同时,还大量分布在一些权威药学网站的数据库中。信息服务商运营的文献数据库典型的有SCI、EI、Scifinder、德温特(Derwent)专利等,大多属于有偿服务。药学网站的数据库典型的如美国FDA、我国药监局的系列数据库等,这些数据库大多免费使用,也是药学信息检索常用的数据库。图1-4 辉瑞网站信息检索工具

也有学者从新药研发流程的角度对药学信息的分布进行研究,但由于网页和数据库资源的存储和发布并不以新药研发流程为基准,造成很多数据库归类为新药研发的哪个环节都不合适。如新药研发的第一步是情报的收集、整理和研究,第二步是选题和立项,最后一步是进行新药申报,在这些环节甚至中间更多环节,研发者都会关注全球相关新药研发的动态,因此,简单地把跟踪新药研发的数据库归类为其中哪个环节都不合理。

本书检索篇对药学信息检索的阐述按照其分布及主题进行归类,第2章首先对网站药学信息从网页和数据库两方面进行介绍;第3章、第4章和第5章按照文献类型不同,依次阐述书籍、期刊的检索,特种文献的检索和其他类型药学信息的检索,其中第5章其他类型药学信息的检索,从药学领域常用主题检索的角度对相关工具进行分类和汇总。1.3 信息检索

2012年3月29日,美国白宫科技政策办公室发布《大数据研究和发展计划》,充分说明“大数据”时代已经来临。

大数据技术的高速发展为我们便捷地获取信息提供了支持,但绝不是在检索框中输入一个自由词,然后回车,就可以实现快速、全面、准确的检索。信息检索有其特定的科学含义,是有策略、有途径、有方法、有工具、有步骤、有评价指标的一项科学的实践活动。

本节首先介绍信息检索的一系列相关概念及检索效果的评价方法,在此基础上,详细讲述信息检索的步骤,最后阐述检索结果的鉴别与阅读方法。1.3.1 信息检索的概念1)信息检索的定义

信息检索是指根据特定的信息需求,运用科学的方法,通过一定的途径,利用检索工具,使用相应的检索语言,从大量的信息中迅速、准确而无重大遗漏地查找所需信息的过程。2)信息检索的方法

信息检索的方法主要有常用法、追溯法和分段法3种。

常用法是利用检索工具进行信息检索经常使用的方法,又分为顺查法、倒查法和抽查法3种。顺查法是以课题的起始年代为起点,按时间顺序由远及近逐年查找的方法,其好处是检索结果系统、全面,适用于全面调研和撰写综述类文章。倒查法是按逆时间顺序由近及远地查找信息的方法,该方法一般用于新开课题,重点检索近期信息,以便掌握最近一段时间该课题的水平和动向。抽查法是针对学科专业发展特点,选取学科专业发展迅速、发表文献集中的时间段逐年进行检索的方法,该方法能以较少的时间获得较多和较有价值的信息。

追溯法是从手头已有文献所附的参考文献入手,逐一查找原文,再按这些原文后面的参考文献查找新的原文,如此往复,直到满足要求为止。如图1-5是一篇与粗糙集相关的文献及其参考文献,追溯法检索是指首先查找参考文献[1]A rough set approach to attribute generalization in data mining、[2]Knowledge Discovery in Databases:An Attribute-oriented Rough Set Approach、[3]‘Rough Enough' —A system supporting the Rough Sets Approach……的全文,并获取这些文献文后的参考文献列表,再继续查找相应的全文……如此往复,直到满足要求。追溯法的优点是不需要专门工具,因此是很多研究生初入课题时使用的检索方法,缺点是检索结果不够系统、全面,而且资料越查越旧。图1-5 一篇文献及其参考文献

分段法又称交替法或循环法,是将常用法和追溯法交替使用的一种检索方法。这种方法检索效果好,效率高,特别是在检索工具不全的情况下为一种较为理想的检索方法。实践证明,这也是科研工作中使用最多的方法。3)信息检索的途径

信息检索的途径主要有两大类,分别是外表特征检索途径和内容特征检索途径。

外表特征检索途径主要包括题名检索(篇名、书名、刊名等)、著者检索、各种序号检索(如CN、DOI号等)、单位检索和基金检索等。

内容特征检索途径主要包括主题途径、分类途径、关键词途径、摘要途径、全文途径和其他途径,这里的其他途径为Chemical Abstracts的分子式检索、结构检索、Biological Abstracts的属类索引和生物系统索引等。

检索途径的确定主要取决于检索需求,客观受到检索者检索经验和检索水平的影响,无法一概而论。4)信息检索工具

信息检索工具是用来报道、存储和查找信息的工具。

信息检索工具按照著录的详细程度,常分为题录型、索引型、文摘型和全文型4种。其中,题录又称目录或书目,题录型工具是以文献的出版单元为著录对象,揭示文献名称、著者、出版者和出版时间(或文献出处)等特征的一种检索工具,典型的如《全国总书目》;索引型工具是将若干书刊等文献中的论文按内容进行分类或主题标引后,把具有检索意义的论文名称、著者姓名、刊名、人名等分别摘录出来按一定方式编排,并注明出处,以供查找的一种检索工具,典型的如《全国报刊索引》、科学引文索引SCI等;文摘是对原始文献的内容用简明扼要的文字所做的摘要,文摘型检索工具是在题录型检索工具的基础上增加了文献的内容摘要而成,典型的如美国的《化学文摘》(CA)和《生物学文摘》(BA)等;全文型检索工具是近年来随着计算机检索技术的进步而兴起的一种极受欢迎的检索工具,它是在文摘型检索工具的基础上增加了文献的全文而编成的一种数据库,其突出特点是把全文输入到数据库中,并为全文的实意词建立索引,因此,具有全文检索功能,同时还支持立即获取全文,如CNKI的期刊全文数据库就是典型的全文型工具。

以上检索工具应根据实际检索需求合理选用,客观上不存在哪种检索工具最优的论断。全文型数据库,虽然支持全文检索及实时获取全文,貌似功能最强大,但相比于索引和文摘型检索工具,大都存在收录文献不够全面、检索结果不够权威以及检索不够快捷等问题。典型的如Elsevier公司出品的Science Direct(SD)全文数据库,虽然其中大部分期刊被SCI收录,但SCI收录的期刊并没有全部被SD收录,如开题时选用SD作为检索工具,显然存在检索结果不全面的问题,加之数据库索引的侧重点不同,SD检索客观上也不如SCI检索权威。这些问题主要是由各种工具的服务定位不同造成的,检索者制定检索策略时必须引起重视。一条简单的原则是检索使用索引或文摘型检索工具,获取全文使用全文数据库,个别情况例外(中文期刊检索时,CNKI的期刊全文数据库既是检索的首选工具,也是获取全文的主要数据库)。5)信息检索语言

信息检索语言是根据信息检索的需要而创造的专门供信息标引和信息检索使用的一种人工语言。

信息检索语言常分为外表特征检索语言和内容特征检索语言两大类,分别适用于外表特征检索途径和内容特征检索途径。

外表特征检索语言是依据信息的外表特征,如信息的题名、作者、单位、各种编号等作为信息标引和检索的依据而设计的检索语言。常见的有题名检索语言、著者检索语言、序号检索语言等。不同的检索工具,其外表特征语言的语法不尽相同,具体表现为不同的杂志名称缩写规则,不同的姓名缩写规则及姓、名前后顺序,不同的单位缩写规则,不同的编号规则等。如SCI的姓名缩写规则为姓+空格+名首字母组合。实施外表特征检索时要首先学习或参考相应检索工具的使用说明。有一种外表特征检索语言例外,是全球统一的,那就是数字对象唯一标识符(Digital Obj ect Unique Identifier, DOI号),每个电子文献拥有唯一的DOI号,DOI号是很多文献管理工具实现自动批量下载全文的基础。

内容特征检索语言是依据信息的内容特征作为信息标引和检索的出发点而设计的检索语言,主要有分类检索语言、主题检索语言和其他三大类。(1)分类检索语言:分类检索语言又称分类法,是将信息根据其所属的学科内容分门别类地系统化组织起来的一种信息标引与检索语言。这种语言能较好地体现学科的系统性,揭示知识的派生、隶属与平行关系,便于检索者从学科或专业途径查找信息,并可根据需要扩大或缩小检索范围。

国内广泛使用的《中国图书馆图书分类法》(简称《中图法》)和《中国图书资料分类法》(简称《资料法》)就是典型的分类检索语言,图1-6是中图法和资料法关于药的分类体系,也就是关于药的分类检索语言,但其不同于CNKI的分类语言。图1-6 《中图法》和《资料法》关于药的分类体系

分类检索语言特别适用于刚刚进入课题研究,企图寻找专业热点领域的检索者使用。

[例1-2] 利用CNKI的分类检索语言,检索国内信息科技领域计算机软件与计算机应用方面的研究热点。具体步骤如下:

打开CNKI,选择期刊选项卡,浏览文献分类目录,选择相应的类别“信息科技”,然后选择其子类——“计算机软件及计算机应用”,同时选择“来源类别”为“SCI来源期刊”“EI来源期刊”“核心期刊”,得到结果如图1-7所示。可见,热点领域是大数据、云计算、MOOC、物联网及其应用,其中“大数据”相关研究的关注度最高。(2)主题检索语言:主题检索语言又称主题词表,是以语言文字为基础,借助于自然语言的形式,用于标引和检索信息主题内容的词语标识系统。

主题检索语言常分为标题词语言(标题法)、单元词语言(元词法)、叙词语言(叙词法)和关键词语言(键词法)。实际检索中常用的是叙词语言和关键词语言两种。

① 叙词语言:叙词语言又称叙词表,它是一种概括某一学科领域,以规范化的、受控的、动态性的叙词为基本成分和以参照系统显示词间关系,用于标引、存储和检索文献的词典。叙词也称为主题词、受控词,是从自然语言中优选出来并经过规范化处理的,以基本概念为基础的表达信息内容的词和词组。图1-7 利用分类检索语言发掘领域研究热点

例如医学主题词表MeSH就是一种典型的叙词语言,MeSH本身是一本词典。通过MeSH检索“cancer”,结果如图1-8所示,即“cancer”对应的叙词是“Neoplasms”。不仅“cancer”,图1-9中“Entry Terms”部分其他词对应的叙词都是“Neoplasms”。图1-8 利用MeSH检索“cancer”的结果

支持叙词检索的数据库系统文献标引时,由专业人员通读文献,并在叙词表中选择恰当的叙词对文献进行主题标引,同时,用新出现的自由词更新叙词的“Entry Terms”部分。因此,检索者检索这样的数据库时,使用叙词检索可以同时提高查准率和查全率。叙词语言是支持叙词语言的检索工具主题检索时的首选语言。另外,检索者收集某主题的自由词时,叙词表的“Entry Temrs”也是最好的选择。图1-9 Neoplasms叙词的Entry Terms

叙词语言是目前主题语言的最高级形式,综合了关键词语言、标题词语言和单元词语言的优点,既方便手工检索,也便于计算机检索。著名的叙词语言除医药学领域最著名的《医学主题词表》(Medical Subject Heading, MeSH表)外、还有国内影响最大的《汉语主题词表》、检索中医药信息的《中国中医药学主题词表》,以及EI的EI Thesaurus等。

② 关键词语言:关键词语言是为适应计算机自动编制索引的需要而产生的一种检索语言。这里的关键词又称自由词,是能表达信息实质内容的名词和术语。例如一篇文献的标题为“癌基因在肝癌中表达的研究进展”,其中“癌基因”“肝癌”“表达”“研究”“进展”都是关键词,其余的不是关键词,因为不具有实质内容。

特别需要说明的是,主题检索常使用关键词语言,但关键词语言不仅适用于主题检索,也常常用于其他内容特征途径的检索和外表特征途径的检索。因此,把关键词语言归类为主题检索语言或者内容特征检索语言都是不合理的,文中仅仅是在此介绍。

如图1-10所示,选择在主题字段检索,可以使用关键词语言;选择在摘要、全文、关键词、篇名、单位、基金字段检索时,同样也常用关键词语言。图1-10 使用关键词语言的场景

这里需要对关键词字段做一说明,图1-10中的关键词字段和关键词语言是截然不同的两个概念,不可混为一谈。关键词字段和摘要、全文、中图分类号及主题字段一样,都是内容特征检索途径之一。和主题字段不同的是,关键词、摘要、全文字段的检索,只能使用关键词语言,而主题字段还常使用叙词语言。

使用关键词语言检索时,特别要注意收集所有的自由词,即一个概念相关的所有同义词和近义词。收集自由词常常借助同义词和近义词词典、搜索引擎以及叙词表。

关键词语言最大的优点是语言简单、易上手,不必系统学习就可以使用,而且应用范围广,不仅适用于内容途径的检索,同样也常用于外表特征的检索。关键词语言最大的不足是必须输入所有相关的自由词才可能检全,同时,如果输入的自由词不够精准,也会导致查准率不高。(3)其他内容检索语言:除分类语言和主题语言外,一些检索系统提供的其他途径的检索,其相应的检索语言一般也属于内容特征语言,如SciFinder的结构检索、Markush检索等使用的语言都是内容检索语言。

检索语言的选择一般取决于检索途径,主题检索例外,因为主题途径检索往往有两种以上语言的支持,这时,叙词检索是首选,关键词检索一般用于辅助检索以获取新文献。1.3.2 信息检索效果评价

信息检索作为一项科学的实践活动,是开题与立项最重要的前期工作,那么什么样的检索才足以支撑开题与立项呢?评价信息检索效果的指标主要有两个,即查全率和查准率。

查全率指的是系统在进行某一检索时,检索出的相关文献与系统文献库中的相关文献总量之比。查全率很难计算,只能通过尽可能输入所有自由词、输入准确的索引词、使用叙词检索、擅用截词符(即通配符)、必要时改用上位词、获取相关文献(即启用聚类检索)等方法尽力提高查全率。如对SciFinder的检索结果进行索引词分析,即“analyzed by index term”,可以比较每个索引词命中记录的数量,从而通过收集所有相关索引词或用准确的索引词替换原主题词的方法进一步提高查全率。现在,很多系统都支持“Index”选择定位准确的索引词,如图1-11所示是Thomson Reuters Integrity药品检索时获取准确索引词的方法,检索者选择“Mechanism of Action”字段后,点击“Index”,就会出现索引词列表,检索者可以通过图中左下侧的Lookup检索定位准确的索引词,也可以通过图中右下侧的树状列表逐层浏览定位索引词。类似的系统很多,检索时要充分利用“Index”提高查全率。图1-11 Thomson Reuters Integrity系统Index操作示例

查准率指的是系统在进行某一检索时,检索出的相关文献量与检索出的文献总量之比。查准率可以通过检索者分析阅读文献获得相关文献数,然后除以检索出的文献总数计算得到。提高查准率的方法除了使用准确的主题词或使用叙词检索外,还常常使用下位词检索、增加限制条件、利用逻辑非NOT排除不相关文献等措施。

一般情况下,查全率控制在60%~70%,查准率控制在40%~50%,是较好的检索结果。1.3.3 信息检索的步骤

信息检索的过程可以概括为4大步骤,依次是破题,制定检索策略,实施信息检索和获取检索结果。1)破题

破题,就是认真审视接到的检索课题,通过学习、了解课题相关的背景知识,迅速而准确地弄懂题意,明确课题检索的关键词。

[例1-3] 检索阿司匹林的反应资料。

西药常用的名称有4种,分别是通用名、英文名、商品名和化学名,鉴于课题需要获取阿司匹林的化学信息,因此应选用化学名作为检索关键词。但化学名也有不同的命名法,常用的是普通命名法和系统命名法,考虑到检全率,应取两种命名法的所有名称作为关键词进行检索。最后确定中文文献检索用名为“乙酰水杨酸”“邻乙酰水杨酸”和“2-乙酰氧基苯甲酸”,英文文献检索用名为“acetylsalicylic acid”和“2 ethanoylhydroxybenzoic acid”。

[例1-4] 检索世界著名药企默沙东近10年被美国FDA批准的药物。

该课题破题的背景知识是默沙东(Merck Sharp Dohme)的所有名称及近10年的并购史。默沙东公司在美国与加拿大被称为默克(Merck),在其他地区被称为默沙东(Merck Sharp Dohme, MSD)。默沙东的前身是美国默克(Merck)与沙东公司(Sharp and Dohme)合并的默沙东药厂,2009年又收购了同为世界500强的跨国制药巨头先灵葆雅公司(Scher-ing-Plough Corporation, SGP),而2007年3月,先灵葆雅还收购了荷兰制药与动物保健品公司欧加农生物科技(Organon BioSciences)。因此,检索FDA批准的药物时,Applicant Holder必须设置为“Merck”“Sharp Dohme”“Merck Sharp Dohme”“MSD”“Schering Plough”“SGP”和“Organon BioSciences”,才可能获得默沙东所有批准药物的信息。

[例1-5] 利用SCI检索地震的资料。

SCI不支持叙词检索,因此本课题破题关键是获取地震的所有英文表述。通过搜索引擎检索和中英文词典检索,搜集到的地震的英文表述有earthquake、earthshock、earthdin、temblor、cataclysm、shock、shake、seismic、seism和tremor,进一步核实单词准确的意思,可以排除cataclysm、shock和shake,考虑到单复数、词性及时态变化等问题,检索主题词定为(earthquak* or earthshock* or earthdin* or tembl* or seism* or tremor*)。

由上述3个例子可以看出,不同检索课题破题的背景知识不同,鉴于检索者不可能对每个课题的背景知识都了如指掌,背景知识的获取建议使用中英文词典、同义词近义词词典、搜索引擎、百度百科、维基百科、CNKI的中文文献、MeSH叙词表等进行检索、学习。2)制定检索策略

检索策略是为了实现检索目标而制定的全盘计划和方案,直接关系到检索结果的查全率和查准率,并最终影响决策。因此,必须制定周密的、科学的、有良好操作性的检索策略。

制定检索策略具体包括四方面的工作,分别是确定检索年限、确定检索范围、确定检索方案及拟定输出结果数量和格式。(1)确定检索年限:科技查新年限一般限定在10~15年。医药文献的“半衰期”较其他自然科学文献更短,因此,医药专业科技查新检索的回溯期最低可以为10年。但因为药学各学科发展速度不同,文献失效期相差很大,因而在具体查新工作中,应针对不同学科、不同课题和委托课题的特殊需求等,在10年的基础上做相应调整。(2)确定检索范围:药学信息检索时,检索范围的确定主要考虑网页、信息服务商运营的文献数据库和权威网站数据库3部分。检索的需求不同,检索范围的确定相差甚远。如云平台搭建过程中遇到问题,网页信息检索是首选,其次才考虑期刊文章、学位论文和相关书籍;而新药立项调研,则应选择针对性强、质量高、覆盖面大、有权威性的系列数据库作为检索范围,具体如汤森路透的相关主题系列数据库、IMS的数据库、Pharmaproj ects、Medtrack、Global data、marketresearch、PDB及临床试验网临床试验数据库等;自然科学课题撰写开题报告,则应以权威的期刊文献数据库SCI、EI和CNKI及德温特专利数据库为主要范围。由于检索需求千差万别,合理确定检索范围需要反复实践、不断积累经验才能做到。(3)确定检索方案:检索范围选定后,下一步需要确定具体的检索工具、拟使用的检索方法、具体检索途径,并利用相应工具支持的检索语言,写出课题检索对应的分类号、主题词(叙词)、标识符(如姓名、刊名等),甚至复杂检索的检索表达式。鉴于目前检索工具大都提供可视化构造复杂检索式的途径(一般通过高级检索和检索历史组合构建),检索者可充分利用这些工具降低检索表达式书写的复杂度。

这里需要说明的是,由于检索范围往往不是单一的,因此检索工具、检索方法、检索途径和检索表达式可能不止一套。例如检索范围确定为期刊和专利,工具确定为最权威的SCI和德温特专利数据库,这里的检索方法、检索途径和检索表达式就至少是两套。另外,在进行试验性检索后,根据检索效果的评价结论,检索策略特别是检索方案往往还会进行调整,因此,检索方案的确定也不是一蹴而就的。(4)拟定输出结果数量和格式:检索结果数量的拟定和检索的课题息息相关。如撰写开题报告,30~40篇文献比较合适。太少的结果数量会导致阅读量不够,文献综述以偏概全;太多的结果数量又因为时间的原因,根本无法阅读。检索结果输出格式一般取决于检索者使用的文献管理工具,如检索者使用EndNote管理文献,检索结果就保存为EndNote支持的格式。

[例1-6] 研究生选择导师时,想了解该导师的学术造诣,请制定检索策略。

分析课题:研究生选择导师,那么导师的基本信息(姓名、任职单位、头衔、工作、求学简历)从招生简章及其链接的导师主页已经获悉。本课题检索策略的制定如下:

检索年限可确定为导师从上大学到现在。

检索范围可确定为期刊、会议论文数据库、专利数据库。

检索方案确定为:期刊、会议论文检索工具选择全球公认的学术评价工具——SCI(科学引文索引)/SSCI(社会科学引文索引)/A&HCI(艺术与人文科学引文索引)、CPCI(国际学术会议论文索引)和EI(工程索引);专利检索工具选择DDI(德温特世界专利创新索引数据库)。论文和专利检索均使用外表特征途径,论文数据库使用作者+机构检索,专利数据库采用发明人+专利权人机构代码检索,检索方法采用抽查法,具体年限为导师本科毕业至今以就职单位或求学单位为基准划分的若干时间段,检索标识符主要是导师姓名英文缩写,格式为“姓+空格+名字头字母组合”,机构或专利权人机构代码使用各工具提供的帮助文档检索获得。

文献数量可不做限制,为了后期学习参考,文献输出格式设定为最流行的文献管理工具EndNote格式。

制定好检索策略后,信息检索进入下一步,实施检索阶段。3)实施信息检索

信息检索一般要进行3种检索,依次为试验性检索、正式检索和辅助性检索。

试验性检索是在正式检索之前,先对半年到一年范围内的文献或全部文献做试验性检索,通过分析结果数量和评价检索效果,对检索策略做适当修改和调整,如数量太多,可以采取调整学科分类限定在较小的学科范围,选择在专科期刊和SCI、核心期刊范围,以及缩小年限范围等措施来精炼结果,合理减少文献数量。如查准率或查全率不够高,可以通过前面介绍的提高查准率和查全率的方法来修正检索策略。

正式检索是按照改进、优化后的检索策略实施检索。

辅助性检索:正式检索的结果很多情况下欠缺最新文献信息,有时还存在文献量不足的问题,这时应进行辅助性检索。例如SCI检索结束,常常需要用Scientific Web Plus辅助检索科学家博客信息;PubMed叙词检索结束,常常需要用自由词检索获取最新提交还没做叙词标引的相关文献;一般论文检索都常常会选择重要文献点击“Get Related Citations”进一步进行聚类检索。除此之外,浏览最新的期刊论文、边缘学科的文献、行业文献、内部报告以及使用搜索引擎检索相关网页信息也是常用的辅助检索手段。4)获取检索结果

检索结果如果是事实或数值型数据,直接保存结果即是用户所需的最终信息,只需核对无误即完成检索;如果是期刊、书籍等文献检索,需先把检索结果保存为特定文献管理软件的格式,如EndNote格式,然后导入文献管理软件保存。后续工作还需在文献管理软件的帮助下,进一步分析、筛选、删除误检文献,确定需要全文的文献并获取全文,才能完成检索。1.3.4 检索结果的鉴别

信息爆炸带来的一个副作用就是信息泛滥、信息的质量良莠不齐,而检索结果信息的质量直接关系到课题调研报告的质量,关系到课题研究的方向、关键技术的确定等重大问题,因此,面对检索获得的大量信息,必须借助检索工具或文献管理工具进行信息鉴别,实现去粗存精、去伪存真,获取课题相关的权威信息。

检索结果的鉴别主要包括3个方面,分别是可靠性鉴别、先进性鉴别和适用性鉴别。1)可靠性鉴别

信息的可靠性鉴别是指信息的真实性、完整性与准确程度的鉴别,常常从以下6个方面入手。(1)根据信息的提供者判断:信息的提供者指发布信息或发表文献的个人、集体或团体。一般情况下,国际组织(WH O、ISO等)、政府部门、科研机构、高等院校、学术团体、行业协会等团体提供者以及著名科学家或著名学者提供的信息其可靠性最高。另外,团体发表的文献或发布的信息一般比个人提供的信息可靠性高。(2)根据信息的类型判断:不同类型的信息其可靠性一般不同。一般情况下,网上的新闻和消息的可靠性较文献差。在文献类型中,内部资料和秘密资料的内容较为真实可靠。公开发表的文献,其可靠性差别较大,教科书、专著、年鉴、百科全书、技术标准、专利文献和核心期刊特别是SCI期刊的内容最为真实可靠,普通期刊则次之。阶段性研究报告、会议论文、学位论文、实验报告等具有一定的科学性,但不够成熟、完整。综述性文献结构严谨、论述全面,质量较高,特别是SCI的综述,往往是进入新课题的首选阅读资料。产品广告的可靠性最差。(3)根据信息的出版单位判断:国家政府部门、国内外著名出版社、著名学术团体与组织、著名高等院校和科研机构出版的文献,一般质量好、可信度高。(4)根据外界对信息的反映判断:被引用情况是外界对文献反映的体现,这里的被引用是指文献被文摘型刊物摘引和被其他文献作为参考文献引用。被摘引和被引用次数较高的文献,其可靠性较高。查询文献被引用情况常使用SCI、CSCI和中国科学院文献情报中心开发的《中国科学引文数据库》和南京大学中国社会科学研究评价中心开发的《中国社会科学引文索引》等。(5)通过实际验证来确定:通过实际验证指通过科研实践、临床实验、实地考察和数据审核等方法来确定信息的真实性和可靠性。(6)从信息的内容判断:从信息的内容判断可靠性,首先要看信息报道的结果是否真实。真实的信息应具有明确的前提,叙述和实验数据一致。其次要看对课题的阐述是否深刻、完整,是否具有深度和广度。对课题的详情细节做了具体的阐述即为深刻,对课题进行了全面的叙述即为完整。最后,要看论点、论据和结论是否一致,逻辑推理是否合理。2)先进性判断

信息的先进性在时间上主要表现为资料内容的新颖,在空间上表现为在一定范围、某一地区领先,超前于同类型资料。判断资料是否先进可以从以下3个方面着手:(1)从资料的外部特征判断:首先从资料产生的时间顺序上判断,最近发表的文献比较新颖;其次从文献类型上看,实验报告、科技报告、期刊论文和专利文献较新颖、先进。(2)从资料的内容特征判断:首先观察信息报道的内容是否是新概念、新理论、新原理、新假设、新的应用领域、新的技术与方法;其次,与同类型文献对比,判断是否对原有理论和技术有所改进,是否提高了技术参数、改进了结构、增强了性能,是否扩大了应用领域等。(3)从资料产生的社会背景判断:一般来说,某地区、某单位或某些专业人士在所擅长的学科专业内产生的信息比较先进;结合本地、本单位优势进行的研究、开发比较先进;较长历史时期形成的传统技术和项目比较先进。3)适用性判断

适用性是指信息的可利用程度。资料是否适用在很大程度上受到情报调研报告用户的条件和身份等多方面因素影响。可以依据资料的来源背景条件是否与利用者实际用途相近以及医学科研发展是否处于相近水平判断。一般认为,在社会政治、经济和科技发展水平上处于同一层次、同一发展阶段的国家和地区,其智力资源和人员素质大体相同,往往可以借鉴彼此的技术。一些受自然条件制约的科技成果,则往往要求地理环境、自然资源或气候条件基本相似才能相互借鉴。

除以上3方面的鉴别外,网页信息的质量还常依据网页设计的专业化和规范化程度、网页被知名的搜索引擎收录与否及排名的情况、网站的被链接数和网站的点击率鉴定。1.3.5 检索结果的阅读

信息检索结束,如果检索效果评价满意,而且应用鉴别方法剔除了劣质或不适用的文献,最后一步就是阅读文献。按照科学的阅读顺序和阅读方法进行阅读,可以很大程度上提高文献阅读的效率。具体讲,科学的阅读方法一般遵循7条原则。(1)先读网页信息,后读文献,便于及时了解有关方面的最新进展,及时获悉某研究领域的最新内容。(2)先读文摘,后读原文。根据文摘的内容,决定是否需要索取和阅读全文,以便大量节约阅读时间。(3)先读综述性、评论性文献,后读具体研究性文献。通过综述性和评论性文献了解和掌握某学科专业的研究现状、存在的问题及发展的趋势,在此基础上,可有针对性地阅读研究性文献。(4)优先阅读核心期刊和专科刊物。核心期刊和专科刊物上发表的论文一般所含的信息量大,学术水平高,能代表某学科专业的发展方向和研究水平。(5)先读内容相同或类似的中文文献,后读外文文献,以便较快地理解和掌握文献内容,加快阅读速度。(6)先粗读,后精读。先读文献的内容提要、目次、前言等,发现文献中确有需要详细阅读的信息时,再进一步精读。(7)先读现刊,后读过刊,有助于掌握学科的最新进展。1.4 数据库检索常识

信息服务商运营的文献数据库和权威网站的数据库,因为其信息的覆盖面广、信息质量及权威性高,往往是信息检索的首选。另外,使用搜索引擎进行网页搜索,实质也是数据库检索。因此,要做好信息检索,必须掌握数据库检索的基本常识。

数据库检索的基本常识包括5个方面,分别是数据库的收录范围、检索方法、语法规则、文献著录格式和检索结果的输出方式。1)数据库的收录范围

了解数据库的收录范围,即调研数据库收录了哪些学科、哪些年限的什么类型的信息资源,是确定检索范围和选择检索工具的基础和关键。

例如,检索石墨烯(Graphene)研究的最新进展,在确定检索范围和检索工具时,就要选择针对性强、质量高、覆盖面广、有权威性的文献数据库和网站网页作为检索范围。检索者只有已知SCI(科学引文索引)、CPCI(国际学术会议论文索引)、DDI(德温特世界专利创新索引数据库)、EI(工程索引)和Scientific Web Plus的收录范围,才可能将这些数据库作为检索范围及检索工具。2)检索方法

不同数据库支持的检索方法不尽相同,但一般数据库都支持基本检索(又叫快速检索)、高级检索(多字段联合检索,一般提供专门界面构造检索式)和专业检索(自己书写检索表达式)3种检索方法。

基本检索最简单,输入自由词回车即可获得结果,常用于获取文献全文、调研文献著录格式等简单检索,直接输入自由词进行主题检索,查全率、查准率都没有保障。

高级检索通过限定关键词在特定字段及多字段组合,很大程度上提高了检索的查准率,是信息检索最常用的方法,同时也是构造复杂检索表达式的常用工具。

专业检索对检索人员要求最高,检索者必须掌握数据库系统的语法规则,配合使用数据库系统提供的检索表达式构建工具,写出完整的检索表达式,然后输入检索框才可以实现检索。

一般数据库系统还同时提供分类检索、二次检索和相关文献检索。分类检索支持检索者从学科派生的角度逐级选择从而检索出所需主题的文献,可以和基本检索、高级检索及专业检索同时使用。二次检索又叫在结果中检索,是在检索获得文献量很多或查准率很低的时候使用的精炼文献的有效措施,也可以理解为一种限定检索手段。相关文献检索一般在检索结果分析阶段确定准确的主题词时使用,同时也是辅助检索阶段扩大文献量和补充重要文献的常用方法,多数系统通过点击“Related Records”链接实现。

除上述检索方法外,化学信息数据库还常提供物质检索、反应检索、Markush检索等特殊检索方法。

以上检索方法使用都很普遍,检索时,检索者可根据自身对数据库的熟悉程度、对检索语言的认知程度及具体的信息检索需求灵活选用。3)语法规则

数据库的语法规则,主要指数据库支持的外表特征语言的语法规则(如人名的缩写规则、期刊名的缩写规则、专利的编码规则等)、分类检索语言的分类表和叙词语言的词表,除此之外,还包括数据库系统支持的检索运算符。

不同的数据库系统支持的检索运算符的种类、数量和形式不尽相同,常见的检索运算符有5种,分别是逻辑运算符、位置运算符、截词符、限定符和时间范围运算符。

逻辑运算符主要有“与”“或”“非”3个,按运算优先顺序依次是“NOT”“AND”和“OR”,使用高级检索界面构造检索表达式时,特别要注意三者的运算优先级问题。在专业检索或简单检索界面,可使用小括号改变运算优先顺序。

位置运算符又称邻近运算符,用于表达检索词之间的邻近关系,缩小检索范围,提高查准率。不同检索系统采用的位置运算符数量和符号有所不同,使用时要区别对待。如MEDLINE的位置运算符有“NEAR”和“WITH”两个,其中“A NEAR B”和“A WITH B”分别表示A和B出现在同一句子中和出现在同一字段中。

截词符用于检索时将检索词截断,只取其中的一部分进行检索,是一种扩大检索结果范围的措施。常用的截词符有“*”“? ”“#”和“$”。MEDLINE中采用的右截词符为“*”,中间截词符为“? ”,美国专利全文数据库采用“$”为右截词符。如MEDLINE中用“ACID*”进行检索,可以检出包含ACID、ACIDS、ACIDIC、ACIDIFICATION等词的文献。

限定符一般用于字段限定检索和短语限定检索。字段检索常用的限定符是“in”和“=”。如MEDLINE数据库支持的检索式“dementia in TI”和“English in LA”,分别表示在题名字段中含有“dementia”和在文种字段中标有“English”。短语检索常用的限定符是双引号或圆括号。PubMed的短语检索限定符为双引号,如检索式“gene therapy”in AB,表示检索那些文摘字段中含有“gene therapy”这一短语的记录。

时间范围运算符用于限定信息发布的时间。常用的有“=”“>”“<”“≥”和“≤”。多数文献数据库都使用这些运算符。如PY>2001,表示检索2002年至今发布的信息。

数据库系统的语法规则琐碎而繁多,熟练使用数据库的帮助系统、善用高级检索界面设置检索条件,可以很大程度上规避语法规则的复杂性,降低检索式书写的难度。4)文献的著录格式

数据库系统不同,同类文献的著录格式大同小异,一般包含的数据项相同,数据项的排列顺序略有不同。下面给出10种典型文献的一般著录格式。(1)专著著录格式

[序号]作者.书名[M].版次(第1版不写).出版地:出版者,出版年.(专著中的析出文献应注明起止页码)

例子:

[1]孙家广,杨长青.计算机图形学[M].北京:清华大学出版社,1995.

[2]Skolink M I.Radar handbook[M].2nd ed.New York:McGraw-Hill,1990:82-85.(2)译著著录格式

[序号]作者.书名[M].译者.出版地:出版者,出版年.(专著中的析出文献应注明起止页码)

例子:

霍斯尼R K.谷物科学与工艺学原理[M].李庆龙,译.北京:中国仪器出版社,1989.(3)期刊文献著录格式

[序号]作者.题名[J].刊名,年,卷(期):起止页码.

例:

[1]杨得庆,隋允康,刘正兴,等.应力和位移约束下连续体结构拓扑优化[J].应用数学和力学,2000,21(1):17-24.

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载