知识图谱技术与应用(txt+pdf+epub+mobi电子书下载)

作者:闫树 魏凯 洪万福 等

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

知识图谱技术与应用

知识图谱技术与应用试读:

前言

在互联网飞速发展的今天,万物互联成为可能,智能分析由只专注于个体转开始变为更关注个体之间的关系。伴随着数据处理技术(Data Technology,DT)时代的到来,数据量呈爆发式的增长。在这些海量的非结构化文本数据、大量的半结构化表格和网页以及生产系统的结构化数据中,蕴含着大量的关系信息。利用知识图谱技术,人们可以对这些关系信息进行结构化、语义化的智能处理,形成大规模的知识库,并支撑业务应用,使得机器能够更好地理解网络、理解用户、理解资源,为用户提供新型智能化服务。

然而,市面上知识图谱的相关书籍,要么聚焦于科学引文网络或其他行业应用,要么主要介绍相关工具的使用,专门讲述知识图谱全面理论的书籍还比较少。作者希望以此书的出版弥补这一空白。

本书的主要特色包括:①系统性,从知识图谱的起源发展入手,层层推进,让读者对知识图谱这一技术工具建立系统的印象;②全面性,既包含通用知识图谱,也包含行业知识图谱,内容涉及较广;③基础性,本书面向对知识图谱有兴趣的读者,力求内容通俗易懂;④实用性,理论与实践相结合,通过案例让读者对知识图谱的应用有直观的了解。

全书共6章。第一章从定义、发展历程、架构、特点等方面对知识图谱进行了基础性的概念解读;第二章以知识表示与建模、知识抽取与挖掘、知识存储与融合、知识检索与推理4个过程为主线,对搭建通用知识图谱的技术要素进行了介绍;第三章介绍了行业知识图谱的特点,并重点研究了知识图谱在公安、金融、教育、电信、工业领域中的应用场景;第四章对知识图谱的发展趋势和挑战进行了分析;第五章通过医疗决策辅助系统、“虚拟生命”、股份制银行、禁毒大数据分析平台4个案例,从痛点难点、实现路径和应用效果3个方面对知识图谱的实战应用进行了解读;在第六章中,作者列举了Pajek、CiteSpace等8种国内外较为常用的知识图谱构建工具,并对各工具的主要功能和特点进行了介绍。

从最初的搜索引擎到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统等,知识图谱的应用越来越多,它在技术领域的热度逐年上升。大规模构建并应用知识图谱,对于互联网行业、传统行业甚至社会治理具有重要的意义。随着理论和技术的不断发展,学术界和产业界对知识图谱的认识在不断地变化与更新。未来,相关的研究和应用的边界将不断扩展。

本书的编写成员包括闫树、魏凯、洪万福、钱智毅、王彬、符山、姜春宇。本书在编写过程中得到了中国信息通信研究院何宝宏所长、张雪丽副所长、刘寒、刘成成、马鹏玮、王妙琼、李雨霏、王卓、李俊逸、吕艾临等同事的大力支持。厦门渊亭信息科技有限公司、北京明略软件系统有限公司、中移(苏州)软件技术有限公司、中软国际有限公司、深圳狗尾草智能科技有限公司等企业的专家对本书提出了建议或提供了相关案例,在此对他们一并表示感谢。

由于作者水平有限、编写时间仓促,书中难免会出现一些错误或有争议的地方,恳请读者批评指正。如果您有任何建议或遇到了任何问题,欢迎发送邮件至yanshu@caict.ac.cn,期待得到您的反馈。第一章 知识图谱概述

在互联网时代,信息量呈爆炸式增长,这给人们有效地获取信息和知识带来了巨大的挑战。知识图谱(Knowledge Graph,KG)以其强大的语义处理功能和快速分析能力,迅速成为互联网用户信赖的,可以快速、准确地获取信息资源的智能化搜索工具。特别是随着人工智能的逐步发展与应用,知识图谱已成为一门关键技术,被广泛应用于智能问答、大数据分析、个性化推荐等领域。知识图谱同深度学习一起,成为推动人工智能发展的核心驱动力之一。本章将从定义、发展历程、架构、特点等方面对知识图谱进行介绍。第一节 什么是知识图谱一、知识图谱的定义

作为一种智能、高效的知识组织方式,知识图谱能够帮助用户迅速、准确地查询到自己需要的信息,近年来得到了飞速发展。尽管产业界对其内涵有了基本共识,但实际上目前尚没有一个公认的定义。

知识图谱由Google公司在2012年提出,但发布时Google公司并没有对这一概念做出清晰的定义。维基百科上知识图谱的词条实际是对Google公司搜索引擎使用的知识库功能的描述,即知识图谱是Google公司使用的一个知识库及服务,它利用从多种来源收集的信息提升搜索引擎返回的结果的质量。

百度百科将知识图谱定义为“通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论和方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,达到多学科融合目的的现代理论。”但从该词条的详细内容可以看出,百度百科的定义仍是一种对知识图谱的早期理解和对Google公司提出的知识图谱功能的复述。

国内外学术机构围绕知识图谱进行了大量研究,近年来我国高校学者也在知识图谱领域发表了许多优秀的论文,并对知识图谱做出了比较完整和全面的定义。如华东理工大学教授王昊奋认为:“知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,这个ID被称为它们的标识符。‘属性-值’对(Attribute-Value Pair,AVP)用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。”而电子科技大学的刘峤等人认为:“知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是‘实体-关系-实体’三元组以及实体及其属性-值对,实体间通过关系相互联结,构成网状的知识结构。”

在互联网上有大量对知识图谱的讨论,在知乎等社交问答网站上存在多种对知识图谱的表述,内容大同小异,如“本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库”。

技术厂商和用户对知识图谱有着不同的理解,但大多没有提出明确的定义。

从以上研究中可以看到知识图谱的起源和在中国的传播发展。综合其中的共识,作者对本书探讨的知识图谱给出以下定义:知识图谱本质上是一种语义网络,是新一代的知识库技术,通过结构化、语义化的处理将信息转化为知识,并加以应用。二、对知识图谱定义的解读

对于上述知识图谱的定义,可以从以下几个方面进行解读。1.表现形式

知识图谱的抽象表现形式是以语义互相连接的实体,是把人对实体世界的认知通过结构化的方式转化为计算机可理解和计算的语义信息。我们可以将知识图谱理解成一个网状知识库,这个知识库反映的是一个实体及与其相关的其他实体或事件,不同的实体之间通过不同属性的关系相互连接,从而形成了网。由此,知识图谱可以被看成对物理世界的一种符号表达。2.涵盖范围

知识图谱由传统的知识库演变而来,可以说狭义的知识图谱就是知识库,但广义的知识图谱应涵盖知识库、从信息到知识的知识库构建以及高效定位正确的知识、发现隐含的知识的知识库运用等方面,目标是解决信息过载和信息缺失的问题。3.技术表现

知识图谱在技术上表现为技术栈,通常被认为是由知识提取、知识融合、知识加工、知识呈现4层技术组合而成的。知识图谱在知识库的构建方面具备接入多数据源的能力,比传统的人工方式更加高效。除了知识库部分外,知识图谱技术还包括可以生成新知识的推理引擎,被视为自动化、智能化的新一代知识库技术。4.研究价值

知识图谱是人工智能的关键技术之一,人工智能追求的目标是利用机器快速、便捷地获得高质量的数据信息,进而辅助人们进行更多智能化的应用。在实现这一目标的过程中,知识就是核心力量。知识对于人工智能的价值在于让机器具备对数据的认知能力和理解能力。构建知识图谱的目的就是让机器形成这种认知能力,使其能够理解这个世界。

知识的获取,特别是自动获取本身就很难,知识的来源广泛,且种类多样,形成知识的数据可能是结构化的,也可能是非结构化的。获取知识后的理解和推理是对知识的选择和应用,是将零散的数据整合到一起并梳理出脉络的过程,更为复杂。

这个时候,可以通过“图”这样一种直观、清晰的基础性通用“语言”,清楚地还原各个数据之间的复杂关系。知识图谱的构建就是在Web网页的基础上增加一层覆盖的网状的图,将Web网页上的概念相互链接起来,用最小的成本将互联网中大量的信息组织成可以被利用的知识。5.应用价值

知识图谱提供了一种从海量数据中抽取结构化知识的手段,快速便捷,拥有广阔的应用前景。

对于使用知识图谱的人来说,相比文字,图更加直观、有条理,因此知识图谱可以帮助人们更好地理解和记忆知识。很多人应用思维导图对知识进行记忆和梳理,在这个过程中应用的是使用者本身的记忆习惯和技巧。知识图谱是从知识本身出发,保留了知识原来的组织,引导使用者理解知识。

对于使用知识图谱的软件、服务、系统来说,知识图谱提供了结构化的数据存储格式,降低了软件、服务、系统在数据挖掘和管理过程中的难度。同时,知识图谱可以在较好地保存数据及数据之间关联的基础上,挖掘出更多的有效信息,开发更多的应用场景。在使用知识图谱服务进行搜索时,人们可以直接获得与数据关联的答案,而不是可能包含答案的网页。

知识图谱由复杂多层次的技术栈构成,内涵覆盖构建、应用等多个生命周期环节,知识图谱技术的供需双方对于知识图谱的理解和着眼点实际是不同的。需求方企业往往倾向于简单化理解,或者将其等同于传统的专家库,或者认为其就是图可视化的炫酷展现形式;而技术厂商可能基于自身在技术栈不同层面的优势宣传和解读这一技术。透过复杂的技术栈和纷繁的技术术语来看,知识图谱的本质是运用新的技术在知识结构化和分析洞察两个方面提升信息转化为知识并且被利用的效率,具体如下。

● 知识结构化:与传统知识库相比,知识图谱在知识构建部分除了专家人工的方式,还利用机器学习算法等手段进行文本挖掘和自然语言处理,从大量的非结构化和半结构化数据中抽取知识。

● 分析洞察:在人、企业、产品、兴趣、想法、事实存在交织的关联关系时,使用图分析这些复杂的关系效率更高,也更加有可扩展性。如应用图遍历、最短路径、三角计数、连通分量、类中心等算法进行目标实体搜寻、实体关联识别、关联程度评价、关键人物和特殊关系群体发现等工作时,可得到较好的效果。

从企业级信息管理的全局视角来看,知识图谱无疑是企业信息管理的一种方式和手段。知识图谱的主要功能(如文本分析、语义计算等)与传统的数据采集、清洗、整合等数据处理功能在处理方法和流程上有一定的相似性,在技术上也有互通或重合的内容。知识图谱的建设横跨企业级数据建设和应用的多个环节,在技术的整合方面复杂度较高,因此应用知识图谱的用户企业需要具备一定的数据基础和数据技术能力基础,比如持续的数据治理和知识管理机制、较好的基础数据质量、对数据技术能力和团队的积累等。三、知识图谱的通用表示

从本质上来看,可以将知识图谱理解成一张由不同知识点相互连接形成的语义网络。任何一种网络都是由节点和边构成的,因此,知识图谱也是由节点和边构成的。节点表示实体或概念,边表示实体的属性或实体间的关系。

知识图谱中的节点分为以下两种。

● 实体:指具有可区别性且独立存在的某种事物,如一个人、一座城市、一种商品等。某个时刻、某个地点、某个数值也可以作为实体。实体是一个知识图谱中最基本的元素,每个实体可以用一个全局唯一的ID进行标识。

● 语义类/概念:语义类指具有某种共同属性的实体的集合,如国家、民族、性别等;而概念则反映一组实体的种类或对象类型,如人物、气候、地理等。

知识图谱中的边分为以下两种。

● 属性(值):指某个实体可能具有的特征、特性、特点以及参数,是从某个实体指向它的属性值的“边”,不同的属性对应不同的边,而属性值是实体在某一个特定属性下的值。例如,图1所示的“类别”“首都”是不同的属性,“北京”是中国在“首都”这一属性下的属性值。

● 关系:是连接不同实体的“边”,可以是因果关系、相近关系、推论关系、组成关系等。在知识图谱中,将关系形式化为一个函数。这个函数把若干个节点映射到布尔值,其取值反映实体间是否具有某种关系。

基于以上定义,可以更好地理解三元组。三元组是知识图谱的一种直观、简洁的通用表示方式,可以方便计算机对实体关系进行处理。

用三元组G=(E,R,S)表示知识图谱,其中,E={e,e,……,e}是知12E识图谱中的实体集合,包含|E|种不同的实体;R={r,r,……,r}是知识12E图谱中的关系集合,共包含|R|种不同的关系;S⊆E×R×E是知识图谱中的三元组集合。三元组的基本形式主要包括(实体1,关系,实体2)以及(概念属性,属性值)等。(实体1,关系,实体2)、(实体,属性,属性值)都是典型的三元组。如图1所示,方块是实体,椭圆是属性值,实线是两个实体之间的关系,虚线是实体的属性。中国的首都是北京就可以用(中国,首都,北京)表示。图1 知识图谱示例第二节 知识图谱的发展历程

虽然知识图谱这一命名是在2012年才出现的,但是它的发展历程却可以追溯到20世纪的引文网络、语义Web、描述逻辑和专家系统等。在这一技术的历史演变过程中,出现了多次发展瓶颈,人们也多次通过技术的发展突破了这些瓶颈。本节对知识图谱的发展历程进行简要回溯。一、起源:科学知识图谱

1955年,尤金·加菲尔德(Eugene Garfield)在《科学》(Science)杂志发表了一篇题为《Citation Indexes for Science: A New Dimension in Documentation Through Association of Ideas》的论文,提出了“引文索引”的设想,即提供一种文献计量学的工具,帮助科学家识别其感兴趣的文献。这一引文技术的概念开创了从引文角度研究文献及科学发展动态的新方法。

1965年,普莱斯发表了《Networks of Scientific Papers》一文,提出了用引证网络表示科学文献之间印证关系的方法。这相当于为当代科学发展绘制了一张地形图,由此引文网络开始成为研究科学发展脉络的方法,进而形成了科学知识图谱(Mapping Knowledge Domain)的概念。但在这一阶段,科学知识图谱主要应用于研究科学发展的历程,更多地被用在科学计量学科和情报学科,致力于发展科学文献引用网络的可视化。

1968年,奎林(J.R.Quillian)提出了语义网络(Semantic Network)的概念,为人类联想记忆提供了一个明显的公理模型。这一模型的本质是一种用图表示知识的结构化方式,可以看成一种用于存储知识的图的数据结构。但在语义网络被提出之后,有人认为自然语言比语义网络更适合表示人类的知识,于是展开了对语义网络和自然语言谓词逻辑之间联系的讨论。在20世纪70年代的研究成果中,Bertram C.Bruce提供了一种将语义网络转化成谓词逻辑的算法,且该算法在计算上具有一定优势;B.Kaiser给出了用语义网络表示连接词的方法。在此之后,语义网络可以方便地将自然语言的句子用图进行表达和存储,此技术可被广泛应用于机器翻译、问答系统和自然语言理解等任务。二、发展:知识库

1977年,美国斯坦福大学的计算机科学家费根·鲍姆教授在第五届国际人工智能大会上提出了知识工程(Knowledge Engineering)的概念。知识工程是通过存储现有的专家知识对用户的提问进行求解的系统,本质上是一个通过智能软件建立的专家系统,研究如何由计算机进行问题的自动求解。知识工程的提出使人工智能的研究从基于推理的模型转向基于知识的模型,从理论转向了应用。随后,作为知识工程的一个重要组成部分,知识库(Knowledge Base,KB)应运而生,并成为知识图谱技术发展史上的重要阶段。

知识库来自于人工智能-知识工程领域和数据库领域两方面技术的有机融合。它经过分类和有序化,根据一定格式将相互关联的各种知识存储在计算机中。相比于一般的数据库,知识库可以对知识结构进行分析,根据知识的各方面特征将其编构成便于利用的、有结构的组织形式。相比于一般的应用程序只能把问题求解的知识隐含地编码在程序中,知识库则可以将问题的答案显式地表达,并单独组成一个相对独立的程序实体。

对于知识库的研究,核心在于对知识的组织和表达,因此逻辑基础十分重要。在此后的一段时期,对语义网络的研究方向逐渐转变为具有严格逻辑语义的表示和推理。从20世纪80年代末到20世纪90年代,语义网络的工作集中在对概念之间关系的建模,有人提出了术语逻辑(Terminological Logic)以及描述逻辑的概念。这一时期比较有代表性的工作是Brachman等人提出的CLASSIC 语言和Horrock实现的FaCT 推理机。

进入21世纪,语义网(Semantic Web)和链接数据(Linked Data)的出现开启了语义网络应用的新场景。语义网和链接数据是万维网之父Tim Berners Lee分别在1998年和2006年提出的。相对于语义网络,语义网和链接数据倾向于描述万维网中资源、数据之间的关系。

语义网中的“Web”希望将数据相互链接,组成一个庞大的信息网络,正如互联网中相互链接的网页,只不过基本单位变为粒度更小的数据。在万维网诞生之初,网络上的内容只有人类可读,计算机无法理解和处理。在用户浏览网页时,计算机只能判断这是一个网页,网页里面有图片、有链接,但并不知道图片描述的是什么,也不清楚链接指向的页面与当前页面有何关系。语义网是对Web的一个扩展,其核心是给Web上的文档添加能够被计算机理解的“元数据”,使网络上的数据对于机器可读,进而使整个互联网成为一个通用的信息交换媒介。

语义网与传统Web的最显著区别是用户可以上传各种图结构的数据,并且数据之间可以建立链接,从而形成链接数据。链接数据产生的目的是定义如何利用语义网技术在网上发布数据,强调在不同的数据集间创建链接。链接数据项目汇集了很多高质量的知识库,如FreeBase、DBpedia和YAGO,这些知识库都来源于人工编辑的大规模知识库——维基百科,随后出现的知识图谱就是对链接数据这一概念的进一步包装。

在这一阶段,由于技术发展程度的限制,知识库更多以机构知识库的形式出现。对于特定的机构,由于该机构所在领域的知识规模通常相对较小,因此容易通过知识库的理论和方法进行有效的组织和管理。有了机构知识库,对机构内容知识的保存、管理、访问更加方便,人们甚至可以利用机构知识库进行预测和决策支持。三、形成:知识图谱

随着互联网的发展,知识与信息呈现爆发式增长,搜索引擎的使用越来越广泛。但海量的信息使得传统万维网并不能满足人们快速、准确地获取高质量信息的需求,于是,知识图谱出现了。

2012年11月,Google公司率先提出知识图谱的概念,表示将在其搜索结果中加入知识图谱的功能。此时的知识图谱与最初在引文网络中出现的科学知识图谱有很大的区别,但与知识库在理论和方法上还比较相近,只是由于建立在互联网搜索引擎的发展之上,知识图谱的含义更加宽泛。从发展愿景来看,知识图谱里的知识应该包含人们生活中的万事万物,涵盖人类文明发现和创造的所有知识。

知识图谱由知识及知识之间的关系组成,知识(实体)的内部特征使用属性-值对表示;知识(实体)之间的关系通过相互连接的边表示。从机构知识库到互联网搜索引擎,面向知识图谱的研究不断深入。传统的搜索引擎是基于关键词匹配的,而知识图谱是利用知识(实体或概念)之间的匹配度建立一个有序的知识组织,为用户提供智能化的访问接口,使用户在搜索时可以更加快速、准确地获得一个全面的信息体系。其工作原理如图2所示。图2 知识图谱工作原理

Google公司拥有数量众多的互联网用户,有需求和资本建立一个庞大的知识图谱。Google公司采用多种语言对知识图谱中的实体、属性和实体间的关系进行描述。根据2015年统计的数据,Google公司构建的知识图谱拥有5亿个实体、约35亿条实体关系信息,已被广泛用于提高搜索引擎的搜索质量。

在Google知识图谱中,一个大规模的、协同合作的知识库——FreeBase起到了重要作用。FreeBase即链接数据的一个数据集,采用“图”的数据结构,把知识库绘制成一个有向图。这种数据模型相对于传统数据库的优势在于其可以处理更复杂的数据以及方便数据的插入。Google知识图谱的模式(Schema)是由Google公司的专业团队在FreeBase的基础上开发和设计的。在Google知识图谱中,所有的对象都有属于它的类型(Type),类型的数量是不固定的。

在Google之后,微软、百度、搜狗等互联网公司纷纷开始构建自己的知识图谱。随着探索研究的不断深入,知识图谱作为一种新的知识管理思路,不再局限于搜索引擎的拓展应用中,开始在各类智能系统(如IBM Watson)以及数据存储等领域发挥关键作用。但是目前的知识图谱构建尚不完善,期待知识图谱在实体之间更加复杂的关系推理等方面有更多的突破。第三节 知识图谱的架构

知识图谱的架构包括知识图谱自身具备的逻辑架构和构建知识图谱采用的技术架构两部分。一、逻辑架构

知识图谱的逻辑架构可分为两个层次:数据层和模式层。数据层是知识图谱的基础,由一系列的事实(Fact)组成。知识以事实为单位存储在图数据库中,例如Google的Graphd和微软的Trinity都是典型的图数据库。采用(实体,关系,实体)或(实体,属性,属性值)这样的三元组作为事实的基本表达方式,可以将存储在图数据库中的所有数据构建成庞大的实体关系网络,形成一个知识的“图谱”。知识图谱的逻辑架构如图3所示。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?