Web用户查询日志挖掘与应用(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-20 14:06:23

点击下载

作者:王继民

出版社:知识产权出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

Web用户查询日志挖掘与应用

Web用户查询日志挖掘与应用试读:

前言

随着计算机网络技术的日益成熟与Web信息量的快速增长,用户可以利用网络在任何地点对各类Web检索系统进行信息查询,包括Web搜索引擎、电子商务站点、数字图书馆等。Web检索系统的服务器日志记录了用户与系统交互的整个过程,主要包括用户的访问时间、所输入的查询词、点击的检索结果及点击时间、移动用户的终端设备信息等。这些日志文件所包含的查询或点击记录的规模一般都很大,尤其是大型商业搜索引擎,它每天能接受几千万甚至上亿次的用户查询。

开展大规模互联网用户查询日志挖掘及其应用研究,可以发现中文用户进行Web查询行为的特征与规律,改善Web检索系统的性能(效果与效率),实现个性化信息服务,在发现用户查询主题的变化及其与社会事件之间的关系等方面也具有重要的理论与实际意义。

本书介绍了互联网用户查询日志挖掘及其应用研究领域的主要技术、方法与实证研究成果,全书由3篇共14章内容组成,具体如下。

上篇是对用户查询日志挖掘及其应用研究的概括性分析与总论。首先利用文献计量与社会网络分析等方法,剖析了Web搜索引擎用户日志与移动搜索用户日志的国内外研究热点、主要科研团队等研究现状。然后给出了Web用户查询日志挖掘研究框架,分别针对搜索引擎用户日志和移动搜索用户日志,阐明了使用何种数据分析与挖掘的理论、技术与方法,归纳并总结了目前已有的研究成果,包括:日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。该框架的建立可以指导一般的Web检索系统、电子商务站点及其类似Web日志挖掘的研究等。上篇由4章内容组成。

中篇介绍基于不同类型日志所开展的实证研究。用户日志来自北大天网大规模Web搜索引擎系统的用户日志、国内某大型期刊数据库的用户日志、移动搜索的用户日志,这三类日志分别涵盖搜索引擎的使用情况、学术期刊数据库的使用情况和移动搜索的使用情况,代表性较强。对这些日志数据集,我们开展了多维度、多方法的综合性试验研究。取得了许多有价值的研究成果,包括:基于时间序列的用户访问量模型、中文Web搜索引擎用户检索的一般特征与规律、多任务中文Web查询的特征、用户点击URL的局部性与自相似性、中文Web用户查询行为的演化趋势、高校用户检索策略的影响因素模型、国内移动搜索用户与传统PC搜索用户的比较研究等。中篇由7章内容组成。

下篇介绍应用研究方面的工作,主要包括3部分内容。其一为基于用户日志进行查询推荐的一项实验性研究。其二由一项发明专利的内容构成,所介绍的查询推荐方法及系统具有实际可操作性。它充分利用用户日志的数据项,为用户提供最可能反映其查询意向且系统具有最佳反馈结果的查询串。其三介绍基于用户查询的舆情监测实例与一个实证研究结果。下篇由3章内容组成。本书的整体逻辑框架如图1所示。图1 本书的基本结构

Web用户查询日志挖掘所使用的技术与方法主要有:中文信息处理技术、Web使用挖掘方法、建模分析与预测、社会网络分析方法、可视化技术、新事件探测技术、网络舆情分析分法等。整体研究思路与技术路线如图2所示。图2 Web用户查询日志挖掘的研究思路与技术路线

本书内容主要来自作者近年来在该领域所做的研究工作,多数章节的内容直接来自本人与他人合作发表的学术研究论文;其中,基于搜索引擎实证研究的数据主要来自北大天网前几年的用户日志(作为公益性中文搜索引擎,它始终没有商业化,近几年的用户访问量较少),而主流的商业搜索引擎如百度、谷歌等都不对外提供或不愿完整提供自己的用户日志,这使得我们无法进一步更新这些实证研究成果。本书的部分研究工作得到中国博士后科学基金、教育部人文社科基金、国家社会科学基金等科研基金的资助。作者早期的研究工作是在北京大学信息科学技术学院网络实验室做博士后时完成的,感谢合作导师李晓明教授的指导与帮助。本书中的搜索引擎日志分析的工作大多是与北大网络实验室的老师和研究生们共同完成的,包括闫宏飞、彭波、孟涛、陈翀、龚笔红等;移动搜索和期刊数据库检索日志挖掘的工作大多是与我指导的研究生们一起完成的,主要有王建冬、李雷明子、张鹏、王明星、郑玉凤、张玉涛等,本科生有孟凡、王一博等;我系博士后化柏林老师和知识产权出版社的李德升老师对书稿的修订和完善提出了有益的建议。感谢所有与我进行过合作研究和为我提供帮助的老师和同学们。在写作过程中,我们参考或借鉴了大量的中外文参考资料,由于篇幅所限或工作疏忽,未能一一列出,在此特向所有的参考文献作者表示衷心的感谢。

本书的撰写工作虽几经努力,但限于能力和水平,难免有疏漏与错误之处;同时,Web用户查询日志挖掘与应用属于一个新兴的研究领域,具有多学科交叉属性;随着互联网的快速发展,特别是移动互联网的普及,Web用户的查询行为也将产生新的变化,本书中的一些理论、技术与方法也需要进一步完善和提高。因此,恳请各位专家和读者批评指正(E-mail:wjm@pku.edu.cn)。王继民2013年10月于北京大学静园三院上篇Web用户查询日志挖掘研究基础

为全面了解Web用户查询日志挖掘领域的研究现状,本篇首先选择了与该研究领域密切相关的两个研究主题开展计量学研究。所选择的文献数据源有Web of Science、EI、知网(CNKI)等中外期刊论文数据库。所选择的主题是:搜索引擎日志挖掘与移动搜索。所使用的研究方法有:统计学、社会网络分析、知识图谱、科学计量学等。所分析的主要指标有:基本的文献计量学指标,共词网络、作者合著网络、机构合著网络等各种网络静态几何量。

然后,针对Web搜索引擎日志、移动搜索日志等特定数据集,提出了对其进行挖掘的一般流程(框架),既涉及所使用的理论、技术与方法,也归纳总结了目前已有的研究成果。该框架的建立可以指导一般的Web检索系统、电子商务站点及其类似Web日志挖掘的研究等。

本篇共包含4章内容,具体如下。(1)第1章对搜索引擎日志挖掘领域进行了计量学研究。重点分析了论文合著网络,包括网络的中心性、小世界特性、连通性等基本网络特征,发现了该领域中最核心的科研合作团队、研究人员及其研究内容等。(2)第2章对移动搜索领域进行了计量学研究。重点分析了国内外移动搜索领域的研究热点和科研合作网络,利用多种科学知识图谱方法和工具,对其进行了对比研究和可视化展现。(3)第3章介绍了基于日志挖掘的移动搜索用户行为研究的最新进展,包括移动搜索日志挖掘的理论基础和核心文献;国外三类较为典型的研究成果;移动搜索用户日志分析的研究框架,以及改进移动搜索服务的基本方法等。(4)第4章提出了一个Web搜索引擎日志挖掘的研究框架,包括:日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。第1章搜索引擎日志挖掘领域的论文合著网络分析

经过十余年的发展,搜索引擎日志挖掘已成为Web使用挖掘的一个重要研究分支。本章基于Web of Science和EI数据库中所收录的有关搜索引擎日志挖掘领域的研究论文,构建了作者合著网络,利用社会网络分析方法研究了合著网络的中心性、小世界特性、连通性等基本特征,发现了该领域中最核心的科研合作团队、研究人员及其研究内容等。1.1 引言

搜索引擎系统的日志文件记录了用户与系统交互的所有信息。分析与挖掘系统的用户日志可以发现用户进行Web查询的特征与规律,进而改善搜索引擎的系统性能[1]。近十余年来有关搜索引擎日志挖掘的论文呈逐年增长的趋势,目前已成为Web使用挖掘的重要研究分支之一。

科研合作最显著的表现形式是科研人员之间合作发表论文,而对论文合著情况的研究是分析科研合作的一个重要切入点。合著论文总数是评价作者、地区或机构之间科研合作与学术交流水平的一个重要指标。一定时期内某领域作者合著论文的数量及合作状况,在一定程度上反映了这个领域科研合作与学术交流的发展速度和质量[2]。

以论文作者为结点,以两个作者共同发表论文为边,可以构建一个作者合著关系网络。利用社会网络分析方法对合著网络进行研究和分析,已成为国内外对此类网络进行研究的主流方法,目前已取得许多的研究成果[2]-[9],如Newman曾对物理学、生物医学和计算机科学等自然科学领域的合著网络进行分析与对比,指出了不同学科之间合作的差异[3];Liu Xiaoming等对数字图书馆领域的合著网络进行了分析和研究,并借鉴网页排序的PageRank算法提出了作者排序的Author Rank方法[4];等借助论文合著网络分析了电子政务研究领域里最活跃的作者[5];国内的李亮和朱庆华从中心性、凝聚子群和核心—边缘结构等三个角度,对我国情报学领域的合著现象进行了分析[6],等等。

为对搜索引擎日志挖掘这一新的研究领域的科研合作情况有一个较为概括和清晰的认识,进而了解该领域的主要科研团队、主要研究内容及其研究现状,本章利用社会网络分析方法对该领域的作者合著关系网络特征进行了研究和分析,其中,1.2节介绍了论文数据的来源和所采用的数据预处理方法,1.3节给出了所搜集数据的基本统计结果,1.4节构建了合著关系网络,并研究了该网络的中心性、小世界特性等网络特征,1.5节对该领域内的三个主要科研团队(凝聚子群)的情况进行了研究,1.6节总结了全章内容。1.2 数据准备

1.2.1 数据来源

为确保所分析论文的权威性和代表性,选取Web of Science(包括SCI、SSCI、A&HC)和EI(The Engineering Index)作为论文检索数据库,检索范围为:主题(标题、摘要或者关键词)中同时包含“search engine”和“log”的论文,并选择“所有年份”作为时间段进行检索,共获得1036篇论文的题录信息,包括论文的题目、作者、作者单位、关键词、发表时间及类型(期刊论文、会议论文)等信息。就“搜索引擎日志挖掘”这一特定研究领域而言,检索式的主题中同时包含“search engine”和“log”的论文,基本可以确定是与该研究主题相关的论文。

1.2.2 数据预处理方法

进行有效的数据预处理可以提高挖掘模式的质量,降低挖掘所需要的时间。由Web of Science和EI这两个数据库所导出的题录信息存在数据格式的不一致性,而且部分数据不完整甚至存在噪声数据。我们在数据分析与模式挖掘之前,先进行了数据的预处理工作,主要包括:剔除不相关的论文、去除重复的论文、拆分同一篇论文中的多个关键词和多个作者、归并同一作者的不同表示等工作,具体如下。(1)主题去重。由于大规模搜索引擎的使用和普及是在1995年之后才开始的,所以在此时间点之前发表的论文予以剔除。通过人工筛查,我们也删除了几十篇与主题内容完全无关的论文。(2)论文去重。在选取“作者”“期刊来源”“文章标题”“发表时间”“关键词”作为分析数据项时,着重检查了相同文献在不同数据库中出现的问题,包括标题大小写字母的不同、标点和空格间断的不同等问题,避免了同一论文重复出现的问题。(3)作者归并。论文在被同一或不同数据库收录时,经常会出现同一作者的不同表示形式问题,如本书作者在此数据集中就同时存在Wang Ji-min和Wang Jimin两种形式,将来还有可能出现Wang J M等。我们对论文中所出现的作者进行了简单的归并处理,具体过程是:由论文作者数据构建一个作者合著网络,计算各结点的度值,然后按降序进行排列,去掉度值较小的节点(如删除度值小于3的结点),再按字母顺序进行作者排序,人工判断连续的两个或多个作者是否为同一作者,构造映射规则库(如Wang Ji-min映射为Wang Jimin),在原数据集上进行作者姓名替换,即用一个统一的名称去表示同一个作者,然后重新构造作者合著网络。在处理本章的这批数据时,我们构建了近百条映射规则,很显然,这种做法并未合并度值较小的结点,这将对计算结果有微弱的影响。

在经过上述数据预处理后,我们得到符合“搜索引擎日志挖掘”研究的论文887篇,不同作者1969个。如下我们将基于这一数据集进行展开研究。1.3 基本统计结果

按时间顺序统计各年发表的论文总数,结果显示:论文数量呈逐年递增的趋势,近4年年均发文量为150篇左右。这887篇论文中会议论文和期刊论文的大致比例是2:1,其中,会议论文主要来自International World Wide Web Conferences(WWW)、ACM-SIGIR Conference、International Conference on Information and Knowledge Management、Conferences for IEEE Computer等互联网、信息检索、数据挖掘等重要的学术会议。期刊论文则主要刊载于Lecture Notes in Computer Science、Journal of the American Society for Information Science and Technology、Information Processing and Management、Journal of Computational Information Systems等。这些会议和期刊主要是计算机、信息检索、人工智能和信息系统领域的核心会议和期刊。

总体来看,这些论文所涉及的内容既有关于搜索引擎日志挖掘的理论、技术、方法的研究,也有具体的实证研究。其中,已被分析的搜索引擎日志有10余个,包括美国的Excite和AltaVista、智利的TodoCL、德国的Fireball、西班牙的BWIE、韩国的NAVER、中国大陆的北大天网和搜狗、中国台湾的GAIS等。这些论文所使用的日志挖掘技术和方法主要包括:统计分析方法、建模分析与预测、序列模式发现、关联规则挖掘、聚类分析等;挖掘的具体内容包括:词项级、查询级和会话级的数据分析、用户结果页面的查看和点击URL的特征、用户查询行为的演化趋势、不同地域用户查询行为的比较,以及如何利用日志分析改进搜索引擎系统的性能等。

统计每一作者的发文数量并进行排序,居前十位的作者如表1-1第2列所示。该领域的一些出色的研究人员都位列其中,包括:美国匹兹堡大学Amanda Spink和宾西法尼亚州立大学Bernard J.Jansen、微软亚洲研究院的Chen Zheng(陈正)和Ma Wei-Ying(马维英)、智利大学的Ricardo Baeza-Yates,以及清华大学的Ma Shaoping(马少平)和Zhang Min(张敏)等。表1-1 合著关系网络的中心性排序1.4 合著网络的特征

一个具体的网络可抽象为一个加权图G=(V,E,W),其中V表示为图中结点的集合、E表示图中边的集合且E中的每一条边都有V中的一对结点与之对应,W表示图中各边所对应的权值的集合。据此,我们可以使用图论和社会网络分析的理论、技术和方法对此网络进行定量的描述,主要有两个层面的内容:其一是网络中单个结点或边的性质,具体的量化指标包括结点的中心性、声望值等。其二是网络的整体性质,具体的量化指标包括网络的密度、直径、连通集团的规模及其分布、核心边缘结构等。目前,对社会网络进行自动分析的软件有很多,如Ucinet、Pajek等[10],[11]。本章则主要使用Pajek计算作者合著关系网络的基本特征指标。

1.4.1 合著网络的构建

在经过数据处理后的887篇论文中,合著论文为775篇,约占论文总数的87%,即该领域的作者合著率约为87%,与一般工程技术领域的作者合著率接近,远高于国内数字图书馆领域的作者合著率(49.6%)[12]。

以论文中出现的1969个不同作者为结点,以两个作者之间共同发表论文为边,以两个作者合著论文的篇数为边的权值,构建一个加权的合著关系网络,该网络共有3322条边。统计显示:该网络中度值为0的结点有67个,即该数据集中有67位作者的论文是由个人独立完成的。边的权值大于1的有352条,即有352对作者合作发表两篇及其以上的论文。网络密度为0.0017,这是一个较为稀疏的关系网络。借助Pajek分析显示:该网络存在很多切点(cutpoint)[10],即去除某点后,网络就划分为互不连通的两个部分。

1.4.2 合著网络的基本特征

对所构建的合著关系网络,下文我们主要从结点的中心性、小世界特性、连通分支的规模等方面研究该网络的基本特征。(1)结点的中心性

在社会网络分析中,有三个主要的指标描述一个结点的中心性,即:点度中心度(degree centrality)、介数中心度(between centrality)和接近中心度(closeness centrality)。尽管这三个指标所强调的侧重点有所不同,但都是描述一个结点在网络中所处“中心”位置的情况[11],[13]。

网络中一个结点V的点度中心度是指与结点V相连接的边的数量;在合著网络中表现为与其合作发表论文的不同作者的数量。显然,结点V的度值越大就意味着这个结点在某种意义上越重要,它反映了结点的局部中心指数。网络中所有结点度的平均值称为网络的平均度。利用Pajek软件计算合著关系网络中各结点的度值[10],并按度值大小进行排序,列举度值最大的前10个科研人员,结果见表1-1第4列。

一个结点V的介数中心度是指网络中所有两对结点之间的最短路径之中,经过V的数量与总的最短路径数量之比,它反映了结点V在多大程度上控制其他结点之间的交往,是一种“控制能力”指数。一个结点V的接近中心度是指V与网络中所有其他结点的最短距离之和。它反映的是结点V不受网络中其他结点控制的测度[11]。利用Pajek软件计算合著关系网络中各结点的介数中心度和接近中心度,并按度值大小进行排序,列举度值最大的前10个科研人员,结果如表1-1的第6列和第8列所示。

对比分析表1-1中的三个中心性指标,我们不难发现:微软亚洲研究院的Chen Zheng(陈正)和Ma Wei-Ying(马维英)出现在各列中,是上述三个中心性指标前十名排序的交集,也就是说,无论从哪个角度去看这两位研究人员都是整个合作网络的中心人物。就具体取值来看,陈正的局部中心性好于马维英,马维英的介数中心性和接近中心性好于陈正。局部和整体中心性处于第二档位的是智利的Ricardo Baeza-Yates和美国的Amanda Spink。

网络中各结点的点度中心度(或介数中心度或接近中心度)的分布可用一个分布函数p(k)来描述,p(k)表示一个随机选定的结点的度值恰好为k的概率。大量实证研究表明,许多实际网络存在幂律(power-law)形式的中心度分布,即,此类网络也称为无标度网络(scale free networks)。无标度网络包括Internet网络、电影与电视剧演员合作网络、科学家合作网络、人类性关系网络、蛋白质互作用网络、语言学网络等[13]。这类网络的度分布均呈现无标度网络的特征,即大多数人物仅与少量的人相联系,而少数几个度值较大的人物与众多的人相联系。

网络中一个结点的发文量、点度中心度的大小、介数中心度的大小及接近中心度的大小之间可能存在某种相关性。我们计算两两之间的相关性,结果显示在p=0.01(双侧)上,任何两个变量之间均显著相关,具体数值如表1-2所示。该表显示:作者的发文量与合著人员的数量呈极强的相关关系,即多产作者通常有更多的合作者。而接近中心度与介数中心度的相关性较弱,相关系数仅为0.274。表1-2 发文量、三个中心性指标的相关性分析(2)网络的连通分支

连通分支是指网络的一个子网,在这个子网内,任意两个结点之间都至少存在一条路径。一个网络可能存在多个相互独立的连通分支。实证研究表明,对于大量的Scale-free网络,连通分支的规模(即子网的大小)通常符合幂律分布[13]。

类似于其他学科的作者合著关系网络,本章所构建的搜索引擎日志挖掘领域的作者合著网络也由多个连通分支构成,其中,最大的连通分支包含398个结点,第二大连通分支仅包含15个结点,随后结点的规模递减较快,约有115个连通分支只含有两个结点;除孤立点外,该网络包含近400个连通分支。

Nascimento的论文显示SIGMOD的合著关系网络中有近60%的结点被包含在一个连通分支中[7];Liu Xiaoming所构建的数字图书馆领域的合著网络最大连通分支包含38%的结点[4]。而本章网络的最大连通分支只包含结点20.2%,是一个比较低的数值,这表明在该领域内大规模的科研合作尚未开始,仍处于学科发展的初级阶段。某些小的连通分支结合紧密,如第二大连通分支是由清华大学马少平教授领导的科研团队,有15名成员,发表论文20余篇,自成一个小的连通分支,不与外界相连。

1.4.3 小世界网络的特征

在朋友关系网络中,一个人的两个朋友很可能彼此也是朋友,这种属性称为网络的聚类特性[13]。用数学化的语言来说,对于某个结点i,它的聚类系数Ci被定义为与它所有相邻结点之间相连边的数目占可能的最大连边数目的比例。具体地,设结点i有ki条边与之相连(即结点i有ki个邻居),显然这ki个结点最多有条边,假设这ki个结点之间实际有Ei条边相连,则;整个网络的聚类系数C就是所有结点聚类系数的平均值。

网络中两个结点Vi、Vj之间的最短路径定义为所有连通(Vi,Vj)的通路中,所经过的其他结点最少的一条或几条路径。两个结点Vi,Vj之间的距离dij定义为Vi、Vj之间最短路径上边的个数。网络的直径(diameter)定义为网络中任意两个结点之间距离的最大值。网络的平均路径长度定义为网络中任意两个结点之间距离的平均值;这是度量网络特征的一个重要的全局几何量。

对一个连通网络而言,如果它具有大的聚类系数和小的平均路径长度,则称该网络具有小世界网络的特征。在此,我们将合著关系网络中的最大连通子图(结点398个,边1155条)取出,使用Pajek软件计算,结果显示其子网络的聚类系数为0.79,平均最短路径长度为7.9,网络的直径为18。而相同结点数(398个结点)与平均度(网络的平均度为5.8)的随机网络[13]的聚类系数为0.013,平均最短路径长度为3.7,具体见表1-3,这表明:搜索引擎日志挖掘领域的作者合著关系网络具有小世界网络的特征。表1-3 合著关系网络与随机网络的平均路径长度和聚类系数的比较

国际数字图书馆领域合著网络[4]的聚类系数为0.89,最短平均路径长度为6.58;SIGMOD的合著关系网络[8]的聚类系数为0.69,最短平均路径长度为5.65;Newman所构建的不同学科合著关系网络[3]中,最大的聚类系数也只有0.72。本章所构建的合著关系网络的聚类系数数值较高,这揭示了:在搜索引擎日志挖掘领域,一个科研人员的合作者之间更有可能进行新的科研合作,较大的平均最短路径则揭示:不同的研究小组(或称科研团队)之间的交流并不多。1.5 科研合作团队/h4

在合著关系网络的最大连通子图中,若删除结点度为1的作者,则该网络迅速划分为若干个子网络,其中有三个聚集性较大的连通分支(凝聚子群,即科研合作团队)较为突出。如下,我们对这三个科研合作团队进行更为细致的分析。

网络中的第一大科研团队是以Chen Zheng(陈正)和Ma Wei-Ying(马维英)为代表的微软亚洲研究院团队;第二大科研团队是以Ricardo Baeza-Yates教授为领军人物的智利大学教授研究团队(Ricardo教授所写的《现代信息检索》一书是信息检索领域的经典教材,此书的中文版由南开大学王知津教授翻译完成);第三大科研团队是以美国匹兹堡大学Amanda Spink教授和美国宾西法尼亚州立大学的Bernard J.Jansen教授为代表的研究团队。

统计显示:这三个研究团队的发文量分别为152篇、81篇和70篇,占整体论文数量1/3以上。对每个研究团队所发表论文的高频关键词进行统计,结果显示:排在前几位的高频关键词都是Search engines、World Wide Web、Information retrieval、Query languages,可以称为该领域的标志性关键词。微软亚洲研究院所发表的论文中排序靠前的关键词还有Algorithms、Data mining、Robot learning、Mathematical models、Database systems等;智利大学的论文中排序靠前的关键词还有Websites、Behavioral research、Computational methods、Knowledge management、Query processing、Data structures等;Spink与Jansen研究团队的论文排序靠前的关键词还有Online searching、User interfaces、Information services、Problem solving、Behavioral research等。表1-4 三个研究团队的主要特征Chen Zheng(陈Amanda Spink,Ricardo Baeza-代表人物正),Ma Wei-Bernard J.YatesYing(马维英)Jansen美国匹兹堡大学作者机构微软亚洲研究院智利大学宾西法尼亚州立大学研究团队骨干人32人16人10人数发表论文的数量152篇81篇70篇以人工智能为以用户检索行为以检索技术为切主,包括:算法、的研究为切入入点,包括:查研究团队的侧重数据挖掘、数学点,包括:用户询处理、用户行点模型、数据库系的搜索行为、查为、数据结构与统、自然语言处询语言的使用、算法、知识管等理技术等信息服务等

根据研究团队的发文内容、词间的共现关系,以及几个领军人物的网上介绍材料,我们初步揭示了这三个研究团队的基本特征,见表1-4。微软亚洲研究院的研究工作以人工智能、数据挖掘为主要切入点,可完全归结为计算机技术领域;智利大学的研究工作以检索技术为切入点,可归结为信息检索技术领域;而Spink与Jansen可以看做图书馆与情报学中的用户行为研究领域。三个研究团队的论文风格与学科方向密切相关,存在较大的差异。1.6 小结

本章针对搜索引擎日志挖掘这一新的研究领域,从Web of Science和EI数据库中抽取相关研究论文的部分题录信息,构造了作者合著网络,研究了网络的基本属性特征,发现了该领域中核心的研究人员与研究团队。本章的主要工作及其特点概括如下。(1)在数据预处理阶段,我们所采用的作者合并方法未见其他文献报道。该方法是一种“机器+人工”的处理方法,在总结完善后,将来有可能成为一种比较好的作者归并方法。(2)搜索引擎日志挖掘领域的作者合著关系网络整体较为稀疏、小连通分支的内部联系紧密、具有小世界网络的特征。微软亚洲研究院的Chen Zheng(陈正)和Ma Wei-Ying(马维英)处于整体网络的中心位置。(3)该领域的研究论文呈逐年增长的态势,有三个研究团队表现较为突出,所发表的研究论文占论文总量的1/3以上,他们分别从计算机技术、信息检索技术、用户行为研究等三个不同的角度对日志数据进行挖掘,三者的研究方法存在一定的差异。

利用本章所构建的作者合著关系网络,还可以开展更深层次的研究工作,例如计算该网络各结点的Author Rank值、分析该网络的核心边缘结构,研究该网络的生成机制,等等。参考文献

[1]李晓明,闫宏飞,王继民.搜索引擎原理、技术与系统[M].北京:科学出版社.2005.

[2]林莉.科研论文合著网络结构与合作关系研究[D].吉林大学硕士学位论文.2010.

[3]Newman M E J.Scientific collaboration networks(I):network construction and fundamental results [J].Physical Review E.2001,64(1):1-8.

[4]Liu X,Bollen J,Nelson M L,et al.Co-authorship networks in the digital library research community[J].Information Processing and Management.2005,41(6):1462-1480.

[5]Erman N,Todorovski L.Analyzing the Structure of the EGOV Conference Community[C].//IFIP International Federation for Information Processing 2010.LNCS 6228.Berlin:Springer-Ver-lag.2010:73-84.

[6]李亮,朱庆华.社会网络分析方法在合著分析中的实证研究[J].情报科学.2008,26(4):549-555.

[7]Nascimento M A,Sander J,Pound J.Analysis of SIGMOD' s co-authorship graph[J].SIGMOD Record.2003,32(3):8-10.

[8]Ding Y.Scientific collaboration and endorsement:network analysis of co-authorship and citation networks[J].Journal of Informetrics.2011,5(1):187-203.

[9]孟微,庞景安.我国情报学科研合著网络研究及其特征参数分析[J].情报理论与实践.2009,32(8):12-15.

[10]Nooy,W D.,Mrvar A,Batagelj V.Exploratory Social Network Analysis with Pajek[M].Cambridge University Press.2005.

[11]刘军.社会网络分析导论[M].北京:社会科学文献出版社.2004.

[12]王继民,王建冬,张鹏.我国数字图书馆研究论文(2005-2009)的统计分析[J].数字图书馆论坛.2010(3):81-88.

[13]吴金闪,狄增如.从统计物理学看复杂网络研究[J].物理学进展.2003,24(1):18-46.第2章移动搜索研究的知识图谱分析

以国外的Web of science和EI数据库、国内的CNKI数据库收录的移动搜索领域文献为载体,在提取文献关键词、作者及机构等信息的基础上,本章综合利用统计分析、文献计量、社会网络分析、数据挖掘等多种科学知识图谱方法和工具,对国内外移动搜索领域的研究热点和科研合作网络等进行了对比研究和可视化展现。进一步分析显示,国内和国外的移动搜索研究几乎同时起步,国外的在各分支子领域的研究更加广泛和深入,在用户行为分析方面出现了几个稳定和高产的科研团体;而国内的研究以概念性的引入和宏观性的综述为主,稳定高产的科研团队较少。2.1 引言

移动搜索是指在移动通信网络中,用户利用各种移动终端、通过多种接入方式(如SMS、WAP、IVR等)查找WEB或WAP站点上网页内容的一种信息搜索方式,是移动互联网的重要组成部分。近几年,移动搜索在国内外都呈现出强劲的发展势头[1],[2]。成为移动运营商、手机终端厂商、互联网信息内容服务提供商和相关领域科研人员持续关注的热点,研究内容涉及多个领域,如移动通信、信息检索、自然语言处理、人工智能、人机交互等[3],[4]。

利用科学知识图谱方法,本章对国内外移动搜索领域的研究热点、子领域、科研团队等进行全面的概括和分析。进行该项研究工作的意义包括如下三点:①移动搜索是一个新兴的、多学科渗透的交叉研究领域,整体性的文献计量和知识图谱分析不仅可以使研究者对该领域有宏观把握,还可以帮助该领域专家及时借鉴相关研究成果、了解相邻子领域的动态[5];②对比国内外不同的研究热点和子领域,有助于学者发现我国该领域研究的优劣势,进而寻找新的研究切入点;③对研究团队的识别有利于学者之间的科研合作和学科之间的知识流动。2.2 数据分析方法与工具

科学知识图谱(knowledge mapping)是以共现分析、词频分析、引文分析等文献计量方法为基础,以图像、图形的形式展现科学领域的发展历程、研究现状及热点前沿,并揭示科学知识之间的联系与知识发展规律的方法和工具。近年来,知识图谱广泛应用于各个学科的知识发现,并取得诸多的研究成果[5]-[8]。

本章主要使用的软件工具如下。①Pajek:是进行大型复杂网络的分析软件,可以进行上万个结点的可视化网络的绘制[9],本章将基于社会网络分析方法,利用该软件进行关键词共现网络和作者合著网络的绘制。②Endnote:是一款文献下载、管理软件,可以支持主流数据库(如SCI、EI、ABI等)文献题录信息的下载、格式转换、保存和导出等。2.3 数据获取与数据预处理

2.3.1 国外文献的获取与预处理

对于国外的研究文献,选取了Web of Science(包含SCI、SSCI、A&HC)和EI(The Engineering Index)作为文献来源数据库。由于“移动搜索”是一个新兴的研究领域,“mobile search*”“wireless search”等少数几个专指词并不能完全覆盖领域内所有文献。为提高查全率,本章采用了引文珠形增长型的检索策略。该检索策略是从已知的少数几个专指词开始检索,得到若干篇文献,人工审阅这些文献,从中选出新的相关检索词,补充到检索式中,将这些词加入检索式之后,就能查出其他新的命中结果。不断重复进行上述过程,直到找不到其他适合包含于检索式的附加词为止[10]。依据该检索策略,本章最终检索式为:主题=“mobile search*”OR“mobile Web search”OR“mobile visual search”OR“mobile media search”OR“mobile landmark search”OR“mobile social search”OR“mobile ringtone search”OR“mobile internet search”OR“mobile image retrieval”OR“mobile information retrieval”OR“wireless search”OR“wireless Web search”OR“wireless information retrieval”OR“cell phone search”OR“cell phone information retrieval”。打开词形还原,选择所有年份。经过检索,Web of Science反馈172篇,EI反馈281篇(检索时间点为2012年8月23日)。通过Endnote软件分别下载题录信息,所选取的字段包括“题名、作者姓名、作者机构、发表时间、发表期刊、关键词、摘要”等。

对数据所进行的预处理工作主要包括如下几点。①主题筛选:由于移动互联网和移动搜索是在2004年才逐步形成相对独立的研究领域,故在此之前发表的论文予以剔除。②论文去重:由于部分论文同时被Web of Science和EI收录,通过对比“题目”“作者”“发表时间”等字段,剔除重复的题录信息。③格式统一:为了方便后文的关键词和合作团队分析,这里进行大小写转换、同义词替换、作者的映射等处理。④将作者机构中包含“china”的54条题录剔除。至此共获得符合“移动搜索”主题的规范文献题录信息250条。

2.3.2 国内文献的获取与预处理

对于国内的研究文献,选取收录中文文献较为全面、比较有代表性的中国知网(CNKI)为来源数据库,同时将国内作者在Web of Science和EI中发表的54篇文献计入国内研究文献。在对CNKI检索时,检索式为:主题=“移动搜索OR无线搜索OR手机搜索”;检索时间点为2012年8月23日。检索结果显示有相关文献726篇。需要说明两点:①由于研究术语的非统一性,在检索式编写中,本章特别注意了相似概念的全面覆盖;②考虑报纸文献的内容和期刊文献学术程度差异较大,且关键词、作者和摘要的著录并不全面,故在数据获取时,去掉了来自“中国重要报纸全文数据库”的文献,对CNKI检索获得题录307条,加上Web of Science和EI中收录的54条,共计361条题录。2.4 基本统计结果

统计国内外移动搜索领域论文的年代分布,结果如表2-1所示。该表显示:①移动搜索领域发表论文的数量整体呈增长趋势。其中,文献数在2007年出现了较大幅度的增长,原因可能是:2007年全球3G就已经呈现快速增长的趋势,3G用户在欧美的普及率接近了10%,尤其是美国的移动运营商大力推广无线互联网的增值业务[11],这些都为移动互联网的发展奠定了基础。②国内在移动搜索领域的研究和国外几乎同时起步。③2008年后,国内外关于该领域的研究成果趋于稳定。2011年,国外研究成果呈较快增长态势,可能是与全球智能手机的普及及移动互联网技术的迅猛发展有较大关系。国内研究成果也有所增长,但是增长幅度不大。表2-1 国内外移动搜索领域历年文献数量2.5 基于关键词共现的知识图谱分析

2.5.1 关键词词频统计情况(1)国外文献关键词词频统计。提取国外文献所有关键词,统计词频并排序,结果见表2-2。该表显示“移动设备、手机、移动通信系统、GSM、无线网络、信号处理、互联网、万维网、搜索引擎”等为移动搜索领域的热点研究内容,这表明与传统PC搜索相比,移动搜索的特征主要体现在设备和通信方式上。从技术层面上,很多学者关注搜索技术的实现,如“算法、移动计算、查询语言、语音识别、计算复杂度、本体、元数据、信号处理”等。在应用层面,学者更加关注用户需求的体察,如“用户界面、人机交互、信息服务、基于地理位置的服务、行为研究”等。此外,“知识管理、信息管理、市场营销”与移动搜索的结合也引起了研究人员的关注。表2-2 国外移动搜索领域文献关键词的词频统计(2)国内文献关键词词频统计。提取国内文献所有关键词,为便于统计,将国内学者在Web of Science和EI中发表文献的关键词进行翻译,统计词频并排序,结果见表2-3。该表显示:“手机、移动设备、移动互联网、WAP、无线互联网、移动通信系统、互联网、搜索、信息检索”等为移动搜索领域的热点研究内容,表明国内研究热点主要体现在设备和移动互联网上。从技术层面上,很多学者关注移动代理技术,如“遗传算法、Aglet、移动代理、移动Agent、J2ME”等。在应用层面,学者比较关注数据挖掘、相关反馈等移动搜索的基础应用。表2-3 国内移动搜索领域文献关键词的词频统计(3)对比分析。仅从关键词词频来看:①国内外在热点研究内容上基本相同,与传统PC搜索相比,既有移动搜索特有的内容,也有共同关注的内容,并突出了搜索的“移动”性特征。②在技术层面上,国外更为关注移动搜索技术的实现,研究比较全面、具体、深入;国内则停留在“移动代理”上,对具体的实现技术研究还不够。③在应用层面上,国外比较关注如何提高人机交互水平和提供更多的服务,国内的研究比较笼统。另外,国外在移动搜索领域引入了“知识管理、信息管理、市场营销”等概念。

2.5.2 关键词共现分析

共现分析方法最早是由法国国家科学研究中心的文献计量学家们于20世纪80年代提出来的。两个或者多个关键词在同一篇文章中同时出现称为关键词共现。通过描述关键词与关键词之间的关联与结合,可以揭示学术领域研究内容的内在相关性和学科领域的微观结构[12],[13]。通过对关键词共现情况的分析,从而归纳出该学科或领域的研究热点。(1)国外文献关键词共现分析。基于关键词共现分析的方法,利用软件分析工具Pajek,同时结合Java编程,实现“国外移动搜索领域关键词共现网络”的绘制。在关键词共现网络中,点即代表某关键词,点与点之间的边则代表两个关键词在同一篇文献中出现等。按照文献[7]中的方法,构建关键词共现网络,简化后的网络结构如图2-1所示。

在图2-1中,结点圆圈的面积大小表示结点的度值;结点之间的边粗细程度表示共现次数。国外文献关键词共现网络由6个部分构成,即图中A~F对应的子网络。不同子网络代表不同的研究热点。子网络A:研究人员对构建移动搜索服务的系统、移动信息资源的组织和如何提高用户体验等方面予以了关注。子网络B:研究人员对图像的移动搜索进行了研究。子网络C:针对无线网络的特点,研究人员开发了软件,以实现基于移动搜索的各项服务。子网络D:针对如何使具有照相功能的移动设备如照相手机、平板电脑等产生的图像与现实进行匹配,从而实现可视化搜索的问题,研究人员对增强现实、虚拟现实的问题进行了关注。子网络E:本体和语义网。子网络F:语音识别和信号处理,主要用于实现移动设备的语音搜索功能。图2-1 国外移动搜索领域关键词共现网络(2)国内文献关键词共现分析。采用同样的方法绘制国内移动搜索领域关键词共现网络,如图2-2所示,该图显示:国内文献关键词共现网络由6个部分构成,即图中A~F对应的子网络。不同子网络代表不同的研究热点。子网络A:国内研究人员关注构建移动搜索系统的各个环节,另外还有学者对移动搜索的商业行为进行了关注。子网络B:国内研究人员针对手机POI搜索的优化和提高用户体验给予了关注。子网络C:根据移动搜索的特点,研究人员对信息资源的组织方法进行了研究。子网络D:研究人员对移动搜索的基础技术——移动代理予以了关注。子网路E:移动搜索的具体算法。子网络F:数据挖掘和聚类分析。图2-2 国内移动搜索领域关键词共现网络(3)对比分析。仅从关键词共现来看:国外的研究范围更加广泛,从搜索技术到用户行为,从市场格局到运营模式。相对而言,国内的研究整体水平不高,现有的研究还大多停留在移动搜索概念的引入阶段和基础理论和技术,或者比较宏观的用户和市场描述,对具体的移动搜索技术改进、用户行为和市场运营探究较少。2.6 基于作者合著的知识图谱分析

科研合作是科学共同体中普遍存在并日渐加强的一种互动方式。在每个科学研究领域都存在一定数量的科研小团体,他们在各自的领域进行有推进性的钻研,同时通过彼此合作进行知识的分享和传递;科研合作网络也是描述科研人员人际关系的网络,通过直观的网络呈现,可以帮助科研人员对领域内的科研合作及其分布有一个概括而清晰的认识,进而找到合作伙伴或发现研究前沿[5]。

2.6.1 国外文献作者合著分析

基于社会网络分析方法,利用Pajek并结合Java编程,实现“国外移动搜索领域科研合作网络”的绘制。在科研合作网络中,点即代表某个具体的科研实体,如作者、机构、国家等,而两个点之间的边则代表他们进行了共同的科研活动,如发表论文、出版专著、发明专利等。按照文献[7]中的方法,我们以作者为顶点,以作者之间合写论文为边构建作者合著关系网络,简化后的网络结构如图2-3所示。图2-3 国外移动搜索领域主要研究团体

在图2-3中,每个结点代表一个作者,结点的度值越大,表现为结点圆圈的面积越大;结点之间的边表示两个作者进行了论文的合著,合著次数越多,边的权值越大,线条越粗。图2-3显示:国外移动搜索引擎研究领域已经出现了一批突出的、合作关系密切的研究合作团体,即图中A~F对应的子网络;每个研究团体都有一些相对核心的学者,如S S Tsai,B Girod,K Chruch,C Feijoo,OBouidghaghen,P Ehien,S Baluja等人有较高的度值,分别是各自研究团队的核心和桥梁。

为深入了解这几个核心研究团队的信息,我们查阅了题录信息和相关论文的具体内容,如作者所在机构、主要研究方向等,汇总结果见表2-4。该表简要地概括了几个科研团队的主要研究方向,并显示了科研合作团队的成员主要来自高校计算机学院、IT公司、电信公司,以及高校和公司开展合作研究的团队;多数科研团队的研究兴趣涉及人机交互、数据挖掘、自然语言处理、人工智能等研究内容。表2-4 国外移动搜索领域几个核心研究团体概况

2.6.2 国内文献作者合著分析

采用3.6.1节的方法绘制国内移动搜索研究领域的主要科研团队,结果如图2-4所示。该图显示:国内移动搜索研究领域初步形成了一批合作关系密切的研究合作团体,即图中A~F对应的子网络;每个研究团体都有一些相对核心的学者,如Yao H、Gao W、王雪、王知津、Yang J、Zheng J F、方金云等人有较高的度值,分别是各自研究团队的核心和桥梁。图2-4 国内移动搜索领域主要研究团体

这几个核心研究团队所在的机构、主要研究方向等,汇总结果在表2-5中。整体来看,在该领域国内的核心科研团队还不多,各团队的发文数量不多,2~5篇不等。个人独著论文占多数,中文文献研究也不够深入。该表显示,国内科研合作团队成员主要来自高校计算机学院和科研院所;公司与公司间合作以及院校和公司间合作较少。表2-5 国内移动搜索领域几个核心研究团体概况

对比分析:从作者合著情况来看,国外已经形成几个比较稳定且高产的作者团队,他们来自各个搜索引擎公司、电信公司以及高校计算机、人机交互和图书情报实验室,他们的代表性文献被广泛引用;而国内比较核心的科研团队还比较少,目前主要是来自高校的经济管理和计算机专业,还有少部分学者来自图书情报领域。2.7 小结

移动搜索是基于移动互联网的一种新的搜索模式,其用户行为、产业链构成都与传统PC搜索存在一定的差异。国内外研究人员从2004年开始对移动搜索的研究持续增强和深化,从移动搜索的基本概念到实现技术,从构建移动搜索系统到用户行为研究,从搜索的算法到基于移动搜索展开的各项服务,部分技术已经成熟,并实现运营,从理论走向应用。但是我们也应当看到,国内对移动搜索的研究还不够全面和深入,成熟高产的科研合作团队较少。参考文献

[1]Google I O M.The Mobile Moment:Understanding Smartphone Users[EB/OL].2011,www.Google.com/think/insights.

[2]易观智库产业数据库.2011年第4季度中国无线搜索市场季度监测[EB/OL].2011,http://www.enfodesk.com/.

[3]Kim Y,Jeon S,Kim M.User needs of mobile phone wireless search:focusing on search result pages[J].Human Centered Design,2009:446-451.

[4]Bouidghaghen O,Tamine L,Boughanem M.A diary study-based evaluation framework for mobile information retrieval[J].Information Retrieval Technology,2010:389-398.

[5]李雷明子.基于日志分析的移动搜索用户行为研究[D].北京大学硕士论文.2012.

[6]张鹏.我国图书情报研究的知识图谱分析[D].北京大学硕士论文.2010.

[7]王继民,李雷明子,张鹏.搜索引擎日志挖掘领域的论文合著网络分析[J].现代图书情报技术,2011(4):58-63.

[8]刘则渊,陈悦,侯海燕,等.科学知识图谱:方法与应用[M].北京:人民出版社.2008.

[9]Nooy W d,Mrvar A,Batagelj V.Exploratory Social Network Analysis with Pajek[M].Cambridge:Cambridge University Press,2005.

[10]赖茂生,赵丹群,韩圣龙,等.计算机情报检索(第2版)[M].北京:北京大学出版社,2012.

[11]向文杰.移动互联网发展的回顾与展望[J].电信技术,2009,67(001):66-69.

[12]刘则渊,王贤文,陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛.2009(10):14-34.

[13]陈悦,宋刚,郑刚,等.中国创新管理研究的知识结构分析[J].科研管理.2011(2):10-19.

[14]姜春林,杜维滨,李江波.经济学研究热点领域知识图谱:共词分析视角[J].情报杂志,2008,27(9):78-80.

[15]曹玲,杨静,夏严.国内竞争情报领域研究论文的共词聚类分析[J].情报科学,2010(6):923-925.

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载