舆情计算方法与技术(txt+pdf+epub+mobi电子书下载)


发布时间:2021-04-24 19:51:09

点击下载

作者:饶元

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

舆情计算方法与技术

舆情计算方法与技术试读:

其他

在繁杂中寻找简单,在喧闹中寻找和谐,机会就在困难的中央!——爱因斯坦第1章社会计算与社会舆情分析概述

伴随着Web2.0技术的迅速发展和广泛应用,因特网对人类社会的交往产生了深远的影响,人们利用网络不仅突破了对传统社会关系的理解,并且利用网络工具来构建一个更为广泛的社会生态环境,从而将物理世界中的现实社会和网络中的虚拟社会相互融合,促进了社会计算(Social Computing)领域相关技术与应用的快速发展。同时,作为计算机网络技术、社会科学及心理学等多领域之间的新兴交叉学科,社会计算正在深刻地改变着人与人、人与社会之间的交互模式,特别是通过去中心化、社会化、开放性、创造性、自下而上的新模式将互联网的主导权归还给普通的网络用户,并在各种社会化软件的协助下,一方面每一个用户创造的内容通过社会关系网络来实现信息的快速传播,改变了人们对信息获取、发布、分析和利用的传统渠道与模式;另一方面通过整合每个人在互联网上的各种社会资源来形成集体智慧与知识共享,从而促进了基于网络的社会智能的诞生。因此,本章在社会计算相关技术介绍的基础上,分析社会计算与社会智能领域的相关技术及社会舆情分析方法和应用之间的相互关系与影响,从而对复杂数据处理环境下的舆情分析与技术提供一个总体的概述,并形成舆情分析的总体技术框架与视图。1.1 社会计算的概念与关键技术1.1.1 Web2.0与社会化软件的特征

O’REILLY 公司CEO——Tim O’Reilly 在其公司的个人栏目里发表了名为《什么是 Web2.0——下一代软件设计模式与商业模式》一文中首次提出了Web2.0概念,他认为下一代网络的生命力主要来自于用户的积极参与,且这种源于用户自主贡献的网络效应才是Web2.0时代中统治市场的关键。这一点与基于传统Web l.0的网络应用所强调的信息门户及对信息内容的集中式管理和控制相反,Web 2.0从一开始就希望去中心化,打破信息的封闭与功能大而全,但无特色的、被动的应用管理模式,而是提倡以用户个人需求为核心,围绕用户个性化需求来提供集成、开放和针对性的信息服务,使得网络软件在支撑社会化应用的同时,也越来越多地具有了社会化的特征。

这种社会化的特征主要体现在:Web2.0系统彻底改变了传统自上而下的由少数信息资源控制者集中控制和主导信息的网络管理体系。并采用自下而上的方式,通过用户参与、共享及集体智慧,实现了对传统互联网的管理理念和思想体系的变革与升级,极大地促进了普通用户对网络内容服务的贡献与创造力,以及对新技术的迫切需求。例如,传统门户中的信息发布,用户主要是对信息内容进行浏览;但是在Web2.0的条件下,用户不仅是信息内容的消费者,同时也是信息内容的创造者。在博客、播客、微博、微信、云存储等Web2.0应用(参见附录A所示的信息分类示意图)的支持下,越来越多的功能与应用使得用户对信息的使用方式与需求也发生了巨大的变化,这些变化直接推动了目前移动计算、云计算及大数据等技术和应用的发展与升级。表1-1从信息的控制、通信方式、信息发现、信息获取、内容的控制及技术等10个不同的角度对Web 1.0和Web 2.0进行了对比,从而可以清晰地发现两者之间的差异。表1-1 Web1.0和Web2.0之间的差异比较

从表1-1中可以看出,Web2.0在网络技术的基础上实现了人与人之间的广泛通信与交互,并在BBS论坛、Blog、微博、微信、Wiki等社会软件(Social Software)的支撑下,使得人们可以更方便地建立起个人与朋友之间沟通与协助的虚拟网络空间。同时,在用户的广泛参与下,极大地促进了用户对网络内容的创作和贡献的潜力,直接推动了社会计算与社会软件技术与应用的发展,以及基于个性化与社会化的大数据时代的到来。其中,与传统的软件相比,社会化网络软件所具有的特征如下:(1)互联网已从一个信息管理工具演化成为了一个公共平台,利用互联网已不再是为了单纯的统治和控制,而是为了更有效地促进交流和分享。(2)平台的社会化,使人们更加充分地重视并利用网络集体的力量和群体智慧,促进了社会计算与社会智能的诞生。(3)将数据变成“Intel Inside”,促进了大数据分析与应用时代的到来。(4)广泛采用分享和参与的架构,促进了互联网的数据开放与传播,同时也驱动了互联网的社会化群体效应——众包的产生。(5)通过接口的开放性与标准化,带动分散的、独立的开发者将不同的软件应用汇集并形成一个软件的生态环境。(6)通过内容和服务的融合模式,促进了轻量级业务之间的分享机制的形成。(7)注重用户体验的持续性服务(“永久的 Beta 版”)。(8)有价值的服务成为了应用的本质,并且通过网络使得服务无处不在,改变了传统软件应用的单机版或单一平台版本概念与使用方式。(9)不仅仅关注少数的重要用户,同时关注大量的普通用户,以及所形成的长尾效应。

因此,Web2.0的特征归纳起来即为“主动”和“互动”的互联网。“主动”是指“以个人为中心”,开启了网络个性化的个人时代,个人深度参与到互联网中,并彼此相连;“互动”是指“以自组织为中心”,即个人与个人之间、个人创造的内容与内容之间及个人汇聚的群体与群体之间,越来越多的采用自组织的方式来架构,并通过自组织的方式让人、内容和应用等资源充分“流动”起来,并以这些网络资源价值最大化的方式来体现出应用的价值。1.1.2 社会计算的概念

在各类社会化软件的应用中,越来越多的人利用网络工具建立起了个人与真实社会环境中的朋友及亲人之间进行沟通与交流的在线联系方式,随着用户数量的不断增加,带有真实物理社会特征的一个社会化虚拟网络也逐渐显示出了一种蓬勃的生命力。在这种虚拟网络中,不同人与人之间的交流内容、行为及情感特征,以文字、图片、视频及相应操作的形式记录下来,并成为人们重新审视与分析社会网络结构、演化、传播、情感等特征的一把新钥匙。2009年2月,美国哈佛大学大卫·拉泽(David Lazer)等15位美国学者在Science上联合发表了一篇具有里程碑意义的文章“Computational Social Science”标志了“计算社会科学”这一研究领域正式兴起,这也使得人们在前所未有的深度和广度上通过网络来自动收集和利用数据,为社会科学的研究提供深入的数据分析服务。

社会计算是将网络技术、复杂系统、数据挖掘、社会学、管理科学、自然语言处理、信息检索及心理学等多个学科之间进行相互融合并形成的一个新兴的交叉学科(王飞跃,2004,2005),它主要研究在利用互联网与计算机系统协助人们进行沟通与协同的同时,如何利用计算机与互联网技术来重建一个网络化的虚拟社会,并根据人们在网络中留下的信息与知识,来深入研究社会行为与社会运行的规律与发展趋势,以及社会服务网络与群体智慧形成的动力学机制。因此,社会计算往往可以从微观技术及宏观社会现象分析两个角度来展开,并在群体智慧与知识共享的基础上,逐步向社会智能(戴汝为,2007)的方向来演化。

从微观的角度看,社会计算着重于研究计算机及信息技术在社会网络中的应用和对传统社会行为的影响。它在人机交互(HCI,Human Computer Interaction)及网络数据分析与挖掘等相关技术的基础上,深入研究和探索如何改善人机交互过程中存在的针对性、时效性与个性化等技术,协助个人用户进行社会性沟通、协作、共享及通信,从而充分利用用户群体的智慧来实现用户之间的信息共享与交互服务。

而从宏观的角度看,则是希望利用网络技术、计算机技术和数据挖掘等技术手段,在结合传统社会学理论与方法体系的基础上,研究社会科学中存在的各种问题,从而帮助我们观察和分析社会的舆情动态及情感思潮,解决以往社会科学研究中使用经验方法和数学方程式等手段难以解决的经济与社会系统中存在的复杂问题,从而促进人类社会活动的质量与效益。正如社会学鼻祖奥古斯特·孔德对社会学所勾画出的一个宏大远景:社会学希望使用一种类似于物理学这样的自然科学方法与理论,统一所有的人文科学学科,从而建立一门经得起科学规则考验的新人文学科。而社会计算则继承了这一个理念,即通过建立一整套严谨的科学计算方法体系,来解决社会科学领域中所涉及的政治、经济、民生等诸多领域的问题。因此,有研究人员将社会计算定义成为面向社会活动、社会过程、社会结构、社会组织和社会功能的计算理论和方法,并通过定量化的分析为人们提供智能化的社会决策能力。

另外,发生在美国、法国、英国等国家的恐怖事件进一步推动了社会计算与社会智能在宏观层面上的研究需求。人们开始进一步意识到,来自于不同层级的恐怖主义袭击及社会公共安全领域的重大事件在发生前后可能在网络中存在着各种信息和线索,如果能够利用新的信息处理方法和有效的海量数据内容的挖掘算法来获取关键的领域知识,则为保障国家和社会的公共安全提供了一种新的途径。特别是,随着2013年美国“棱镜”计划的曝光,才使得所有人惊讶地发现,人们常常使用的电子邮箱、即时通信工具、电子交易、视频、照片、数据存储、语音聊天、文件传输、视频会议及各种社交网络资料信息等数据(详见http://zh.wikipedia.org/wiki/% E7%A8%9C%E9%8F%A1%E8%A8%88%E7%95%AB),已成为了棱镜计划中获取情报的重要来源,从而一方面引起了人们对于信息安全与个人隐私安全的恐慌,另一方面,在巨大的商业利益与国家利益的共同驱动下,越来越多的组织和个人对于如何实现不同领域、不同结构、不同类型和不同特征的海量数据进行分析的技术产生巨大的兴趣,相关的研究工作与应用实践工作也成了不同国家之间及不同的研究者之间进行竞争与相互挑战的重要研究领域。因此,在社会计算领域中微观的技术研究与宏观的社会化应用研究往往是相互融合、相互促进的一个整体。棱镜计划的相关信息来源如图1-1所示。图1-1 棱镜计划及信息来源组成示意图(来源:http://news.qq.com/a/20130614/010183.htm)

为了从这些异构、复杂且海量的社会现象与社会行为的数据中挖掘出有用的知识,并解决实际业务过程中社会网络内部存在的各种问题,美国圣菲研究所(Santa Fe Institute)则针对社会系统提出了复杂自适应的理论体系,利用计算机网络分析算法和工具,将社会科学理论体系与计算机技术相结合,利用计算机模拟复杂网络环境下的涌现行为与群体动力学机制,促进了“社会计算”与“人工社会”的发展(http://www.santafe.edu/research/networks-data/)。另外,世界一些著名的大学与研究机构也开始关注这一个新兴的领域,如美国亚利桑那大学针对情报与信息安全的研究,卡内基梅隆大学针对公共卫生事件、恐怖监控与预测等领域进行深入的研究等,这些工作促进了社会科学与复杂环境下的研究与应用工作的展开。但是,社会科学的复杂性使得该领域仍然存在许多难题,并且已成为多学科领域及产业界共同关注的研究焦点之一。

同时,近年来由于网络信息的传播所引发的社会热点事件层出不穷,这也为政府机构为保障社会公共安全及防止恐怖与暴力事件的发生,甚至于保护国家的国防安全等重要领域提出了新的要求。特别是通过对社交网络中存在的线上与线下互动所引起的社会思潮、行为及舆情动态变化的深入研究,可以为社会公共政策与社会安全保障机制的制定提供数据分析的来源与基础。另外,面对海量并且复杂的社会网络信息,人们迫切地希望通过技术手段来实现对数据内容的精确分析与预测,也迫使我们需要进一步研究和开发出新的信息处理方法,这一方面为社会公共安全与服务提供辅助决策支持;另一方面通过利用社会网络中存在的海量信息与知识,为企业机构和个人提供更有价值的数据与知识服务奠定基础。1.1.3 社会计算与社会智能研究的核心内容

社会计算与社会智能是在社会学、心理学、经济学、人类学,以及计算机通信、数据挖掘与机器学习、人机交互及人工智能等科学理论的研究基础上,围绕着新型的网络信息共享与信息服务的社会化应用需求,通过基于海量数据的存储与多维特征融合技术、复杂网络建模、新型信息服务框架与软件工程等基础技术的实施,为深入研究网络拓扑结构与数据内容相结合的算法模型及计算机制,以及基于移动网络环境下的新一代网络信息服务与信息安全管理新框架的基础上,为各类在线社区应用、互动娱乐应用服务及电子商务与电子政务、网络舆情分析及公共信息的决策应用提供服务支撑,整个框架如图1-2所示。图1-2 社会计算与社会智能的理论、技术与应用层次框架

另外,随着普适计算的发展及传感器、可穿戴网络的逐渐普及,社会计算将会从传统的Web网络信息计算逐步延伸到物理世界中,并通过感知物理社会中人们的移动及交互轨迹来挖掘个人、群体及社会性行为。因此,作为一项跨学科的研究和应用领域,社会计算领域的核心研究内容主要包括了以下几个方面(王飞跃,2013)。

1.社会网络分析(Social Network Analysis)

社会网络分析主要是依据图论中网络拓扑结构来分析和研究社会网络的静态结构特征与动态演化规律,网络中的每一个节点均表示一个独立角色,角色之间的社会关系用节点之间的边来表示,于是形成了一个由节点和边构成的有向或无向的图,由于图中节点之间的关系类型的复杂性,也导致了图的复杂性。因此,一个实际的社会网络结构可以用图来表示和抽象,并且可以利用图论中的一些分析方法与统计规律来度量和发现社会网络中存在的整体网络信息特征与规律。另外,社区计算是整个社会网络分析过程中的核心与基础,通过对图中节点所形成的关系网络的拓扑结构分析与挖掘,发现社区中存在的基本结构与特征单元,并利用这些特征单元来度量和发现社会网络中具有意义的、自然的、相对稳定的社区结构,从而对网络信息的搜索与挖掘、信息的推荐及网络演化、扩散与预测的研究奠定基础。

2.社交网络服务(Social Network Service,SNS)

SNS即研究如何利用信息技术来构建网络虚拟空间,并利用社会网络分析方法来实现用户之间社会化的交互和通信。社会网络服务的本质就是将Web2.0的价值最大化。例如,Myspace、Facebook、twitter、人人网、微博及微信等社交网络服务应用,均是利用社会软件平台,为每一个成员用户建立、保持及扩展自己的人脉关系网络奠定基础。因此,针对社会网络服务领域的主要研究内容包括:关系挖掘与信息网络拓扑结构分析、网络社区的发现与社会关系的强度分析(六度分析)、消息的传播与个性化信息推荐、社会化搜索与隐私保护及网络行为与演化分析等,通过上述分析最终实现对社交网络中不同用户之间的信息共享与推送服务。

3.群体智慧(Collective Intelligence)与社会智能

在社会化网络环境下,群体智慧主要包含两个方面的含义。一方面是利用群体智慧促进知识的获取与共享。知识获取是一切智能系统的关键,传统的依靠专家编辑知识的方式无法满足在社会化应用环境下大规模信息处理和知识获取与共享的实际需求,应将网络中的用户组织起来,发挥他们的群体智慧,以相互协作的方式来一起创造、加工和分享知识,形成“人人为我,我为人人”社会化的开放式分享机制。例如,美国卡耐基梅隆大学的路易斯·冯·安(Luis Von Ahn)则针对这一现象提出“人本计算(Human Computation)”的概念,在Wiki、Stackoverflow、威客和百度知道等典型的群体智慧应用中,通过搜索引擎来实现内容快速检索的同时,利用人机交互算法与UI设计来提供用户个性化的内容推送服务,并激发出用户的参与热情。另一方面,在社会网络中的突发事件与活动也常常会演化成一个群体性的行为,并且这种群体行为的演化与传播对于网络活动与事件发展起到了直接的推动作用。例如,法国巴黎的群体性骚乱事件、通过网络所引发的各种“颜色革命”,以及网络中存在的各种人肉搜索行为,均反映了网上与网下“群体性”行为的影响。这种基于“众包”的模式与对于研究群体动力学机制与社会群体行为,以及对于知识的分享、信息传播和对物理世界的作用能力的度量均提出了许多重要的挑战。

4.内容计算(Content Computing)

在社会网络中,每一个用户在其参与的交易活动、访问行为记录,以及在不同的电子商务或社交平台上进行发布的文字、图片、视频和音频等相应的资料和与好友交流的信息均是内容计算的重要数据来源,通过这些数据形成了一系列网络中不同主体对象的“脸谱”模型(Profile Model),这些模型为内容计算所涉及的网络社会舆情分析、信任计算与人际关系挖掘、用户兴趣与个性化推荐等社会化应用奠定了分析基础。例如,在传统的舆情分析过程中,常采用观察思辨与问卷调查两种方式,但是由于有限的数据量及延时的操作过程,无法动态、有效和及时地分析出社会舆情与社会情感的动态变化与信息预警,利用内容计算技术来抽取文本内容及多媒体文件的各种特征进行分析,实现网络舆情的动态预警与辅助决策。

5.人工社会(Artificial Society)

社会计算的一个重要使命是对复杂社会问题建立计算模型,通过实验分析与模拟来验证社会经济政策的效果,从而提供智能化的辅助决策支持。通过网络虚拟社区来建立人工社会的基础模型,为复杂社会系统的管理与控制,提供了虚拟的仿真模型。另外,Google公司目前正在大力倡导的知识图谱(Knowledge Graph)技术,从互联网中挖掘和抽取出大量的命名实体及实体之间的关系,其中包括了人名实体及人物之间的关系、企业实体及企业之间的关系等,通过所抽取的这些实体与关系为建立“人工社会”提供了另一种研究的思路。

除了上述的一些关键技术外,有关社会计算与社会智能领域的研究小组及国际会议也从不同的角度反映了本领域的研究热点。例如,在第四届全国社会计算会议(NCSC2012)上将社会计算分为以下两个重要的领域:一是社会计算基本理论与方法的研究,它着重研究了群体思维与社会智能、人工生命与人工社会建模、社会计算与系统控制及信任与风险管理等问题;二是针对交叉学科领域的应用研究,即针对社会计算与计算机科学之间的交叉研究方向主要包括:面向大数据的数据分析与处理、社会网络分析、挖掘和语义Web、舆情分析与情感挖掘、网络社会态势分析与预警、移动环境下的个人隐私问题等;而针对社会计算与社会科学之间的交叉研究方向主要包括:面向社会问题的计算理论与方法、网络社会与数字社会研究的理论、新型数字媒体下的信息与新闻传播及e-Society和e-Science等研究方向;针对社会计算与管理科学之间的交叉研究方向主要包括:社会智能与群体决策,群体交互、形成、协作与演化机制,社会网络下的知识管理,非常规突发事件的管理与决策及Enterprise 2.0等。通过对这些相关研究领域和研究方向的梳理,可以较为清晰地看出社会计算所研究的核心领域与关键内容。其中主要的研究方向和分类如图1-3所示。

尽管社会计算与社会智能领域的研究近年来呈现生机勃勃的发展态势,但是也面临着许多的重大技术挑战与应用模式创新的机遇,其中主要的挑战和机遇包括:(1)个人特征模型的建立与数据的整合。社会网络环境下,每一个人均可以在不同场合、利用不同的终端留下各种行为记录,并且这些记录目前都是以碎片化的方式散落在不同的应用和存储节点上,要查询、获取、过滤、抽取和整合这些信息和其关键的特征,形成一个完整的个人信息轮廓模型(User Profile Model),不仅涉及自然语言处理及相关的技术问题,特别是网络内容中的实体自动抽取与优化问题,还会涉及复杂业务的管理和个人隐私保护等问题。(2)大数据的存储与处理。社会网络条件下的数据呈现出了大数据的特征,为大规模的用户操作行为与内容进行全面实时的记录,这不仅需要巨大的数据存储和管理能力,同时,由于传统的数据分析方法在如此巨大的数据面前几乎失效,如何在数据降维的过程中,不断地提升数据分析与处理的执行效率,这不仅需要对目前的算法进行改进,同时也需要研究新的数据分析方法,这也是目前计算机领域中一个重要的技术挑战和研究方向。图1-3 社会计算与社会智能领域中的主要研究方向与分类来源:http://www.hbdoc.cn/ngo/95352.html)(3)个人与组织的隐私保护。出于用户隐私保护方面的考虑,大型互联网公司往往不愿意向学术界公开用户的访问和操作日志,致使学术界对社会计算的研究过程中遇到了用户数据采集方面的严重困难。目前主要的解决方式包括以下两个方面:一方面是开发一些网络爬虫来自动化抓取一些网络内容数据,通过对页面数据的解析处理后,抽取其中关键的内容数据特征,并针对这些数据特征进行处理与分析;另一方面对用户进行匿名化处理,但是由于一旦获取到了用户个人行为的轮廓特征,从匿名后的数据中也有可能回溯到用户其他属性,导致匿名化处理失效,这对用户的个人隐私保护提出了新的要求。同样,在抽象了社会网络中的一些组织机构或企业单位等实体所具有的特征轮廓模型后,利用这些模型也可以获取到实体的市场特征和交互行为,这对于组织单位用户的“商业隐私与情报”保护而言也是一个关键的挑战。

综上,由于社会计算与社会智能领域所具有的交叉学科特点,不仅使得该领域的研究方向和内容体系非常丰富,同时通过与其他学科之间的融合,也使得本领域的研究具有较好的实际应用需求背景的依托。在计算机技术快速更新与发展的基础上,社会计算与社会智能在理论创新与计算方法优化等领域均具有较大的发展潜力。1.2 社会舆情的特征与分析方法1.2.1 社会舆情的概念与特征

社会舆情分析是社会计算领域中的一个重要的应用领域和场景,它也是实现对大量社会经济现象进行深入分析的基础。舆情是指属于该社会范畴中的个人和团体所构成的公众,对自己关心的各种社会公共事务在一定时间段内所持有的多种情绪、意愿、意见和态度的总和。舆情往往借助于一些特定的社会事件,在其发生、发展和变化的过程中反映出社会民意倾向及对执政者政治取向的一种描述和反映,也反映了民众对自身利益需求的一种诉求和表达。因此,通过互联网络来深入了解和分析舆情的产生、演化、发展及变化的规律,对于深入了解当下社会发展过程中存在的社会热点、问题与矛盾等均具有十分重要的作用,并且在长期以来一直受到了学术界、工业界及政府机构的广泛关注。

由于传统的社会舆情存在于民间,存在于大众的思想观念和日常街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,信息获取效率低下,样本少且容易产生判断偏差,且耗费巨大。随着互联网技术与应用的发展,越来越多的民众通过互联网将个人意见和对事件的看法以信息发布的方式发表到不同的应用平台上,从而形成了网络舆情。网络舆情是社会舆情在互联网空间上的一种映射,是社会舆情的直接反映。近年来,一些网络群体性事件形成了大规模网络舆论事件的爆发点,这些事件主要集中在以下几个方面:一是涉及人身安全与事故;二是涉及公平与正义;三是涉及伦理与信仰;四是涉及民族与历史。按照马斯洛的需要层次理论,上述四大舆论爆发点分别属于人身安全、利益分配、个人价值与社会尊重。换言之,但凡关系到民众人身安全、利益分配、个人价值与社会尊重的信息、言论、行为、事件等,都可能会引爆强大的网络舆论场,同时这也具有构成网络舆论风险的可能性。

这些网络舆情主要通过电子邮件、新闻组、BBS、博客、微博等网络途径进行传播,极易形成“群内高度同质化,但群际间明显异质化”的网络社区化特征,这种网络“群体极化”现象在社会化网络环境下表现得异常突出。美国凯斯·桑斯坦在《网络共和国——网络社会中的民主问题》一书中提出网络上发生群体极化的概率是现实生活中的两倍多,尤其是在论坛及微博等社会化平台中的群体极化现象更加明显。这不仅表现出网络所提供的自由性、互动性与即时性的特点,同时也反映出了隐匿性、外显性、情绪化与非理性的特征,这些特征也为网络舆情分析提供了重要的研究线索。1.2.2 网络舆情的形成和演化过程

在网络信息升级成为社会舆情的过程中,一般包括三大要素:冲突性,即反映了网络话题与法律、政策、社会道德、民族主义及民主与自由等社会思潮相冲突;典型性,即包括了典型社会群体、典型预期和典型矛盾;模糊性,主要反映在细节上的模糊性、价值上的模糊性及执政者意见上的模糊性等。这三大要素在整个网络舆情的形成过程中,相互作用,互为补充,共同引发了网络舆情的形成,并在舆情发展演化的潜伏阶段(话题集结)、舆论场的形成阶段(争议辩论)、影响力的形成阶段(意见趋同)及舆情的消退阶段中,伴随着不同类型的用户参与,对网络舆情的演化与发展起到关键的推动或遏制作用。例如,在社会矛盾冲突的背景下,一个突发事件的“刺激信息”出现后,可能会直接引起网民产生共鸣,并且在媒体记者、舆论领袖、网络打手、枪手及水军等用户的介入后直接促成网络公众意见的延伸并影响到其他网络用户观点的形成,从而推动了舆情的形成与发展。

图1-4反映了几种网络舆情形成与演化的基本过程。第一种舆情是在当事人或者在现场参与的网民的共同发起下,利用论坛、博客、微博、社交平台、QQ、图片和视频及问答平台等社会化软件工具,通过对发生的事件信息进行发布,引起了网民的持续关注的过程。在此阶段,媒体暂时集体失声,形成草根舆情。第二种舆情是在媒体记者的参与下,通过从草根舆情中深度的信息挖掘,并形成具有评论性与跟踪性的新闻,在媒体舆论场与网民舆论场的相互作用下,形成爆料舆情。第三种舆情是在媒体记者发布了一个相关的新闻事件后,引起网民的围观、转载和跟帖,通过民间热议而形成的一个网络舆情,这种舆情也是一种传统的舆情。第四种舆情往往具有更大的破坏性与危害性,此时,一些公民记者或者是媒体记者以个人利益所惑,成为了被竞争对手所雇佣的网络打手,这一些打手中还包括了网络营销公司、口碑营销公司等利益实体,他们通过网站、论坛、博客、微博与社交平台、IM(QQ)群及问答互动平台等发布新闻、博文评论、视频、图片及问题解答等内容,引起网民的关注,在此基础上调动网络中的各类资源对内容事件进行炒作,其中特别是围绕着话题的时效性特点,在一段时间利用雇佣的枪手或写手对事件进行深度分析与评论,并利用网络水军进行大量的发帖、回帖及转帖,保持舆情持续的升温,同时,利用网站编辑或论坛版主对相关话题进行加精、置顶,并进行协同炒作,从而形成了一个恶性舆情。图1-4 舆情形成的基本过程示意图(于敏,2014)

因此,网络中不同类型的舆情特征也存在着一定的差异,主要反映在不同的网络平台和媒介、事件类型与特征、网民的类型与参与程度、网民对事件的情感变化、事件在网络中的传播能力及互动频次、意见领袖对其他网民的影响力等多种关键要素,针对这一些要素的分析也构成了针对网络舆情的核心分析框架与方法体系。1.2.3 网络舆情的关键技术与方法

由于网络舆情以网络为载体,以事件为核心,表达了广大网民的情感、态度、意见和观点,并通过信息的传播与互动对事件后续发展与演化产生影响,但是其中一些信息未经媒体的验证和包装,以网民的主观观点直接发布到互联网上,并在网络打手的推波助澜下,有可能导致恶性舆情事件的形成。为了更好地研究网络舆情的整体行为与特征,人们往往也会从以下两个方面来开展相关的研究:

一方面主要从社会网络分析的视角来分析整个社会舆情的整体结构及结构的演化特征,即在对社会舆情的参与对象(包括人或者内容)进行抽象后,通过对象节点和节点之间的关系(即边)形成一个完整的网络拓扑结构,在图论、概率和统计学的理论指导下,通过网络中节点的可达性、连通性、节点的度与强度及密度、半径等结构特征的分析,来挖掘出潜在的社区结构、社区节点链接关系及对关系的预测,从而获得社区内部和不同社区之间的关系,以及社区的行为演化等整体网络的信息特征与规律,并从整体网络的结构中获取舆情的社会传播动力学机制。例如,如图1-5所示在针对企业网络中的行为特征进行抽取和建模后,通过社会网络的方法实现了对于不同企业在整体网络结构中的强度、关系密度及社区结构挖掘过程中的可视化应用。图1-5 企业社会网络环境下的网络特征抽取与可视化(田玛莉提供)

另一方面则是从自然语言处理的角度来研究如何针对内容进行深入的挖掘与分析,通过对内容信息的获取、分词、特征分析与内容挖掘、在线监测与预警及社会情感评价等相关技术来实现对网络内容的分析应用,从而对社会舆情发生、发展与演化全过程中热点事件与主题特征进行及时发现,并提供有效的信息动态预测服务。其中,建立一个合理的主题词库是对文本进行精确分析与建模的基础(如图1-6所示),但是由于不同的主题所具有的特征往往可能存在一定的重叠,从而也可能会导致分析过程中存在着一定的偏差;另外,这些重叠的特征词的分布也反映了主题之间可能会形成观点的偏移,从而导致不同主题随着时间进行演化的过程中,可能会形成的话题转移或融合。图1-6 主题特征词库之间的演化(殷丽丽提供)

此外,数据具有时间的特征,一个主题事件随着时间的变化也会产生相应的动态演化行为,其中一些主题逐渐消亡,而另一些主题可能演化成多个不同的新主题,甚至一些主题内容发生了合并,而在这一些演化行为的背后,则是反映了主题的特征向量随着时间而发生的变化。

通过上述两个方面的工作,可以从总体上把握在社会智能环境下,针对舆情分析的过程中主要涉及的相关技术与分析方法。本书的整体章节结构也分别是从整体社会网络结构分析及基于自然语言处理的文本内容分析两个角度来展开,并将这些方法应用于社会网络舆情的具体应用与分析过程之中,从而可以将网络舆情分析过程分解成几个关键的阶段,并针对不同阶段中存在的关键技术及这些技术之间的关系形成一个如图1-7所示的整体研究与分析框架,并在技术研究的基础上,也可以用来指导在实际环境下的网络舆情分析与应用。

因此,根据不同的数据分析层级与相关技术,特别是在针对基于社会网络的结构化分析方法、基于自然语言理解及机器学习为核心的文本内容分析关键技术的支撑下,本书分解为以下11个章节,并希望在这些章节的技术介绍基础上,通过相关的研究实例来展示社会舆情分析的过程与实际案例,从而为读者提供了一个全景式的社会舆情分析视图。图1-7 社会舆情分析的整体技术与应用框架1.3 本书的知识结构

正是由于社会网络研究中关注于行动者的行为、行动者之间的关联关系及群体行为的相互影响,通过对对象及对象之间的关系进行抽象后形成的节点与边来构造一个社会化的网络结构,再利用图论与计算机算法将网络中的距离、密度、中心度、半径、派系和社群图等概念用于评价网络中的不同特征,刻画出了个体网络和整体网络结构的静态与动态演化过程,利用计算机对社会现象进行动态模拟,从而推动了社会计算学科的发展。

信息提取技术是指从文本中自动提取具有特定类型的数据结构,并利用基于文本内容的自然语言处理(NLP)技术来增强文本的可用信息,允许计算机分析、理解甚至产生文本,其中通过词汇识别、语义释疑、词性标注和概率上下文无关文法分析等常用的方法,来实现文本信息的自动提取、自动摘要生成(summarization)、主题建模、主题分类、聚类和观点挖掘。

在以微软、Facebook、Google及IBM等IT技术公司为代表的产业界,为了提高其产品的适用性和易用性,通过深入分析用户行为与内容之间的关系来为用户设计和提供最佳的知识服务体验,这些研究工作直接促进了将数据挖掘与机器学习方法和知识内容的融合分析,并推动了Babble、Loops、Wallop等网络社区项目的研究,但最终通过技术的创新为网络中的用户提供了更好的操作与应用服务体验。这也是我们社会智能与复杂数据处理实验室一直努力工作的方向,即依托于具体的社会需求,通过技术与算法的研究与创新,为更多的用户提供有价值的信息与知识服务,并且通过形成研究与应用相互反馈的机制来达成教学相关的目标。

因此,本书在社会网络分析与计算、自然语言处理、数据挖掘和机器学习的理论基础上,针对中文文本数据在分词过程中产生的文本数据词义冲突与数据消歧、文本数据的稀疏性与数据降维及数据融合等问题,结合文本聚类与分类的算法,对于文本中命名实体的抽取与摘要自动生成技术、社区的识别与信息传播技术、内容的情感分析技术与数据可视化技术进行系统介绍。同时,在这些工作的基础上,尝试从不同的网络数据来源中挖掘出内容的主题特征、热点话题及网络情感倾向的判断,并利用可视化的技术手段来呈现出不同领域下的复杂数据之间所存在的关联关系与演化趋势,从而为社会网络下的舆情分析、企业集群演化关系、专利分析及金融风险预测等应用奠定基础。

综上所述,并在图1-2和图1-7的研究框架相互融合的基础上,形成了本书如图1-8所示的知识结构与章节结构,期望为读者提供一个相对完整的领域分析的相关技术和方法体系。图1-8 社会计算的理论、技术与应用层次框架参考文献

[1]H.J.Müller,Th.Malsch,etc.,SOCIONICS—Introduction and Potential[J],Journal of Artificial Societies and Social Simulation,1998 Vol.1(3):,http://jasss.soc.surrey.ac.uk/1/3/5.html.

[2]王飞跃.社会计算:科学、技术、人文[J].科技与社会,2005,Vol.20(5):6-9.

[3]王飞跃,王珏.情报与安全信息学研究的现状与展望[J].中国基础科学,2005,Vol.7(2):24-29.

[4]王飞跃等.社会计算的基本方法与应用(第2版)[M].浙江:浙江大学出版社,2013.5.

[5]大数据的十个技术前沿[EB/OL].http://video.uml.com.cn/video/broh5.asp?vidID=1749.

[6]李国杰.关于网络社会宏观信息学研究的一些思考[EB/OL].http://wenku.baidu.com/link?url=KuBWRb7aCyB97th8oSFr6e1TXx7M0i74vi0W00jnvNIA47B6rhncuJjfEfGdFirCrSjOAK2TKH8Z XuNe4ZBhTj3aWsa-ZZOpTKIzeYXra.

[7]Rob Kling.What is Social Informatics and Why Does it Matter?D-Lib Magazine.Vol.5,No.1,1999.

[8]Macy,Michael W.,Willer,Robert(2002).“From Factors to Actors:Computational Sociology and Agent-Based Modeling”.Annual Review of Sociology 28:143-166.

[9]刘军.社会网络分析导论[M].北京:社会科学文献出版社,2004.

[10]于敏.基于校园网络舆情分析系统的设计[D].内蒙古大学硕士学位论文,2014.

[11]刘挺.方兴未艾的社会计算[OL].http://blog.sina.com.cn/s/blog_4cbec5e90100pyvz.html,2011-03-12.

[12]戴汝为.社会智能科学[M].上海:上海交通大学出版社,2007.

实验室相关工作

[1]李昕娟.基于主题的文本数据流实时聚类及演化研究[D].西安交通大学硕士学位论文,2014.

[2]饶元,韩梅,李星.数据处理——基于内容与结构的网络舆情分析报告(2014)[M].北京:科学出版社,2014.11.

[3]饶元,冯妮,宋明爽,员鹏,睢欣阳.数据分析——基于内容与结构的网络舆情分析报告(2015)[M].北京:电子工业出版社,2015.12.第2章社会网络分析理论与相关技术基础

现实生活中,人们在相互交往与社会活动过程中逐步形成了许多不同类型的社会关系,如同学、朋友、同事关系等,并且通过这些关系可以形成一个社会化的关系网络。社会学中将“社会网络”定义为社会行动者及他们之间关系的集合,并且通过将社会行动者及关系抽象成点和点与点之间的连线来描述,从而将复杂的社会行为、社会活动及社会关系形式化与可视化地描述出来,由于关系的语义复杂性而使得网络呈现出多元化的特征,并对不同节点的特征描述与分析具有重要的意义。本章在对社会网络分析过程中的基础概念与核心理论进行描述的基础上,对所涉及的自然语言处理、数据挖掘及机器学习等相关的核心技术与分析方法进行初步介绍。2.1 社会网络分析方法2.1.1 社会网络分析方法的发展与研究的问题域

早在20世纪20年代,在心理学、社会学、人类学及数学、统计学、概率论领域的许多学者开始思考社会生活的“网络结构”,并尝试构建了一个“社会结构”,从而不断提出了一系列与社会网络相关的理论和概念。其中,在莫雷诺(Jocob Moreno)提出的“社群图”(1933年)、布朗提出的“社会网”(1940年)、怀特(Harison White)提出的“机会链”理论(1960年)、科尔曼(Coleman)和罗杰斯(Rogers)提出的“二级传播”理论(1960年)、格兰诺维特(Mark Granovetter)提出的“弱关系”理论(1970年)、林南提出的“社会资本”理论及博特(R.Burt)提出的“结构洞”理论等概念和理论的基础上,人们总结出了通过网络的中心势、密度、结构平衡性、结构均衡性和块等可量化的概念或指标,来对社会网络的规模、结构、互动关系与演化特征进行有效的度量,从而形成了社会网络分析的一种关键性技术与研究范式。到了20世纪90年代,社会网络理论在管理学、金融学、物理学及心理学等领域也取得了广泛的应用,并且在一些网络分析软件如SNAFU、SIENA、UCINET、NetMiner、Gephi等工具的支持下,极大地推动了社会网络分析与研究的进展。

随着近年来互联网与移动互联网技术的快速发展与应用,人与人、人与群体或社会相互之间的交互方式也发生了巨大的改变,许多新的社会现象和问题在网络与现实环境的交互过程中也呈现出了动态涌现性、突发及时性、开放共享性、人机之间及网络与现实之间交互性和数据海量化的特点,这一方面使得基于问卷采样式的传统社会网络分析与研究方法迫切地需要及时处理和响应突发事件对社会带来的影响,以及面对越来越复杂和庞大的社会化网络数据资源来开展新型的问题分析与研究方法;另一方面,也直接推动了信息科学与社会科学的交叉与融合创新,如发展起来的社会信息学(Social Informatics)、计算社会学(Computational Sociology)、仿社会学(Socionics)、情报与安全信息学(Intelligence and Security Informatics)及社会计算(Social Computing)等新兴学科,并反映出了多学科交叉与融合的创新特点。

目前,社会网络分析中的研究问题主要从三个角度来展开分析,即整体网络分析(宏观上)、社区网络分析(中观上)与个体网络分析(微观上)。整体网络分析侧重于研究网络的整体特性,社区网络则是研究局部范围内具有高度相同或相似的网络节点特征属性下的网络行为,而个体网络分析则侧重于研究个人或组织在其相应的社会网络中所具有的权力、中心地位及影响力等要素,因此,社会网络分析往往可以在不同角度下来分析和研究以下关键性问题。

在整体网络(Whole Network)的研究中,网络的中心性常用来表征整个网络的集中或集权性程度,即整个网络围绕着一个点或一组点来组织和运行的程度。它是衡量整体网络中不同节点之间信息传递方式及效果的重要指标,它反映了节点之间的互动联系,以及节点在社会网络中所处的中心地位,常用来分析个人或组织在其社会网络中具有怎样的权力,或者说居于怎样的中心地位。一般来说,在整体网络中,网络中心性包括局部中心性和全局中心性两个层次。当一个节点与其他节点具有较多的连接时,它的地位是局部中心的。局部中心性只考虑直接边,即直接与该节点相连的边。全局中心性是指如果一个节点与其他节点的距离都比较短,则称该节点是全局中心,它不仅要考虑与该节点直接相连的边,同时也要考虑与该节点不直接相连的边。

在L.C.Freeman(1978)提出网络中心性这一概念之后许多学者进行了相应的完善,并提出了针对整体网络研究的5个重要的测量指标:中心度、中心势、网络密度、集中度和平均最短路径。中心度是指网络中各个成员的个人中心性与网络中具有最高中心性的成员之间的差异,用来表示整个社会网络的中心性程度;且网络中每个个体都有一个中心度,它刻画了个体的特性。中心势(Centralization)表示整个网络图中的总体凝聚力或整合度,即网络中的这种内聚性能够在多大程度上围绕着某些特定点组织起来。网络密度是指网络成员之间彼此互动联系的紧密程度,即网络中实际的边数与最大可能边数的比率,它的取值范围在0~1之间,密度越大则表示网络中成员的互动程度也越高,成员间产生的信息资源交换也相应较多。集中度则是对整体网络结构的集中程度进行了度量,它描述了网络围绕着某一中心节点组织的程度。平均最短路径是指网络中节点对之间最短路径的平均值,它影响网络节点之间进行产品、技术、知识及其他各类信息交流所需经过的“路径”的长短。可见,中心度、中心势、网络密度、集中度及平均最短路径均是从不同的角度来反映出整体网络中成员分布与关联性的重要且互补的度量方法。例如,图2-1是利用对中国文化部与科技部等部门发布的文化创意产业的指导文件与相关报告的内容进行分词与过滤后,形成的主题词共现关系的整体网络。其中,文化产业及文化遗产等节点在整个网络中具有明显的中心性特征,这种中心性特征也从另一个角度反映了这些节点在整体网络中存在的内容关注度。图2-1 文化领域创新政策词频共现关系的整体网络示意图(田玛丽、孙秋年提供)

在社会网络中往往会存在不同的群落或派系,这些群落或派系内的节点存在较为紧密的关联关系,而不同群落之间存在的联系则相对较少,这种群落或派系往往也称为网络社区(或社团)。社区结构是网络模块化与异质性的直接反映,网络社区是一组由于某种关系而聚焦在一起的个体所形成的集合,该集合中个体之间具有较近的距离,并且关联性较高,即社区内的节点一般具有较高的相似特征,且社区内部个体之间的联系相对于不同社区个体之间的联系而言要更加频繁。从功能的角度来看,社区网络内部的个体共享某些相同的属性或在所表示的交互现象中具有相似的功能或作用。社区网络是社会网络中最常见的一种结构,但是目前针对社会网络中的社区定义并没有统一标准,往往根据社区的物理结构特征、连接特征、属性特征及标注方法的不同,对网络社区的具体要求和发现方法也不尽相同。因此,从网络中发现并识别出有关社区网络,对于深入了解整体社会网络的结构和功能,以及理解网络演化的动力学机制具有重要的理论意义。

因此,针对社区网络(Community Network)的研究是大规模复杂信息网络研究中的一个基础性问题。一方面,网络社区结构反映了社会网络中个体节点行为的区域性(Locality)特征及网络中群体之间重要的关联特征,通过对社区内部结构与功能的研究,有利于探索网络中不同社区的拓扑结构和不同社区之间的相互联系,从而可以利用已知的社区间的关系来推测或预测未知社区中可能存在的一些未知功能,为深入研究网络中每一个社区与整体网络之间的功能和关系奠定基础;另一方面,如果将整个网络抽象为具有层次化的社区及社区之间的关系,则可以极大地降低整个网络研究过程中的复杂度,有助于进一步探索网络结构的起源、演化过程中的网络动力学行为,从而为社会网络中的基本规律与问题的研究提供了新的思路与理论依据。

在实际的网络中,网络社区的研究具有非常重要的实用价值,利用网络工具(如即时通信工具、微博、微信、BBS论坛)形成的朋友圈子;在引文网络中针对同一主题进行的相关讨论、信息网络中热点话题的涌现性判定及特定话题的传播轨迹等,这不仅有助于揭示错综复杂的真实网络是怎样由许多相对独立而又互相关联的社区形成的,同时,也有助于针对具有共同兴趣、爱好或社会背景的社会团体的结构、社区关系、社区演化及内容的传播分析等内容展开深入的研究。另外,利用网络社区的结构特征与个体之间的交互关系特征也可以提升与优化网络搜索的性能和准确性,从而为实现信息过滤、热点话题跟踪和网络情报分析与信息挖掘等功能,以及为人们从不同层次来理解系统的网络结构和功能特征奠定基础。例如,一些企业利用社会网络环境下的社区关系来挖掘隐藏在大规模非结构化数据背后的人物关系、群体关系及数据之间的关联关系,从而实现商业情报的智能分析与应用。图2-2则是在图2-1的基础上,围绕着其中的一个具有高中心度的节点——文化产业为核心的主题领域,来分析与文化产业相关的词频网络中的区域化特征,虽然这些特征主要反映节点(特征词)之间的共现关系,但是从另外一个角度来看,该网络也具有明显的重叠社区网络的特征。

而针对个体网络(Ego-Centered Network)的研究,主要是关注于个体节点在网络中的连接关系和作用。节点的度数与中介性是衡量节点在网络中的重要性的关键性指标。节点的度数是指与该节点相连接的边的数量,一个节点的度数越多,意味着在整个网络中与该节点直接相连的节点就会越多,该节点的中心化程度越高,且该节点在网络中的地位也就越重要。通过对节点间连接度数的分布规律分析,可以获得网络中重要的几何结构特征。节点的中介性反映节点与其他两个不同节点之间的连接特征,即该节点出现在网络中任意两个节点之间的最短路径上的能力。它一方面反映了节点之间的连接能力与网络传播能力,另一方面也常被用来度量和评估网络的弹性能力,即当网络中的部分节点被删除后,网络的连通能力。因此,在网络中有一种特殊的中介节点,它唯一地连接了两个不同的社区,即当该节点被删除时,两个社区之间被彼此隔离,这种节点被称为结构洞。由于结构洞的存在,为它所连接的不同社区网络中的个体与组织提供了信息交换的机会,因为它可以通过连接两个不同的社区网络促进了不同社区网络之间的联系与信息交换,并使各种资源通过这种新连接而实现动态的流动和交换。例如,在图2-2中也反映出了个体网络(即针对文化产业)环境下的一些节点特征。图2-2 围绕文化创意产业的主题词共现关系形成的重叠社区网络示意图(田玛丽、孙秋年提供)

在上述三种不同层次的网络结构下,为了反映出网络结构中每一个节点的位置优势或差异性,即反映对节点在社会网络中位置重要性的定义和描述,以及不同节点之间在网络结构中的作用信息,Freeman(1978)对中心度概念进行了进一步分类,其中主要包括以下三种类型:点度中心度、中间中心度和接近中心度,且每一种中心度也都分别具有相应的中心势。“点度中心度”(Point Centrality)是一种用来度量网络中节点的中心度指标,即用来计算与其他节点之间的连接数目较多的那些节点,并反映出了整体网络中的某个节点与其他节点之间的连接关系强弱程度。特别是在社会网络中,一个行动者与其他的某些行动者之间具有直接的联系,即它处在中心地位,因而有较大的权力点度。“点度中心势”则是指一个网络的中心度,它并不关注于点的重要性,而是关注于整体网络的整合度或一致性。如果针对有向图来描述,点度D(in)D(out)中心度也可以分为点入度中心度C和点出度中心度C,在网络节点数为n的条件下,它们的计算公式分别为“中间中心度”(Betweenness Centrality)是指若某用户处在多个关系网络的路径上,则可认为此节点具有较为重要的作用,因为它能够有效地控制其他节点之间的信息传递和交往过程。因此,在社会网络中,中间中心度衡量的是用户对资源及信息的控制能力或程度,特别是当某一个节点处于众多其他节点对之间的最短途径上时,则该节点就具有较高的中间中心度。中间中心度的计算公式是:jkii

式中,g(n)表示节点j到k之间的最短路径中经过节点n的路径jk数,其中g表示网络中的所有节点对j和k之间的最短路径数。中间中心度越高,表明节点对网络内其他节点相互间的信息传递与控制的影响越大。“接近中心度”(Closeness Centrality)是指如果网络中的某一个节点与其他节点之间的距离都非常短,即该节点将会很容易与其他节点进行连接交互,那么该点就具有较高的接近中心度。这种中心度的度量主要基于节点之间的接近度或距离。在社会网络条件下,对于越是处于核心地位的用户在信息发布与接收过程中,对其他人的依赖性则越小;而未处在核心地位的用户往往需要通过其他人才能获得相应的信息,因此,若某点与整个网络中其他各个点的距离较短,那么该点就是整体网络的中心点。一般来说,“接近中心度”可用以下公式来进行表示与度量:ijiji

式中,L(n,n)表示节点n与节点n之间的距离,即对于节点n可

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载