网络空间信息传播建模分析(txt+pdf+epub+mobi电子书下载)


发布时间:2020-09-13 03:05:58

点击下载

作者:蔡皖东

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

网络空间信息传播建模分析

网络空间信息传播建模分析试读:

前言

互联网被认为是继报纸、杂志、广播、电视四大传统媒体之后的第五媒体,随着互联网的发展,Web网站、网络论坛、电子邮件等传统的信息交流方式已经难以满足广大网民不断增长的信息交流需求,不断出现了一些新型的网络信息交流方式和平台,如P2P(Peer to Peer)网络、社交网络、微博、微信等,极大方便了人们的信息共享和交流,用户规模都是数以亿计。任何网络信息交流平台都具有双重性,在方便人们信息交流的同时,也带来网络信息安全等方面的挑战。

P2P网络是一种基于对等计算模式的分布式网络系统,在互联网应用中占有重要的地位,尤其是P2P文件共享系统应用最为广泛,它们所产生的网络流量占有互联网流量的很大比例。P2P文件共享系统在方便人们共享信息的同时,也带来了网络流量管理、知识产权保护、网络信息安全等方面的问题,特别是网络信息安全问题比较突出,蠕虫、病毒、木马等恶意代码借助P2P网络的强大传播能力,可以在一夜之间感染成千上万台机器,严重地影响着网络安全;在P2P网络上充斥着大量的色情、暴力、迷信、反华宣传等不良信息,给社会和谐稳定、网络文化安全乃至国家安全带来极大的危害。

在线社交网络是一种新型的互联网应用,将社会学中的社交网络概念应用于互联网中,成为人们网上交往和信息交流的热门工具和平台,受到广大网民的欢迎。由于在线社交网络是围绕着用户来建立和组织的,因此可以利用在线社交网络建立的朋友关系进行广告宣传、产品推介、信息交流、活动联络等,在促进人们的社会交往和信息交流方面起到积极的作用,同时也会被不法的组织和人员利用进行非法联络和谣言传播,例如,在国内外发生的暴力恐怖事件中,恐怖组织利用在线社交网络进行谣言散布和非法联络。

微博是一种集成化、开放式的互联网社交服务平台,用户通过微博平台以140字左右的文字发布信息,实现即时分享。用户可以根据自己的兴趣爱好,选择关注其他用户,构建自己的关注网络。微博网络作为一种特殊的社交网络,用户不但可以有选择地连接感兴趣的用户,关注其信息,而且也可以被其他用户相互连接,交流信息,具有社交网络和媒体网络的双重特性。微博作为新兴的社交媒体,越来越受重视。例如,美国总统特朗普在竞选期间通过Twitter与选民进行交流互动,赢得了更多选民的支持;国内的CCTV、人民日报、新华通讯社等主流媒体报刊都在新浪微博平台上开通了官方微博。微博网络作为一种特殊的社交网络,存在着与社交网络相类似的网络安全问题,如非法联络、传播谣言、煽动闹事等,容易引发社会群体事件,给社会和谐稳定以及国家安全带来极大的威胁。

网络论坛属于传统的网络信息交流平台,具有多元化、开放性、匿名性及互动性等特点,成为广大网民发表言论、获取信息的重要网络平台。网民在网络论坛上就某些社会问题或公共事务表达不同看法和观点,成为网络舆论的主要来源地。随着网络舆论对社会和公众影响的不断增大,出现了以网络炒作为营生的网络公关公司、网络推手、网络水军等,以各种手法和名目炮制网络热点事件,捧红各色人物,形成虚假的网络舆情,产生错误的舆论导向,危及政府的公信力,容易引发社会群体性事件。

各种网络信息交流平台所带来的网络信息安全问题,促使人们对网络信息传播机理进行研究,探寻其中的信息传播特性和内在规律,为应对网络信息安全挑战提供科学依据和解决方案。

本书主要采用数学建模方法对P2P网络、社交网络、微博网络、网络论坛四种网络信息交流平台的信息传播特性和规律进行建模分析和研究,其研究成果可以为优化网络平台结构、改善网站服务功能、正确引导网络舆论、抑制不良信息传播等提供技术方案和参考。

全书分为6章,第1章为绪论,主要介绍P2P网络、社交网络、微博网络以及网络论坛的基本概念和信息传播模式等;第2章为网络建模基本理论,介绍网络的图表示方法、复杂网络基本理论、经典网络模型、传播动力学模型等内容;第3章为P2P网络特定信息传播模型,介绍P2P网络测量模型、P2P信息传播动力学模型、P2P特定信息传播特性、P2P特定信息传播控制等内容;第4章为社交网络用户关系模型,介绍社交网络信息传播模型、社交网络关系强度模型、社交网络弱连接分析、社交网络用户关系预测、社交网络意见领袖识别等内容;第5章为微博网络用户转发模型,介绍微博用户转发特性、微博转发行为预测、微博转发特性预测、微博转发峰值分析、微博意见领袖识别等内容;第6章为网络论坛信息传播模型,介绍网络论坛舆情形成模型、网络论坛意见领袖识别、网络论坛水军热帖检测、网络水军账号检测等内容。

本书是我们团队多年来相关研究工作的总结,丁军平博士、张胜兵博士、罗知林博士、徐会杰博士等参与了相关研究工作,并为本书的撰写做出了贡献。因此,本书是团队集体劳动和智慧的结晶。如果本书能够对从事相关研究工作的科技人员以及研究生起到参考借鉴作用的话,作者的目的便达到了。不足之处敬请广大读者批评指正。

最后,感谢西北工业大学教材专著出版基金对本书的大力资助。作 者于西北工业大学第1章 绪论1.1 引言

互联网被认为是继报纸、杂志、广播、电视等四大传统媒体之后的第五媒体,随着互联网的发展,Web网站、网络论坛、电子邮件等传统的信息交流方式已经难以满足广大网民不断增长的信息交流需求,不断出现了一些新型的网络信息交流方式和平台,如P2P(Peer to Peer)网络、社交网络、微博、微信等,极大地方便了人们的信息共享和交流。

任何网络信息交流平台都具有双重性,在方便人们信息交流的同时,也带来网络信息安全等方面的挑战。同时,也促使人们对各种网络信息交流平台的信息传播机理进行深入研究,探寻其中的信息传播特性和内在规律,为应对网络信息安全挑战提供科学依据和解决方案。

在这一领域的研究中,国内外学术界提出了多种方法,从不同的角度对网络信息传播机理进行研究,数学建模是其中一种重要的研究方法,主要运用复杂网络理论、传播动力学以及统计学等方法对特定的网络系统进行抽象描述和分析,试图揭示该系统信息传播特性和规律,通过实际数据分析或系统仿真实验等方法来验证模型和算法的正确性和有效性。

本书主要采用数学建模方法对P2P网络、社交网络、微博网络、网络论坛等四种网络信息交流平台的信息传播特性和规律进行建模分析和研究。由于每种平台的系统构成、信息传播模式都有所不同,因此首先对这四种网络信息交流平台作一简单介绍。1.2 P2P网络概论

P2P网络是一种基于对等计算模式的分布式网络系统,改变了传统的客户机/服务器(C/S)模式,具有自组织性、可扩展性、鲁棒性、容错性以及负载均衡等优点,在互联网应用中占有重要的地位,用户数以亿计。其中,P2P文件共享系统应用最为广泛,它们所产生的网络流量占有互联网流量的很大比例。根据有关统计数据,在欧洲顶级骨干网流量中,P2P网络流量占有60%以上的比例;在南美地区的互联网中,超过50%的网络流量是由P2P文件共享业务产生的;在中国的互联网中,P2P网络流量所占的比例高达70%,其中BitTorrent、迅雷和eMule三种P2P文件共享软件所产生的流量分别占据前三位。可见,P2P网络流量已经成为各国和地区互联网流量的重要组成部分。1.P2P网络特点

在学术界和工业界,对P2P网络没有给出一个统一的严格定义,不同的机构对P2P网络给出了不同的定义。总体上看,P2P网络应具有如下的特点。(1)非中心化。P2P网络没有类似C/S模式的中心服务器,网络资源和服务分散在所有节点上,信息传输和服务实现都直接在节点之间进行,可以无须中间环节或服务器的介入;(2)可扩展性。在P2P网络中,随着节点数的增加,不仅服务的要求增加了,系统的资源和服务能力也在同步扩充,始终能够满足用户需要;(3)健壮性。由于P2P网络的服务是分散在各个节点之间的,部分节点或网络遭到破坏对其他部分的影响较小,具有耐攻击、高容错的优点;(4)自组织性与自治性。P2P网络中的节点可以在没有仲裁者的情况下自己维护网络的连接和性能,其网络拓扑会随着节点的加入、离去或失效而重新组织;(5)负载均衡。由于P2P网络中的资源分布在多个节点,不会出现传统网络中少数节点负载过重而大部分节点资源没有充分利用的情况。2.P2P网络类型

根据网络拓扑组织形式,可以将P2P网络分为以下四种类型。(1)集中式P2P网络。集中式P2P网络以目录服务器为中心形成星型结构。节点维护自身资源,通过在目录服务器上注册完成加入P2P网络的过程,并将自身信息和资源信息上传到目录服务器上,目录服务器负责节点查找和资源搜索。节点之间的交互与资源共享等行为是以对等模式直接在节点之间进行的,而无须经过目录服务器。集中式P2P网络是P2P网络的初始形态,网络拓扑结构简单,易于部署和管理,可以避免资源传递时对服务器所产生的网络流量压力。由于节点查找和资源搜索是通过目录服务器集中完成的,因此存在单点失效和性能瓶颈问题。典型的集中式P2P网络主要有Napster、Aimster、Softwax、iMesh等。(2)全分布非结构化P2P网络。全分布非结构化P2P网络完全按照对等计算模式自组织形成,取消了目录服务器,解决了网络结构中心化问题,扩展性和容错性较好。节点随机接入网络,并与邻居节点通过端到端连接构成逻辑覆盖网络,这种结构能够很好地适应节点频繁加入、退出及失效的动态环境。资源搜索通过相邻节点广播接力传递,每个节点记录搜索轨迹,防止搜索环路产生。由于资源分散在各个节点,整个网络没有统一的资源管理方式,这就给资源搜索带来一定的困难,控制信息消耗了大量带宽并容易造成网络拥塞,由于没有确定的网络拓扑结构,无法保证资源搜索效率。典型的全分布非结构化P2P网络主要有Gnutella、Freenet等。(3)全分布结构化P2P网络。全分布结构化P2P网络的拓扑结构是通过分布式哈希表(Distributed Hash Table,DHT)协议进行控制的,资源也由DHT协议精确发布到特定的节点上。这种网络结构的优点是资源定位准确并且能保证一定的效率,具有着良好的可扩展性和搜索性能,适用于对可用性要求高的系统。但结构化P2P网络的维护相对复杂,通常只支持精确匹配,对复杂搜索条件支持较差。典型的全分布结构化P2P网络主要有Chord、Can、Pastry、Tapestry等。(4)混合式P2P网络。混合式P2P网络吸取了集中式P2P网络和全分布非结构化P2P网络各自的优点。选择性能较高的节点作为超级节点,充当其他普通节点的目录服务器。这些超级节点由P2P网络系统动态选择和组织,不会给P2P网络系统带来单点失效问题。搜索时的路由消息仅在超级节点之间转发,搜索完成后,再将搜索结果返回给相应的叶子节点。混合式P2P网络是一种层次式网络,超级节点之间构成高速转发层,可采用完全对等的方式组织,超级节点和普通节点构成星型网络。这种拓扑将集中式拓扑的易管理性与分布式拓扑的可扩展性有机结合起来,在异构P2P网络环境下是一种较好的选择。典型的混合式P2P网络主要有BitTorrent、KaZaA和eMule等。3.P2P网络应用

P2P网络以应用为驱动力,在一些领域得到了较好的应用。下面是一些典型的P2P网络应用。(1)文件共享。在传统方式中,文件提供者将待交换的文件上传到网站服务器,下载者从服务器上下载。这种下载方式在用户多、文件大时,服务器容易过载,下载速度难以得到保证。利用P2P网络技术,计算机之间可以直接交换数据和文件,而不需要借助服务器的中转。Napster是世界首个P2P文件共享系统,为了满足人们对自由共享和交换MP3音乐的需求而开发的,进而引发了P2P网络技术革命,同时也引起了MP3音乐版权纠纷。典型的P2P文件共享系统还有BitTorrent、eMule、KaZaA等。(2)视频组播。视频组播对带宽要求很高,传统基于C/S模式的视频组播系统由于受到服务器出口带宽的限制,系统可扩展性比较差。在基于P2P的视频组播系统中,只有少数节点从服务器直接获取数据,更多节点在从其他节点处获得数据的同时,也向其他节点提供数据。采用P2P网络技术构建的视频组播系统充分利用了节点之间的可用带宽,使得系统可扩展性大为提高。典型的视频组播系统主要有PPLive、PPStream、UUSee等,它们都拥有大量的用户群。(3)分布式计算。P2P网络技术应用于分布式计算时,节点不但接收计算任务,还可以再搜索其他空闲节点并把接收到的任务分发下去。中间结果层层上传,最后到达任务分发节点。这种方式可以合理地整合闲散的计算资源,使总体计算能力得到大规模的提升。斯坦福大学的Folding@home项目通过这种分布式计算系统来研究蛋白质折叠、误折、聚合及由此引起的相关疾病。(4)实时通信。Skype语音通信软件是一种高质量的IP电话系统,它完全采用了P2P网络技术,当用户之间需要语音通信时,Skype在覆盖网中找出一条当前带宽最大的覆盖网通路,通过多跳转发方式进行数据传送。由于Skype的出现和高速发展,越来越多的用户转向IP电话,对传统的电信业造成了较大的冲击。(5)数据存储。在基于P2P的数据存储系统中,通过P2P网络将数据存放在多个P2P节点上,而不是专用服务器上。这样不仅可以减轻服务器负担,还可以提高数据存储的可靠性和传输速度。P2P数据存储系统是以数据的可用性、持久性、安全性为目标,致力于海量数据管理。典型的P2P数据存储系统主要有OceanStore、CFS和Granary等。4.P2P文件共享

P2P文件共享系统是最常用的一种P2P网络应用,用户可以利用互联网中特定的P2P文件共享系统(如BitTorrent、迅雷和eMule等)来共享各种文件。

在实际应用中,当一个用户提供某个文件共享时,首先需要使用特定P2P文件共享软件(简称P2P软件)来制作该文件的“元信息”(如BitTorrent中的种子文件),在种子文件中包含有提供该文件共享的节点列表查询的可用超级节点(目录服务器)地址和文件标识信息;然后通过网页或P2P软件内部发布功能(如BitTorrent中的种子市场)等方式发布其种子文件。

当其他用户使用特定P2P软件来下载某个特定文件时,首先需要获得该文件的种子文件,P2P软件将根据种子文件来访问可用的超级节点,找出提供该文件共享的节点列表,利用这些节点完成该文件的快速下载,实现文件共享和信息传播。5.P2P网络安全

P2P文件共享系统在方便人们共享信息的同时,也给网络管理和安全带来了新的问题。在网络流量方面,由于P2P网络流量在互联网流量中所占比例比较大,很多电信运营商屡屡指责P2P应用抢占网络带宽,甚至联合起来对P2P网络流量进行封堵;在知识产权保护方面,由于P2P文件共享系统存在知识产权保护的问题,美国RIAA等版权组织长期以来针对各种P2P文件共享系统所进行的抵制和起诉活动从未中断过;在网络安全方面,蠕虫、病毒、木马等恶意代码借助P2P网络的强大传播能力,可以在一夜之间感染成千上万台机器,严重地影响着网络安全;在P2P网络上充斥着大量的色情、暴力、迷信、反华宣传等不良信息,给社会和谐稳定、网络文化安全乃至国家安全带来极大的危害。

因此,研究P2P网络信息传播机制是非常必要的,通过对P2P信息传播过程的建模分析,研究P2P信息传播特性和内在规律,寻找影响P2P特定信息传播的关键因素,为抑制P2P不良信息传播提供科学依据和解决方案。1.3 社交网络概论

随着互联网的发展,出现了一种称为在线社交网络的新型互联网应用,将社会学中的社交网络概念应用于互联网中,成为人们网上交往和信息交流的热门工具和平台,受到广大网民的欢迎并得到广泛应用。

中国互联网络信息中心(CNNIC)于2016年1月发布的《第37次中国互联网络发展状况统计报告》显示,截至2015年12月,中国网民规模达到6.88多亿人,互联网普及率达到50.3%。统计数字表明,我国网民的互联网沟通交流方式不断变化,社交网络、微博等社交应用的网民数达到5.3多亿人,使用率为77%;电子邮件的网民数达到2.58多亿人,使用率为37.6%;网络论坛(BBS)的网民数达到1.19多亿人。使用率为17.3%,以上统计数据表明,网民使用微博、在线社交网络等新型信息交流平台进行信息交流已经成为主流方式。

在线社交网络是社会学的社交网络原理在互联网中的一种创新性应用,为了认识在线社交网络的信息传播机制,首先需要了解社会学的社交网络概念、原理和特性,为研究在线社交网络的基本特性和交流机制提供基础。1.社交网络基本概念

根据维基百科的定义,社交网络是指个人之间的关系网络,即社交网络是社会个体成员之间因为互动而形成的相对稳定的关系体系,它关注的是人们之间的互动和联系,因为社会互动将影响人们的社会行为。

一个社交网络是由多个社会个体和他们之间的关系组成的集合,可以用网络节点来表示社交网络中的个体,用节点之间的连线表示个体之间的关系,也就是使用几何拓扑学方法来描述社交网络的结构。

社交网络概念强调社会中每一个成员和其他成员之间都存在着或多或少的关系,他们共同构成了这个网络。研究人员通过数学建模的方法来研究社交网络中成员之间的关系,并对它们之间的联系和特点进行分析,并且着重于个体之间的交互关系,期望能找出社交网络中个体关系的内在联系。(1)节点。社交网络中的节点表示构成网络的社会个体,而社会个体之间的各种社会关系可以定义为社交网络中的边。在社交网络中,节点也可以称为行动者,节点可以表示任何一个社会个体。例如,节点可以是社交网络中的一个人、小组、单位、组织、企业等,甚至也可以是一个城市、国家等,当然也包括网络中的一个虚拟社区以及组成这个虚拟社区的成员。(2)关系。每个节点之间的联系依赖于各种关系。这些关系包括人与人之间的情感关系,如喜欢和厌恶;资本之间的交换关系,如商业交易和物资流动;无形资源的转换关系,如朋友交往和信息交换;生物意义上的关系,如配偶和子女等。这些关系都是社交网络的研究对象。

在节点之间还存在着“多元关系”,也就是连接。例如,两个节点之间可能同时存在同事关系、邻里关系等。并且对一个节点来说,有些节点比较重要,而有些节点则无足轻重,因此按联系的紧密程度可分为强连接和弱连接。一个节点与其关系较为亲密的、特别的、经常交互的社会关系之间形成的连接是强连接。与之相反,节点与其不紧密交互或是间接交互的社会关系之间形成的连接是弱连接。

从个人或社会角度来看,弱连接扮演着信息交流、资源传递的重要角色,因此是社交网络研究的一个重点。对于强连接来说,由于彼此之间有着相似的社会背景、知识经验、生活圈子以及相互有很深的了解,因此结构几乎重合,存在着相当多的冗余数据。而弱连接所提供的信息或知识有比较大的差异性,例如那些久不见面的人,他们可能掌握很多自己并不了解的信息。正是由于这些弱纽带的存在,信息才能在不同的圈子中交流。弱连接在社交网络中的虚拟社区之间构建起某种形式的桥梁,可以传递更多的信息和知识。2.社交网络理论基础

社交网络中有两个重要的理论基础:六度分隔理论和150法则。

1)六度分隔理论

该理论是由美国著名社会心理学家Stanley Milgram于20世纪60年代提出的。1967年,Stanley Milgram为了描绘一个连结人与社区的人际关系网,设计了一个连锁信实验,将一封含有波士顿一位股票经纪人名字的信件随机发给160个人,并要求将此信件转交给比较接近那个股票经纪人的熟人,然后依次办理。最终,这些信件一般经过五六步就能送到该股票经纪人的手中,这就是“六度分隔”现象。简单地说就是,“一个人和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人中的一个人就能够认识任何一个陌生人”。

六度分隔理论说明了社会中人与人之间普遍存在着弱连接,绝对没有联系的社会个体是不存在的。这种弱连接在社会交往中往往发挥着非常强大的作用,通过弱连接可以间接找到地理位置相距很远的个体,并能够建立联系,从而扩大自己的人际网络,人与人之间的社会距离变得越来越近。因此六度分隔现象又被称为小世界现象。

后来,康奈尔大学的Jon Kleinberg用一个二维网格数学模型来描述这个问题,研究证实了小世界现象普遍存在于现实中的各种网络。

2)150法则

起源于欧洲的“赫特兄弟会”是一个自给自足的农民自发组织,他们有一个不成文的严格规定:每当聚居人数超过150人的规模,他们就把这个群体变成两个,再各自发展。因为他们认为,“把人群控制在150人以下似乎是管理人群的最佳和最有效的方式”。150法则成为普遍公认的“可以与之保持社交关系的人数的极限”,也是网络社会化进程中人们应该遵守的规则。3.社交网络基本特性(1)社交网络大小。社交网络大小是指组成社交网络的节点数量,又被称为“网络广度”。在社交网络研究中,通常将一个较大的社交网络分解成若干个规模较小的社交网络来处理。(2)社交网络密度。社交网络密度用于衡量社交网络中各个节点之间联系的紧密程度,用一个社交网络中的实际关系数与最多可能拥有的关系数的比例来度量。(3)社交网络同质性。社交网络同质性是指构成社交网络的各个节点的背景相似程度。构成同一社交网络的行动者背景越相同,其同质性也越高、越简单,呈单一性;反之,网络的同质性越低、越复杂,呈多元性。同质性越高,网络密度就有可能越大,反之,网络密度就越小。4.在线社交网络类型

在线社交网络是社交网络在互联网中的实现和应用,人们通过在线社交网络平台,以互联网为媒介进行交友活动和信息交流。在早期的互联网中,在线社交网络就有了相应的雏形。例如,在网络上互发E-mail的用户之间就构成了在线社交网络。用户参与到一个网络或虚拟社区中,发布他们的照片或作品,还可以建立与朋友的链接。在线社交网络为维护社会关系和增强信息交流提供了平台,用户可以发现与他们有共同爱好的朋友,还可以下载由其他用户提供的信息。因此,在线社交网络是围绕着用户来建立和组织的。在目前的在线社交网络中,主要有如下几种类型。(1)在线社区。在线社区通常以个人主页的形式出现,这些主页归属于大型的社区网站。在基于在线社区构建的网络中,节点可以是个人主页,边则是主页间的“友情链接”,整个网络可以抽象成一个有向无权图。在线社区网中的节点也可以是用户,而边则是用户间的好友关系。典型的在线社区网站有Yahoo多功能社区网、斯坦福大学学生在线社区、专业人士推荐网站Linked-in以及微软公司的博客网站MSN Space等。(2)在线交友。近年来在互联网中出现了大量的社交网络服务站点,这些站点依据六度分隔理论,通过朋友的介绍来结交新的朋友,不断扩大自己的交友范围,扩展自己的人脉。在线交友网站中,一般把用户作为节点,用户的好友关系作为边,当一个注册用户通过邀请与另一个用户建立了好友关系,则相当于在两个节点之间建立了一条边。这种网络社会化使互联网应用从传统的“人机对话”模式逐渐转变为“人人对话”模式。典型的在线交友网站有Facebook、人人网、MySpace等。(3)在线网络媒体。在互联网中还有一种称为在线网络媒体的网站,这类网站主要提供发布、分享和检索新闻、图片、音频、视频等媒体资源的功能,具有即时性、海量性、全球性、交互性等特点,如全球最大的视频分享网站YouTube、相片分享网站Flickr等。另外,在线网络媒体不仅仅是一个资源分享网站,还是一个以资源分享为纽带的用户关系网站。这些在线网络媒体正在逐渐改变网络用户交互与信息交流的方式。5.在线社交网络问题

在线社交网络是围绕着用户来建立和组织的,可以利用在线社交网络建立的朋友关系进行广告宣传、产品推介、信息交流、活动联络等,在促进人们的社会交往和信息交流中起到积极的作用,同时也会被不法的组织和人员利用进行非法联络和谣言传播,例如,在国内外发生的暴力恐怖事件中,恐怖组织利用在线社交网络进行谣言散布和非法联络;在国外发生的“颜色革命”中,不同程度地利用了在线社交网络进行集会联络和信息传播。可见,在线社交网络是一把双刃剑,由在线社交网络引发的网络安全问题将给社会和谐稳定以及国家安全带来极大的威胁。

在线社交网络的广泛应用,推动了国内外关于在线社交网络的研究工作,研究人员从不同的角度对在线社交网络进行了研究,内容涉及在线社交网络的基本特性、网络结构、信息传播、用户关系、连接强度等方面,通过建立相应的数学模型,对在线社交网络特性进行分析,找出其中的信息传播特性和内在规律,为优化在线社交网络结构、改善在线社交网站服务、实施在线社交网站监管等提供科学依据和解决方案。1.4 微博网络概论

微博(Microblogging)网站是一种集成化、开放式的互联网社交服务平台,用户通过140字以内的微博发布信息,实现即时分享。此外,用户可以根据自己的兴趣偏好,选择关注其他用户,构建自己的关注网络。

2006年3月,博客技术的创始人威廉姆斯所创建的互联网公司Obvious开发并推出了Twitter网站。Twitter的出现把人们带入了一个全新的互联网时代,即微博时代。关于名字Twitter的来历,其英文原意为鸟儿的叽叽喳喳声,创始人认为鸟儿的叫声具有短、频、快的特点,符合该网站的内涵,因此选择了Twitter作为网站的名称。在最初阶段,Twitter只提供向好友的手机发送文本信息的服务,后来逐渐增加了一些新的服务,比如,用户可以通过SMS、电邮、Twitter网站或Twitter客户端软件(如Twitterrific)接收和发送信息,现在的Twitter网站已发展成一个集社交网络和微博为一体的综合社交服务网站。

此后,国内外出现了大量类似Twitter的网站,国外的有Plurk、Jaiku等,国内的有饭否、做啥、叽歪、嘀咕、贫嘴、同学网、腾讯滔滔、9911等,其中,饭否影响力较大,2009年上半年,饭否的用户从年初的30万激增到100万,随着众多文化名人的加入以及国内众多知名媒体开辟饭否官方账号,饭否一度成为中国微博的标杆。后来,国内的四大门户网站均开设了微博网站,微博用户数量迅猛地增长。尽管近几年受到微信等即时通信工具的冲击,但微博的网民数仍然是比较庞大的。

Twitter网站是世界上率先推出的微博平台,以崭新的信息交流方式在世界上引起极大的反响,成为全球影响力最大的微博平台。新浪微博是国内最大的微博平台,其注册用户数超过5亿人,日活跃用户数达到4620多万人。

微博打破了传统媒体单一的舆论主导权,给大众提供了一个自由发表意见并与他人分享的平台,在一定程度上保证了公众的话语权。因此,微博极大地解放了公众话语权,促使了公众话语权的回归,开创了一个平民化的信息传播模式。

微博网络作为一种特殊的社交网络,用户不但可以有选择地连接感兴趣的用户,关注其信息,而且也可以被其他用户相互连接,交流信息,具有社交网络和媒体网络的双重特性,一些学者认为微博网络是一个社交媒体网络。

微博作为新兴的社交媒体,越来越受到重视。国外的许多政治人物都将微博作为推广政见的工具。例如,美国总统特朗普在竞选期间通过Twitter与选民进行交流互动,赢得了更多选民的支持。国外的一些政府部门、新闻机构等都开通了Twitter账号,作为与民众沟通交流、获取信息的手段。在国内,自2009年云南省政府新闻办开设了国内第一家政府微博“微博云南”后,全国各地的政府部门都陆续开通了政务微博,实时发布消息,与民众互动。国内的CCTV、人民日报、新华通讯社等主流媒体也都在新浪微博平台上开通了官方微博。

由于微博网络在当今社会信息传播中发挥越来越重要的作用,同时微博网络作为一种特殊的社交网络,存在着与社交网络相类似的网络安全问题,如非法联络、传播谣言、煽动闹事等,容易引发社会群体事件,给社会和谐稳定以及国家安全带来极大的威胁。

微博转发是微博网络提供的一种信息传播机制,用户可以将关注者发布的微博转发到自身平台上,然后分享给粉丝。通过这种信息传播机制,使得微博能够在更大范围内传播和分享。可见,用户转发行为是推动微博信息传播的重要因素。

微博网络的广泛应用也引起了国内外学术界的关注,研究人员对微博网络的基本特性、网络结构、信息传播、用户行为等方面进行了研究,通过建立相应的数学模型,对微博用户转发行为特性进行分析,找出其中的内在规律,不仅可以为网络舆情监测、突发事件预测等提供科学依据,还可以为商家分析用户购买喜好、推荐商品以及精准投放广告等提供参考和帮助。1.5 网络论坛概论

网络论坛是一种为用户提供信息交流平台的网络应用系统,网络论坛也称为电子公告板BBS(Bulletin Board System),最早是用来发布股市价格等信息的,当时的BBS功能比较简单,连文件传输功能都没有。随着计算机技术和网络技术的发展,以及网络信息交流需求的驱动,BBS不断发展壮大,现在的网络论坛几乎涵盖了社会生活的方方面面,每个用户都可以找到自己感兴趣或者需要了解的专题性论坛。综合性门户网站和功能性专题网站等各类网站也都开设了自己的论坛,以促进网民之间的交流,增强网民的互动性。

网络论坛属于传统的网络信息交流平台,随着社交网络、微博网络等新型网络信息交流平台的广泛应用,网络论坛的用户数量有所下降,尽管其网民数和使用率不如微博、在线社交网络高,但网络论坛所具有的多元化、开放性、匿名性及互动性,仍然是广大网民发表言论、获取信息的重要网络平台,用户数量还是比较庞大的。1.网络论坛类型

网络论坛总体上可分为综合类论坛和专题类论坛两大类。综合类论坛包含的信息比较丰富和广泛,能够吸引很多的网民来到论坛,但往往广而不精。

专题类论坛专注于特定的专题,例如军事类论坛、情感倾诉类论坛、电脑爱好者论坛、动漫论坛等,能够吸引志同道合的人参与交流讨论,有利于信息的分类整合和搜集。专题类论坛能够在一个单独的领域里进行版块的划分和设置,使得专题更加细化,取得更好的效果。

网络论坛种类有很多,如教学类论坛、推广类论坛、地方性论坛和交流性论坛等。

教学类论坛主要提供教学交流和知识传播的场所,通过在论坛上浏览帖子和发布帖子,能够与他人在网上进行知识学习和教学交流。

推广类论坛主要用于企业及产品的宣传推广,也是一种广告形式。这样的论坛很难有吸引人的性质,往往寿命很短,论坛中的会员基本是受雇佣的人员。

地方性论坛是论坛中娱乐性与互动性最强的论坛之一,不论是大型论坛中的地方站,还是专业类的地方论坛,都有大量的网民参与其中。地方性论坛能够拉近人与人的沟通和交流,具有地方性特色,因此受到网民的欢迎。

交流性论坛的重点在于论坛成员之间的交流和互动,其内容比较丰富多样,有供求信息、交友信息、线上线下活动信息以及新闻等,这类论坛是将来论坛发展的趋势。2.网络论坛舆论

网络论坛以开放性、匿名性及互动性为特色,为网民提供了发表言论、获取信息的网络信息交流平台。在网络论坛中,网民就某个主题通过发帖、观看和回帖进行信息交流和互动,在信息交流过程中,某些话题的帖子受到网民的高度关注,点击量和回帖数非常大,形成较大的影响力,这种帖子称为热帖,热帖在观点传播和舆论形成过程中起到重要的推动作用。

可见,网民通过发帖和回帖发表意见,参与观点传播和舆论形成,对于推进社会进步和政治民主起到了积极的作用,成为网络舆情的主要来源。

所谓舆论是指公众对社会某些事务或现象的一致意见表达。网络舆论也具有舆论的本质属性,公众或网民以网络为平台,就某些事务或现象发表意见,表达观点,可以看作是一种特殊的舆论形式。而网络舆情是指网民就某些社会问题或公共事务表达不同看法的网络舆论,反映了公众对现实生活中的某些热点、焦点问题所持的具有较强影响力和倾向性的言论和观点。

在网络舆论形成过程中,意见领袖起到了积极的推动作用。统计数据显示,网络中的大部分用户不经常参与信息的制造与传播,他们做出的决定往往跟随意见领袖。通过意见领袖发表引导性意见来影响所在网络用户而非直接说服他们,可以有效地触发整个网络舆论的影响力,能够有效地推动信息的传播,提高广告效应。同时,网络论坛也是一把双刃剑,它所具有的开放性和匿名性等特点,容易被别有用心的组织和人员所利用,传播虚假消息和谣言,对人们的社会生活和意识形态造成负面的影响。3.网络水军问题

截至2015年12月,我国的网民已达到6.88亿人,很多网民将互联网视为了解社情民意、揭露社会弊端、开展社会监督的窗口。2009年以来,南京“天价香烟”事件、河南民工“开胸验肺”事件、云南晋宁县“躲猫猫”事件等热点事件,均由网络舆论率先关注,继而引发媒体报道。据中国社科院发布的《蓝皮书》透露,在2009年77件影响力较大的社会热点事件中,由网络爆料而引发公众关注的有23件,约占全部事件的30%。可见,互联网已成为新闻舆论监督的重要平台,特别是以开放性、匿名性及互动性为特点的网络论坛成为网络舆论的主要来源。

然而,随着网络舆论对社会和公众影响的不断增大,出现了以网络炒作为营生的网络公关公司、网络推手、网络水军等。网络公关公司受托于客户,为了在网上炒作某个话题或人物或产品来达到宣传、推销或者诋毁他人或产品的目的,雇佣了大量的网络水军,在网络推手的组织下,以各种手法和名目在互联网的各大网络论坛上短时期内大量地发帖和回帖,炮制网络热点事件,捧红各色人物,形成虚假的网络舆情。例如,在央视感动中国2010年度人物评选中就遭遇网络水军的密集刷票,引起社会各界高度关注;通过网络炒作,使“奥巴马女郎”“兽兽门”“阎凤娇裸照门”“凤姐”“犀利哥”等原本无名人物在一夜之间名扬网络;在网络上被传得沸沸扬扬的“王老吉”添加门、“360”曝黑门、“康师傅”水源门、“伊利”牛奶门等事件都是通过网络炒家人为炒作出来的。

网络公关公司、网络推手、网络水军等形成了灰色利益链,他们在实现客户目标的同时也获得自身利益。据公安部门调查,当前国内一些大的网络论坛,有50%左右的帖子是人为炒作推出来的。所谓“热门帖”“精华帖”等,很少是网民自发点击、回帖形成的,背后几乎都有网络炒家在积极推动,都是由网络水军实施的,这种虚假网络舆情被称为网络灌水现象。

网络水军及其网络灌水问题具有很大的危害性,在网络舆情中存在歪曲失真信息泛滥、网民群体极化倾向严重、境内外不法分子恶意操纵、国外敌对势力渗透性入侵等安全隐患,产生错误的舆论导向,危及政府的公信力,引发社会群体性事件等问题。对于网络水军所产生的负面影响,已引起新闻媒体和国家有关部门的关注,央视等新闻媒体多次对网络水军问题进行采访报道和深度分析;国家互联网管理部门制定了加强互联网管理的有关规定,并依法惩戒了利用互联网进行造谣惑众、恶意炒作的不法网民,包括“秦火火”“立二拆四”等网络名人。

网络水军及虚假网络舆情问题引起了社会和学术界的极大关注,研究人员通过建立相应的数学模型,对网络论坛的信息传播特性、网络舆情检测、意见领袖发现、网络水军识别等问题进行了研究,找出其中的内在规律,为快速检测网络舆情、识别虚假网络舆情、抑制网络谣言传播提供科学依据和解决方案。第2章 网络建模基本理论2.1 引言

本书主要运用复杂网络理论、传播动力学等方法对P2P网络、社交网络、微博网络、网络论坛等网络信息交流平台的信息传播特性和机理进行建模分析。由于在以下各章中均涉及复杂网络理论、传播动力学等网络建模基本理论,为了叙述方便,本章统一对网络建模基本理论进行简单的介绍。2.2 网络的图表示方法

图论是数学的一个分支,它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有某种关系。

定义2-1:网络可表示为点集V和边集E组成的图G,记作G=(V,E),且(1)是顶点的集合,其中的元素vi表示网络中的具体节点,1≤i≤NV,NV表示网络中节点的数目。图G中所有节点的集合可用V(G)表示;(2)是边的集合,其中的元素表示网络中节点与之间的连接,一般来讲,与不是同一个节点,1≤j≤NE,NE表示网络中边的数目。图G中所有边的集合可用E(G)表示。

定义2-2:当图G中任意两个节点对和表示同一条边时,则G称为无向图;否则,图中的边称为有向边,图G称为有向图,有向图也可以用Gd表示。在后续的论述中,如果不做特殊说明,图G表示无向图。

定义2-3:在图G=(V,E)中,如果图G中的每一条边,都有一个权重wj,则图G称为赋权图;否则,图G称为无权图。

定义2-4:对图G和图H来说,当V(H)⊆V(G),且E(H)⊂E(G)时,图H是图G的子图,记作H⊆G。当H≠G时,图H是图G的真子图,记作H⊂G。

定义2-5:度(degree)是节点属性中的重要概念,节点vi的度是指与该节点相连接的其他节点数量,用deg(vi)或ki表示。在有向图Gd中,节点的度可分为入度和出度:节点的入度是指从其他节点指向该节点的边的数目,用degin(vi)或表示;节点的出度是指从该节点指向其他节点的边的数目,用degout(vi)或表示,且deg(vi)=degin(vi)+degout(vi)。图G的度deg(G)为图中所有节点的最大度值,即:

如果图G中所有节点的度都是常数k,那么称图G为规则图,如果k的值为NV−1,那么任意一个节点与任意其他节点都有边相连,则称图G为完全图。

定义2-6:图G中2个节点vi和vj的距离dij定义为连接这两个节点的最短路径上的边数。如果两个节点不可达,那么它们之间的距离为无穷大(∞)。

定义2-7:图G的直径DG定义为图中任意节点对距离的最大值,即:

定义2-8:从一个节点出发沿着图G中的边所能到达的全部节点集合,称为图G的一个联通子图。对图G而言,如果从一个节点出发沿图中的边能够到达图中的任何节点,则称图G为连通图。2.3 复杂网络基本理论2.3.1 复杂网络基本概念

网络与图的最早研究起源于解决“哥尼斯堡七桥”问题,随后逐步发展成为系统化的科学理论。随着Erdős和Rényi提出随机网络[1](Erdős-Rényi,ER)模型,面向真实网络的建模及理论研究取得了很大的进展。但是随着计算机处理能力的提高,网络研究由几百个节点的小网络,转向了规模更大、结构更复杂的网络系统,人们发现随机网络模型在处理大规模复杂网络时变得无能为力,并且很多真实网络的特性无法用随机网络模型来解释。这些问题使得对复杂网络的科学理解成为网络理论研究中一个极具挑战性的课题。

1998年,Watts和Strogatz引入了小世界(Small World)网络模[2]型,该模型以小概率改变规则网络中边的连接方式,构造出介于规则网络和随机网络之间的网络,该网络既具有高聚类特性,又具有较小平均路径长度。1999年,Barabási和Albert通过在互联网的随机访[3]问发现互联网的度分布符合“胖尾”幂律分布,并指出许多实际复杂网络的度分布具有幂律形式。由于幂律分布没有明显的特征长度,该类网络又被称为无标度(Scale-Free)网络。随着这些开创性研究的进展,复杂网络的科学探索发生了重要转变,开辟了复杂网络研究的新方向。

大部分现实网络无论从规模还是网络结构来看,都是复杂网络。[4][5][6][7]例如,代谢网络、蛋白质网络、神经网络、电影演员关系网络、[8][10][12],[19],[11]科学家合作网络、电子邮件网络、电力网络、互联网[13][14][15]、Web网络、P2P网络等。虽然复杂网络已成为研究热点,然而目前人们还没有给出它的精确定义。比较公认的复杂网络具有三个特征:小世界效应、自由标度性和高聚类性。

目前,复杂网络研究涉及范围比较广泛,在国际一流刊物上发表了大量的文章,反映了复杂网络已经成为国际学术界的研究热点。总体上,复杂网络的研究内容可以归纳为以下几类。1.网络拓扑特性分析

网络拓扑特性分析是研究复杂网络的最基本手段,目的是发现复杂网络的一些统计特性,例如连接度与度分布、平均路径长度与聚类系数、拓扑层次化等,并研究相关特性的有效评价方法,试图认识和掌握各种内在的规律。2.复杂网络建模研究

图论中提出的经典模型已经被证明与实际网络相差较远,必须发展新的网络模型来模拟网络的生长过程以及重现那些在实际网络中观察到的结构属性。根据对各种实际复杂网络数据的分析结果,概括出它们的共有特性,再结合对实际网络形成机制的理解和解释,通过生成算法构建符合真实网络统计特性的网络演化模型,模仿真实网络行为,再现真实网络几何特性。3.复杂网络动力学研究

每个复杂网络都是一个复杂的动力系统,由节点所代表的动力学单元相互作用构成。复杂网络动力学研究主要包括:网络结构如何影响动态属性,如鲁棒性和同步能力等;混沌动力系统在网络上的同步性;网络拥塞及信息在复杂网络上的传播;小世界网络的自组织临界现象;复杂网络控制问题等。理解了网络上各种复杂行为的内部机制,有利于更加有效地实施控制策略和资源配置。4.复杂网络应用研究

尽管复杂网络理论还在完善中,但复杂网络已经开始应用到各个学科领域中,主要包括:根据复杂网络模型挖掘与功能相关的深层内容;应用复杂网络鲁棒性研究成果进行网络设计;应用传播动力学理论研究流行病传播过程;将小世界网络思想应用于人工神经网络,可以减少神经网络的学习时间和学习误差;将复杂网络理论应用于Hopfield神经网络,可以改变Hopfield神经网络的联想记忆功能。随着复杂网络研究的不断发展,将会有越来越多的问题通过复杂网络理论来解决。2.3.2 复杂网络拓扑特征

复杂网络的拓扑特征往往决定了该系统所具有的功能特性。因此,人们对复杂网络的研究,更多的是立足于对其拓扑特征的研究。虽然真实的复杂网络在网络规模、节点属性、承载功能等方面差异较大,但大量研究表明,这些复杂网络普遍存在一些共同的拓扑特征。研究人员提出了许多刻画复杂网络拓扑特征的概念,这些概念在研究中起到了至关重要的作用,下面对主要概念进行介绍。1.平均路径长度与全局效率

平均路径长度<d>定义为网络中任意两个节点之间距离的平均值,即:

式中,NV为网络节点数,在实际应用中,NV的数量级一般很大。如果是非连通网络,部分节点对之间没有连通路径,它们的距离为无穷大,<d>的计算结果会变为无穷大。为了解决这个问题,一方面,定义<d>为所有存在连通路径节点对的平均最短路径长度,将没有连通路径的节点对排除在外;另一方面,使用全局效率EG来代替<d>描述网络的功能特性。全局效率EG的定义为:

式中,1/dij表示节点对之间的传输效率,用来描述网络传递信息的能力,避免了定义dij时出现无穷大的情形,对于不连通路径节点对来说,dij=∞,1/dij=0。全局效率EG也称为最短路径长度的调和平均数。

尽管现实世界的许多复杂网络节点数巨大,但是网络的<d>都相对较小,即使是稀疏网络也是如此。Watts和Strogatz指出,<d>与网络规模存在一定的关系,当网络规模增加时,<d>通常也将随之增大。若<d>的增加是ln NV的阶数,则认为这种网络的平均路径比较小,称为“小世界”现象。如电影演员合作网络的<d>为3.65,Web网络的<d>为3.11。2.度分布

复杂网络中所有节点vi的度deg(vi)的平均值称为网络平均度<k>,即:

复杂网络的度分布使用节点度的概率分布函数P(k)来描述,表示随机选定一个节点,其度值恰好为k的概率,也就是节点有k条边连接的概率,即:

式中,1≤k≤NV-1,Nk表示网络中度数为k的节点数。另一种描述度统计特性的方法是累积度分布Pk,表示节点度数大于或等于k的概率,即:

采用Pk表示分布有两个好处:一是保持了单点突变现象,二是减弱噪声干扰的影响。

P(k)的n阶距是另外一种刻画复杂网络节点度分布的物理量,定义为:2

式中,一阶矩对应网络平均度<k>,二阶矩<k>刻画了度分布波动大小。3.度相关性

度分布反映了无关联网络的统计特性,但许多真实复杂网络的节点度值之间存在一定关联性。度相关性主要考查节点度之间的关联,如果度大的节点倾向于和度大的节点连接,则复杂网络是正相关的;反之,复杂网络是负相关的。

度关联性有两种表示方法,一种方法是直接使用联合度分布函数P(k,k′),表示任意一条边的两个端点的度分别为k和k′的概率,对于无向网络来说,;另一种方法是使用条件概率P(k′|k)描述节点度之间的关联,P(k′|k)表示任意一条边的起点度为k,终点度为k′的概率,它满足归一化条件和节点度的平衡条[16],[17]件,即:

形式上,P(k,k′)和P(k′|k)刻画了节点的度关联性。由于网络大小是有限的,直接计算它们比较困难,而且会产生很大的噪声。为了更加方便地判断网络度相关性,Newman给出了一种更加简便的[18]计算方法,只需计算节点度的Pearson相关系数r即可,即:

式中,NE表示复杂网络的总边数,1≤i≤NE,ki1和ki2表示第i条边的两个顶点vi1和vi2的度。r的取值范围为-1≤r≤1,当r>0时,网络是正相关的;当r<0时,网络是负相关的;当r=0时,网络是不相关的。Newman计算了一些复杂网络的r,发现社交网络是正相关的,技术网络和生物网络是负相关的。4.聚类系数

社交网络的一个普遍特点是小聚类现象,例如在朋友网络中,很容易发现你朋友的朋友也是你的朋友,这种特征称为聚类特征。为了刻画这种网络集团化程度,使用聚类系数来衡量复杂网络中节点之间连接的紧密程度,它反映了网络中三角形结构密度,网络中的三角形分布越密集,说明网络聚类性越强。聚类系数可以针对单个节点度量,也可以针对网络整体度量。

在复杂网络中,节点vi的度为deg(vi),也可以使用ki表示,表示有ki条边将它和其他节点直接相连,相应地,这ki个节点称为节点vi的最近邻居,在这ki个邻居节点之间最多可能存在条边。因此,定义节点vi的聚类系数ci为在ki个邻居节点之间实际存在的边与可能存在的边之比,即:

式中,ki为节点vi的度,Γ(vi)为节点vi的邻居节点所形成的子图,E(Γ(vi))表示Γ(vi)中的边数,也就是节点vi的ki个邻居节点之间实际存在的边数。复杂网络的聚类系数CG定义为网络中所有节点的聚类系数平均值,即:

从定义可以看出,0≤ci≤1,0≤CG≤1。只有当网络是全局耦合网络,任意两个节点都直接相连时,CG=1。对于一个含有NV个节点的完全随机网络,当NV很大时,。而许多实际大规模复杂网络都有明显的聚类效应,它们的聚类系数尽管远小于1,但却比要大得多。这意味着这类网络并不是完全随机的,而是在某种程度上具有类似于社会关系网络中“物以类聚、人以群分”的特征。复杂网络研究中,微观上的强聚类现象、小世界效应和连接度的幂律分布三个特征成为衡量复杂网络的三大标志性特征。2.4 经典网络模型2.4.1 规则网络模型

如果节点之间按照确定的规则连线,得到的网络称为规则网络。最常见规则网络包括:全局耦合网络、最近邻耦合网络、星形网络,如图2-1所示。图2-1 常见规则网络

全局耦合网络中任意两点都有边直接相连,在具有相同节点数的网络中,全局耦合网络具有最小的平均路径长度<d>=1和最大的聚类系数CG=1。NV个节点的全局耦合网络具有NV(NV-1)/2条边,然而大多数实际网络都是稀疏的,它们的边数一般是O(NV)。最近邻耦合网络中NV个节点围成一个环,每个节点都与它左右各Knc/2个邻居节点相连,Knc为偶数。最近邻耦合网络的聚类系数为:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载