图形数据可视化:技术、工具与案例(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-23 20:08:08

点击下载

作者:(美)科里 L.拉纳姆(Corey L.Lanum)

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

图形数据可视化:技术、工具与案例

图形数据可视化:技术、工具与案例试读:

前言

本书的主题是图形可视化,它听起来像一个非常难的专业主题,但实际上有广泛的适用性。图形是组织数据的一种有用方式,能帮助我们更好地理解数据中包含的关系。可视化有助于以视觉方式组织该数据。结合这两种方法可让那些不是数据科学家的人更加了解和理解他们的数据。尤其在当今大数据时代,图形可视化更能提高数据价值。本书通过案例分析研究和编码实现来讨论图形可视化的基本原理及其原则。

如果你正阅读本书印刷版,其中插图为灰度图。黑白插图也能说明问题,但要对其全面了解,请阅读本书电子版,或从该书网站下载全部彩色插图:www.manning.com/books/visualizing-graph-data。本书读者

有兴趣阅读此书的读者可能为数据科学家、工程师或某些专业人士,这些读者拥有数据并想知道嵌入在数据中的关系。他们会受益于本书。这不是一本学术著作,图形学理论博士可能会觉得这些内容有点太基础。本书部分章节提供JavaScript代码,但并非只针对JavaScript开发人员,因为Gephi的实现没有代码。但是如果开发基于Web的可视化,则需要读者具备JavaScript知识。本书组织结构

本书分两部分,共有10章和1个附录。第一部分从高层视角介绍图形,结合案例研究说明图形的重要性并讨论数据导入图形模型的方法。第二部分详细介绍如何构建图形可视化,涵盖相关重要知识点。

第一部分讨论理论层面的图形和图形可视化——为什么要可视化图形?其价值是什么?另外,简要介绍在第二部分中用于构建示例的工具。

第1章介绍图形可视化的背景知识并指出它们何时能以恰当方式说明数据。

第2章探讨各种案例研究,其中图形可视化在反恐、防范信用卡诈骗、信息安全、在线审查诈骗以及其他政府和私营部门等领域都得到有效应用。

第3章介绍图形可视化最常用的软件KeyLines和Gephi。

第二部分详细介绍图形可视化的细节,以及使用KeyLines和Gephi实现样本数据集具体概念的方法。

第4章和第5章定义图形可视化的关键术语,并深入介绍图形绘制教程。

第6章和第7章通过更好的技术来构建美观、整洁、互动的图形(动画、3D和优化触摸屏),并且布局良好。

第8章解决可视化大型数据集的常见问题并解释数据筛选过程。

第9章研究可视化连续变化数据的最佳方法以及绘制变化数据的不同图形选项。

第10章讨论地图数据的绘制,讲解将位置建模为图形并在地图上叠加图形的方法。

附录简要介绍D3.js,它是有图形功能的主流可视化库之一。

需要注意,在第二部分中,依次在前几章概念讨论的基础上构建图形可视化示例,所以建议读者先按顺序概览,之后再详细阅读感兴趣的内容。关于代码

本书包含KeyLines和D3中构建图形可视化的JavaScript代码。在Manning的Git服务器上公开了全部代码,Cambridge Intelligence网站页面上也有托管。示例代码使用KeyLines 3.0版(适用于后续版本)和D3的第4版。

大多数源代码已经调整了格式,添加换行符和相关缩进以适应页面排版。也有极少数源代码清单中包括行连续标记()。此外,正文中解释代码时通常会从源代码清单中删除其注释。源代码清单中附带的代码注释用于突出重要概念。关于原书封面插图

英文原书的封面插图标题为“波斯绅士”。这张图片摘自托马斯·杰夫里斯(Thomas Jefferys)编著的《A Collection of the Dresses of Different Nations,Ancient and Modern》(《各国古今服饰图集》)一书,该书在伦敦于1757年至1772年出版。书中扉页介绍到,这些都是手工着色的铜版画,并用阿拉伯树胶对表面进行了处理。托马斯·杰夫里斯(1719—1771)被称为“国王乔治三世的地理学家”,他是一名英国制图师,也是那时最主要的地图供应商。他为政府和其他官方机构刻印地图,制作了各种商业地图和地图集,特别是北美地区。地图制作工作让他对所调查和绘制区域的服饰习俗产生了兴趣,并在这四卷集中做了精心展示。

迷恋遥远的土地和旅行乐趣是十八世纪晚期相对较新的现象,像这样的收藏品很受欢迎,其让居民足不出户就能领略异域风情。托马斯·杰夫里斯的图集丰富多样地展示了200年前世界各国的独特性。从那时起,服饰要求发生了变化,当时如此丰富的地区和国家的多样性已逐渐消失。现在常常难以表示这种多样性差异。也许可以试着去乐观地看待这种现象,我们已经把文化和视觉多样性转移到更丰富多彩的个人生活中——确切地说,是充满有趣和更多样化的智力和技术的生活。

在这个计算机书籍日渐趋同的时代,我们选择用托马斯·杰夫里斯的画作为封面,从而将我们带回到过去的生活中,并赞颂计算机产业所具有的创造性、主动性和趣味性。第一部分 图形可视化基础

第1章深入讨论图形。首先,介绍什么是图形、其在不同领域中的使用和具体案例研究。然后深入了解数据图形模型及其与数据标准关系模型之间的不同之处,还有如何利用数据创建图形数据模型。另外介绍书中将使用的两个工具:Gephi和KeyLines。后面章节将具体讲解利用Gephi如何创建读者自己的图形可视化,以及利用KeyLines如何开发可视化应用程序模块。第1章 可视化图形介绍

本章涵盖:

·了解图形是数据模型

·为什么图形是分析数据的有效方式

·何时可视化图形和结点关联图概念

·其他图形数据可视化方法及其使用

2001年12月,安然公司(Enron Corporation)申请美国历史上最大的企业破产。其股票由上一年每股峰值90美元跌至0.61美元,员工养老金和股东投资损失惨重。联邦调查局这起大崩溃调查成为历史上最大的白领犯罪调查,截取了约3000箱文件和4TB数据。截取信息中有大约60万封安然公司高管交流的电子邮件。即使联邦调查局全力阅读每一封邮件,调查人员也认为找到确凿证据可能性不大——复杂财务欺诈犯很少以书面形式披露其行为。2001年电子邮件刚刚成为主要内部沟通方式;大量交流信息仍以电话为主。

除查阅每封电子邮件内容外,联邦调查局还希望能在通信中找到线索,以便更好地了解安然公司内部谁是决策者,或者谁能访问大量公司内部信息。为此,他们对安然公司的电子邮件进行图形建模。

图形是由结点构成的数据模型,结点为离散数据元素(如人),边为结点之间的关系。图形模型能揭示同一数据相应表格视图中的隐藏关系,并且告诉你哪些数据最重要。数据元素关联构成了数据结构的核心部分,读者能从其中识别数据中的隐藏模式。然而建立图形数据结构仅完成了模式识别解决方案的一半。本书将教会读者怎样使用交互式结点关联直观图实现图形可视化。最后让读者学会利用当今可用的各种工具创建自己的动态交互式可视化。

在本章中作者将更深入介绍图形的概念、图形的历史及其用法,并讨论各种可视化图形数据技术。在此框架上后续章节通过引入图形可视化具体示例构建所要数据,并讨论创建有效可视化的各种技术。1.1 初识图形可视化

图无处不在。只要对项目关联感兴趣,数据中就存在图。本节将向读者介绍什么是图以及可视化图形能给予什么。1.1.1 何谓图形

如前所述,图也称网络,是一组表示为一系列结点和边的关联数据元素。

普遍图形定义中,边至多有两个结点。结点关联自身,这两个结点就为同一结点。边(也称为关联)有以下两种形式:

·有向——关系有方向。斯特拉有一辆汽车,但这辆汽车有斯特拉则说不通。

·无向——两个项目连接无方向概念;连接本质上为双向。假定斯特拉与罗杰关联,因为他们共同犯罪,这也意味着“斯特拉与罗杰被捕”跟“罗杰与斯特拉被捕”表达相同意思。

图1.1为带属性的有向图示例。图1.1 安然高管之间单封邮件的属性图。两结点分别代表电子邮件的发送者和接收者,有向代表电子邮件

两个结点和边都有属性,即键值对——属性和值列表,用于描述数据元素本身或关联。图1.2为斯特拉2007年9月购置一辆2008款捷达并于2013年10月卖出的简单属性图。图形建模结果有助于突出显示斯特拉与这辆车之间的关联对,尽管该表示方式是暂时的。

电子邮件也体现出发件人和收件人间的联系。结点属性为电子邮件地址、名称和标题之类的属性,关联属性为发送日期、主题行以及电子邮件内容。图1.2 有两个结点和一条边的简单属性图。2007年9月斯特拉(第一个结点)购置了一辆大众的2008款捷达(第二结点)并于2013年10月将该车出售。为突显斯特拉与该车(边)的关系,将其建模为一个图

为寻找财务欺诈证据,联邦调查局调查的不仅仅安然公司高层管理人员发送的单封电子邮件而是全部电子邮件。为此添加一些结点表示特定时间段内发送的大量电子邮件,如图1.3所示。图1.3 安然高管电子邮件交流图。不难看出Timothy Belden是安然公

司此部门的交流枢纽,负责发送和接收其他高管的电子邮件

图1.3为一个有向图,因为它决定了Kevin Presto是发送邮件给Timothy Belden还是从他那收到一封邮件,发送和接收信息对调查真相来说区别很大。边的箭头代表方向:Kevin Presto给Timothy Belden发邮件,但Timothy Belden未回复,这说明他们要不是同伙就是可能有离线交流。随着图形中数据的增多,图形的值——模式也更明显。从本例中不难看出,Timothy Belden是安然公司此部门的沟通枢纽,负责发送和接收其他高管的电子邮件。1.1.2 引论

图论起源于十八世纪初的哥尼斯堡七桥问题。当时普鲁士的哥尼斯堡(现在的俄罗斯加里宁格勒)有个大众游戏:选择某条路线能不重复一次走完普莱格尔河上的七座桥(如图1.4所示,用该城市卫星图证明三个世纪的数学家是否错了?)图1.4 哥尼斯堡七桥问题,图上绘某条路线能不重复一次走完普莱格尔河上的七座桥

如图1.5所示,欧拉将城区提取为单点,桥为这些点之间的路径,并证明该问题无解。

哥尼斯堡每块土地用一个点表示,桥为连接这些点的线。就像安然图一样,这就构成了一个图。从图1.5中的图模型不难看出,具有偶数个关联的结点容易穿越(用两个不同关联进入与退出),然而具有奇数个关联的结点只能为路径开始或结束(仅有一个关联的结点显而易见,但不难看出它也适用于三个、五个等等)。结点的关联数称为该结点的度。哥尼斯堡七桥问题只有在最多两个结点有奇数度而其余结点有偶数度时才能被证明有解。显然该图不满足条件,因此每个桥也不可能只经过一次。图论解决了一个以前认为棘手的问题。具有偶数和奇数度的结点原理适用于所有图,不限于哥尼斯堡七桥问题。图1.5  对哥尼斯堡图七座桥梁和四块土地建模为图形。图中,结点代表普莱格尔河岸两边陆地和中间的两个岛。边代表连接两岛两河岸的桥梁1.1.3 图形数据模型概述

图形是有趣的数学结构,许多数学家终身致力于此领域研究。本书目的在于说明如何从数据中得到图,以及怎样将它们呈现给非数学家以便于他们能更好分析数据。再看安然实例。作者选择对数据建模,其结点为安然员工,电子邮件为他们之间的关联,但这不是从这些数据导出的唯一图模型。此模型的可视化结果显示谁与谁通信,但忽略了电子邮件本身的基本数据,忽略了可能有用的信息,如转发或发送单封邮件给多人,其中有些可能是抄送或密件抄送。

定义 可视化是利用图像来传达点的方法。相比计算机图形学,它通常用来寻找一个单张视图显示大量数据的方法。创建图像显示图形数据称为图形可视化。

这种情况下,可能需要将电子邮件本身作为一个结点。图1.6显示主题为“交流一下”电子邮件的发件人和收件人。结点为安然高管,边表示电子邮件的接收方式(抄送还是密件抄送)。图1.6 安然公司电子邮件图

分析下面简表。表1.1仅包括两列:名称列表和使用这些名称的国家。美国社会保障管理局每年发布一个类似表格,按照新申请社会安全号码显示婴儿名字的受欢迎度。表1.1 名称和国家列表,姓名共用

这能建模为图——每个姓名与国家为结点。姓名和国家结点有关联就同一行。结果如图1.7所示。图1.7 表示名称/国家对表的图

从该图中的表不难看出:法国和美国喜欢用Jean。巴西和葡萄牙喜欢用Joo,但别的名字这些国家很少用。如你所见,你甚至能利用最简单数据集生成图形模型,但通常你会想得到结点,关联或两者的属性。这时,你可能希望将某个名字在某个国家的使用频率作为关联属性,大概判断该名字用于男性还是女性。1.1.4 何时会用到图形

现在我们知道图是什么,为什么会用图。虽然在某些情况下图模型不适合——想到长键值对——但当数据元素有关联时图会非常有用。如果结点彼此关联,这些关联就和数据本身一样重要,因此图是一个很有用的数据分析模型。例如,查阅数据汇总时财务数据报表很重要。就拿预算来说,你关注某组类别的总支出,由于在数据中不是查找关联而是只关心数字,这时使用图会适得其反。但在相同数据集中,如果你感兴趣的事务中嵌入了数据:例如消费者在哪些商家花钱,哪些商家正使用哪些银行——此时图模型存储和可视化这些数据将非常有用。

图形的用处

图形用处很大,但随意使用很危险。许多人首次接触图概念时,觉得每个数据集中都有图,但图有时会掩盖数据含义。

下列情况下,图形是不错选择:

·项之间关联不明显。例如,将某人名字和姓关联用处不大,除非姓与名字相互独立时你正查看姓名关系。例如“有几位‘Coreys’开黑色轿车?”

·数据存在结构嵌入。每个关联都有唯一终点而无其他关联时,图为一组无意义的断联。

·结点至少有一些属性。数据集无属性,根据图创建的漂亮图片展示时也不会告诉观众他们到底在看什么。

图1.8表示一个用处不大的图模型。它代表在公路地图集背面找到的显示城市对之间的里程和行驶时间的数据。

事实上,北美每个城市都有道路连接到其他任意城市,况且地图集浏览器不可能添加从里士满开车到布法罗所途经的各种路段和城市对;大家只想知道距离多远以及多长时间到达。图的另一种表示方式关联矩阵更适合这种情况。图1.8 北美城市行驶时间图。图不是表示该类型数据的有效方式,因为所有城市之间都关联

关联矩阵

关联矩阵是将结点名称显示为列和行的表。每对关联结点在关联矩阵中的交叉单元都会被标记或用属性值填充。无向图中会重复这些值,由于每对关联结点出现两次:第一次将第一个结点作为行,第二个结点作为列,反之亦然。

图1.9所示的表是一个表示类似城市对之间距离数据的关联矩阵。

数据集中数据元素之间的关系是最重要特性,它对于图像建模也最有用。当分析关键组件时,图形最有效。本节简要介绍图形数据模型,表格数据如何表示为图(在第1.1.3节),以及何时使用图形。下一节将讨论如何以及何时可视化图形,即在纸上或计算机屏幕上绘制该数据模型图像。图1.9 阿特拉斯道路的关联矩阵。城市名以列和行表示,而相交单元格表示它们之间的距离1.2 了解图形可视化

为什么可视化图形数据易于理解?原因有二。人类是直观的视觉生物,不看图片几乎不可能想到任何模型。1909年卢瑟福提出了大家熟悉的原子模型,原子核由质子和中子组成,电子就像行星一样绕着原子核高速旋转。不久薛定谔基于量子力学的更精确模型就取代了此模型,但90年后,卢瑟福模型仍为公众熟知。为什么?因为它能被描绘。薛定谔模型虽更准确,但仅是数学概念,而且不直观,所以未能广泛吸引公众的注意力。数据也如此。如果未向观众展示谈论内容,他们就会忘记。可视化有助于弥合这一差距并让决策者了解数据。

作者在1.1节中介绍了图模型以及结点、边和属性,但本书主题为图形可视化。根据数据做出更明智决策是数据收集的唯一原因,因此提供一种有效的访问方式非常重要。对于图形数据来说这通常就意味着绘制图形。

尽管有多种图形可视化方法,但作者只简要讨论其中几种。本书重点介绍结点关联可视化。这并不意味其他可视化用处不大,主要因为结点关联可视化有最广泛吸引力且不考虑数据源,仅需要少量技术知识就能分析。到目前为止本章一直使用结点关联。结点关联顾名思义,结点可以为点、多边形或图标,关联是连接这些点的线。结点关联图几乎都是二维平面图,很少有三维图。结点关联图的一个重要方面是,结点位置与结点本身信息无关,利用结点位置显示某些有用信息有多种方法。可是单独放置结点仅为了方便性和可读性,这与笛卡尔散点图有本质区别。并且这样做有助于图形的结点布局和排列。对人眼来说具有相同数据但布局不同的两个图形意味着不同事物。1.2.1 何时可视化图形

实现可视化图形重要原因有二:

·其一:有助于更好了解你的数据结构。

·其二:有助于观众更广泛地接触数据连接。

可视化图形数据结构

图1.10的可视化结果表示销售数据库结构及其元素关联情况,而不是个别员工与产品之间的连接。图1.10 显示不同数据类型之间关联的销售数据库

至于第一个目的,了解结构:数据集中哪些类型数据会与其他数据关联?你能从设计的图形数据库中发现许多图形用来说明这些结构。

该例中销售数据库结构直观。供应商供应清单内的产品。员工接受包括产品的订单。数据专家或应用工程师认为这种观点非常重要。有助于定义数据模型、存储方式以及用户如何交互。万一出错,修复过程将会非常耗时和昂贵。

绘制自己的图形数据

第二个目的可视化数据集中的数据。此时关注数据元素本身的实际关系而不是数据类别。

图形可视化重要的一个关键原因是能为数据发现提供可视化界面。尽管过去十年大数据革命主要分析聚集数据的趋势,但能发现事先未知的连接和各个数据元素之间的关系也同样重要。仪表板不可能显示这些信息,但图能让用户挖掘探索数据并且直观发现这些模式。第6章会展开讨论。1.2.2 图形可视化常用图例

尽管本书主要内容为结点关联可视化,但它并不是唯一的图形显示方法。1.1节介绍了关联矩阵,结点由列和行表示,单元中有标记或值就表示结点存在关联。图1.9中的公路地图集就是很好的实例。关联矩阵非常便于创建或编辑图形数据,但不适合对其演示。接下来,将向读者展示某些可视化实例,其相比有些类型数据的结点关联可视化效果更好。

饼图

如果初衷是为了显示结点组而非单数据的聚集关联,那样饼图更适合。在http://www.global-migration.info中有一张显示六大洲间及其内部的全球移民的好实例,参见图1.11。其数据为一张国家间的迁移模式图,明显这些数据的全部结点关联图是很繁忙的,并且也不能显示聚集模式以及饼图,因此这是个不错的选择。图1.11 www.global-migration.info/中的图。该图生动展示了有人居住的六大洲之间的人口迁移模式

蜂巢图

如图1.12所示,蜂巢图是结点关联图的又一个实例。如前所述,结点关联图可视化注重每一个数据元素及其连接。其有用但不能识别和传递不同数据元素类型或组之间的连接。当试图研究包括数万或数十万个结点或关联的极大网络结构时,蜂巢图就很有用,因为它将结点区分为三种或更多种类型,并以图形的中心轴对齐它们。不同类型元素间的关联绘制为围绕图形中心的曲线。这有助于观众在视觉上区分紧密关联与弱关联。蜂巢图不能显示相同类型元素间的关联,而且挖掘查看数据子集也比较困难。图1.12 http://www.hiveplot.net中大肠杆菌的蜂巢图。注意最左组链接数量大,但顶部和右边之间链接较少

利用结点关联图深入分析数据好处多多,但有时使用其他可视化方法会更有帮助性。一般来说,当专注细节时,结点关联作用很大;如前所见,对关注聚合时,结点关联就用处不大。

桑基图

桑基图为另一个有用的可视化表示形式,其被设计为在图形中从左到右以流的形式绘制某事物(货币、人、能量等)。对于传统图形数据,人们关注两个结点的关系及其属性。但桑基图旨在突出显示分类结点间的聚合数。图1.13中来自国际能源机构(https://www.iea.org/)的例子显示世界能源利用,即从左边的原材料到右边以电或燃料形式消耗的能源,其有中间步骤。结点关联可视化将各炼油厂和各油田的连接作为输入,与各汽油批发商的连接作为输出,但如果仅对各种来源的能源比例感兴趣,这就成了无关紧要的细节。桑基图清楚表明有多大比例成品油用于运输燃料、发电与塑料,这是传统结点关联可视化中很难看到的。图1.13 世界能源消费和资源的桑基图。在www.iea.org/sankey能看到更大视图1.3 小结

本章介绍图的定义,并讨论分析结点和关联的数据优势。作者也强调这是有益的,并且你还可以从数据的表格视图中看到更多用处。作者提到的图形可视化的历史以及绘制自己的数据图像的原因都将让你有所启发。除了本书主要关注的结点关联可视化,书中还提到某些情况下用到的几种其他可视化方法。

·图是强调数据连接的数据模型。

·图模型能从任意共享共同属性的数据集创建。一些比另一些更有用。

·图形数据来源任意,不限于图形数据库。

·结点关联图是呈现和交流图形数据的最常见方式。

·图形可视化实现两个目的:允许分析数据和公开连接;有助于数据连接结果传达给他人。

·还有许多不依赖于结点关联图的图形数据显示方法。这些方法大多数可以帮助查看更大的网络结构,而不是更精细的细节。第2章 案例研究

本章涵盖:

·情报与执法图

·金融与在线审查欺诈图

·信息安全

·市场营销图

十几年来,人们对图形的兴趣已经超越了学术界和工业界。情报失误致使911事件被媒体描绘成一个“链接孤岛”,因为各个政府机构都有怀疑,但却无人对恐怖分子名单做整体汇总与分析。链接意味着理解各个数据集之间的关系,尽管仍然有很大改进空间,但美国情报界是图形可视化的第一批使用者之一,特别是反恐分析人员和调查人员。利用图形解释网络流量也有助于调查人员调查洗钱。通常情况下,寻找洗钱涉及调查人员和公司之间的资金流动并确定异常领域,因为这些领域的资金流入量大于流出量或者其在网络中处于中心位置(而它们本不该如此)。诈骗不限于金融诈骗——任何谋利的虚假陈述都是诈骗行为,比如最近盛行的虚假评价:对具有财务利益的产品或服务给予虚假好评,或者对竞争对手给予虚假差评。

由于越来越多经济部门是由中间商组成(匹配服务或产品与客户,如餐饮业的Open Table、出租车的Uber或本地企业Yelp),因此确保这些审查的完整性至关重要。

到目前为止,书中一直用一般数学意义上的网络,意思就是连接结点和边的集合。尽管如此,大多数人认为计算机网络既可作为基本的局域网,也可像全球互联网一样复杂。随着互联网不断地发展,其作为主要通信基础设施,不仅适用于人员,还包括设备(物联网,即IoT),因此了解它们的相互联系变得越来越重要。近年来信息安全变得非常重要,因为企业和个人的关键活动都通过互联网进行。为此我们用图形来识别计算机网络基础设施中的弱点,并可视化网络攻击以确定如何阻止正在进行的或未来将遇到的攻击。

我们将在本章中查看这些示例,包括图形可视化如何辅助国家和地方机构进行执法调查,帮助企业消除客户或在线评价者的诈骗行为。这些案例研究说明现实生活中已有多个成功使用图形可视化的案例。

表2.1列出了可能用到图形可视化的其他行业。表2.1  更多行业和数据会使用图形可视化

这些研究案例中的每个数据都来自于现实生活的数据,但因为机密性的原因,其中部分数据已做匿名化处理。建议读者从本书网站(www.manning.com/books/visualizing-graph-data)下载数据并自行对其可视化。2.1 情报与恐怖主义

2004年,外交政策研究所资深研究员和前中情局特工马克·塞奇曼(Marc Sageman)出版的《Understanding Terror Networks》,收录了172位基地组织成员和全球支持者的详细个人简历,以及个人之间的社会联系。将这些人作为结点、社会关系作为边将该数据建模为图形。以表格形式查看该数据的一个小样本,图2.1中表格显示人员/结点。图2.1 基地组织成员和国际支持者及其行踪表,摘自Marc Sageman的《Understanding Terror Networks》一书。图形可视化中这些人构成了结点

图2.2以这些人的关系构成矩阵。

现在以172个恐怖分子扩大结点链接来进行可视化,两人彼此认识为图中链接。这里做了几个设计选择,其一是将此人居住国旗帜(居住地,2004年数据)作为结点图标,便于我们一眼就知道他们来自哪里。我们将同样绘制所有链接。通常,我们使用像宽度和颜色这样的链接视觉属性来表示数据实质性,然而这个数据仅包含是否存在一个链接,除此之外再无别的属性。因此我们采用力导向布局创建结点间的间隔从而让图表更易读。本书将在第7章中详细介绍该布局。结果如图2.3所示。

虽然能从图中看到一些中心结点和孤立组,但在该级别上其显得太混乱。图形可视化中有方法能一次性显示越来越多的数据,但可能会适得其反,因为图形会更难以理解。如图2.4所示,放大图形细节后能提供更好的信息。图2.2 基地组织成员和国际支持者的矩阵。这些关系表示图形可视化的边图2.3 基地组织成员和国际支持者的图形可视化。结点代表人,边表示关系

现在我们可以看到上一张表中马来西亚国旗代表的Encep Nurjaman是大多数马来西亚人与上述国家交流的关键链接点。现实情况确实如此:Nurjaman被称为东南亚的乌萨马·本·拉登(Osama bin Laden),是基地组织中东地区与东南亚之间的主要联系人,所以即使没有旁人提供相关资料,我们也能确定该网络的一些关键人物。图2.4 仔细观察基地组织的图形可视化。细节放大后能易于了解一个马来西亚基地组织成员Encep Nurjaman与其国际集团成员间的关系

因此,即使未深入挖掘每个结点的更多属性,图形可视化也能帮助确定国际上谁和谁有联系。仅以图形方式显示数据就能使我们从数据集中识别出表格形式中未能看到的关键模式。从图中我们开始寻找一个群体与另一个群体的链接中心点,也就是找出某个在该网络范围内有广泛影响的人。

图形化表示会让你轻松查看最好的链接结点。即使在包含太多数据的数据集中查看每个单独数据端点时,这些模式也仍旧对许多紧密链接组和孤立端点很有用。

现在做一些基本社交网络分析(SNA),看看我们还能学到什么。

SNA是一个旨在使用分析算法来了解群体内社会动态的研究领域。不同领域都有相关书籍,为此本书只介绍几个算法。情报分析师的目标是确定该网络的关键角色——谁是基地组织中最重要的人物?SNA有一套称为中心分数的算法,能以不同方式查看嵌入数据中的链接模式,从而确定哪些结点最重要。有多种不同度量方法,其中一种称为中介中心性的方法能查看网络中经过某个指定结点的流量。

中介中心性是一个社交网络分析中心算法,为每个结点分配一个分数。它通过在图上计算每个结点与其他结点的最短路径(链路数或链路权重)来工作。有结点落在最短路径上时,就会增加它的中介中心性分数。因此高评分的项在数据流过图时往往为数据阻塞点或漏斗。

通过计算包含从每个结点到其他结点的最短路径,我们能确定这些路径上最繁忙的结点。这些结点将赋予更高分值。如图2.5所示,根据结点的中介中心性分数使用其α(灰色)对其进行大小调整。从图中不难看出乌萨马·本·拉登和左边的Nurjaman为最大中心结点(记住,该数据2004年公开)。当然那些在图中有着显目名字的人也是部分关键人员。这是一个不寻常的结果。中间性通常不能识别组织的领导者,因为领导者很少会建立一个所有通信必须经过其自身的网络。更常见的情况是,最高值的人往往在网络流动中扮演信息中间人。因此,本·拉登有最高分数值这一事实很有趣。他可能建立了一个网络,他是关键信息经纪人,或者说他不是实际领导者,而这不太可能。图2.5 使用社交网络分析识别基地组织的主要参与者。乌萨马·本·拉登作为基地组织的领导人在组织中的表现最高,因此可视化中他的结点最大

可视化的另一个重要特征能对数据进行筛选。如图2.2~2.5所示,同时查看所有结点和链接并不一定有用,这种情况习以为常。为此一个有用的功能是允许用户根据某些标准来控制结点的可见性。比如查看图中的这些国家,我们能根据他们是否居住在某些国家或地区从而在可视化中筛选恐怖分子。也许不是中东或亚洲,现在把重点放在西欧。我们使用同样的数据来查看英国和法国恐怖分子之间的关系,看看到底会发现什么,如图2.6所示。图2.6 筛选只显示“基地”组织的法国和英国成员,结果表明除两个例外之外两国成员很少合作

网络几乎无重叠。左上角有一名法国人与英国人有合作,中间有一名英国人属于法国网络,但除此之外,恐怖分子组织完全独立运作,至少根据信息分析的结果是这样的。

当所有数据来自一本书时,这个示例似乎很简单,也让人觉得情报分析工作似乎并不难。但了解这些网络类型可能会成为一线士兵生死攸关的问题,因为现实中数据很少集中在某个单一数据集中。图形可视化能便于分析人员快速有效地了解和传达大量复杂数据,这一点并不奇怪。

图形可视化已成为在大型社会网络中调查有组织犯罪时执法的宝贵工具。但在这个案例研究中,图形可视化有助于识别任何社交网络的通信模式,而不仅仅是罪犯之间。营销人员也可从该技术中受益。2.2 信用卡诈骗

诈骗被定义为“为财务收益而做出的虚假陈述”,或者说是撒谎来得到你想要的东西。不管诈骗类型如何——不论是收购账户,如诈骗者冒充账户拥有人向自己转入资金,还是身份盗用,如诈骗者以他人名义申请信用卡或提出虚假保险索赔,几乎每个诈骗案件都会虚构关系。因此,图形尤其图形可视化在打击诈骗方面能发挥重要作用。

在打击诈骗方面图形可视化发挥两个作用:诈骗审查和欺诈调查。

诈骗审查至关重要。交易系统在过去几十年中已经越来越自动化,因此人工审查异常情况的职员数越来越少。许多大型交易系统中,例如信用卡申请,一个人根本不可能审查绝大多数业务流程。这通常是好的,能立即批准信用卡而且节省费用,但这也为潜在的诈骗打开了一扇大门。由于无人审查批准或拒绝交易,只要诈骗者未被审查到就不会发出任何警报从而让其进行大量信用卡套现,最终给系统的所有合法用户带来成本花销。有公司已投入数十亿美元进行自动化分析来帮助检测这些大型系统中的异常行为,并取得了卓有成效的进展,但有些可疑案例仍然需要反诈骗专家审查。这也推动了图形可视化的出现。这些专家经常要每天审查几十甚至几百个案例,而且几乎是在没有参考资料的情况下做出决定。对数据关系的快速检视常常导致正常的申请被拒绝反而诈骗案例却被批准。

本节将回顾企业如何使用图形可视化查看诈骗采购行为,以及哪种模式会对诈骗预警。2.2.1 网购诈骗

当我(或其他正常客户)网购商品时,其购买图很简单,类似于图2.7所示的图形。图2.7  网购解析。图中结点代表客户、产品、IP 地址和派送地址。这笔交易中没有任何内容表明是诈骗购买

尽管我会从IP地址网购,也许是工作电脑或家用电脑,但该IP地址很少。派送地址也是如此。我可能会将物品派送少量地址,但不太可能超过几个,并且很可能在同一个国家。这就给预期的正常交易提供了可视化的模式,便于直观地发现与该模式不匹配的图形。例如,为什么某个IP地址有数十个不同账户的订单?或者为什么一个账户会将商品派送到不同国家的几十个地址?图2.8中的图形表明图形方式可视化时能凸显诈骗性交易。

此外一旦发现诈骗案件,确定诈骗范围同样重要。是有组织犯罪分子的系统模式还是一个单独个人?如何才能深入到源头?这就是所谓的诈骗调查,并且图形可视化在其中很有用。以被盗信用账户为例。持卡人向信用卡公司报告他的信用卡被旁人套用并被使用。我们就确定了一个明显的诈骗案例并对其制止,但是我们如何使用这些数据来主动确定还有哪些持卡人可能面临风险?一种方法是可视化上报信用卡套用的持卡人及其经常光顾的商家网络。如图2.9所示,光顾的共同商家就会用红旗来标记。图2.8 注意到大多数结点的模式相似,除中心附近的两三个链接良好的簇图2.9 粗线链接表示持卡人与这些商家的交易比较可疑

在其信用卡被套用交易前,多名受害者都在同一商家消费过。也许其中有一个供应商与信用卡套现有关。合法刷卡前,无耻店员偷偷在第二张未经授权的读卡器上读取客户信用卡账户信息并在黑市上进行出售。此外,由于这些交易都是在星期二或星期四的晚上8点到12点之间进行,那么我们可以调用商家店员的考勤记录以确定何人所为,这些都可以通过图形可视化来实现。

商家也可用图形可视化在客户完成诈骗性订单前来识别客户间的非典型购物行为,这可能隐含诈骗。图形在分析消费者行为和追查肇事者方面也很有用。2.2.2 在线审查诈骗

2015年4月,亚马逊对其入驻商家请第三方公司撰写假商品评价提起诉讼。它声称整个“不健康的生态系统”虚假地夸大了亚马逊销售平台上某些产品的排名。许多网站将客户与产品或服务相匹配,通过合法客户提交的评价来获得其对产品或服务的真实体验从而增加价值。例如,在Yelp上发现添加一颗星其产品销售额就会增加19%,这也极大地促使供应商利用各种手段来提高其评级。这些手段有合法的——提供更好的产品或客户服务来提高评价等级;但是也有非法的——例如有偿评价来提高排名。

正如在信用卡案例中看到的那样,除商家为虚构自己排名来降低竞争对手的排名外,还有一些系统诈骗者,他们利用网站系统漏洞操纵大量客户(商家)的评价。第一种诈骗不复杂,通常很容易被发现。图形可视化也便于识别,例如,创建账户的新客户在凤凰城点评了七家不同的意大利餐馆,其中六个评价为一星,其余一个为五星,这里往往隐藏了更多微妙。

审查诈骗和金融诈骗的一个主要区别:审查网站并不总要求提供诸如地址或信用卡卡号之类的可验证信息,这样会增加提交的评价数,但也导致不可能根据观察列表交叉审查评价。相反,我们必须依赖设备数据、位置数据和行为模式,如下所示:

·审查内容

·审查提交速度

·设备指纹

·资料数据

·地理位置数据2.2.3 可视化审查诈骗

图2.10中使用模拟数据显示某笔交易的两天内提交的一些评价。值得注意的是,这些评价的提交时间很有趣,为此我们通过查看直方图显示其随时间的变换关系。第9章会对此做详细介绍。

彩色结点代表每个评价,红色渐变为绿色用于表示审查评级。每次审查以下三条信息:

·业务审查(建筑图标)

·使用的IP地址(电脑图标)

·提交评价的设备,无论是桌面设备还是移动设备(@符号图标)图2.10 2014年9月9日评价86餐厅的所有IP地址和设备的图示说明

系统用粗红色链接而非默认的蓝色来标记可疑评价。以前删除的诈骗性评价用虚红色的X结点显示,具体细节如图2.11所示。

图中心有一个有趣的集群:对于单个业务有四个不同设备通过该IP地址共提交了七个评价。三条作为虚假评价已被删除。

其余四个的时间集中并且共享IP地址,这意味着它们也可能为假评价。如图2.12所示,如果向外扩展某条已删除的评价就会发现更多操纵评价的线索。

针对某项业务,这一次可能是为了逃避审查软件保护,该设备使用五个不同IP地址(更可能为代理IP地址)提交了8条零星评价,为此将其提交的评价标记为诈骗。

根据所要发现的洞察力,这里有多种不同方法来模拟评价数据。图2.13中用了三个元素:

·审查人账号(人员结点)

·被审查商家(建筑结点)

·审查评级(绿色→红色链接)

接着,模式立即开始脱颖而出——尤其左下角令人难以置信的积极评价者,为许多不同机构提交了数十条五星评价。图2.11 详细查看86餐厅的某一条评价。该图显示了86餐厅某位顾客的电子邮件地址、IP地址和五星评级图2.12 31餐厅评价中的更多可疑模式。对于31餐厅,顾客以一个账户使用五个不同IP地址试图逃避审查,共提交了8条评价

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载