图分析与可视化:在关联数据中发现商业机会(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-07 11:48:31

点击下载

作者:(美)布莱斯(Brath,R.),(美)琼克(Jonker,D.)

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

图分析与可视化:在关联数据中发现商业机会

图分析与可视化:在关联数据中发现商业机会试读:

前言

本书将介绍如何把图的可视化与分析应用到商业中。图的应用是一种独特而宝贵的资源,可用于从数据中发现有价值的信息。近年来,世界上一些最具创新力公司内部的分析人员开始积极探索基于图的方法,以更深入地理解他们工作的动态,同时发现可以提高业绩的机会和策略。

随着可用数据的量、种类和速度都在增长,对帮助理解数据的方法和技术的需求也在增长。各种组织已经强烈感受到简单的仪表板风格图表的局限性。仪表板擅长显示指标和趋势,可以告诉你公司哪些部门在什么时候比其他部门表现得更好或更差,但是不能告诉你为什么会这样,而理解“为什么”是采取有效行动的关键。

图的作用是表示两种事物之间的连接,揭示数据关系的结构和本质。关系是理解事物的“为什么”以及“如何做到”的基础,这也是图分析和可视化具有巨大价值潜力的原因之一。

本书作者回顾过去20多年为商业和情报分析人员设计与构建新应用的经历,意识到图已经在许多解决方案中扮演了一种角色。如今,我们的一些最重要的研究和软件开发工作在本质上都是基于图的。

然而,尽管图十分有用,但在科学界以外却很少有图的应用,关于图设计的作品就更少了。随着开源图工具和库的能力在近期不断发展,图已经可被每个商业分析师使用,但是关于图的分析与可视化的有效原则与技术的知识,仍然只有少数人知道。我们撰写这本书的目的就是为了帮助改变这种情况。

本书目标读者

本书针对的是希望知道如何将图分析应用到决策相关问题的数据科学家和分析人员。本书中的示例取自商界,但是使用的原则与技术也可用于政府机构和非营利组织。

读者不需要具有关于图论及其实践的知识。新接触图分析的读者可以从头到尾阅读本书,这样更有帮助。有经验的读者可以选择跳到第Ⅲ部分中感兴趣的主题,该部分详细讨论了分析主题。

本书的一些例子包含少量的编程,但是大部分示例应用都使用鼠标点击类工具。对于这两种情况,都需要有一定程度的技术能力。

本书结构

本书包含4个部分。第一部分对图的主题进行了概述。剩余章节逐渐讲解更加具体或者高级的主题。第3~10章由Richard Brath撰写,其他章节由David Jonker撰写。

·第I部分:在本书的第一部分中,作者概述了图在商业中的应用,并介绍了各种类型的图(第3章进行了详细描述)。

·第II部分:本书的第二部分全面探讨了图的可视化与分析过程的主要步骤。

·第III部分:本书的第三部分讲解了不同的分析主题及与之相关的图类型与技术。

·第IV部分:本书的第四部分关注高级主题(仍在不断研究中的领域),以及根本的设计原则。

下载材料

本书为各章的示例提供了在线的数据文件、源代码包和图可视化[1]文件,并按章将这些补充材料组织起来。查看或者运行这些文件所需的软件在每章的示例中进行了描述。下载文件中包含以下内容:

·数据文件:大多数数据文件以通用格式提供,例如文本(.txt)或逗号分隔值(.csv),可以直接读入图软件或者被程序使用。在一些情况中,会有两个文件,一个是节点文件,另一个是边(即节点之间的连接)文件。在其他情况中,以图特定的文件格式来提供图数据文件,例如.gdf或.graphml。这些是许多图工具能够直接导入的格式。

·Excel文件:有一些文件是扩展名为.xls或.xlsx的Excel电子表格示例。这些文件需要使用Microsoft Excel运行。

·图可视化文件:一些示例还包含图可视化文件,例如.gephi或.cys。这些文件与特定的图可视化软件关联,例如这两种文件分别与Gephi和Cytoscape关联。要查看这些文件,必须首先下载并安装免费的图可视化软件包。具体细节下一节将进行介绍。

·Python代码:编程示例使用了Python语言。这些程序文件的扩展名为.py。Python示例中使用的是Python 3.x版本,要求下载并安装Python。具体细节下一节将进行介绍。

·HTML和JavaScript:使用JavaScript的示例通常是包含JavaScript的网页文件,扩展名为.html。这些文件在标准的现代Web浏览器中就可以运行,例如最新版本的Chrome或Firefox。

示例中用到的工具

本书使用了众多工具来处理数据或可视化数据。为了使用前面列出的数据文件,需要有下列软件。

·Gephi:Gephi(https://gephi.github.io/)是终端用户使用的一个免费的鼠标点击类软件,本书中的许多图可视化示例都用到了这个工具。许多数据文件都可以导入到Gephi中进行分析和可视化。第7章以第3章~第6章描述的基本图分析过程为基础,讨论了Gephi的一些功能。

·Cytoscape:Cytoscape(www.cytoscape.org/index.html)是另外一个免费的、供终端用户使用的图分析软件工具,也用在了本书的许多示例中。许多数据文件也可以导入到Cytoscape中进行分析和可视化。第7章讨论了Cytoscape的一些功能,并说明了Gephi与Cytoscape之间的一些区别。

·yEd:yEd(www.yworks.com/en/products/yiles/yed/)也是一个免费的、供终端用户使用的鼠标点击类软件产品,由yWroks开发,用于图的分析与可视化。

·Excel:有几个示例中用到了Microsoft Excel(http://products.office.com/en-us/excel)电子表格。Excel不是免费的,但是大部分读者应该已经安装了该软件,而Microsoft也允许下载该软件,并评估试用一段时间。有几个例子还使用了Excel的NodeXL插件。

·NodeXL:Excel允许开发人员创建插件来访问并增强Excel的功能。NodeXL(http://nodexl.codeplex.com/)为社交网络数据获取提供了图功能,还提供了图的分析与可视化功能。

·Python:为了通过编程操纵数据,一些示例中使用了Python 3(https://www.python.org/)编程语言。Python可以免费获取。

·一个现代浏览器:虽然任何现代的Web浏览器都应该能够查看JavaScript/HTML示例,不过作者们使用的浏览器是Chrome(https://www.google.com/intl/en_us/chrome/browser/)。

·D3.js:D3(http://d3js.org/)是用于在浏览器中创建多种交互式数据可视化的一个JavaScript库,第8章等地方就使用了D3。

·Aperture JS:Aperture JS(http://aperturejs.com/)是本书后半部分(例如第12章)的一些示例中使用的一个JavaScript框架库。

·Titan:第14章的几个大数据示例中使用了Titan(http://thinkaurelius.github.io/titan/)图数据库。

要使用这些软件库和工具,需要自己下载并安装它们,不过JavaScript库(D3.js和Aperture JS)是例外,它们已经与下载示例打包在一起,可从前面提到的本书配套网站上下载。

注意事项

本书的各个章节使用案例分析来演示图的各种应用与形式,以及如何使用图。在可能的地方,演示使用了真实的工具和真实的数据。对于这些情况,有几点需要牢记在心。

虽然作者使用的是开源工具,任何人都可以免费获得这些工具,但是其中的许多工具仍然处在开发当中,因而缺少最终成品的一些光彩与健壮性。需要知道,格外耐心有时候是早期采用一个产品所要付出的代价。将本书中与工具相关的步骤视为一个过程的一般指导原则。如果用户界面看上去与书中的描述不完全相同,则要在更新的界面中找到对应的选项。如果找不到,快速地在网上搜索通常足以帮助你找到你要寻找的东西。

另外要记住的一点与要分析的数据有关。像本书这类图书依赖于公共数据集。虽然近年来将公司数据集开放给公众,以发展分析与可视化的艺术与科学的行动有了巨大的进展,但是私有的数据集始终更加庞大、更加丰富。虽然本书中的分析对于使用的数据是正确的,但是很多时候这些数据只是公司网络内的数据的样本。将本书的分析当做一种模板方法,在你的全部数据处理中可以照用它们。

约定

为了帮助你最大程度地理解文字内容,并跟上内容进度,本书中采用了一些约定。

警告 警告框中包含重要的、不能忘记的信息,这些信息与警告框周围的内容有直接关系。

注意 注意框指出了一些注意事项、提示、暗示、技巧或者题外话。

提示 提示框提供了能够帮助掌握所讨论信息的提示或者技巧。

[1] (在线资源请登录http://as.wiley.com/wileyCDA/wileyTitle/productCd-1118845846.html,同时可以登录华章网站www.hzbook.com下载)

作者简介

Richard Brath是数据可视化的积极实践者和先行者,其视觉分析的研究、设计与开发不仅涉及研究领域还用于商业领域。他创建的解决方案范围很广,从用于移动设备中丰富的交互式可视化,到用于商业应用的多点触控、多屏幕装置以及基于Web的可视化分析,涉及的应用领域也很广,如贸易、职业体育和广播电视等,每天都有成千上万的人使用。

David Jonker是Uncharted(原来的Oculus Info Inc)公司的联合创始人和高级合伙人。他是一名设计师和开发人员,为基于Web的、分布式的、移动的应用设计可视化分析工具和平台。他在过去20多年做了大量可视化工作,其中包括位于时代广场NASDAQ MarketSite实时广播中心的可视化系统。目前,他是DARPA XDATA项目的带头人。Jonker和Brath是商业合作伙伴,两个人也经常在领先的行业及研究论坛上发表演讲,进行展示。

技术编辑简介

Scott Langevin是Uncharted的一位主管和研究人员,拥有超过12年的行业和学术界经验。他在南卡罗来纳大学获得了计算机科学的博士学位,方向是机器学习、面向服务计算和软件工程。Langevin的研究兴趣包括概率图建模、大规模可视化分析和适应性用户界面。

Peter MacMurchy是拥有超过15年经验的专业软件开发人员,他关注UX、UI和交互式数据可视化工具。在卡尔加里大学读计算机科学学位研究计算机图形学时,课程作业激发了他对信息可视化的强烈兴趣。自那之后,他就一直为金融、电影、能源等行业开发可视化和交互软件。第I部分概述

本书第I部分介绍了图这个主题,并回答了两个重要的问题:为什么对于商业分析来说图很有价值?可以用来发现什么样的机会?本部分借鉴历史发展和现实经验,讨论了一系列技术和应用。还给出了一些案例,以说明图的价值。

在本书第Ⅱ部分讨论图分析的过程之前,本部分的概述可帮助读者感受图的类型有多少种,以及图可以在多少个领域提供价值(即使在一个企业中也可能存在多个这样的潜在价值领域)。本部分的引用内容作为学习第Ⅲ部分的指导,该部分的各个章节将详细讨论图的各种类型,并采用教程风格讲解了图分析的应用。

表介绍了第1章和第2章的主题。

概述第1章 为什么使用图

本书介绍图以及如何使用图来帮助解决商业问题。当听到“图”这个词时,许多人想到的是条形图表或折线图表,当然这是没有问题的,因为这些图表有时候也叫做条形图或折线图。本书介绍的不是图表,而是节点–连接图这类图。

本质上,“图”是相互连接的事物及其关系的一种结构化的表示。在后面的章节中将会看到,图能够表示复杂的数据,并帮助分析人员理解这些数据。

图在数学中由来已久,所以讨论图的分析和可视化常常会包含许多深奥的、令人不知所云的术语,例如“边”(edge)和“度”(degree)。相关的研究领域一般叫做“图论”。

在本书的讨论中,我们尽可能地使用更加容易被大众理解、更加清晰的术语。例如,“连接”(link)是“节点”之间的关系,通常绘制为线条。节点是实体(本质上就是“事物”),由连接线连在一起。节点在可视化表示中通常绘制为圆圈。

在图论中,边是另外一个表示连接的词。如果熟悉六度空间理论(six degree of separation)(同名的歌曲和电影使之流行起来),那么术语“度”的含义会稍微清晰一点。但只是清晰一点而已,因为“度”不只可以表示连接实体之间分隔的最少步骤数,还可以表示节点拥有的连接数。

注意 本书末尾的“图论术语表”通过一系列术语解释了图论,所以如果不熟悉图论,可以参考这一部分。

一些圈子里仍然把图视为抽象而难以理解的结构,主要由头发乱糟糟的科学家使用。虽然图在科学界确实由来已久,但是实际上如果能够恰当地设计和创建图,那么图是分析信息最直观的方式之一。如果曾经在笔记本或者白板上通过绘图的方式来思索或解释概念(这其实是可视化的一种形式),那么其实就使用过图表示了。

更重要的是,图能够用来从数据中获得高度独特而有价值的见解。图分析能够揭示复杂的关系,从而帮助有效地制定决策。可视化是此过程的核心。能够以可视化的方式看到关系对于理解关系十分关键,不管这些关系是原始数据的特征,还是图分析揭示出来的具体特性。

信息可视化存在的唯一目的就是在更少的时间里理解更多信息。大脑的工作方式决定了人们以形象化的方式察觉和理解失误。“读”是一个耗时的、顺序的过程,要求阅读者在脑中将信息串联起来形成理解。图片能够即时传达信息,以易于消化的方式揭示复杂的模式和离群值。

有一段时间,可视化是通过手绘完成的,而在绘制之前,还要经历辛苦的数据收集过程。如今,计算机系统能够在几毫秒的时间内收集大量数据并将其转换为图形,使分析人员能够立即理解并处理信息。几乎所有企业都可以从可视化中受益,因而,可视化已经成为全世界各个行业的系统的核心。但是,图是仍然未被充分利用的可视化形式之一。就是说,有一段时间,所有的信息可视化形式在企业中都没有得到充分的利用。1.1 商业中的可视化

在企业的决策制定中使用计算机呈现的可视化相对而言是近期出现的一种现象。20年前,我们刚刚从滑铁卢大学建筑学院毕业,受到当时新兴的广阔虚拟景观新世界的吸引,我们决定放弃设计物理景观。我们中的一位作者花了几年时间研究3D建模软件,后来我们与其他同事合作,看看是否能用类似的技术,为金融和其他行业的成功的决策制定者解决显示大量抽象信息的问题。这次合作最终催生了长期的合作伙伴关系,这些合作伙伴中包括William Wright和另外一个年轻的建筑师Thomas Kapler。

在那次合作探索商业可视化的早期,图表(即使是最简单的图表)的价值也还没有被财富500强公司广泛理解或接受。我们一开始用最基本的价值主张——可视化自身价值——向公司的决策制定者推销我们的观念。我们首先用一张幻灯片显示一个包含数字的小表格,然后让房间中的决策者们描述模式。下一张幻灯片用折线图的形式显示了相同的数字。将数字可视化后,模式显而易见。在表格中,模式则很难看出。以这个基本原则作为基础,可以推断出要从庞大许多、也复杂许多的数据中获取有用的见解,可视化会更加关键。

当时,使用计算机来进行基本绘图的方法还只是处于新生阶段,而以可视化方式分析商业数据的行业总体来看尚未出现。当时进行的一些先进的研究工作局限在少数几个公司的研究实验室和新兴公司中。商业世界是一个还不大运用图表的世界。

在早期商业世界在采用可视化时面临着一些阻碍,其中之一就是当时的计算机系统的图形处理能力有限。当Edward Tufte的著作Envisioning Information(Cheshire,CT:Graphics Press,1990)出版时,业界的最佳实践仍然基于打印,他的这本具有开创意义的设计图书中选用的案例分析也不例外。普通计算机的显示质量仍然十分落后。

20世纪90年代初,我们带着新颖的交互式3D演示来到纽约,把它们展示给金融分析师和交易员。当时,他们使用着专用的几百磅重的硬件。支持一个系统需要笨重的Silicon Graphics Inc.(SGI)计算机和监视器。不断地把设备搬入搬出出租车的后备箱,并把设备放在快散架的折叠式手推车上沿着人行道运送,导致不久以后新机器就用上了强力胶布。

更大的一个问题是,当时华尔街(甚至整个商业界)还没有谁有一台SGI机器。每个用户的新机器和操作系统的价位达到五位数,但是不能运行他们其他的应用程序,这使得交互式可视化软件系统很难让人接受。我们把许多高调的公司列到一个单子里,为他们制作了有针对性的原型,但是广泛的采用仍然很难实现。

后来Microsoft Windows计算机问世,提供了更好的图形API和显卡,也改变了整个局势。由于能够在大部分台式机上使用更高质量的图形能力,所以就不再需要昂贵的专用机器,这代表了企业在广泛采用先进的可视化方面的一大进步。到20世纪90年代中后期,被广泛部署的高性能的分析客户端平台(如Bloomberg Terminal)就运行在PC上。甚至高度专业化、要求极高的系统(如NASDAQ MarketSite广播墙)也运行在商用Windows计算机上。

随着硬件的图形处理能力开始成熟,人们也越来越意识到可视化的价值。及时、准确而迅速地察觉事件和趋势,对于在交易大厅或者其他需要不断监控系统和事件的地方快速做出决策至关重要。在业务分析中,通过以图形化方式呈现信息来辅助获取深入见解和支持战略级决策制定,这种方法的价值在各行各业快速得到了认可和接受。

面对一个快速增长的市场和一个尚未被图形占领的世界,我们在整个世界的新鲜而又令人兴奋的领域找到了我们一展拳脚的机会。例如,当NASDAQ MarketSite从市中心的一间办公室搬到时代广场的一个公共的工作室时,需要重新构建其软件基础设施,于是委托我们设计和构建可视化系统和内容。新工作室打算在千禧年前夕启用,它包[1]含一个40英尺长的广播墙,上面有大约100个显示器,并且在其七层楼的外墙嵌上了一个电子显示屏。按照记者和公众的需求,广播墙能够以可视化方式实时显示超过6000个股票和指数。

从那以后(其实之前就已经开始),我们有幸通过设计和技术开发,在幕后帮助世界上最具创新性的公司和组织以可视化的方式解决棘手的信息问题。在这个过程中,我们有机会在几近100家企业内部见证了行业的变迁,这些企业分属于各种数据密集的行业。随着时间不断前进,可用数据的数量越来越多,从数据中能够获取的信息的潜力也越来越大。数据现在是无处不在,等待人们加以利用以获取可以指导行动的见解。

随着人们逐渐认识到需要利用可视化来深入理解数据,人们也开始意识到可视化系统必须具备高度的可交互性。简单地绘制并查看数据是不够的,正如简单地计算并显示结果不能满足要求一样。“分析”是进行快速查询、解答和探索的一个交互式过程,涉及计算过程、视觉显示和视觉上的操纵。在21世纪早期,很多人认为可视化就是一种输出方法,由于对这种观念感到不满,研究社区创造了“可视化分析”(visual analytics)这个术语,以更好地表达和宣传这种以交互方式分析的形式。

随着企业中信息问题的大小和复杂度逐渐增加,人们也开始认识到,基本的折线图、条形图和饼图常常无法表达全部可用的有价值信息,将这些信息运用在决策制定中。还需要有更丰富的形式和形式组合。事实证明,图是最有价值的形式之一。

[1] 1英尺=0.3048米。——编辑注1.2 商业中的图

在大约25年的时间里,我们一直在帮助各种组织进行可视化和对图进行分析。图出现的时间要早得多。最早的与图有关的问题之一由莱昂哈德·欧拉提出,这个问题乍看上去很简单:有没有一条路线,使得普鲁士哥尼斯堡(如今俄罗斯的加里宁格勒)的七座桥中的每一座只被通过一次(图1-1的左图)?欧拉将这个问题简化为一个图,如图1-1的右图所示。

自那之后,无论是在商业界还是科学界,更多的问题被明显地作为图来分析。其中许多问题都与地理位置有关,就像欧拉的问题一样。

我们最早创建的图可视化方案中,有一个也是地理图问题。在供应链优化中,要完成的任务是优化工厂和仓库之间的产品运送,以降低成本。如图1-2所示,我们的可视化方案描绘了各个场所的位置,并用图标指示一些特性,如类型、库存、容量和使用情况,另外还用一些较大的连接指示平均成本。

使用这种供应链可视化方案可以完成多种类型的分析,例如从检查单独的路线到精简工厂和仓库的总体数量。一个值得注意的观察结论是,特定两个工厂之间的成本在三月、六月、九月和十二月会翻倍。调查后发现,在每个季度末一条路线的运送成本会明显增长。进一步调查显示这条路线是从陆运改为更快(但更贵)的空运。一些问询揭示出这种变化是由高层目标推动的,以便满足每季度的目标。因为这种模式在每个季度重复出现,分析人员意识到,整个季度中在两个工厂之间进行更好的规划和协调能够实现更好的运送安排,从而在季度的最后一个月份中降低运送成本。类似的,在其他供应链网络的分析和优化中也可以使用图的分析和可视化。图1-1 在哥尼斯堡七桥问题中,莱昂哈德·欧拉研究每座桥是否能够只被通

过一次。左侧是显示了七座桥位置的地图,右侧是欧拉简化后的图图1-2 作者最早创建的可视化方案之一描述了一个制造和配送供应链网络

注意 第9章将更详细地讨论基本的图和关系。

1.2.1 找出反常现象

空间图(Spatial graph)常用于分析商品在公司中或者全世界的流动情况。这种图的一个早期的、优秀的例子由Joseph Minard在19世纪中叶绘制,如图1-3所示,该图研究了全世界的移民情况。通过观察这幅图,很容易看到英国人移民到各殖民地,法国人和日耳曼人流动到美国,葡萄牙人流动到巴西,非洲人、印度人和中国人流动到其他地区。图1-3 Joseph Minard的流图显示了1858年全世界的移民情况

图可用于分析人口、商品或资金的移动情况,这种移动可能发生在全世界、某个过程中或者网站中。我们另外一个早期项目是为一家航空公司创建的,该公司想要分析其航线网络的表现。图中的每个连线显示了一条航线,并具有一些指标,如收入、乘客数、效率和盈利情况。

注意 本书的许多例子会用到在不同位置之间移动的统计数据,这在第12章的讨论中尤为明显。

带有时间元素的流数据集很快会变成大数据(Big Data)。在这种情况中,我们使用不同的策略来处理这些动态的流图,例如聚类方法。图1-4显示的是近期应用图来调查实体之间的资金流动。

注意 第15章将详细讨论这个例子。

这些图的作用是找出并理解反常现象,例如意料之外的连接或流动。识别欺骗性的活动和理解网站中的路径是应用这种图分析的例子。找出这些反常现象能够帮助企业提高效率,例如能够减少损失或降低点击次数。图1-4 这个流图显示了资金随着时间在不同实体间的流动情况

1.2.2 管理网络和供应链

管道系统、电力系统和铁路网络都是大型的物理网络。它们都是资本密集型的,需要大量前期投入,后面必须通过高效运营收回这些前期的成本。类似的,大型的制造和配送网络在工厂、运输、仓库和其他基础设施上投入巨大。条件变化时,必须相应地做出调整。

图1-5显示了一幅旧图,这是1912~1913年一条铁路上的货运情况。各个路段在图上的粗细情况清晰显示了货运流量,每个连接的两条边显示了各方向的流量。如果两条边相等,说明满载的棚车在每个方向上均产生收入。注意堪萨斯城(Kansas City)(图的顶部)和Ft.Scott之间来往的货运流量不均。图1-5 本图显示了1912~1913年间,圣路易斯(St.Louis)和旧金山(San Francisco)的铁路上的货运流量密度和方向

对规划者来说,分析物理网络是长期存在的需求。随着人口和能源使用情况的变化,电网也必须调整。图1-6显示了2002年美国西海岸电力使用情况图的一个部分。该图只显示了堵塞(即接近容量)的电力传输线路,可能必须进行基础设施升级。图1-6 本图显示了2002年美国西部电网中堵塞的输电线路

根据美国能源部2002年的国家输电网研究重新绘制

在长期规划中进行分析的许多这样的网络也必须被主动监控以确保高效的无故障运行。我们做过的一个这样的项目涉及天然气管道的实时数据。在这个管道案例中,压气站是节点,每个压气站之间的管道是连接。压气站中的传感器收集数据,如压力、流量、压气机相对于其限值的运行情况和警报(例如机械压气机中的故障)。基于警报的系统提供了一种轻松监控系统的方式:没有警报就说明没有问题。

我们提供的解决方案是一个图可视化方案,大概与图1-7类似。连接的大小根据管道容量确定,节点将流经压气站的流量表示为一个3D柱体,节点的颜色根据限值确定(例如,蓝色表示远不到限值,红色表示接近或超出限值),并且如果触发了警报,会在节点上方添加一个引人注意的红旗。

当我们完成了这个可视化方案的早期版本后不久,发生了一件有意思的事。警报系统中没有活动的警报。但是可视化图中显示有一个压气站的运行接近限值,有大量的天然气经过该压气站(图中的红色柱体)。用一个工具提示检查与该压气站相关的所有节点特性,发现并不存在特殊的问题,只是该压气站工作得非常辛苦,接近其限值。使整个图可见意味着分析人员能够以可视化的方式检查所有邻近节点以寻找线索。与该节点直接相连的一个节点的流量极低(该节点右侧的很低的蓝色节点)。图1-7 如这个管道图所示,天然气一般从北部(图的上方)流动到南部(图的左下方)

操作员很容易看到,那个辛苦工作的节点是在补偿其邻近节点。实际上,是在执行额外的工作以维持网络中该部分的整体吞吐量。这是一个很好的例子,显示了图的可视化可以作为其他类型的图分析的有效补充。警报系统自身没能为存在问题的节点创建一条警报消息,但是可视化则提供了足够的信息,使查看者能够看到存在的问题并准确判断问题根源。

注意 本书中(特别是第13章)将详细讨论地理图。

无论是实时的、每天进行的还是每月进行的分析,管理网络都要求理解关于节点和连接的多个变量,以便评估网络的整体健康状况。用图描绘网络和数据能够以可视化方式帮助浏览不同地点的情况,进而评估问题并理解问题产生的影响。

1.2.3 辨别风险模式

除了地理网络,网络也可以是事物(例如计算机或电话)之间的逻辑连接。图1-8显示了ARPANET(Internet的先驱)的一张早期的网络图。关于早期的ARPANET,存在一种荒诞的说法:网络中有许多路径和分散的消息路由是为了阻止核攻击。但是,出现这种分散性的情况更有可能的原因是早期计算中连接和节点并不可靠。

在思考Internet时,我们不把注意力放在具体计算机之间的所有逻辑连接,而是采用另一种方法:检查流量的去向和来源。在网络安全中,知道哪些计算机是潜在黑客和攻击者的目标,或者哪些计算机在网络中执行反常的操作是非常有用的。这是一个图问题,可以通过绘图来显示源计算机(例如,黑客或内部窃贼的计算机)与目标计算机(例如,公司网站或者离岸银行账户)之间的连接。图1-8 这幅1977年的图显示了ARPANET——Internet的前身

由于可能发生许多不同的事件(病毒、恶意软件、僵尸计算机等),所以存在许多不同类型的连接。另外,这些网络事件是随时间发生的。它们会短暂地出现,然后消失。有许多种不同的方法来表示这种图,例如显示所有的连接,按照事件的类型聚合连接,提供一个界面以便只在设定的时间段内显示连接,等等。

注意 第9章介绍的一些示例表示了多个同时连接图。

图1-9显示了我们构建的一个图可视化的草图,这个可视化图使用一个界面只显示特定时间段内的连接。通过隔离时间段,查看者能够识别事件序列、潜在的相关事件以及潜在的协作者——更加有组织的攻击征兆。而且,不同类型的攻击具有不同的视觉签名,当查看特定时间段中的图时,这些视觉签名会十分明显。

注意 第4章将详细讨论网络的可视化布局。

可视化连接和连接的模式对于识别风险可能很有用,例如这里显示的物理网络面对的不同类型的威胁,以及其他类型的风险,如金融订约方风险(financial counterparty risk)。分析风险时,如果不使用图,可能得到不完全的结论。基于图的分析可以帮助揭示面临的风险如何延伸到其他实体。图1-9 这个图可视化显示了内部计算机(内侧)和外部计算机(边缘周围)之间连接的潜在反常情况

1.2.4 优化资产组合

购物篮分析(market basket analysis)的目标是理解哪些商品被一起购买的几率较大。从更一般化的角度来说,这种图用于查看事物之间的强相关性,这些事物可以是被一起购买的商品、同时受到欢迎的人、一起涨落的股价、同时出演电影的演员,等等。

理解这些相关性的一种传统的方法是创建一个矩阵,在行和列中分别列出每个项目。矩阵中的单元格指出了对应项目对之间关系的强度。项目数较少时,这种矩阵能够显示任意一对商品之间所有可能存在的连接,如图1-10所示。图1-10 这个邻接矩阵显示了顾客购买一件商品时,有多大的几率购买另一件商品

注意 第7章将更详细地讨论邻接矩阵。

但是随着商品数量增加,潜在连接的数量会呈指数增长。当查看几百个项目时,矩阵就不那么有效了。因而我们创建了可视化来解决各种问题,例如分析零售店的商品购物篮,人们之间通过电子邮件建立的连接,以及股票的相关性等。

这里有一个有趣的例子。我们曾为一个客户创建了一个购物篮可视化,用于比较金融资产之间的相关性。我们把这个可视化拿过来,将数据改为一些Twitter名人之间的相关性集合,如图1-11所示。任何一对节点之间的距离表示相关性的强度(距离近的节点关系比较强)。因为项目众多,我们关闭了连接,以保持显示结果整洁。不出意料,Justin Bieber、Lady Gaga、Felicia Day和Taylor Swift等名人之间的相关性很强。这个可视化的反面是负相关性。可以想见,Margaret Atwood和Richard Florida与这些流行明星负相关。图1-11 图中显示,Twitter名人账户(Justin Bieber、Felicia Day、Lady Gaga和Taylor Swift)之间的相关性距离较近

注意 第6章将详细讨论购物篮分析。

虽然分析名人间的相关性看起来没有什么意义,但是类似的方法可以用来优化其他类型的资产组合,例如金融投资组合、医疗用药和油井。力导向布局算法(force-directed layout algorithms)(第4章将进行讨论)得到的节点的邻近性能够帮助深入认识由一个资产(例如非常接近的替代品、孤立的单独事物和相对的事物)集合组成的资产选项。

1.2.5 绘制社会等级分层图

目前社交网络吸引了人们大量的关注,其实社交网络图的绘制可追溯到几百年前。

图1-12显示了从路易十四到路易十六的法国王室的家谱,原图来自M.Lavoisne撰写的《A Complete Genealogical,Historical,Chronological,And Geographical Atlas》一书(Philadelphia:M.Carey and Son,1820)。这是一个出色的可视化,显示了直接统治者、其配偶、子女和再次汇合到一起的旁支。节点表示人,其中国王显示为一个王冠,男性显示为实心圆圈,女性显示为透明菱形。连接是一些线条,按时间顺序自顶向下绘制,水平线条的样式区分了正式配偶的孩子(实线)和情妇的孩子(菱形线)。

注意 第5章探讨了如何使用视觉特性,如形状和颜色。第16章讨论了相关的设计考虑。图1-12 家谱图的这一部分显示了从路易十四到路易十六的法国王室

商业环境中的组织结构图(organizational charts)类似于家谱树。虽然对于小规模分层,简单的组织结构图就够用了,但是要探索在联络中心中包含数千个经理或数万名员工的大规模分层,就需要使用其他方法。通过将分层视图和时间序列图结合起来,就能够以时间序列图的形式查看任何层次的工作表现的趋势和变化,同时还可以沿着分层结构查看工作表现。

图1-13显示了一个带有时间序列的组织结构图,这是我们为客户创建的一个可视化的早期版本。在节点和连接中使用一致的着色方案,使查看者能够跟踪积极和消极的贡献是如何积累起来的。

注意 第10章将详细介绍组织结构图。

分层图是一种独特的图类型,可用于深入研究组织以评估对绩效的贡献来自什么地方——可基于员工(如这里所示)或基于其他方式(如归因模型)进行评估。通过这种分层结构的分解,管理层可确定问题是局部的、团队内的还是多方面的。有了这种认识,他们就可以更有效地应对不同的场景。图1-13 这个组织结构图的左侧使用不同的颜色呈现各层次的工作表现情况,位于右侧的最底层被展开,以显示该层次员工的工作表现随时间发生的变化

1.2.6 发现社区

除了家谱图和朋友网络的可视化,社交网络的可视化分析还有其他许多应用。在医疗保健中,社交网络可用于分析关系和疾病的潜在传播。研究人员绘制出了中西部某高中的所有“恋爱关系和性关系”(研究论文:Chains of affection:The structure of adolescent romantic and sexual networks”by Bearman,Moody,and Stovel)。在832名参与研究的学生中,573名处在性关系或恋爱关系中。其中,很多人(126)在之前的18个月中只有一个伴侣,但是有多名伴侣的人的数量也不少。

图1-14(使用Gephi创建)显示了由性关系关联起来的288名学生。该图很重要,因为它显示了大约50%的有性关系的学生可能与性传播疾病(sexually transmitted disease,STD)的传播有关。图1-14 这是关于中西部某高中恋爱关系和性关系情况的一个可视化。从图中可见,被调查的学生中,有很大一部分通过很长的关系链彼此连接起来

疾病的传播类似于病毒式营销的传播,或者观点和情绪的传播。一些公司可能拥有基于销售推荐或电子邮件的数据,或者从社交媒体(如Twitter)上提取的数据。

分析这些社交网络常常揭示一些簇,它们具有比较高的相互连接密度,在图的术语中称为社区(communities)。识别这些人群以及他们的关联方式可以帮助公司识别不同的客户群,并更好地理解影响力在不同顾客群体内部和彼此之间的作用情况。

在大公司中,社交网络问题很容易就涉及数百万个节点。以可视化方式表示这些图,并探索它们以提取出有意义的信息,是极其困难的。常用的桌面工具(如Gephi)并不是为这种大小的图设计的,它们受单独机器上内存处理能力的限制。

我们参与到一项长期进行的高级研究项目中,探索将聚类计算用于发现社区和图绘制,以实现高度可扩展、可缩放的图,图中可能包含数百万个节点,数千万个连接。图1-15显示了一个涉及转诊病人(referral)的这种图。将治疗相同患者的开业医生簇用圆圈标出,表示他们形成了一个社区。

注意 关于本例中的更多信息,可访问DocGraph项目的网站:http://docgraph.org。

注意 第11章将概述簇和社区的分析。第14章将再次讨论该主题。图1-15 使用分布式社区发现技术和多比例绘图技术能够在非常大的图上揭示社区结构。这里,DocGraph数据集被完整可视化,包含数百万个开业医生节点和数千万个转诊病人连接

分析社交网络能够帮助深入认识人或组织构成的簇,以及这些簇内和簇之间有影响力的连接。利用这些认识,可以理解网络中的传播(例如优惠券或病毒的传播),还可以理解社区(例如基于关联的客户群)。1.3 图的现状

在大数据时代,全世界数据最丰富的企业大多都在寻求新的方式来理解海量、复杂、不规则、有时候无法检验的相互关联的数据流。作为实现此目的的工具,图的分析和可视化正在得到越来越多的关注。图特别适合描述复杂的复合关系,这些关系很难用文字描述。图也非常适合表示网络,而网络正越来越成为许多企业数据集不可或缺的一部分。

用于图的可视化和分析的Gephi和Cytoscape等桌面工具(通常由科学界创建)在显示数据的质量和规模方面有了突飞猛进的发展。这些工具在本质上是开放和可扩展的,所以只要进行足够的技术培训,具有一定的决心,就可以轻松地把这些工具应用到企业上。随着基于云系统的逐渐发展,图会越来越容易广泛应用在商业分析中。

本书的目的是激励读者以创造性的思维方式考虑在自己的商业问题中应用图,以及分享作者的领域知识,希望读者能够自己加以尝试。本书以案例分析的形式分步骤讲解了工具的使用方法,还给出了代码示例,通过这些案例演示如何使用图的分析和可视化来深入认识数据。1.4 小结

图分析是一个强大的工具,可用于发现复杂数据中的关系,呈现宝贵的商业机会。图的可视化极其重要,并且如果使用得当,也极其直观。信息可视化利用了人的感知能力,使得分析人员更快速地看到更多的信息。

随着可用数据量持续增长,可视化在企业中的重要性日益得到广泛认可。在这段期间,图发展成为了一项重要的工具,可应用于网络监控、购物篮分析、影响分析以及过程和组织结构的优化。随着大数据的兴起,适合处理复杂关系的技术变得越来越重要。需求推动着技术的发展,如今,图工具正在成为任何商业分析人员均可利用的宝贵资源。

第2章将详细介绍各种类型的图,以及如何使用它们来解决各种企业问题。该章的第一个例子表明,图能够有效地在高层次上以直观方式总结关系,同时还能够提供更多的细节供人们进一步分析。其他示例显示了不同形式的图,及其在解答特定类型问题时的相对优势和适用性。第2章 图的类型及其适用的问题

图是表达复杂数据时最灵活、最强大的方式之一,但是人们对其理解的程度却是最低的。在现实中,人们在会议室每天都在使用图示法,如将某种关系加注标签并用图形来向他人解释自己的想法。图能表达相对复杂的概念,这是其他可视化做不到的。

如果图的选择恰当,使用的技术正确,便能够以最简单、最直观的方式表达特定类型的信息。如果选择不当(或者运用不当),图可能抽象且难以理解到令人烦躁。本章的主要目标之一是鼓励图作者摆脱简单着色的节点和连接的束缚,以更具创造性的方式思考图。

本章介绍图解决方案,并按照问题类型安排内容。本书后面第III部分的章节将使用示例问题和数据,深入讲解每一类问题。该部分内容还介绍了工具用法的可重复步骤,以及在一些地方如何使用代码来完成相同的工作。

初看上去,自己的企业问题可能包含许多维度,并不适合放到这些看上去很小、很整洁的框中。例如,问题可能涉及空间网络和流,并且肯定总是会涉及关系。这些方面并不是彼此互斥的,当选择一种方法时,试着思考要解决的问题中最根本的方面是什么。2.1 关系

图最有价值、最根本的用法之一是表达关系,这些关系组成了已定义的世界或系统。某种意义上,我们在白板上画示意图就是在创建一种图。图使我们能够以一种易于理解的方式解释世界。图表现一个视觉模型,这个视觉模型被转换为一个脑中的模型,通过这种方式来真正理解系统和一些因素,从而帮助做出明智的商业决策。

类似于可以随意地徒手绘制示意图,我们可以使用计算机按照一定形式生成图表式的图。采用的形式随方法而异,但是本质上,在任何符合要求的图结构中,图的主题和对象都由节点表示,关系则由连接表达。当目标是理解世界的元素和它们的关系,以及如何产生关系时,图是非常有用的技术。

图中关系可以用一条线来简单表示,有时候这条线可以带有特定的权重,以说明强度或量。但是现实应用中,关系常常具有更加细微、更加广泛的特征,只用简单的线条无法表示出来。如果要显示的世界比较小,具有视觉表现力的连接和它们的节点能够帮助更加完整地解释关系的本质。

在几乎所有企业中,有一类关系对于数据科学具有根本性的意义,这就是相关性(correlation)。相关性指出了世界的各个部分在什么时候、以何种方式相关,从而可以帮助决策,以实现业务目标。理解什么条件对于特定结果最有利,就为行动策略提供了基础,通过操纵可控的因素,影响出现有利结果的几率。取决于具体行业,这种行动策略可能表现为定向广告、根据风险评估调整保险费等。

图2-1显示了一个经典的数据科学研究(鸢尾花数据集,由Sir Isaac Fisher在1936年发表)中的特性关系,这里用现代的方法进行了解释。在这种研究中,使鸢尾花的4个特性两两成对,然后使用散点图矩阵(scatterplot matrix)方法为3种鸢尾花在每个特性对中绘制50个样本。每个散点图中绘制的特性由沿着行和列一直到头后看到的特性标签表示。这里的数据代表花的分类和特性,但是也可以用来代表顾客分类及其购物或风险特征。图2-1 Sir Isaac Fisher在1936年提出了经典的鸢尾花数据集。本图是该数据集基于Web的现代散点图矩阵,显示了3种鸢尾花特性之间的关系

这里显示了全部的原始数据,但是分析这幅图的信息,只有两个方面是重要的:每个品种的定义特性,以及特性之间的相关性(包括品种间和品种内)。看上去,这里的品种可主要通过花瓣的宽度和长度区分,二者看上去具有很强的相关性,另外,萼片宽度和萼片长度之间看来也存在相关性。

花瓣长度和萼片长度之间的相关性只是说明二者的大小倾向于一同增长,这看上去符合逻辑,没有特别值得注意的地方。但是如果这是产品购买间的相关性,那么知道顾客喜欢一类产品,喜欢另一种产品的可能性也会增加,这表示对这些顾客进行产品营销是有价值的。

然而,如果更认真地检查在鸢尾花数据集中观察到的相关性,会发现品种内存在很大的差异,而这在散点图矩阵中并不明显。图2-2显示了完整数据集和单独品种的相关性矩阵图。在全部品种间观察到的相关性在各品种内并不成立。花瓣长度和宽度能够很好地表明品种,因而在全局来看具有相关性。但是一旦知道了品种,它们不能总是很好地指示其他类型的可能性。图2-2 在电子表格中构建的一系列相关性矩阵,显示了特征之间的相关性在研究对象组中存在显著变化。这里的研究对象组是鸢尾花品种,但也可以是顾客资料

商业中会出现相同的现象。例如,统计数据可能显示漫画书和体育传记的销售之间存在相关性。但是,这种相关性可能只是表明购买者是年轻的男性。如果已经知道购买者是18~25岁之间的男性,那么相关性可能就不存在了,将漫画书和体育传记放在一起宣传就会浪费时间。

计算机非常适合建模这种类型的关系,以及在给定一组已知事实的情况下,计算其他现实和行为的可能性。给定一个案例a,b,c,计算机能够告诉我们d,e,f的可能性。但是,如果不对底层关系的本质及它们相互关联的方式进行可视化,分析人员很难对整体情况获得足够的理解,并进而为商业决定提供策略。

图2-1和图2-2是很有用的图。它们有一个共同的特征:都呈现了信息片的集合。但是,很难把它们作为一个整体对待并理解整体情况。相反,分析人员会按次序读图,可能会根据最显眼的单元格安排阅读顺序,然后单独观察并得出结论,这些结论可被汇总起来,以其他某种形式展现整体情况。可采用的形式包括语音评注和解释,以及手绘图,也可以同时使用二者。

另一方面,图在本质上具有示意图的性质,不需要手动构建就能够表达整体情况。图2-3显示了使用图来总结特性间的相同关系的一种方法。在品种内或所有品种间具有足够强的相关性的特性被连接起来,连接上的点代表相关性的范围。图2-3 图为特性的关联方式提供了一个整体模型。例如本图中,只有在Setosa的情况中,萼片宽度与萼片长度连接在一起,Setosa比较小,但是其萼片相对较宽。花瓣长度和宽度是最好的品种指示器,这些节点中明显的分层反映了这一点

只表示每个研究对象一次,并表现其所有关系,使该研究对象及其关系处在其他所有研究对象和它们的关系的上下文中,这使得分析人员能够在全局的角度看待每个研究对象如何关联起来。这种方法也方便了在相同上下文中总结每个研究对象的重要信息。这里用交替的均质和非均质圆环来绘制每个品种的值分布,总结了每个品种的定义特征。花瓣长度和花瓣宽度节点上清晰的辐射状条纹说明它们是很适合对花进行分类的特性。

因为图能够有效而高效地总结关系,所以可以更加方便地扩展它们,以显示更多信息。例如,在本例中,可以轻松地把特性数增加3倍,图2-3中的整体状况仍会十分明显,并且更加有趣,这要比使用矩阵图的效果好很多。在表达相互关联的关系方面,图的能力无可比拟。

注意 第9章提供了更多使用图来可视化和分析关系的示例。2.2 分层

对于从分层数据中获取见解,图也是一个很好的选择。分层图常被称为树。树有一个根父节点,其连接分支到第二级节点,第二级节点还可能再次分支,以此类推,直至到达没有子节点的叶节点。根节点的每个后代节点都只有一个父节点。

树在商业上有许多应用。图2-4将鸢尾花分类信息改为了一个决策树(decision tree)。决策树显示了导向特定结论的决序列。树中的每个节点都是一个决策,每个连接代表基于特定条件应当遵循的路径。图2-4 决策树表达了一系列分支路径,导致得出不同的结论。这里用不同的形式呈现前面图中的鸢尾花数据集,以显示基于定义特征进行分类的基本过程

鸢尾花决策树以每个品种最与众不同的特征开始,也就是花瓣长度。Setosa的花瓣较短,这是其特征,可用来正确识别全部50个Setosa样本。如果花瓣更长一些,就可以测量花瓣宽度,并估计样本是Virginica还是Versicolor。本例中的统计数据说明了使用这种方法时,能够正确分类多少个样本。

人的决策过程可以把决策树用作一种简单的经验方法。它也可以作为一种有用的方法,设置信息收集的优先次序。在鸢尾花分类示例中,只需测量花瓣长度,就可以对三分之一的样本做出分类决策。在向个人客户宣传产品时,可能存在类似的优先条件。例如,知道顾客性别可能最有价值,其次是年龄。可以利用优先次序安排在线客户档案的字段顺序,或者调查问题的顺序,以方便获得最重要的数据。

树也非常适合用来理解组织。家谱树是用于理解组织结构层次的可视化技术的一个例子。在家谱树中,祖先被放在根节点的位置,后代节点从父节点分支得出。家谱树在工作中对应的树被叫做组织结构图。组织结构图显示了在企业中谁向谁报告的结构,从CEO沿着职权链向下延伸。组织结构图提供了公司结构的信息,以及一个用来理解公司业绩的框架。

图2-5显示了使用OrgVue产生的一个示例组织结构图。OrgVue是用于组织结构设计、人力资源分析和战略人力资源规划的一个软件平台。图中气泡的大小用于说明员工数或预算的大小。颜色可被映射到其他与目标相关的特征,例如员工中的平权法案雇佣类别(affirmative action employment classification)。图2-5 组织结构图使用树来反映出组织的结构。与公司业绩有关的特征(如部门大小和平权法案雇佣类别)可被映射到每个节点的大小和颜色上

使用已获授权。所有权利归OrgVue所有

组织结构图为描绘组织的特征提供了一个理想的、直观的框架。但是,当这些特征是累加性的,需要更加精确地读取贡献比例时,环状层次图(sunburst chart)可能是更加合适的选择。

在图2-5中,经理管理的员工数是直接向经理报告的每个人所管理的员工数的和。每个更高层的气泡代表更低层气泡的总大小。这可以让人感受到部门的大小,在大部分情况中,这种细节就足够了。但是当目标是分析部门的业绩时,则需要更加精确。

图2-6中的环状层次图显示了一个类似的组织,但是带有损益信息,以及额外的一级细节信息。树的根在中心位置,然后向外以辐射方式表示分支。兄弟节点由父节点的再分部分来表示,指出了各部分所占据的精确比例。在这种图中,节点直接与其父节点靠上,而不是通过线条与父节点连接起来。

组织结构图更清晰地展现树的定性方面,而环状层次图则更清晰地展现了树的定量方面。二者对于表示分层都是理想的选择。

注意 第10章将深入探讨企业分层的可视化和分析。图2-6 环状层次图提供了另外一种分层表示,适合查看组织子部门在整个组织中占据的比例。收益和损失情况分布用不同程度的绿色和红色表示,揭示了公司整体业绩的根源

使用已获授权。所有权利归OrgVue所有2.3 社区

图对于揭示社区不可或缺,而社区是理解企业数据中的宏观关系和动态的基础。图可视化中的社区与地图上的地理空间社区类似,因为它们由距离很近的相关成员的簇定性地反映出来,可与其他图成员的领域区分开。

图2-7显示了按影响力连接起来的哲学家社区,所用到的数据是DBpedia从Wikipedia提取出来的。这里使用PageRank算法,基于影响力决定节点的大小,并使用布局来聚类具有共同影响力的节点。即便不太了解哲学,也可以从中看出最有影响力的哲学家,如Kant、Marx和Wolff,还有一些是古人,如Plato和Aristotle。影响力社区还有明显的地区倾向:德国人在中间偏右的地方比较流行,英国人名则出现在左下角的几个簇中。

钻研影响力的动态是商业说服艺术的核心所在。通俗作家Malcom Gladwell在《The Tipping Point》(New York:Little,Brown,and Company,2000)提出了关于影响力的一种社会理论。在该书中,他强调了一些个体(他称之为内行、联系员和推销员)的重要性。图

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载