大数据技术前沿(txt+pdf+epub+mobi电子书下载)

作者:阮彤

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据技术前沿

大数据技术前沿试读:

前言

大数据四个V的定义已经深入人心,然而,有关大数据的探索,无论从大数据科学角度还是应用角度,都处于早期阶段。对于普通的大数据实践者而言,利用较为成熟的大数据基础架构Hadoop、计算引擎Spark,以及诸如Weka3这样的机器学习软件,能够在一定程度上解决数据存储、计算与挖掘问题。

然而,对于大量的大数据探索者与实践者而言,还会碰到形形色色的问题。例如,如何合理地可视化大数据,如何实现大数据的隐私保护,如何通过信息检索技术快速在大数据中找到合适的信息等。这些问题也是学术界正在研究的问题。然而,由于产业与学术的分离、学术研究领域细分等现状,大多数从业人员无从了解此类问题的学术界研究现状,也无法判断研究成果是否已经到了可用程度。

在编者主持中关村大数据联盟的线上学术论坛活动中,各行各业的技术主管都希望能了解学术界有关大数据相关的研究方向与成果。然而,由于大数据涉及存储、安全隐私、自然语言处理、可视化等学术研究的方方面面,非编者一人能力可及。因此,在学术论坛中,我们邀请了来自不同院校、不同研究方向的大数据科研工作者,讲解他们与大数据相关的科研工作进展。

本书在论坛报告中选择了部分精华,为了书本的逻辑性与完整性考虑,又邀请了部分知名青年学者增加了部分章节,并对每章内容进行了提炼和扩充。本书综合了多名学者的智慧,使得读者可以高屋建瓴地了解大数据在不同学术研究方向的现状和最新成果。为方便读者阅读,编者与每章作者统一了写作风格,试图以科普的方式系统阐述大数据前沿技术与研究进展,对技术的来源、结论、对比、用途及开源软件进行深入浅出的描述,并不过多地涉及数学符号及基础原理。

全书以大数据可视化(第1章)为切入点,通过自然语言处理(第2章)、社交网络挖掘(第3章)、语义网络与知识图谱(第4章)三方面非结构化数据处理技术,阐述大数据经典应用;利用基于图数据库(第5章)、内存计算(第6章)、分布式存储系统的大数据存储与管理(第7章)作为大数据平台支撑;围绕大数据环境下的隐私保护(第8章)问题,探讨了大数据安全技术,进而探讨基于众包技术(第9章)扩充数据来源与提高数据质量。通过系统、多方位地总结大数据的技术前沿,使读者可以快速了解大数据在学术方面的最新成果。阮彤2015年11月23日第1章大数据可视化概论陈为(浙江大学,chenwei@cad.zju.edu.cn)

大数据来自人类活动,其最终服务对象也是人类。大数据存在于信息空间,处理大数据的基本工具是带有机器智能的计算机。因此,在人类使用以计算机为代表的硬件设备获取、存储、传输、理解、分析和应用大数据时,需要一种信息交流的通道,以便快速、有效、准确地理解和驾驭这个过程。这种信息交流通道的最主要形式,就是可视化(Spence,2007)。

可视化是一门利用人眼的感知能力和人脑智能对数据进行交互的可视表达以增强认知的学科(Munzner,2014)。它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等,以增强数据识别效率,高效传递有用信息(Hansen,2004)。它的起源、发展和演变与人类文明的进展息息相关。在计算机发明之前,科学家观测物理现象时采用绘画的方式记录物理现象(Tufte,1992);测绘学家采用地图标记空间方位和属性;统计学家采用图表理解统计采样数据(Wilkinson,2005)。进入计算机时代,科学和工程中产生的大量科学数据,催生了科学可视化;而网络、信息传播和社交网络的兴起,将信息可视化推向前沿。大数据时代的来临,加强了可视化的重要性。

数据可视化和可视分析作为一个新兴的研究领域,受到越来越广泛的关注。早在麦肯锡2011年发布的一个报告中(McKinsey,2011),可视化就被列为数据科学的关键技术之一。美国科学院2014年发布的一份关于大数据分析前沿的调研报告(Korte,2014)中,认为可视化是一种混合式人机融合的数据分析技术,“不仅帮助人类理解分析的输出,还提供用户修改数据分析模型的手段”。

从学科定义的角度看,可视化是指综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据变换为可识别的图形、图像、视频或动画,并允许用户对数据进行交互分析的理论、方法和技术(Ward,2010)。可视化的高级版本,即可视分析,则是将自动化的分析技术和交互式可视化技术结合,在大规模复杂数据集上以有效理解、推理和决策为目标的科学、技术和学科(陈为,2013B)。本章从可视化基础、可视化及可视分析在大数据背景下的关键挑战和解决方案、大数据可视化的应用等多个角度,描绘大数据可视化的基本概念与研发前景。1.1 可视化基础1.1.1 可视化释义

可视化的作用体现在多个方面,如揭示想法和关系、形成论点或意见、观察事物演化的趋势、总结或积聚数据、存档和汇整、寻求真相和真理、传播知识和探索性数据分析等(Card,1999)。从宏观的角度看,可视化的三个功能如下(陈为,2013A)。(1)信息记录。传统的信息记录采用文字或口传等方式,而可视化符号可形象而直观地记载复杂的概念和事物,且能扩充人脑内存,激发智力和洞察力,帮助验证科学假设。如果说计算机图形学是为自然景象拍照,数据可视化则是数据的摄像师。例如,DNA分子结构的发现,直接受益于对DNA结构的X射线衍射照片的分析。图1.1展示了海洋洋流向量场的纹理可视化结果。图1.1 美国航空航天局利用向量场可视化技术绘制了2005年6月至2007年年底的地球表层洋流图,模仿了荷兰后印象派画家梵高1889年时创作的名画《星空》图片来源:http://www.nasa.org.(2)信息推理和分析。数据分析的任务包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。可视化提供直观的信息感知机制,帮助人脑形象地理解和分析所面临的任务,降低数据理解的复杂度,突破常规统计分析方法的局限性。例如,英国医生John Snow将霍乱病例发生的地址和取水的关系映射到地图上(见图1.2)(Tufte,1997),发现了霍乱的根源。图1.2 将地图和死亡人数与地点结合,帮助发现霍乱起因(3)信息传播与协同。视觉感知是人类最主要的信息通道,它输入了人从外界获取的70%以上的信息。俗语称“百闻不如一见”“一图胜千言”。将复杂信息传播与发布的最有效途径是将数据进行可视化。例如,法国人Charles Joseph Minard制作的1812—1813年拿破仑进军莫斯科大败而归的历史事件的可视化作品(见图1.3)(Tufte,2006)直观地呈现了军队的位置和方向,军队汇聚、分散和重聚的地点与时间,军队减员的过程、撤退时低温造成的减员等信息。图1.3 1812—1813年拿破仑进军莫斯科大败而归的历史事件的可视化图片来源:http://upload.wikimedia.org/wikipedia/commons/2/29/Minard.png.

数据可视化将不可见现象变成可见的图形符号,并从中发现规律和获取知识。可视化的终极目标是对事物实质的洞悉,而非可视化结果图像本身,这包含多重含义:发现、决策、解释、分析、探索和学习(Ward,2010)。针对复杂和大尺度的数据,已有的统计分析或数据挖掘方法往往是对数据的简化和抽象,隐藏了数据集真实的结构。可视化可还原乃至增强数据中的全局结构和具体细节。衡量可视化的标准有三个方面。(1)真,即真实性,指是否正确地反映了数据的本质,以及对所反映的事物和规律有无正确的感受和认识。(2)善,即倾向性,也就是可视化所表达的意象对于社会和生活具有什么意义和影响。(3)美,即可视化的艺术完美性,指其形式与内容是否和谐统一,是否有可欣赏性。

可视化主要包含科学可视化、信息可视化与可视分析学三个方向。(1)科学可视化。科学可视化的应用领域主要是物理、化学、气象气候、航空航天、医学、生物学等,旨在探索三维空间物理和化学现象的几何、结构、模式、特点、关系、异常和演化。经过数十年的发展,科学可视化的基础理论与方法已经相对成形。(2)信息可视化。信息可视化的主要处理对象是抽象的、非结构化的数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)。信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关,关键挑战是在有限的展现空间中以直观的方式传达抽象信息。(3)可视分析学。可视分析学被定义为一门由可视交互界面为基础的分析推理科学(Thomas,2005)。它综合图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知和认知能力以可视的方式融入数据处理过程,形成人脑智能和机器智能优势互补和相互提升,建立螺旋式信息交流与知识提炼途径,完成有效的分析推理和决策。1.1.2 可视化流程

数据可视化流程中的核心要素包括如下三个方面。(1)数据表示与变换。

将数据可视化的基础是数据表示和变换。输入数据必须从原始状态变换到一种便于计算机处理的结构化的数据表示形式。通常这些结构存在于数据本身,需要研究有效的数据提炼或简化方法以最大限度地保持信息、知识的内涵和相应的上下文。(2)数据的可视化呈现。

数据可视化向用户传播了信息,而同一个数据集可对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。判断某个视觉编码是否合适的因素包括感知与认知系统的特性、数据本身的属性和目标任务。(3)用户交互。

对数据进行可视化和分析的目的是解决目标任务。通用的目标任务可分成三类:生成假设、验证假设和视觉呈现。交互是通过可视的手段辅助分析决策的工具。

图1.4展示了以数据模态为依据的可视化流程:数据分析、过滤、可视映射和绘制。图1.4 由Haber和McNabb提出的可视化流水线(Haber,1990)

从数据变换的角度看,可视化流程也可理解为四个数据阶段和三种数据转换操作,如图1.5所示。四个不同的数据阶段为:原始数据、分析模型、可视模型和视图。三种数据转换操作为:数据转换(对输入数据的清洗、处理、统计、特征计算、挖掘和分析)、可视化转换(为数据集选择合适的可视化表达形式)和视觉映射转换(将数据集的属性映射为可视化表达形式的各个视觉通道)。在每个数据阶段,可采用各自不同的计算算子。图1.5 信息可视化的数据状态参考模型(Chi,2000)1.1.3 可视化编码

可视化处理对象的基本数据类型有如下三类。(1)类别型数据:用于区分一组对象,不是定量数据,如文本。(2)有序型数据:表示对象间顺序关系,不表达序数间的数值差别。(3)数值型数据:表示对象的具体数值,又分为区间型和比值型两个子类。

通俗地说,数据可视化是一门用形和色表达数据的艺术。形指的是可视符号、位置变量、时间变量和形状、尺寸和方向等视觉通道;色指的是颜色、色调、密度、纹理等视觉通道。基本的视觉通道和可视符号如表1.1所示。表1.1 可视化常用视觉通道(MarckinIay,1986)可视符号点、线、面位置变量一维、二维和三维时间变量动画视觉通道形状、尺寸、方向、颜色、色调、密度、纹理

可视化的核心是设计数据到视觉通道的映射。单个可视化视图主要由如下三大部分组成。(1)指定坐标轴系统。

建立可视符号的坐标轴系统,包括坐标轴布局、坐标轴维度和坐标轴属性等。

① 坐标轴布局。在单个可视化视图中,坐标轴的形式布局多样复杂,包括视图中坐标轴的数量、多个坐标轴的组合方式(嵌套,如多维对比图(见图1.6上)和像素图(Pixel chart);并列,如邮票图表法(Small Multiplies)(见图1.6下);组合,如混合节点链接法与矩阵法(Hybrid Node-link and Matrix)、坐标轴的位置和旋转角度等。图1.6 坐标轴布局。上:多个坐标轴(区域类别中嵌套季度)嵌套;下:邮票图表法将多个坐标轴并列排列图片来源:http://andrewgelman.com/2009/07/hard_sell_for_b/.

② 坐标轴维度。单个坐标轴系统的维度可分为低维和高维两大类。其中,低维坐标轴形式有一维和二维直角笛卡儿坐标系、地图、网格,以及对应的极坐标系统(常用于表达周期性数据和具有层次关系的数据)。高维坐标轴有三维直角笛卡儿坐标系(空间数据场)、多轴系统(表达高维数据,主要有平行坐标轴和自由轴,以及对应的极坐标形式)等。

③ 坐标轴属性。轴的属性包括隐式或显式显示、轴的数量、轴的布局方式、多轴之间的间距、轴的箭头、轴的单位刻度、轴的起点和终点、轴的标签说明、轴的几何、宽度和颜色、坐标轴区域的填充模式和颜色等。(2)指定视觉映射。

根据数据集的不同维度和属性的类型,指定每个或每组属性对应的可视符号、位置变量、时间变量和视觉通道。需考虑数据的语义和可视化用户的特性,并充分利用已有的先验知识,降低信息感知和认知所需要的时间。

基本数据类型的常规视觉编码通道如图1.7所示。人们常用位置等信息映射空间属性(如纬度和经度)。如果数据实例或数据属性之间存在时间上的关联,可使用动画通道。实际应用中的数据集是基础数据类型的组合,可采用不同视觉编码通道的组合。可视化的过程实质是将数据集表达为视觉通道的集合的过程。图1.7 基本数据类型适用的可视化编码方式(优先级自上而下)(3)指定数据实例或属性的关系。

不同数据实例或属性之间存在复杂的关系,如组别、连接、突出、包含、混合、嵌套、关联、趋势、排列、对应等。这些关系是利用可视化理解和分析数据的基石,可以是数据集的某个属性(被显式地指明),如网络关系中的边,也可以是可视化设计时人为增加的(如折线图中表达不同数据点之间的趋势的点之间的折线段、两个视图之间的连线表达数据点之间的对应关系)。这些关系的可视表达分为显式或隐式两种。例如,采用显式的路径表达数据间的连接关系(如图1.8所示的复合折线图);节点—链接法采用显式的边表达树和图结构中节点之间的连接关系,矩阵法和树图则采用隐式的空间嵌套表达网络和层次关系。图1.8 四类对象的折线图(三维效果),采用显式的链接(白色连线)对比每类同一参数上的值

用户设计或实现可视化方法的方式有如下三种方式。(1)普通型用户的一键定制。普通用户根据数据集的特性和类型,输入给定格式的数据,选择对应的可视化方法。代表性工具有Tableau软件、SpotFire软件等。(2)设计型用户的交互定制。设计型用户对数据可视化的基本流程比较熟悉,因此,可交互分步定制坐标轴系统、指定视觉映射、指定关系。代表性工作有可视化设计环境Lyra(Lyra,2014)和iVisDesigner(Ren,2014),以及面向数据新闻设计的Ellipsis(Ellipsis,2014)等。(3)编程型用户的灵活设计。用户根据需求和数据特性,基于底层可视化设计语言,编程实现可视化流程的每个步骤和交互方式。代表性工具有D3(http://d3js.org)和ECharts(http://echarts.baidu.com)等。1.1.4 可视化方法1.数据立方体

传统的统计报表的处理对象是低维(通常指数十维以下)的结构化数据矩阵,即结构化数据库的基本结构:数据立方体(Data cube)。代表性方法包括如下几种。

1)点图(Dot plot)

点图采用一维或二维直角笛卡儿坐标系或极坐标下的散点展现数据轨迹,如图1.9所示。在二维情形下,一个轴编码自变量(通常是类别型或有序型数据);另一个轴编码因变量(数值型数据)。在一维点图基础上,增加网络的关系,则演化成笛卡儿坐标系下的弧长链接图(Arc diagram)和极坐标下的弦图(Chord)。图1.9 三个单变量点图(日期是自变量,分数是因变量)可视化了Twitter舆情系统根据用词的褒贬程度对三个公在线影视服务商Netflix、Hulu和Redbox的评价

2)折线图(Line chart)

折线图是点图的增强版本。折线图可采用直角笛卡儿坐标系或极坐标系(径向折线图,Radial line chart),其本质是在数据点之间按序增加表达数据点之间趋势和关联的折线段。也可增加线与轴之间的区域填充,展现累积数量,如图1.10所示。一个轴编码自变量(类别型或有序型);另一个轴编码因变量(数值型)。图1.10 折线图可视化一年不同时段在Facebook上包含“We broke up because”的发帖数量

3)柱状图(Bar chart)

柱状图(见图1.11上左)基于二维笛卡儿坐标系或极坐标系比较不同类型的属性(采用柱形和颜色编码)。一个轴编码自变量(类别型或有序型数据);另一个轴编码因变量(数值型)。

柱状图的极坐标版本是饼图(Pie chart)(见图1.11上右),它用环状方式呈现各分量在整体中的比例。其中,圆周方位角分割区域的颜色编码类别型或有序型变量,圆周方位角的大小编码了数值型数据(比例)。从圆心出发计量的径长可编码第三个变量(数值型数据)。饼图是旭日图(Sub burst)等层次数据可视化的基础形式。

柱状图的一个变种是表达时变进度的甘特图(Gantt chart)。若在柱状图的每根直柱上嵌套对应另一个维度的直柱,则称为堆叠图(Stacked graph)(见图1.11中)。若柱状图的直柱内嵌套像素图,则称为像素柱状图(Pixel bar chart)。若自变量是连续的数值型数据(如时间),堆叠图演化为区域堆叠形式,则称为堆叠流图(Stream graph)(见图1.11下)。可视化文本流的主题河流(ThemeRiver)的基本结构是堆叠流图。图1.11 上左:柱状图(啤酒瓶隐喻)可视化各国人均啤酒消费量;上右:饼图可视化梵高的每幅作品的用色比例;中:堆叠柱状图可视化了美国政府的税收来源和支出情况;下:堆叠流图可视化不同人群在24小时内的活动情况图片来源:http://www.arthurbuxton.com/;http://www.nytimes.com//

interactive/2009/07/31/business/ 20080801-metrics-graphic.html?hp.

4)散点图(Scatter plot)

散点图将数据以点的形式布局于二维直角笛卡儿坐标系或极坐标系,每个点所对应的横纵坐标编码两个数值型数据,也可采用尺寸、形状和颜色等视觉通道可编码数据点的其他信息(见图1.12上)。散点图是很多可视化方法的基础,包括气泡图、词云、节点链接法、颜色矩阵、树图、像素图等。例如,气泡图采用圆形的可视符号表达散点,圆的大小编码第三个属性,气泡的演化可编码时间维度(见图1.12下)。图1.12 上:纽约时报对本拉登被击毙事件在线民意调查结果可视化,Y轴编码重要程度,X轴编码事件兴奋程度;下:GapMinder气泡图(http://gapminder.org)展现各国的经济数据

散点图矩阵是散点图的高维扩展,用来展现高维(大于二维)数据属性分布。对不同属性进行两两组合,生成一组散点图,可紧凑地表达属性对之间的关系。

5)平行坐标(Parallel coordinates)

平行坐标采用多个平行的线轴表达高维(大于或等于2个维度)数据的多个维度,是同时展现高维数据的每个维度的标准方法。其中,将单个数据点的每个维度的值在其对应轴的位置依次用折线段连接,即构成该数据点的可视表达。若维度是类别型数据,平行坐标方法则变为平行集(Parallel set)方法。

6)星形图(Star plot)

星形图是平行坐标的极坐标版本,也称雷达图(Radar Chart)。它将圆周均匀地等分(圆周的方位角不编码数据的属性,仅用于区分多个坐标轴),从圆心向外放射的径长作为多轴坐标系统中的坐标轴,编码多维数据的不同维度。星形图与星形折线图的视觉效果相似,轴的含义不同:星形图的每个轴编码数据的一个维度;星形折线图的多轴编码类别型或有序型的自变量的取值组合。

表1.2所示为表达数据立方体的可视化图表。表1.2 表达数据立方体的可视化图表2.数值域和地图

数值域通常是指在某个空间(一维、二维、三维、带时间的四维或更高维)上密集分布的数据场,由分布于全场域的网格和网格节点上的属性构成。典型例子包括科学计算的二维或三维数值域、地图、图像、视频(时变图像)等。其中,地图是一类特殊的表达地理信息空间的不规则数值域。数值域和地图的代表性可视化方法有如下几种。

1)矩阵(Matrix)

矩阵采用隐式的二维直角笛卡儿坐标系或极坐标系,表现一个数值域在规则或不规则采样的离散网格上的分布。常规的矩阵可视化的方法是用矩阵单元的颜色编码数值域的单点数值,即颜色矩阵(见图1.13)。矩阵可以看成散点图的特殊版本(规则划分空间)。图1.13 颜色矩阵可视化客户对不同打印机型号的反馈信息注:横坐标编码打印机的不同评价,其中每个单元内部的蓝色块的颜色和尺寸编码正面评价,红色块的颜色和尺寸编码负面评价。

2)热力图(Heatmap)

热力图是基于颜色编码的矩阵可视化的增强版本。热力图采用颜色表达位置相关的二维数值域(特别是地图)的分布(见图1.14)。每个位置的颜色由特殊的贡献值累积算法计算获得,如核密度函数估计算法。图1.14 1万个用户的网购行为热力图注:每个方块代表一个商品类目。方块以像素的形式编码了所有用户,左右代表男女,方块内从上到下年龄段逐渐增加。像素的颜色从蓝色到红色表示购买频率的增加。可以发现腾讯QQ专区和网游装备、网络游戏点卡模式较相似,基本上都是年轻男性购买较多,而这种模式正好和运动、个人护理等的图像模式互补。

3)直方图(Histogram)

直方图是一种特殊的柱状图,呈现了数据集的单个或多个数据属性的频率统计。以单变量的一维直方图为例:一个轴编码该单变量的离散的取值范围区间(相当于类别型数据),另一个轴则编码数据集在对应取值区间的频率。计算直方图需要对数据集进行统计,而柱状图的生成只需要从数据集输入,这是两者的主要区别。

4)盒须图(Box plot)

盒须图是一种显示一维和二维数据分布的方法。它的基本形式是用一个长方形盒子表示数据的大致范围(数据值为25%~75%),并在盒子中用横线标明均值的位置。同时,在盒子上部和下部分别用两根横线标注最大值和最小值。盒须图在实验数据的分析非常有用。图1.15展示了一个盒须图在实际场景的应用。图1.15 美国休斯顿纪事报报道2006年是美国德州历史上最热一年注:图中小窗口演示了如何采用盒须图的几何和颜色编码单日最高温、最低温、历史最高温、历史最低温4个属性。单日盒须图按时间排列展现了全年温度走势,灰色的折线图展现了历史最高温和最低温。

5)地图(Map)

地图的几何表达是带区域边界的线框区域图,每个子区域上的视觉属性编码地图上的数据分布。地图子区域的几何表达方式有五大类:精确地理信息边界、规则四边形或六边形划分(见图1.16(b))、Voronoi划分、基于数值分布的区域变形、规则形状(长方形、圆形)隐喻(见图1.16(f))。根据数值域采样模式的不同,地图可视化方法可分为点采样(见图1.16(a)、(b))、线采样(见图1.16(c)、(d))和区域采样(见图1.16(e)、(f))三大类。地图上还可以呈现多元关系属性(见图1.16(g))。(a)纽约时报采用基于点的地图可视化方法展现2010年美国中期选举和2008年大选的变化注:红色向右箭头代表共和党增势;蓝色向左箭头代表民主党增势。(b)维也纳树木覆盖率可视化注:地图采用六边形蜂窝状单元,绿色色调编码覆盖率。图片来源:http://www.visualizing.org/visualizations/mapping-urban-tree-density-hexagonal-grids.图1.16 代表性地图可视化方法(c)纽约时报采用基于线的地图报道2012年飓风“桑迪”袭击纽约后交通恢复状态图片来源:http://nytimes.com/interactive/2012/10/31/nyregion/where-the-power-is-out-and-returning.html.(d)法国制图学家Minard采用流图(Flow map)方法可视化19世纪法国葡萄酒出口情况(e)Choropleth地图在精确地图区域内用颜色表达区域属性分布图片来源:http://flowingdata.com/2011/03/22/are-gas-prices-really-that-high/.图1.16 代表性地图可视化方法(续)(f)纽约时报报道各国在2008奥运会上获得的奖牌数量注:采用圆形图符表示国家,圆符的颜色编码不同的大洲,大小编码奖牌数量。(g)表达地图上的多元关系的可视化方法注:左:光滑的气泡隐喻(Bubble set,(Collins,2011));右:光滑的曲线链接(Line set,(Alper,2011))。图1.16 代表性地图可视化方法(续)

6)不规则网格(Irregular grid)

科学计算中的数值域采样常采用不规则网格(二维或三维空间)。对不规则网络上分布的数值域的可视化是空间数据可视化的核心内容。按照数据场的种类,可分为密度场、向量场和张量场三大类。常规的可视化方法有:颜色映射、特征几何计算与可视化、直接体可视化(三维数据场)、稠密纹理方法、图标法等。按处理的数据类型,即标量、向量、张量等三类,可视化方法包含如下三类。(1)标量场可视化。标量场指二维、三维或四维空间中每个采样处都有一个标量值的数据场。可视化方法主要有三类。① 颜色映射:将数值直接映射为颜色或透明度;② 构建显式几何特征:计算数据场的特征和模式的几何形状,如等值线、等值面、极值区域(见图1.17上);③ 可视分类:对数据场的不同特征区域进行分类,并赋予不同的视觉通道,如直接体绘制方法(见图1.17下)。图1.17 上:二维标量场的等值线;下:三维标量场的直接体绘制(Direct volume rendering)。左为三维标量场的直方图的不同区域映射为颜色和透明度,右边为体绘制结果(2)向量场可视化。向量场指每个采样点处是一个向量(一维数组)的数据场。向量场可视化主要关注流体模式和关键特征区域。向量场可视化方法主要分为四类。第一类采用拓扑或几何方法直接计算特征点、特征线或特征区域。第二类方法模拟粒子在向量场中以某种方式流动,计算出几何轨迹,如流线、流面、流体、路径线和迹线等(见图1.18左)。第三类方法将向量场转换为一帧或多帧稠密的纹理图像,如随机噪声纹理法、线积分卷积法等(见图1.18右)。第四类方法采用简化易懂的图标,编码单个或简化后的向量信息,如线条、箭头和方向标志符等(见图1.18左)。图1.18 2012年10月30日桑迪飓风袭击美国时的风场。左:采用箭头和流线可视化向量场;右:采用噪声纹理法可视化图片来源:http://hint.fm/wind/.(3)张量场可视化。张量是矢量的推广:标量可看作0阶张量,矢量可看作1阶张量。张量场可视化方法分为基于纹理、几何、拓扑三类。其主要思路和向量场可视化方法类似,图1.19展现了实例。图1.19 左:采用高阶几何表达空间张量;右:将人脑弥散张量场转换为向量场,继而抽取流线几何可视化脑纤维结构论文与数据详见:http://www.cs.rug.nl/~isenberg.

表1.3所示为表达数值域与地图的可视化。表1.3 表达数值域与地图的可视化3.时间与关系

1)时间

时间是一个特殊的维度,时间属性可视化用于表达数据点在不同时刻或时间段之间的线性或非线性关系,如差异、趋势和演化。时间属性的可视化通常可分为线性时间、周期时间与线性多角度时间三大类。线性时间的标准做法是时间线(Timeline),其中一个轴表示时间维度,另一个轴表示其他的变量。时间的周期性可采用径向布局的方式,将时间按给定周期环状排列。当时变数据中蕴含的信息存在分支结构时,可以采用线性、流状、树状、图状等方式表达随时间演化的结构。本质上,时间属性可视化的方法是折线图的扩充。其代表性的方法有如下几种。(1)日历图。日历图采用常规的年历方式,即以周、月为周期排列颜色矩阵,如图1.20所示。图1.20 日历图展现了2006—2009年美国股市每日的涨跌情况:红色表示跌;绿色表示涨图片来源:http://mbostock.github.com/d3/ex/calendar.html.(2)甘特图。甘特图以线条、活动列表和时间刻度形象地表示某个事件的活动顺序与持续时间。特别地,可采用多个条形图线程表现事件的不同属性随时间变化的过程,如图1.21所示。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?