数据治理与数据安全(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-14 05:29:27

点击下载

作者:张莉

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据治理与数据安全

数据治理与数据安全试读:

前言

Preface

当今世界,信息技术创新日新月异,数字化、网络化、智能化深入发展,在推动经济社会发展、促进国家治理体系和治理能力现代化、满足人民日益增长的美好生活需要方面发挥着越来越重要的作用。党的十九大描绘了决胜全面建成小康社会、开启全面建设社会主义现代化国家新征程、实现中华民族伟大复兴的宏伟蓝图,对建设网络强国、数字中国、智慧社会做出了战略部署。2017年12月8日,习近平总书记在主持中共中央政治局第二次集体学习时指出,“大数据是信息化发展的新阶段”。2018年4月22日,习近平总书记在致首届数字中国建设峰会的贺信中强调: “加快数字中国建设,就是要适应我国发展新的历史方位,全面贯彻新发展理念,以信息化培育新动能,用新动能推动新发展,以新发展创造新辉煌。”2018年5月26日,习近平总书记在致2018中国国际大数据产业博览会贺信中重申“全面实施国家大数据战略,助力中国经济从高速增长转向高质量发展”。当前,信息化、大数据、数字经济等高频词语已成为世界各国推动经济社会可持续发展的着力点和竞争点。

在数字经济的发展历程中,数据起到了核心和关键作用。《经济学人》杂志曾将数据比喻为“21世纪的石油”,数据的重要性不言而喻。但是,数据毕竟具有诸多不同于石油的特征。例如,不仅不稀缺,反而可再生; 不仅不排他,反而可以多方利用; 不仅价值不长久,反而具有时效性,等等。因此,对数据价值的挖掘,必须有别于对石油等传统资源的利用方式。

实际上,人们对数据价值的认识也经历了由浅入深、由简单趋向复杂的过程。总体来看,这个认知过程主要分为三个阶段: 第一阶段是数据资源阶段,数据是记录、反映现实世界的一种资源; 第二阶段是数据资产阶段,数据不仅是一种资源,还是一种资产,是个人或企业资产的重要组成部分,是创造财富的基础; 第三阶段是数据资本阶段,数据的资源和资产的特性得到进一步发挥,与价值进行结合,通过交易等各种流动方式,最终变为资本。

不过,无论数据是资源、资产还是资本,其价值发挥在于汇聚、打通及利用。用一句话形容,就是数据“活”于流动之中。近些年,业界学界兴起了“数据治理”一词,并衍生出一系列模型和框架。其归根结底就是要实现数据的流动,避免数据成为一滩滩“死水”,一个个“孤岛”,在互联互通中最大程度地挖掘和释放数据的价值。

那么,数据如何流动?靠什么流动?推动数据开放共享是核心!当前,数据流动是通过数据开放、数据交换和数据交易等方式实现的。其中,数据开放主要指占据全社会数据资源约80%的政府数据的开放共享,数据交换和数据交易主要指政府与企业、企业与企业之间的数据开放共享。不过,与石油市场已经建立了一套权属和边界都很清晰的成熟交易规则不同,数据交易赖以开展的基础和前提——数据产权,在目前还是一个说不清、道不明的新鲜事物。而且,对于数据开放共享过程中的“大数据杀熟”“千人千价”等数据滥用、个人信息严重泄露等数据安全问题,我国目前也缺乏有效的应对措施。这些都成为当前数据治理领域的热点和难点,也是本书探讨的重点。

以上都是国内方面的情况。在国际方面,因为数据的跨境流动,也引发了人们对数据主权、数据本地化等问题的热烈讨论。例如,2018年10月科技部针对基因信息违法出境做出处罚等事件,都是业界关注的焦点,也是本书呼吁社会各界加强重视的重要部分。

从内容上看,本书共分为7章。

第1章从数据治理的基本概念入手,探讨了数据与大数据的区别,数据体现出的资源、资产、资本的价值,阐述了我们对数据治理概念的理解,涉及数据治理的对象、主体、框架和方式,尤其是探讨了数字经济时代数据流动的重要性和巨大意义。我们认为,数据治理的核心就是推动数据自由、安全地流动,以便最大程度地挖掘和释放数据价值。要促使数据流动,国内层面主要就是推动数据的开放共享,实现数据“聚”“通”“用”。

第2章描述了当前数据开放共享存在的一系列问题。例如,因为不了解或太了解数据价值而产生的“不愿”开放共享的心理,因为数据安全问题频发而产生的“不敢”开放共享的心理,因为数据产权、数据定价等问题不明确而导致的“不会”开放共享的心理,这些原因都是数据开放共享的阻碍和掣肘因素。

第3章针对当前业界由于数据产权模糊不清所发生的争夺数据等矛盾和冲突事件提出了三个问题,即数据是谁的?谁在用数据?数据收益归谁?这三个问题正是本书分析数据产权的三个维度。

第4章指出了数字经济时代数据在给人类生产、生活带来巨大便利的同时也诱发了很多问题。例如,商家使用“千人千价”“动态定价”及“大数据杀熟”等方法,以钻法律空子、打擦边球的不正当方式赚取巨额利润; 不法分子利用黑客技术盗取个人信息,造成个人信息泄露、用户画像被恶意利用等。这些数据滥用和数据安全问题将成为影响数据价值释放的“绊脚石”。

第5章主要阐述了国际层面的数据流动,即数据跨境流动。这一章梳理了数据主权的概念,分析了当前很多国家推行的数据本地化政策对数据保护的作用,以及对经济发展的延缓,同时列举了基因信息违法出境的案例,说明数据跨境流动是一把双刃剑,需要客观看待。

第6章主要描述了当前世界主要大国在推动数据流动、探索数据治理方面做出的努力,重点从数据开放共享、个人信息保护和数据跨境流动等方面进行论述。

第7章基于我国的实际情况,借鉴国际经验,主要针对前文提出的问题,分别提出治理策略。

数据治理是一个全新的话题,业界学界都未有定论,本书的出版是我院在这个领域开展研究的第一步,未来我们将继续深入研究,推出更多相关的成果。当然,本书写作过程中,由于时间仓促,加上作者水平有限,书中难免有纰漏,恳请广大读者批评指正。第1章 流数不腐:数据“活”于流动思维导图本章导读

本章主要聚焦“数据治理”的核心要义,从而引申出本书的全貌。文中梳理了当前业界学界对数据、治理以及数据治理的界定,分析了当前界定的不足之处,提出了我们关于数据治理核心要义的看法。我们认为,从一开始的数据资源到数据资产,再到当下流行的数据资本,人们对数据价值的认知是一个不断深化的过程,数据被赋予的内涵也更加丰富和复杂。与此同时,数据具有很多不同于石油等传统资源的特性。例如,传统资源是越用越少、不可再生,但数据是越积累量越大、越用越多。因此,对数据价值的挖掘,方式也应有别于传统做法。

我们认为,要最大程度地发挥数据的价值,根本在于促进其流动。无论各种主体以何种方式开展数据治理,其核心都是要推动数据自由、安全地流动,以便最大程度地挖掘和释放数据的价值。数据流动主要有两个层面,国内层面的抓手是推动数据开放共享,国际层面便是实现数据跨境流动。当前,阻碍数据顺畅流动的最主要掣肘因素有两个: 一个是数据权问题,国内层面称为数据产权问题,国际层面称为数据主权问题; 二是数据安全问题,目前国际社会主要聚焦于个人数据,即个人信息保护。如何看待和解决这些问题,给出何种治理策略,正是本书着力探讨的话题。1.1 理解“数据治理”

随着大数据时代的到来,流动的数据已成为连接全世界的载体,也成为促进经济社会发展、便利人们生产生活的源动力。伴随着数据流动,尤其是为了解决流动过程中产生的一系列问题,“数据治理”一词逐渐兴起。而要了解数据治理,还得从数据、治理这些基本概念说起。1.1.1 数据

数据与大数据

什么是数据?传统意义上,数据是指人类对事物进行测量的结果。如今,数据的概念有了很多延展。一般而言,数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。这些物理符号具有抽象、非随机的特点。

从数据的定义来看,数据具有两个特征,一个是差异性,另一个是规律性。差异性主要体现为数据多数描述的是事物的数量特征,现实世界中每件事、每个人、每种物都有不同的特征,因此反映于数据也会有各种不同的表现,甚至从表面看起来可能是杂乱无章的。规律性则主要体现为,数据是具有一定规律的,对数据进行分析研究,很重要的目的就是从数据中找出某种规律和关联。简而言之,正因为数据具有差异性,才有必要对数据进行研究与分析; 也正因为数据存在规律性,对其研究才有价值。

时下,人们往往容易将数据与大数据混淆。实际上,两者是有区别的。

对于大数据,麦肯锡全球研究所给出的定义如下: 大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合; 高德纳(Gartner)咨询公司给出的定义如下: 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。维克托· 迈尔· 舍恩伯格在《大数据时代》一书中提出,大数据不能用随机分析法(抽样调查)这样的捷径,而要对所有数据进行分析处理。

业界普遍认为,大数据具有数据规模海量(Volume)、数据流转快速(Velocity)、数据类型多样(Variety)和数据价值巨大(Value)四大特征。(1)数据规模海量

当前,以大数据、物联网、人工智能为核心特征的数字化浪潮正席卷全球,全世界每时每刻都在产生大量的数据。从1956年IBM发明世界上第一个机械硬盘,两台冰箱大小却只有5MB容量,到现在淘宝网4亿用户每天产生几十TB的数据,数据总量呈指数级增长。衡量数据大小的单位也从MB到GB,到TB,再到PB、EB,相信后面还会不断出现新的记录单位。当数据数量和规模发展到一定程度时,现有的数据存储、分析、计算的方案和技术势必不能满足现实需求,迫切需要更智能的算法、更强大的数据处理平台和更新的数据处理技术来挖掘数据价值。(2)数据流转快速

与传统的图书、报纸、广播等数据载体不同,数据产生和传播的速度非常快,数据被高速地创建、移动、汇集到服务器。基于此,大数据对数据处理有着非常严格的要求。大数据的处理需符合秒级定律,一般要在秒级时间范围内给出对数据的分析结果。响应时间过长,数据就失去了价值。换言之,谁的数据处理速度快,谁在大数据时代就具备优势。(3)数据类型多样

传感器、智能设备及移动互联网的飞速发展使数据变得更加复杂,除了传统的关系型数据,还包含结构化、半结构化和非结构化数据。大数据时代,需要处理的数据不仅是海量的,而且是不同种类、不同格式和不同来源的,因此需要一套专门的格式、标准来进行处理。(4)数据价值巨大

大数据最大的特点在于通过各种数据分析和挖掘方法,发现诸多看似无关的数据之间暗含的规律和关联。例如,阿里巴巴集团每天拥有几亿人的购物数据,通过分析这些数据就可以知道各种产品和市场发展的走势,也可以知道不同用户的爱好和需求,从而进行针对性的推荐,以提高平台的交易量。不过,我们也要看到,虽然大数据的价值巨大,但并不是所有数据都拥有这样的价值。如果把大数据比作一座金矿,有价值的数据就是其中的黄金,这种价值需要一系列加工和处理才可能得到释放。

数据: 资源、资产、资本

在数字经济的发展历程中,数据起到了核心和关键作用,人们对数据价值的认识也是由浅入深、由简单趋向复杂。总体来看,数据价值的发展主要分为三个阶段: 第一阶段是数据资源阶段,数据是记录、反映现实世界的一种资源;第二阶段是数据资产阶段,数据不仅是一种资源,还是一种资产,是个人或企业资产的重要组成部分,是创造财富的基础; 第三阶段是数据资本阶段,数据的资源和资产的特性得到进一步发挥,与价值进行结合,通过交易等各种流动方式,最终变为资本。(1)数据资源

与传统的农业经济和工业经济不同,数字经济得以发展的基础是信息技术和海量数据。随着信息技术与经济社会的交汇融合,数据成为国家的基础性战略资源,成为驱动经济社会发展的新兴生产要素,与劳动、土地、资本等其他生产要素一同为经济社会的发展创造价值。

但是,数据与这些传统生产要素不同,它具有可再生、无污染、无限性的特征。可再生是指数据资源不是从大自然获得的,而是人类自己生产出来的,通过加工处理后的数据还可以成为新的数据资源; 无污染是指数据在获得与使用的过程中不会污染环境; 无限性是指数据在使用过程中不会变少,而是越变越多。因此,传统资源越用越少,但数据资源是越用越多。

数据成为资源,也是发现和利用数据价值的一个过程,这一点与传统资源如石油比较相似。首先,要发现各种有用数据的来源,如同勘探油矿; 其次,要采集满足特定需求的数据,如同采油; 然后,要把采集到的数据按应用需求进行标准化、结构化处理,如同炼油; 最后,将加工处理后形成的数据与实际应用相结合,最大程度地发挥数据的作用。因此,在这个阶段,数据是作为一种具有使用价值的资源帮助管理者决策,从而实现其经济效益,同时也成为数字经济发展的关键生产要素。(2)数据资产

随着数字经济的发展,人们发现,数据不仅仅是资源,还具备资产的特质。所谓资产,是指由企业过去经营交易或由各项事项形成的、被企业拥有或控制的、预期会给企业带来经济利益的资源。从资产的界定来看,它具有现实性、可控性和经济性三个基本特征。现实性是指资产必须是现实已经存在的,还未发生的事物不能称为资产; 可控性是指对企业的资产要有所有权或控制权; 经济性是指资产预期能给企业带来经济效益。结合资产的特征,数据资产便是指企业在生产经营管理活动中形成的,可拥有或可控制其产生及应用全过程的、可量化的、预期能给企业带来经济效益的数据。实现数据可控制、可量化与可变现属性,体现数据价值的过程,就是数据资产化过程。当前,数据已经渗入各行各业,逐步成为企业不可或缺的战略资产,企业所掌握的数据规模、数据的鲜活程度,以及采集、分析、处理、挖掘数据的能力决定了企业的核心竞争力。(3)数据资本

2016年3月,麻省理工科技评论与甲骨文公司联合发布了名为《数据资本的兴起》的研究报告。报告指出,数据已经成为一种资本,和金融资本一样,能够产生新的产品和服务。但是,与实物资本不同,数据资本也有自身的特性。例如,非竞争性,即实物资本不能多人同时使用,但是数据资本由于数据的易复制拷贝特点,其使用方可以无限多; 不可替代性,即实物资本是可以替换的,人们可以用一桶石油替换另一桶石油,而数据资本则不行,因为不同的数据包含不同的信息,其所包含的价值也是不同的。数据资本化的过程,就是将数据资产的价值和使用价值折算成股份或出资比例,通过数据交易和数据流动变为资本的过程。换句话说,数据作为资本的价值要在数据交易和流动中才能得到充分体现。这也引发了当前业界的一大难题,即数据产权问题。只有确定了数据产权问题,数据交易才具备顺利开展的前提基础。1.1.2 治理

对于对大数据感兴趣的人来说,“数据治理”这个词并不陌生。但要全面深刻地理解数据治理,还应该从“治理”说起。在英语中,“治理”一词源自拉丁文“gubernare”,原意是控制、引导和操纵,后来逐渐演化成“governor”及“government”。

治理的概念是20世纪90年代在全球范围内逐步兴起的。治理理论的主要创始人之一詹姆斯· N.罗西瑙认为,治理是通行于规制空隙之间的那些制度安排,当两个或更多规制出现重叠、冲突时或者在相互竞争的利益之间需要调解时发挥作用的原则、规范、规则和决策[1]程序。另一位治理研究专家格里·斯托克指出,治理的本质在于它所偏重的统治机制并不依靠政府的权威和制裁; 它所要创造的结构和秩序不能从外部强加; 它发挥作用是要依靠多种进行统治的以及互[2]相发生影响的行为者的互动。国内学者俞可平提出,治理具有四个特征: (1)治理不是一套规则条例,也不是一种活动,而是一个过程; (2)治理的建立不以支配为基础,而以调和为基础; (3)治理同时涉及公共和私营部门; (4)治理并不意味着一种正式制度,[3]而有赖于持续的相互作用。

国际组织对治理也有各自的理解。世界银行认为,治理是“为发展而管理一个国家经济和社会资源的权力”。联合国全球治理委员会将治理界定为“个人和各种公共或私营的机构管理共同事务的诸多方式之总和,一种使相互冲突的利益得以调和并采取联合行动的持续过程”。

综上所述,治理就是政府、企业、个人以及非政府组织等主体为了管理共同事务,以正式制度、规则和非正式安排的方式相互协调并持续互动的一个过程。1.1.3 数据治理

数据治理具有治理的很多特征。例如,需要政府、企业、个人以及非政府组织等共同努力,也需要建立一套立法、规章、制度和规则。然而,由于治理的是数据,它又有很多自身的特点。目前,关于数据治理的定义亦是众说纷纭。

根据国际标准化组织IT服务管理与IT治理分技术委员会、国际数据治理研究所(DGI)、IBM数据治理委员会等机构的观点,数据治理意指建立在数据存储、访问、验证、保护和使用之上的一系列程序、标准、角色和指标,以期通过持续的评估、指导和监督,确保富有成效且高效的数据利用,实现企业价值。数据治理的范围如图1-1所示。

中国在国际场合首次提出“数据治理”的概念,是2014年6月在悉尼召开的ISO/IEC JTC1/SC40(IT治理和IT服务管理分技术委员会)第一次全会上。这个概念一经提出,即引发了国际同行的兴趣和持续研讨。

2014年11月,在荷兰召开的SC40/WG1(IT治理工作组)第二次工作组会议上,中国代表提出了《数据治理白皮书》的框架设想,分析了世界上包括国际数据管理协会(DAMA)、国际数据治理研究所、IBM、高德纳咨询公司等组织在内的主流的数据治理方法论、模型,获得了国际IT治理工作组专家的一致认可。2015年3月,中国信息技术服务标准(ITSS)数据治理研究小组通过走访调研,形成了金融、移动通信、央企能源、互联网企业在数据治理方面的典型案例,进一步明确了数据治理的定义和范围,并于2015年5月在巴西圣保罗召开的SC40/WG1第三次工作组会议上正式提交了《数据治理白皮书》国际标准研究报告。报告认为,数据是资产,通过服务产生价值。数据治理主要是在数据产生价值的过程中,治理团队对其做出的评价、指导、控制。图1-1 数据治理的范围

笔者认为,上述几个关于数据治理的界定,内涵已经十分丰富,要义也得到了明确的体现,但还是未能囊括数据治理的全部。

首先,数据不仅仅是企业或机构的资产,更是现代国家的一种基础战略资源。曾有人提出,大数据时代世界上最有价值的资源不再是石油,而是数据。这种提法丝毫未夸大数据的重要作用。煤炭和石油等传统资源是有限的,而大数据作为新型资源,由于具有可复制、递增、共享等特性,其开发和增长是无限的。更重要的是它改变了传统要素格局,新知识和新技术替代资本成为经济发展的主导因素,符合智慧、绿色、共享和低成本的可持续发展理念,将助力实现发展方式的真正转变。

其次,数据治理的目的不仅仅是确保数据的高效利用和实现企业价值,更是为了提升政府公共管理能力和国家治理能力。正如《数据治理白皮书》所描述的,企业开展有效的数据治理,会通过改进决策、缩减成本、降低风险和提高安全合规等方式将价值回馈于业务,并最终体现为增加收入和利润。但是,拥有数据的往往并不只是企业。有统计显示,政府拥有全社会80%的数据资源,通过运用大数据、云计算等现代信息技术,形成“用数据决策、用数据管理、用数据服务”的公共管理与服务机制,能够有效提升政府公共管理能力和国家治理能力,促进经济社会的快速健康发展。

再次,开展数据治理不仅仅局限于企业,政府和个人更是数据治理的重要主体。当前,无论国际、国内,提到数据治理基本都是指企业行为,但实际上政府在数据治理中能够发挥更主动的作用。例如,开展数据治理顶层设计、推动政务数据开放共享、建立完善的数据权责体系等。个人也应该积极参与数据治理。由于政府和企业收集的信息中有相当大的部分是个人信息和数据,而近年来泄露、滥用和非法买卖个人信息的现象十分严重,给部分民众造成了巨大的经济损失和精神伤害。所以,个人参与数据治理主要是积极保护个人信息和维护个人权益。

最后,数据治理不仅仅依靠模型和框架,还要采用法律、行政、教育、道德伦理等方法和手段。当前,围绕对数据的采集、分析、挖掘、应用、共享和保护等出现了诸多问题,亟需通过出台数据立法和行政规章制度加以明确和规范。针对数据利用过程中出现的一系列安全隐患,要加强网络安全教育和培训,提升从业人员的专业素质和普通民众的意识技能。对于那些倒买倒卖生物特征信息等敏感数据的行为,要辅之以伦理和道德方面的分析和教化,必要时可在立法中加大处罚力度。

综上所述,笔者认为,从宏观层面看,数据治理是指政府等公共机构、企业等私营机构以及个人,为了最大程度地挖掘和释放数据价值,推动数据安全、有序流动而采取政策、法律、标准、技术等一系列措施的过程,如图1-2所示。从微观层面看,数据治理是不同的机构对各种各样的元数据进行处理和分析的过程,如图1-3所示。换句话说,无论何种主体以何种方式,只要围绕数据安全、有序流动所采取的行动,就是数据治理的范畴。图1-2 宏观层面的数据治理图1-3 微观层面的数据治理1.2 数据流动连接你我他1.2.1 数据采集:让数据汇聚到一起

当前,以大数据、物联网、人工智能为核心的数字化浪潮正席卷全球,全世界每时每刻都在产生大量的数据,人类产生的数据总量呈指数级增长。面对如此巨大的数据规模,如何采集并进行转换、存储以及分析,是人们在数据开发利用过程中面临的巨大挑战。其中,数据采集又是所有数据处理行为的前提。

数据采集是指从系统外部采集数据并输入到系统内部的过程。数据采集系统整合了信号、传感器、激励器等数据采集设备和一系列应用软件。目前,数据采集广泛应用于互联网及分布式领域,如摄像头、麦克风都是数据采集工具。

数据采集并不是随随便便、杂乱无章地采集数据,而是对数据有一定的要求。例如,要求数据量是全面的,具有足够的分析价值; 是多维度和多类型的,能够满足不同的需求; 是高效的,具有比较明确的针对性和时效性。常用的数据采集方法主要有传感器采集、日志文件采集、网络爬虫采集。

传感器采集

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号并传送到数据采集点,让物体拥有“触觉”“味觉”和“嗅觉”等“感官”,变得鲜活起来。

日志文件采集

日志文件数据一般由数据源系统产生,用于记录对数据源的各种操作活动,如网络监控的流量管理、金融应用中的股票记账和Web服务器记录的用户访问行为。很多互联网企业采用日志文件采集方式,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。这些工具均使用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络爬虫采集

网络爬虫是指为搜索引擎下载并存储网页的程序,它是针对搜索引擎和Web缓存的主要数据采集方法。该方法将非结构化数据从网页中抽取出来,以结构化的形式将其存储为统一的本地数据文件,支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

由于所采集数据的种类错综复杂,因此对不同种类的数据进行分析必须运用提取技术。通过不同方式,可以获得各种类型的结构化、半结构化及非结构化的海量数据。在现实生活中,数据的种类有很多。而且,不同种类的数据,其产生的方式不同。针对大数据采集,目前主要流行运用以下技术。

Hive

Hive是由Facebook开发的数据仓库,可支持SQL相似的查询声明性语言(HiveQL),可自定义插入相关脚本(Map-Reduce),并且支持基本数据类型、多种集合和组合等。只需要一些简单的查询语句,就能分析计算数据仓库中的数据。

Transform

Transform操作是大数据采集中的一个关键流程,利用多种数据分析和计算系统对清洗后的数据进行处理和分析。

Apache Sqoop

将数据在Hadoop HDFS分布式文件系统和生产数据库相互转换,需要考虑数据是否一致,以及资源配置等问题。为了防止使用效率不高的脚本进行传输,将使用Apache Sqoop。Apache Sqoop能快速实现导入和导出数据,解决数据来回转换中暴露的问题,还可通过数据库元数据预测数据类型。

数据采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力实现数据驱动。1.2.2 数据分析:机器学习和深度挖掘

数据分析是指用适当的统计方法对数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据功能。数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息提炼出来,并总结出内在规律。

数据分析的概念不难理解,但数据分析是通过什么方法来实现的呢?这就要借助机器学习。机器学习是研究如何用机器来模拟人类学习活动的一门学科,它是研究机器如何获取新知识和新技能并识别现有知识的学问。此处所说的“机器”是指计算机、电子计算机、中子计算机、光子计算机或神经计算机等。机器学习主要包括三种类型: 监督学习、无监督学习及强化学习。

监督学习从给定的训练数据集中学习一个函数,当有新数据时,可以根据这个函数预测结果,如图1-4、图1-5所示。监督学习的训练集要求包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习分为回归和分类两种类型,包括线性回归、Logistic回归、CART、朴素贝叶斯、KNN等几种算法。回归是精确值预测。例如,根据已有的销售价格和销售数量建立模型,预测新销售价格对应的销售数量,就是回归的过程。图1-4 监督学习模型图1-5 监督学习预测模型

无监督学习就是输入一些并不知道输出的数据,然后给这些数据打上标签,如图1-6所示。它主要有关联、群集及维度降低三种类型,集中使用Apriori、K-means、PCA三种算法。其实,我们每天看的新闻分类就是一个无监督学习,由新闻网站收集网络新闻,根据主题将新闻分成各类链接,读者点击链接时会展现相关的新闻,而这些新闻的关联性不是人工实现的,是算法自动分的。简单地说,监督学习是根据已经存在的数据,如现有销售价格和销售数量,预测在新的销售价格下能卖出多少数量的商品; 而无监督学习则是在不知道数据的输出是什么的情况下,根据特征进行分类和预测。图1-6 无监督学习模型

强化学习是让机器通过不断的测试,在环境中获得高分。在这个过程中,机器会一而再、再而三地出错,从而获取规律。近两年比较有名的Alpha Go事件,其实就是机器通过不断学习游戏和变换新步骤而得到高分的实例。那么,计算机是怎样学习的呢?其实,计算机就像一位虚拟的老师,只是这位老师比较严厉,它不会提前告诉你怎样移动,不会教你怎样学习,就像学校的教导主任一样只对你的行为进行监督和打分,而不负责教学。在这种情况下,我们怎样获得高分呢?我们只需要记住高分和低分分别对应的行为,在下一次打分时尽量表示出高分行为,避免低分行为,就能够做到。据此,机器学习主要是从历史数据获得模型来预测未知属性,而人类是通过经验总结规律以预测未来,如图1-7所示。图1-7 机器学习与人类思考对比

说到机器学习,不能不提到近年来出现的一个新词——信息机器。信息机器与信息技术密切相关,它不是传统意义上的机械机器,而是接收信息、处理信息的新型机器,诞生于媒介新技术的革新和变迁,更多地体现出人类与机器的交互性。例如,在机器学习的过程中,实际上机器也不断地产生数据和信息,这种现象值得人们高度关注和研究。

除了机器学习,还要提到数据分析的另一种方法——深度挖掘。这就好比挖掘机挖土,挖得越深,就越有可能挖到有价值的东西。数据领域的深度挖掘,就是从大量数据中通过算法搜索隐藏于其中的信息的过程。深度挖掘本质上类似于机器学习和人工智能的基础,其主要目的是从各种各样的数据来源中提取有用信息,然后将这些信息合并,深度分析其中的规律和内在关联。这就意味着深度挖掘不是一种用来证明假说的方法,而是用于构建各种各样假说的方法。深度挖掘不能告诉人们这些问题的答案,只能说明A和B可能存在相关关系,但是无法说出A和B存在什么样的相关关系。与机器学习相比,深度挖掘的概念更广,机器学习只是深度挖掘领域的一个分支领域。

深度挖掘广泛应用于商务管理、生产控制、市场分析、工程设计和科学探索中,通过各种方法来挖掘数据,主要包括分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。在市场经济比较发达的国家和地区,许多企业都开始在原有信息系统的基础上通过深度挖掘对业务信息进行深加工,以构筑自己的竞争优势,扩大自己的营业额。美国运通公司(American Express)有一个用于记录信用卡业务的数据库,其数据量已达到5GB,并仍在随着业务发展而不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果顾客在一家商店用运通卡购买一套时装,那么在同一家商店再买一双鞋就可以得到比较大的折扣。这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。类似的方法在食品行业也备受青睐。全球著名的卡夫(Kraft)食品公司建立了一个拥有3000万条客户资料的数据库。数据库是通过收集对公司发出优惠券等促销手段做出积极反应的客户和销售记录而建立起来的。卡夫公司通过深度挖掘了解特定客户的兴趣和口味,以此为基础向他们发送特定产品的优惠券,并推荐符合他们口味和健康状况的卡夫产品食谱。此外,出版业也是数据深度挖掘的受益者。例如,美国读者文摘(Reader's Digest)出版公司运行着一个已有40年积累的业务数据库,里面包含遍布全球的1亿多个订户的资料,数据库每天24小时连续运行,保证数据不断实时更新。正是基于对客户资料数据库进行深度挖掘的优势,读者文摘出版公司的业务才能够从通俗杂志扩展到专业杂志、书刊和音像制品的出版和发行。1.2.3 数据关联:因果关系or相关关系

大数据时代,纷繁芜杂的数据描述的是一个混沌的世界,只有找出看似不相干的数据背后隐藏的逻辑关系和本质规律,才可能看清楚许多真相。目前,对于数据之间的关系,存在两种较主流的看法,即因果关系和相关关系。

对于因果关系,通俗地解释是指一个事件(即“因”)和另一个事件(即“果”)之间的作用关系,其中后一事件被认为是前一事件的结果。从西方哲学的角度来看,亚里士多德较早提出的“四因说”,即质料因、形式因、动力因、目的因,归纳了一般导致结果发生的几个原因解释。后来,在亚里士多德宇宙论的基础上,托马斯· 阿奎那又对这四种原因进行了等级排列,认为目的因>动力因>质料因>形式因。阿奎那把第一因归为上帝,认为尘世的很多事件都是在上帝的设计或计划之中。这种观点流传了很久。不过,在后来的历史中,亚里士多德的“四因说”遭到了后世学者的批评。当代西方哲学中广为流传的关于因果关系的定义出自大卫· 休谟的理论。他提出,人们只是发展了一个思考习惯,把前后相继的两类客体或事件联系起来,除此之外,人们是无法感知到原因和结果的。然而,虽然围绕因果关系是否存在的争论一直延绵不绝,但不可否认的是在传统社会中,因果关系的确对人们分析事物的原因起着巨大的潜移默化的作用。

大数据时代,由于数据对经济生活各个方面的影响,有学者对事物之间的关联提出了新的诠释。例如,舍恩伯格在《大数据时代》一书中一再强调,人们应该在很大程度上从对因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。他提出,相关关系是指当一个数据发生变化时,另一个数据也可能随之变化,这两个数据有时候没有必然联系。两者可能是正相关,也可能是负相关; 可能是强相关,也可能是弱相关。“我们没有必要非得知道现象背后的原因,而是要让数据自己发声”“相关关系能够帮助我们更好地了解这个世界”,他认为建立在相关关系分析法上的预测是大数据的核心。通过找到关联物并监控它,人们就能够预测未来。在大数据的背景下,相关关系较因果关系能在预测功能上展现出更大的优势。对于人们来说,大数据最关键的作用就是利用相关关系进行研究,把数据里面的金子挖出来,或者利用相关性预防或促成某些结果的发生。由于数据超级海量,需要一定的速度应对信息社会“数据爆炸”和诸多涌现出来的“复杂性”,然后才是对其过程和背后原因的探询。

舍恩伯格提到的相关关系与因果关系有很明显的不同。因果关系中,当一个表示原因的数据发生变化时,它对应的结果数据也会发生变化,这两个数据一定是必然关系。但是,有的时候追求因果关系显得既无必要又无可能。例如,在实际生活中,如果要证明熬夜导致秃头,可以找两组身体状况基本一样的人,让一组熬夜,另一组在正常时间睡觉。如果熬夜组秃头的概率大于不熬夜组,那么基本可以证明熬夜和秃头存在因果关系。但是,这种实验在现实中很难做到,因为连原本的客观环境都不能保持一致。而且,这种实验也违背道德,因为很难逼大家熬夜,也无法实时追踪是否熬夜。因此,用因果关系来证明和解释这个现象有待商榷。

那么,大数据时代的关系到底是因果关系、相关关系,还是因果关系和相关关系并存呢?笔者认为,这大概还是取决于人们对数据功能的定位。在相关关系中,预测是大数据的核心功能。对于快速变化的世界来说,探究相关关系的确比因果关系成本更低,耗时更少,而且也更显必要。例如,全球最大的零售商沃尔玛拥有一个超大型的历史交易记录数据库,这个数据库包括每位顾客的购物清单、消费额、购物篮中的商品、具体的购买时间以及购物时的天气。经过分析发现一个规律,就是每当季节性飓风来临之前,不仅手电筒的销量增加,蛋挞的销量也会增加。因此,后来每当季节性飓风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,这样既方便了行色匆匆的顾客,又大幅增加了商品的销量。在这样的案例中,并没有必要探究为什么手电筒和蛋挞的销量会增加,只要知道这种相关关系就行。

通过相关关系进行预测的案例还有很多。美国折扣零售商塔吉特曾经做过一项关于怀孕女性的预测。公司分析团队查看了登记在婴儿礼物登记簿上的女性消费记录,发现这些准妈妈会在怀孕第三个月左右的时候买很多无香乳液,之后还会陆续买些营养品,整个孕期大概能产生对20多种关联物的需求。通过这些关联物,公司分析团队可以看出准妈妈们的怀孕趋势,甚至能够据此准确地推测出她们的预产期,这样就能够在她们孕期的每个阶段给她们寄送相应的优惠券,从而增加销售额。所以,不论是追求相关关系,还是因果关系,归根结底都是看其能为主体提供什么样的价值,以及主体需要实现什么样的价值。1.2.4 数据质量:“清洗”后的数据更可靠

大数据时代,人们关注的焦点是如何发挥数据的价值,却鲜有人关注数据质量这个最根本的问题。实际上,大数据处理的关键是解决数据质量问题。《大数据资产: 聪明的企业怎样致胜于数据治理》一书的作者托尼·费舍尔(Tony Fisher)曾提到: “如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。”糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。据IBM统计,错误或不完整的数据会导致业务系统不能正常发挥优势甚至失效;数据分析员每天有30%的时间浪费在辨别数据是否是“坏数据”上; 低劣的数据质量严重降低了全球企业的年收入。因此,只有规避数据错误、保障数据质量,才能真正让各数据使用方从大数据应用中获益。

近年来,数据质量管理应运而生。所谓数据质量管理,是指对在数据存在的各个周期中出现的一系列数据质量问题,利用识别监控等措施改善和提高数据质量的管理水平。

其中,数据清洗是数据质量管理中重要的一环,主要是对数据进行重新核验,修正错误数据和去除重复数据,通过过滤掉这些“脏数据”,尽可能地使数据保持一致性和准确性,提高数据质量。

关于数据质量管理,不同的主体有不同思路。曾有篇文章以古人治理黄河水患为例来说明如何管理数据质量,令人印象深刻。

文章提到,现在的数据集成融合就和古人筑堤坝一样: 古人筑堤坝是为了约束河水,拓展人类的生存空间; 今人做数据集成融合是为了挖掘数据价值,拓展企业的生存空间。古人提出: 在修筑大堤前,黄河“左右游荡,宽缓而不迫”;筑堤后河道变窄,发生洪水时泄流不畅,常决口为患。如今的企业在信息化初期,各类业务系统恣意生长,这个阶段就像修筑大堤前的黄河虽然有问题,但是不明显。后来,企业业务需求增长,需要按照统一的架构和标准把各类数据集成起来,这个阶段就像筑堤束水之后的黄河,各种问题扑面而来。古人治理黄河水患,主要有两种方式,一种是“疏通”,另一种是“围堵”。数据质量治理也可以借鉴古人“疏”与“堵”的智慧和考量。“疏”就是开展顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量。“堵”就是依赖技术手段,通过增加数据清洗处理逻辑的复杂度,使用数据质量工具来发现数据处理中的问题。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载