区块链+大数据:突破瓶颈,开启智能新时代(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-11 08:28:43

点击下载

作者:杨永强,蔡宗辉,刘雅卓

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

区块链+大数据:突破瓶颈,开启智能新时代

区块链+大数据:突破瓶颈,开启智能新时代试读:

前言

大数据从诞生到今天,已经取得了非常多的成绩,几乎所有的行业都需要大数据来支撑。随着互联网、云计算、物联网等技术的逐步发展,数据的采集、分析也变得日益简单,在这些技术的帮助下,大数据也将发挥出更大的价值。

大数据在处理过程中,与传统数据处理方式相比有三个特点:大数据是对全部数据的处理分析而不是抽样分析;在数据分析时,整体的效率提升,结果更加精确;数据中的相关关系比因果关系更重要。

大数据虽然取得了明显的进展,但是也面临一定的困境。目前,数据已成为企业重要的资源,也越来越受到关注。在数据资源的开发利用中,数据的开放、共享、流通、隐私保护成为痛点。

大数据的核心价值就在于做出精准的预测,高质量的数据是前提,但是,在行业中优质可用的数据非常少,这给数据分析增加了难度。大数据的一大明显特征就是关联性比较强,但是,企业之间、政企之间都把数据紧紧地握在自己手中,不对外共享,形成了严重的信息壁垒。

此外,在进行数据处理时,由于对问题梳理得不够全面,低估大数据的复杂程度,并且缺乏大数据的分析能力,导致大数据项目应用频频失败。在大数据的实践应用中,缺乏专业的数据分析人才、现有模型数据相对陈旧、数据建模对场景细分不够等问题都给大数据产业的发展带来了困难。

大数据建立在云计算的基础上,通过云管理的手段进一步实现大数据的管理应用是必然的,但现实中屡屡发生的云管理失误案例让大数据行业在企业管理方面的应用受到了质疑,这也是大数据的发展一直停留在困境中的主要原因。

因此,如何解决以上问题是未来大数据发展的重点。而区块链技术的出现为解决大数据面临的问题提供了新的思路。大数据技术是建立在集中式核心思想上的,而区块链的本质是分布式系统。集中式的大数据与分布式的区块链相结合必然产生更大的价值。

区块链具有数据不可篡改、可追溯的特点,能够解决数据共享开放中的很多问题。利用区块链技术,能够建立一个可以记录时间先后、不可篡改、可信任的数据,该数据库是去中心化的,能够保证数据的安全。利用区块链技术,不再需要第三方中介组织,没有建立信任关系的双方能够直接实现交易。

在数据的流通领域,隐私保护问题一直存在,一旦数据交易触及了法律,就很难再举证。利用区块链技术,建立一个数据交易追溯平台,然后把每一笔交易数据都存储到该平台中,交易双方可以获得一个交易凭证,交易凭证中记录着这笔交易的数字证书以及交易信息存储的地址,用户可以直接在该平台中完成交易数据的确权。

区块链技术使大数据的交易变成了对数据使用权的交易,这样,数据在产生时就可以被加密存储到区块链中。区块链能够明确交易历史以及各方的贡献,量化数据价值。数据在计算以及输出的每一个环节都被记录在区块链中,如果交易参与者对数据源头存在质疑,就可以利用区块链的追溯特性来核实。

区块链与大数据结合起来,能够打破数据孤岛,建立一个开放的数据共享生态体系。区块链作为一种基础性技术,将会通过与大数据结合的方式被应用到各个行业,为行业带来模式创新,重塑现有的商业模式。

在大数据中使用区块链技术,能够保证数据不被篡改,通过区块链与大数据的结合,区块链中的数据会更加具有价值,实现大数据的预测分析落实到实践中,促进数字经济时代的发展。

区块链实现了数据的开放共享,扩大了数据规模,规范了数据管理,而大数据能够极大提高区块链的数据价值。区块链数据库记录了每一笔交易数据,并以其可信任、不可篡改的特性让更多的数据被挖掘出来,不同行业中的数据相融合扩大了数据规模,逐步形成全球化的数据交易模式。

目前,区块链技术的发展已经引起了社会各界的广泛关注,人们普遍认为,该技术能够推动互联网的发展,有效解决互联网中的信任问题,从而推动大数据的快速发展。第1章 大数据发展面临窘境,区块链技术异军突起

随着大数据行业的飞速发展,行业的技术窘境也日益明显。由于技术的深入,人们发现现有的大数据产业面临着优质可用数据少、信息壁垒严重、数据处理有困境、实践应用障碍多、云管理失误多五大困境。而这些困境是由现有技术手段的不足造成的,因此,必须依靠新技术才能够突破大数据行业的瓶颈。

在大数据的发展面临窘境的同时,区块链技术异军突起,经历了三个发展阶段后成功为各大行业带来了新的曙光。本章将从源头开始分别介绍大数据和区块链技术,并对两者的应用现状进行详细阐述。1.1 大数据产业发展的三大基石:云计算、物联网、移动互联网技术

大数据从第一次出现,就和移动互联网紧密地联系在一起,可以这么说,正是因为移动互联网的飞速发展带动了互联网数据的海量增长,从而推动了大数据行业的产生和发展。随着大数据的发展,云计算、物联网也随之出现并成为了大数据产业的坚强后盾。在当今“数据为王”的社会中,大数据产业的三大基石都具有举足轻重的作用。1.1.1 云计算

云计算是指通过从云端来获取所需要的服务内容,所谓“云端”就是指网络资源。一般来说,“云”中的资源是可以无限扩展的,使用者可以随时按需获取和使用这些资源,也可以随时扩展资源内容,然后按照对资源的使用情况付费。由于云计算的这种特性类似于日常生活中的水电资源服务,因此它也被称作IT基础设施。

如果将云计算的概念扩大化,把它扩张到服务领域,那么所有通过网络来满足用户需求并且易扩展的服务都可以称作云计算,这种服务可以是互联网相关的硬件、软件,也可以是存储、下载等其他服务。

云计算的典型应用就是苹果iCloud。在iCloud上,苹果用户不仅可以上传各种资料以节省硬盘空间,还能够同步不同苹果设备中的文件、日程等,如果用户在某一台设备上对云端的资料进行了修改,iCloud还能够帮助用户同步到其他苹果设备并对旧文件进行备份以备用户需要。iCloud为用户提供了免费的5 G云端硬盘空间,如果用户有需求,可以付费扩容并享受更多服务。

从iCloud的使用模式可以看出,云计算服务提供了一种分布式架构——多个智能终端共同同步云端资料,而大数据的应用处理必然无法依靠单独的计算机,必须使用分布式架构,因此云计算刚好能够为大数据处理提供便利条件。

从技术上看,大数据和云计算的关系就像一枚硬币的正反两面一样相辅相成、密不可分。依托云计算的分布式架构和云端存储、虚拟化技术,大数据能够充分发挥它对海量数据的挖掘能力。从整体上看,云计算为大数据处理提供了计算资源的底层架构,是上层数据分析处理软件的基础。

那么,云计算为何能够帮助大数据将庞大的数据信息转化成经济效益呢?这里主要包括以下四个方面的原因,如图1-1所示。

1. 作为提取大数据的前提

在数据量不断增长的信息社会,获得足够多的数据才是企业从大数据中获得利益的前提。而想要提取出大数据,来自于各种云端强大的云计算能力必不可少。云端不仅为提取大数据提供了足够的硬盘空间,还能够以较低的成本提取尽量多的数据资源,这一点在大数据产品普遍偏贵的条件下显得尤为重要。图1-1 云计算帮助大数据的具体表现

2. 过滤无效数据

在大数据的初次收集中,有接近90%的数据属于无效数据,这是由互联网数据本身的特点决定的。既然无法保证数据全部有效,那么就必须找到一种技术过滤掉无效数据。一般来说需要重点过滤掉的无效数据有两大类,一是大量的临时缓存信息,二是公司防火墙外的网络数据。

由于云计算可以按照需求进行扩展计算和存储资源,所以经过一定的设计后云计算就可用来过滤这些无效数据,常见的公有云就是用于过滤来自公司防火墙外部的无效网络数据的最佳工具。

3. 可高效分析数据

云计算能够为大数据计算提供分布式软件处理方式,用以高效快速地进行数据分析。如果将公有云和私有云结合,就可以在数据分析完成后利用私有云将数据分析结果导入公司内部,方便公司进行下一步的运营决策。

4. 助力企业管理虚拟化

随着市场更新的速度也来越快,企业管理模式也追求突破有形界限的虚拟化管理,希望在有限的资源条件下实现资源效率的最大化。由于云计算就是硬件资源的虚拟化,因此当企业运用大数据分析结果指导决策时,如果加上云平台的使用,就能够通过云端应用决策指导所需软件,将决策顺利转化到企业现有的管理系统中,助力企业管理虚拟化。

从美国国家标准与技术研究院对云计算的定义来看,云计算是一种按使用量付费的服务模式。由于它能够快速为用户提供资源,减少14交互所需步骤和时间,用于计算时能够实现每秒10次的运算速度,可用来模拟核爆炸、预测市场等。

从用途上看,云计算的应用潜力和大数据不谋而合,云计算与大数据如同手心手背的关系,二者相辅相成。云计算的存在,为大数据技术挖掘数据背后的价值提供了平台。

简单来说,大数据拥有三层架构体系,包括数据存储体系、数据处理体系和数据分析体系。数据存储体系是大数据收集并存储数据资源的支撑;数据处理体系包括无效数据的过滤和基础建模等工作;数据分析体系则会根据具体情况做出结论预测,产生相应价值。

云计算能够从存储到处理再到分析给大数据技术提供全面的技术支持,云计算的并行计算和分布式计算能力都在大数据体系中具有不可或缺的重要作用。除了技术层面,云计算还能够利用其分布式架构的特点,极大地降低企业在挖掘数据背后价值时的成本投入。

云计算通过自身和大数据的重合特点以及强大的运算能力为大数据技术提供了发展的平台。虽然云计算概念比大数据概念提出得早,但正是大数据的出现让云计算的优势有了发挥的空间。与此同时,云计算和大数据结合也为大数据提供了牢固的基石,让大数据能够在技术上充分发挥数据的价值。1.1.2 物联网

物联网概念由麻省理工学院的Kevin Ashton于1999年第一次提出,他认为,物联网是通过射频识别(RFID)技术和传感器技术结合运用于日常生活中形成的网络。

在2005年国际电信联盟报告中,物联网概念有了拓展:“物联网是通过RFID和智能计算等技术实现全世界设备互联的网络。”之后,IBM在2008年将此概念更进一步地拓展到了全部事物,形成了现在广义上的物联网概念:“把传感器设备安装到各种物体中,并且普遍链接形成网络,即 ‘物联网’,进而在此基础上形成 ‘智慧地球’。”由此看来,物联网概念的提出很早,但其统一意义上的概念的形成是在互联网的发展已经成熟的基础上的。

物联网(Internet of Things,IoT)即万物相联形成的网络。在物联网的概念下,能够帮助人们利用已有的互联网技术将其与实际生活中的物品充分融合,实现远距离控制和高效操作,进而发现身边事物的另一面,走进新世界。

经过几年的实际应用,物联网的优势已经得到了充分体现。(1)从经济价值角度,物联网帮助在现有的网络设施上实现多功能融合产物的实际应用,通过保留原有设施而不增加新设备的方式,使得成本大幅减少。(2)从知识融合度来说,物联网的概念发展于“互联网”和“物品”两个已有知识的互相交融,便于大家接纳和理解,这是一些新概念难以做到的。(3)从信息交换来说,由于物联网是建立在互联网技术上的,通过物联网实现信息交互和访问时不会造成额外的损耗,也不需要建立新技术以适应物联网。(4)从应用价值来说,物联网的特点能够使它应用于工业生产流水线作业上,在监测反馈把控、物流跟踪、零售业等领域能够及时反馈信息,减少损失。“万物互联”的物联网时代不仅解决了人们在日常生活中遇到的平常但重要的问题,更重要的是它为大数据技术提供了一个良好的技术平台,能够实现所有产业的数据化目标并产生更多的价值。物联网时代的到来使大数据有了用武之地,是大数据时代的重要基石之一。

物联网的基石作用主要体现在为大数据提供并收集大量数据上。在物联网中,设备被改造成和传感器等设备相联的数字设备,每一个设备都能够成为收集并产生数据的节点,而这些数据量将是100 GB甚至10 TB的数量级。与以往不同的是,创造数据的主角由人变成了随处可见的物联设备。这一巨大的改变,意味着大数据进入了一个全新的时代。

企业通过物联网可以收集到比以往任何时候都多的数据,这些数据能够为企业管理者提供新的管理思路和分析策略,以适应新时代下的竞争。

物联网为大数据提供了各种通过智能设备产生的数据,例如电表、医疗记录、地铁检票记录等。在以往,这些数据虽然产生了,但是并没有被充分利用。在物联网时代来临后,这些数据就有了新的利用思路,可以爆发出更大的力量。常见的利用物联网思维带来的大数据利用场景,如图1-2所示。图1-2 物联网下的大数据的利用场景

1. 提供交通管制解决方案

交通管理设备(如地铁检票设备、公交刷卡设备等)能够接入物联网中提供即时、真实的交通相关数据。收集这些数据能够帮助大数据分析工具提供最实时的路况信息源,通过对这些公交、地铁的人流量分析,大数据软件能够得到最真实的交通信息,便于提供最佳的交通调节方案。如果在其中引入智能手机的数据信息,就能够进一步扩大物联网的交通信息和路况数据,也能够让大数据的分析结果面向所有普通人,让更多人避免糟糕的出行体验。

2. 在物流仓储领域提升工作效率

在过去,物流仓储领域的效率高低极度依赖人们的经验,对物流速度的预判和工作人员的操作熟练程度都能够极大地影响工作效率。因此物流行业对此的解决方案也大多是从这两方面出发,提升货物的摆放、调取和流通效率。但由于各种客观因素,这些解决方案收效甚微。

当物联网支持下的大数据技术进入物流行业之后,商品物流情况、中转站货架情况和配送地情况就能够通过物联设备实现实时更新,全面且海量的数据能够帮助大数据不断优化工作模板,实现货车的最优匹配,也能实现货架的高效利用。在以物联网为基础的大数据参与指导的新型物流仓库体系中,货物摆放工作时间能够缩短8%,货车利用效率也有了明显提升,物流仓储业务的工作效率得到了极大的提升。

3. 在金融领域节省运营成本

在金融领域,通过将物联网与大数据的有机结合能够实时分析出各个分支机构的运营成绩,为金融机构节省巨大的运营成本。

以金融机构存取款机的监控为例,通过物联网技术,每一个存取款机的使用数据都能够通过该终端产生并收集起来,再通过大数据软件对其使用状况进行监测与分析,就能够分析出给各个存取款机中补充现金的最佳时刻,既能避免人流量较大地区的存取款机现金不足的情况,也能避免人流量较少地区出现存取款机现金充足甚至过多但一直无人取款的低效现象的出现,从而给出运钞车的最佳配送方案,大大降低运营成本。

在“万物相联”的思想下,现实社会中的所有现象与行为都可以转变为数据,通过数据的形式被获取。由于物联网收集的数据是传统网络社交数据的补充,是以在各种设备上产生的数据为基础的,它能够发现除了人类活动数据以外的海量数据,大大丰富了大数据的内涵。因此,物联网为大数据的全面发展提供了更为全面的支持,是其重要基石之一。1.1.3 移动互联网技术

习近平曾在贵州视察了当地大数据产业发展情况后表示:“贵州发展大数据确实有道理”,加上“互联网+”早已经写入政府工作报告中,显而易见,“互联网+”与大数据产业发展都已经上升到国家战略,是社会未来的发展方向。“互联网+”的典型代表就是移动互联网。移动互联网是指移动通信和互联网技术相结合,囊括了从技术到商业应用各个方面的实践活动。随着移动智能设备的快速发展和4G时代的来临,移动互联网的发展也加快了步伐。移动互联网的快速发展,带来了各种应用数据的井喷式增长,给大数据产业的发展创造了便利条件。

在移动互联网技术中,个性化、精准化成为了行业的重要要求,而这正是大数据所擅长的。移动互联网为大数据提供众多数据资源,大数据分析数据反哺移动互联网创造出更多精细化应用,两者相辅相成。从大数据产业的角度来看,移动互联网提供了充分的原始资源和广阔的应用场景,是大数据产业发展的重要基石。在移动互联网下运用大数据技术有以下几个明显的优势,如图1-3所示。图1-3 移动互联网下运用大数据的优势

1. 有助于互联网创业者获得准确的数据参考

在移动智能手机获得了广泛的应用后,各类移动APP也层出不穷,许多互联网公司的成功都是由一款火爆的APP开始的,那么考量移动互联网中现有各类APP的转化、留存和用户活跃程度对于创业者来说就是非常重要的。而由于APP的数量数以万计,而且每分每秒都有新的APP在不断产生,在分析行业现状时,大数据的应用就显得十分必要。

腾讯旗下的应用分发平台应用宝就是将移动应用和大数据分析结合为一体的APP。从大数据应用来说,应用宝是依托于整个腾讯公司的用户数据的,掌握了接近80%的互联网用户数据,能够准确刻画出互联网用户画像,推测用户对应用的需求和评价。通过这些数据,应用宝每隔一段时间都会发布出移动应用的排行榜,给创业者提供了准确的行业数据参考。

2. 有利于移动应用公司为用户提供精准的信息推送

移动应用开发者总是希望自己的消息推送能够不断吸引用户点击软件,以此获得收益。因此互联网服务的一个重要领域就是通过深度挖掘用户行为数据,协助开发者完善产品评估,实现更精准的用户推送消息设定,并进一步实现更多运营决策。

在移动应用的各种数据中,有一类数据是与用户息息相关却又经常被忽略了的,这类数据就是位置信息。在移动互联时代,绝大多数的移动应用都与定位服务有关。高德地图作为中国技术领先的地图LBS服务提供商,提供了基于位置数据的大数据分析服务。

高德地图开放平台的数据服务能够基于位置信息预测用户所处的场景,为软件开发商提供符合用户需要的推送消息。高德地图的大数据服务既基于地图应用收集数据,也利用数据辅助移动应用实现精准推送。

3. 能够影响政府管理思维

移动互联网下的大数据应用能够协助国家管理层利用互联网思维做出与时俱进的管理决策。新闻类APP“国务院”是一款公众和政府交流互动的移动应用,一经上线就刷爆了朋友圈以及各大应用平台。“国务院”的火爆证明了新一代的人民群众并不是不关心国家大事,而是更喜欢通过移动设备获取信息。通过“国务院”,国家管理人员能够更加直接地获取群众的反馈数据,有利于带动国家体制不断完善。“国务院”的出现说明移动互联网给经济、政治乃至国家层面都带来了重要的影响,加上大数据技术分析群众数据,移动互联网下的大数据能够为政府带来更加符合时代潮流的管理思维。

移动互联网大数据时代的来临是必然的,而且会涉及各行各业。众多移动软件依托移动互联网技术给大数据带来了更多的数据资源,也极大地丰富了大数据的类型;同时大数据也为移动软件提供了更加个性化以及精准化的服务。

经过多年经营,大型企业已经积累了非常多的内部数据,以前的公司运营就是依靠这些已知的内部数据挖掘对公司最有效的信息。而随着云计算、物联网和移动互联网技术的快速发展,数据的量和种类都有了明显的提升。

如果把以前的公司内部数据比作矿山,那么这些新式公开的互联网数据就是“沙海”——提供了含金的资源但需要用与挖矿不同的角度去开发利用。云计算、物联网、移动互联网这三大技术的发展,扩展了大数据的范围,促进了大数据产业真正的发展。怎样在新的角度去思考数据、处理数据,都是企业所需要面对的新挑战和新机遇。1.2 大数据发展面临五大困境

大数据作为一项新型技术,虽然给各行业带来了新的发展和突破,但也因为技术的不完善面临发展的困境。目前普遍认为大数据产业的困境有以下五个方面:优质可用数据少、信息壁垒严重、数据处理有困境、实践应用障碍多、云管理失误多。本节将从这五个方面出发,详细阐述大数据行业的困境,以求尽量全面地描述大数据产业的现状。1.2.1 优质可用数据少

随着大数据行业的兴起,数据价值得到了充分的肯定,“数据变现”也成为许多拥有大量数据资源的企业的新产业,比较成功的“数据变现”商业模式有利用数据支撑生活服务(如健康、教育等),也有利用数据分析指导营销策略的方式。许多企业看到了数据的价值,就积攒了许多数据在手里,但是企业搜集的数据是否真的优质、是否能够发挥作用,并没有得到验证。

大数据产业的核心价值在于做出趋势预测,以网络营销为例(这也是大数据行业获得最多应用的领域之一),数据驱动带来了更精准的效果,这需要建立在优质数据的基础上。但是由于数据采集过程不完善,企业获得的数据往往是不够优质的,这样就带来了数据清洗的问题。每次在进行数据分析之前,数据科学家都要花费大量的时间在数据清洗上,既造成了人力资源的浪费,又使得最后可用的数据不够多。

要想充分理解大数据产业在数据质量上的窘境,就要先介绍一下数据的质量评定有些什么样的标准,优质数据又有着什么样的特征。数据质量指数据能够反映实际情况的程度高低,一般通过以下五个方面进行衡量和评价,如图1-4所示。图1-4 数据质量评价标准

1. 准确性

准确性是指数据在系统中的值与真实值相比的符合情况,常见的数据准确性问题有数据的值与实际值不同(数据来源出现问题)、与业务规范出现冲突(行业规范不完善或执行不力导致)等问题。当数据的准确性出现问题时,数据最基本的要求就已经达不到了,自然是劣质的数据。

2. 完整性

数据的完整性是指数据的完备程度,是否囊括了所需的所有方面的数据信息。常见数据完整性问题包括系统未设定提取字段导致的相关数据的缺失和采集过程不全面导致的数据不完整等问题。当发生了数据完整性问题时,数据对实际情况的描述就不够全面,那么根据这些数据建立的数据模型就容易发生以偏概全的问题。

3. 一致性

一致性是指大数据软件系统内外部数据源之间的数据一致程度问题,包括数据形式是否一致、数据格式是否统一等。数据一致性在数据联动的过程中非常重要,如果系统间应该相同的数据却不一致,就容易造成系统的报错和停止运行。

由于大数据数量庞大,且数据间的联动是大数据产业中常见的互动,数据的一致性具有非常重要的作用。但因为大数据产业尚且缺乏统一的数据规范,不同企业间对数据的具体要求都不同,这给大数据产业带来了相当大的处理困境。

4. 及时性

及时性是指数据在采集、传送、处理等环节对应用的快速支持能力的描述,考察的是数据的时间性能。优质的数据能够实现在规定时间内完成系统所需数据的更新要求,而质量不够高的数据不能满足这一点,会给数据的后续处理带来不良影响。

5. 可用性

可用性是用来衡量数据项整合和应用的可用程度的指标,常见可用性问题包括数据缺乏可应用功能(数据不具备可加工性,不能建立数据模型)、缺乏可整合性(数据过于分散,没有内在联系)等。不具有可用性的数据对企业来说不仅没有好处,反而会因为降低数据的价值密度,给企业带来损失,因此可用性是衡量数据质量的重要因素。

在现在的大数据行业中,由于缺乏统一的大数据规范,数据的量虽然多,但是数据的质量却不高,仅仅收集了数据,并不意味着就能够得到战略上的应用指导。数据的质量直接影响了大数据预测结果的可靠性,优质数据的获取对大数据的发展至关重要。许多具有前瞻性的企业已经意识到了这一点,开始积极地进行大数据质量管理工作。但由于大数据已经深入到了各个行业,要想统一数量管理标准并非易事,所以大数据的优化还有很长的路要走。

大数据时代带来了海量多样的数据,使对市场进行广泛且深入的分析成为可能,但这必须有优质数据作为支撑。优质的数据可以为大数据应用提供更高的上限,而低质量的数据则必然拉低数据产业的下限,由此可见,数据质量是大数据行业的重要标杆。而尴尬的是,由于大数据产业的兴起过快,业内并没有统一规范的数据衡量标准,因此造成了优质可用数据少的现状,为大数据产业带来了困境。1.2.2 信息壁垒严重

大数据产业的一大特征就是数据的关联性强,著名的“谷歌预测流感”事件就是大数据关联应用的成功案例。随着大数据产业的成熟,数据的关联场景也越来越多,例如支付宝的支付数据和用户的公交卡使用数据相联合,就能够为企业刻画出完整的用户日常出行路线和门店消费喜好。单独的数据通过中间元素的串联,能够产生“1+1>2”的效果,数据的价值也呈指数型增长。

关联的数据越多,数据联合产生的“滚雪球”的效果越明显。这也从另一方面证明了数据必须要经过流通互动才能产生更大的价值。但是真正开始实施数据关联时,就会发现实际操作并没有想象得那么简单,大数据产业中的信息壁垒仍十分严重,主要的具体因素有以下三点,如图1-5所示。图1-5 大数据产业信息壁垒的具体因素

1. 数据安全与信任问题

数据资源分散在不同的企业组织中,想要让不同行业的数据发生关联,必然需要将数据交付到另一方企业,或者双方将数据交付至一个共同的第三方平台以交易的形式发生数据交换,这也是大数据产业目前最常见的商业模式即大数据交易中心。

由于数据的特殊性,大数据交易平台能否保证数据不被泄露成为了阻碍大数据交易的首要问题。数据的安全和信任问题成为大数据产业出现信息壁垒的重要因素。

2. 数据统一问题

单纯从数据关联的技术手段来看,数据关联也存在着许多问题,比如不同公司对同一类型数据的分类标准不同、使用单位不同,这都给数据的融合统一带来了很大的困难。而数据不能统一,就不能够直接被利用,这也给大数据造成了信息壁垒。

3. 存储与传输问题

目前大数据的数据库为了适应不同的要求,有着不同的架构设计,这也就导致了在发生数据传输时会有着不同的传输方式。而想要发生数据的联合,必须要创造出能够适应不同数据源的架构,这显然是一个非常困难的问题。不能够用统一的方式解决数据存储和传输问题也给打破数据的信息壁垒带来了不小的困难。

国际数据公司(IDC)对大数据行业的统计及预测显示,预计到2020年,全球大数据总存储量将会达到44ZB(1ZB约等于1210GB)。这么多的数据因为壁垒的存在,都处于沉睡的状态,并不能发挥出它们应有的能力。

针对我国大数据行业的信息壁垒现象,中关村大数据产业联盟秘书长赵国栋表示,相比于行业间的数据流通,政企之间的壁垒更是一块沉睡数据的“集聚地”。目前一些上市数据如股权占比、科研数据都是价值密度比较高的沉睡数据。

目前,数据壁垒普遍存在于政企之间、企业和企业之间,其中,有80%以上的信息数据资源掌握在各级政府部门手里,而不同区域的部门间基本实现信息共享的省级地区仅占13%。由此可见,我国政府部门的信息共享和业务协同能力在地市和区县进展缓慢。

在政企之间这种壁垒显得更加明显,从中国信息通信研究院对国内800多家企业的大数据使用调研结果来看,企业所使用的大数据的主要来源仍是其公司内部数据,有32%的企业数据来源是外部购买数据,而使用了政府开放数据的企业只有18%。

而数据开放的优势是可以预见的,上海至信普林科技有限公司总经理顾敏洁曾对数据开放持有非常乐观的态度,“如果更多数据可以开放,将会对产业转型、政务和公共服务效率提升等大有裨益。比如中国人民银行上海总部自2006年起公开金融信息后,催生了一批金融信息咨询服务公司,其中还有5家上市公司,拉动的就业人数也非常可观。”

数据开放的优势如此显著,但是由于信息壁垒的因素,现有大数据行业还远不能达到成熟的共享开放,甚至已经开放的数据也是“开放的孤岛”,比如一些机构以“数据共享”的名义公布的类似停车位数量、非标准化的图表等形式的数据,这些数据由于不可机读,不具备真正整合数据的价值,属于“伪开放”。

全国信息安全标准化技术委员会大数据标准工作组成员张群对数据整合开放的意见是“不同行业数据整合必然需要标准化的数据格式,比如从卫生、人口的角度用数据对 ‘人’ 进行的描述就是不一样的。”

因此真正属于开放性质的数据在技术上应该是具有标准形式的,可以直接被计算机抓取、调用。针对目前大数据行业的现状,在技术上实现对数据的整合开放显然还有一段距离。

另外,要想顺利打破数据间的信息壁垒,还要推进大数据行业的法律法规机制,并且应结合应用场景有目的地实现开放,而非为了开放而开放。中关村大数据产业联盟副秘书长陈新河说:“政企间或者政府牵头整合数据仍应围绕应用场景、项目工程来,否则目前 ‘唤醒’ 的数据早晚也会重新 ‘落满灰尘’。”

无论从技术上看,还是从法律上看,大数据行业的信息壁垒都是一个十分严峻的事实,阻碍着大数据行业进一步发展。如果没有较好的解决办法,大数据行业的未来将十分危险。1.2.3 数据处理有困境

前两小节提到的问题都属于数据来源的问题,而大数据除了数据来源存在困境,其数据处理过程在现在也存在困境,主要可以从企业和技术两个大方面进行讨论。

在企业方面,数据处理的概念更加倾向于是对数据进行控制。企业需要控制对数据的访问权,也需要知道数据的来源和去向、数据的动态情况、数据是否已被修改、数据的处理方式及相关决策等,因此企业对大数据的掌控能力就显得十分重要。在企业应用方面,大数据的处理困境主要有以下三个具体表现,如图1-6所示。图1-6 大数据处理困境在企业方面的表现

1. 缺乏大数据分析技能

一家零售公司的首席执行官曾让CIO构建一个客户推荐引擎,希望实现对用户的个性化推荐。但是由于数据分析技能的缺乏,该项目并不能按照预期的计划那样在半年内完成,因此,团队成员提出了做一个“假的推荐引擎”:默认所有人都会买床单,给不论买了什么的用户都推荐床单用品。

尽管不能否认这款引擎确实带动了企业的销售额,但是实际上它并未实现真正意义上的大数据处理下的个性化推荐,而这正是由于其对大数据分析技能的缺失导致的。

2. 问题梳理不够全面

对问题的考虑不够全面也是企业在进行大数据处理应用上常犯的错误,许多公司考虑了大数据应用场景的各个方面,却忘记考虑意外发生时的处理办法。例如曾有一家跨国公司的大数据团队经过研究发现了很多值得应用的成果,并且计划通过云平台把这些成果让全公司共享。结果由于团队没有考虑网络堵塞的问题,全球各个分部无法顺畅提交数据进行数据分析,实际应用受限。

因为网络基础设施的故障导致大数据项目失败的案例不胜枚举,这给企业在进行大数据分析应用时带来了不小的挑战。

3. 低估大数据复杂程度

还有的企业希望能够通过大数据分析建立一个完美的模型能够统一解决所有问题,实际上这是大大低估了大数据复杂程度的做法。

在美国曾有几个互联网金融公司专门做中小企业贷款的金融业务,由于中小企业贷款涉及的数据更复杂,且行业数据在金融业都是比较特殊的类别,根据不同的情况,合同的类型和报表标准都不同,这给互联网公司的工作人员带来了很多专业上的问题。

大数据团队希望利用大数据分析建立一个全能的数据模型解决所有问题,但由于数据的复杂程度过高,大数据团队不仅没能成功建立预想的数据模型,反而花了大量的时间去清理所收集到的数据。其他类似的例子还有许多,都反映了企业因低估大数据的复杂程度带来的数据处理难题。

除了在企业方面的数据处理困境,大数据在技术上也遇到了瓶颈。目前大数据的处理平台以Hadoop为主,但由于其体系缺乏多租户支持、多用户数据安全性能不够高、数据兼容困难等原因,很难成为公共云服务。因此实现大数据处理平台的更新也成为了大数据处理的重要问题。

无论是从企业在大数据的分析应用方面,还是从大数据行业的技术突破方面来看,大数据在数据处理上都确实遇到了不小的困境,需要新的思维方式和技术手段帮助创新。1.2.4 实践应用障碍多

大数据行业发展至今,虽然给众多行业带来了从内至外的改变,但在实践运用上,理论技术和商业实践之间依然存在巨大的鸿沟。在实践应用方面,主要有以下几个难点,如图1-7所示。图1-7 大数据在实践应用上的难点

1. 缺少专业数据分析人才

职业社交平台领英发布的《2016年中国互联网最热职位人才报告》显示,中国互联网职业中数据分析人才最为稀缺,其供给指数仅为0.05,属于高度稀缺类别。

根据上海CPDA授权中心市场运营总监Sherry的分析,在数据化已经成为趋势的市场中,数据分析将成为未来所有互联网员工最基本的职业技能,针对大数据分析的人才需求必会越来越大。没有足够的人才,大数据行业也就不能得到充分发展。

2. 现有数据模型相对陈旧

在大数据行业中,有许多成熟的数据模型得到了实际的应用,但这些模型由于是很久以前发布的,在技术上有许多不再适用的地方。

例如有些金融机构所用FICO评分模型是20世纪80年代提出的,是一种基于逻辑回归算法构建的评分体系。因为逻辑回归算法只适用于处理线性数据,因此在面对实际场景中的非线性数据时,FICO评分模型不够准确。

在互联网技术日益成熟的今天,大数据模型如果仍旧沿用陈旧的体系必然会在实践应用中受到阻碍,这也是大数据在实现应用落地时遇到的难点之一。

3. 数据建模对场景细分不够

由于大数据行业技术手段存在瓶颈,在大数据建模上只能模拟出一些较大的分类情况,如果运用在实际应用中,就会出现模型功能不够细化的问题。

曾有一家汽车制造商决定通过开展一个情感分析项目,将得到的结果运用在指导销售模式上。情感分析调查项目进行了6个月,前后总共花费了1,000万美元。项目结束之后,公司对调查结果进行了分析并分享给了经销商。然而在实践中,数据分析得出的营销模式却被证明是错误的。

项目失败的原因在于数据团队对经销商所面临的具体场景不够了解,对数据进行建模时场景设定得不够细致,从而导致实践应用中数据模型毫无价值。

北京宸信征信有限公司董事长张为斌在接受采访时表示,数据建模时“不仅仅需要引入自然科学建模,还需要引入基于社会科学的、人文历史的思考,把这些维度引入算法中”。有些数据公司没有考虑实际应用场景,直接套用国外的大数据模型,往往会出现功能无法满足具体场景的情况,这对现有的大数据应用提出了非常大的挑战。1.2.5 云管理失误多

云管理(Cloud Management)是借助云计算技术和其他相关技术(如移动互联网等),在云计算平台上建立集中式管理系统,通过严密的权限管理和安全技术手段实现数据和信息的管理。随着企业数字化管理的推进,云管理也渐渐成为各大公司的新式管理手段。

但云管理在为企业带来便利的同时,也因为自身技术的颠覆性思维给企业带来了许多挑战。首先管理和跟踪多个云环境是相当繁重的任务,尤其是为了适应日益增加的数据和处理能力需求,企业的云计算平台有着越来越高的性能要求;其次对于企业而言,混合云的多云统一管理技术、计量计费方式和对运行环境的稳定性要求等都对企业的技术人员提出了新的挑战。

在面临挑战的同时,云管理的失误案例也给企业在应用大数据时带来了一些阴影。微软Azuer的存储服务曾在半年内由于软件更新性能出现了两次大规模断电事故;微软Office 365在一年的时间内持续出现用户邮件服务脱机的事件;美国医改健康网站HealthCare.gov因为设计不良多次崩溃……

这些大规模的云管理失败案例出现的频率之高、带来的损失之大,都给大数据行业带来了进一步发展的阻力。原本云计算的出现是大数据发展的重要助力,但云管理的失误却反过来阻碍了大数据发展。

大数据建立在云计算的基础上,通过云管理的手段进一步实现大数据的管理应用是必然的,但现实中屡屡发生的云管理失误案例让大数据行业在企业管理方面受到了质疑,如果没有新的技术手段来帮助大数据技术突破,大数据的发展将一直停留在现有的困境中。1.3 区块链发展的三个阶段:1.0—2.0—3.0

在大数据行业遇到瓶颈的同时,区块链技术以颠覆性的思维方式迅速获得了大众的关注并为大数据提供了突破瓶颈的解决方案。区块链从概念提出至今,一共经历了三个主要阶段,分别是以“货币”为代表的区块链1.0、以“合约”为代表的区块链2.0和现在具有新应用潜力的区块链3.0。1.3.1 区块链1.0:货币

如果一提到区块链,人们最先想到的概念肯定是比特币。实际上,比特币是区块链1.0应用最典型的代表,区块链1.0是比特币的底层支持技术。区块链技术实际上是作为针对中心化问题带来的一系列短板的解决方案而出现的,通过实现了以比特币为代表的可编程货币而引发众人关注。

在区块链技术出现以前,金融行业一直被两大问题所困扰:双花问题和拜占庭将军问题。

其中双花问题是指由于数字资产的可复制性带来的难以验证某笔资产是否已经被花掉的问题;拜占庭将军问题则是以战场做比较,类似于将军间彼此不信任但是需要某种沟通机制来保证合作的场景。

针对双花问题,现在的解决方案是依托可信赖的第三方机构如支付宝等进行资产交易记录,但是这种方式不能解决拜占庭将军问题,甚至因为第三方机构的不透明性带来了更多的信任问题。

区块链的基本思想是创造一个公共式账本,账本上的每一笔交易都由区块链网络上各个节点查看和验证,无须额外的一个中心化的机构进行监督管理,这样就使得交易透明化,解决了双花问题,也解决了拜占庭将军问题。具体来讲,区块链的优势有以下四点,如图1-8所示。图1-8 区块链的优势

1. 运营成本低

区块链体系由整个网络共同维护,不需要专门的人力物力去维持其运转,运营成本比其他的数据库要低。

2. 算法共识实现跨地区互信

区块链以数学算法为背书,信任的产生不受参与者文化背景的干扰,能够让不同的人群获得基于算法的共识,实现跨地区互信。

3. 具有良好的健壮性

由于分布式账本的特点,区块链系统中任一节点都具有所有交易信息的备份信息,即使某一节点损坏或者失去,都会不影响整个系统的运作,区块链因此具有良好的健壮性。

4. 出现假账的可能性低

因为区块链是全网公开透明的,所有节点共同监督验证每一笔交易的进行和记录,降低了假账出现的可能性。1.3.2 区块链2.0:合约

与解决了货币和支付手段中信任问题的去中心化的区块链1.0相比,区块链2.0的改革更加宏观,是针对了整个市场的去中心化。利用区块链2.0,可以实现多种资产的数字化。基于区块链可编程的特点,区块链2.0实现了可编程金融,其中智能合约的应用最为瞩目。

智能合约的核心是利用程序算法替代人类执行合同,“一切皆代码”。通过建立无法更改的智能合约,一切可自动执行的条款都能够在代码的更迭下实现,不需要额外的人力物力资源去进行监管,且不给违约者留下任何可以违约的机会。

在智能合约体系中包含了三个基本要素:要约、承诺和价值交换。智能合约的出现,重新定义了区块链的应用形式,将区块链的应用形式从基本的货币体系成功延伸到金融行业的其他应用领域。通过区块链的去中心化账本功能,智能合约能够帮助实现各种资产在区块链上的注册、存储和交易,股权众筹、证券交易等领域因为智能合约的出现逐渐有了区块链的应用落地。

如果说比特币是区块链1.0的代表产物,给金融业带来了一种全新的金融货币体系,那么,完成了智能合约的以太坊就是区块链2.0的核心代表。以太坊构建的区块链依靠其可追溯、不可篡改等特性形成了全网共识的信任基础,为智能合约提供了可执行的环境,实现了合约的自动化、智能化目标。

除了基本的自动执行合约条款功能外,智能合约技术还有以下应用场景,如图1-9所示。图1-9 智能合约技术应用场景

1. 数字身份验证

为了保障资产安全,金融机构一直十分重视用户身份认证工作。传统的验证方式是让顾客来企业亲面亲签,这种认证方式不仅给用户带去许多麻烦,也让中介机构投入大量资源。

基于智能合约技术,就可以有效弱化第三方中心机构在数据监控和用户身份验证中的作用,而且可以避免人为因素带来的操作风险,通过代码的自动执行使检查变得简单高效。

2. 用户信息记录

借助区块链技术的分布式账本和加密技术,用户的数据可以形成一条透明、可监管、可溯源、防篡改且私密的信用链条。智能合约因此能够帮助监管方实现数据监管,保障数据授权使用的合法性,降低风险。

3. 资产数据共享

智能合约还可以促进资产数据的共享。在用户同意的前提下,平台的用户数据可以尽可能透明公开,投资人就可以通过这些数据判断出投资的风险和收益到底如何,降低了发生金融欺诈事件的概率。

区块链2.0以智能合约技术为主要特点,给整个金融行业带来了新的应用场景,加快了区块链技术的应用落地。1.3.3 区块链3.0:新应用

Token的出现是区块链进入3.0时代的标志。Token是指区块链网络上的价值载体,作用和现实世界中的代币或者通行证类似。不同于简单的数字货币,Token的出现能够对现有社会关系产生重大影响甚至带来颠覆性的变革。

Token是对每个实际参与者贡献的奖励,也就是说区块链3.0时代下的每一个区块链成员都将成为生产资本的拥有者。这种新型的生产关系激励着所有的互联网用户积极地贡献自己的生产力,是对生产力的一次极大解放。

在前两个阶段的基础上,大大解放了生产力的区块链3.0能够拓展出更多新的典型应用,如图1-10所示。图1-10 区块链3.0应用

1. 自动化采购

区块链能够实现货物的自动化采购。在智能合约等的支持下,只要用户提前写好了合约内容并充值成功,区块链就能够自动实现获取的购买请求,节省了大量人力物力成本,且不易出错。

2. 智能化物联网

区块链能够通过分布式账本应用到分布式的物联网建设中。通过区块链的方案,可以在物联网中建立信用机制,监控、管理各个智能设备,同时利用智能合约技术来规范智能设备的行为。

3. 供应链自动化管理

采用区块链的方案,每个商品从出处到物流到签收的全部供应链信息都会有区块链的详细记录。区块链提供了一个共享的全局账本,一旦出现任何变化,都能够追踪溯源到最初的因素。

4. 虚拟资产兑换、 转移

利用区块链技术可以实现虚拟资产公开、公正的转移,这些虚拟资产包括游戏币、游戏装备等,它们在现实世界中无实体,但仍具有较高的经济价值。传统的资产交易方式在虚拟资产的兑换和转移方面有诸多不便,利用区块链技术则可以轻松实现。

5. 产权登记

采用区块链技术来登记产权,包括动产、不动产和虚拟的数字资产等,都能够保障公正、防伪、不可篡改以及可审计等产权常见要求,实现资产明确化。

由这些设想可以看出,在区块链2.0的基础上,区块链3.0的应用方向更加倾向应用逻辑及商业逻辑层面,区块链3.0将注定给社会带去更多实际的新变革。1.4 区块链技术的七大行业应用

因为区块链带来了一种“颠覆式的创新思维”,从思想上为人类的社会活动开辟了新的方向,所以区块链将能够给人类生活的各个方面带来变革。根据各行各业的领军人物对区块链技术的看法,大致上总结出了以下7个区块链技术能够大有所为的行业:金融、医疗、物联网、知识产权管理、智慧能源以及供应链。1.4.1 区块链在金融行业的五大应用场景

区块链在金融行业的应用场景十分广阔,在图1-11中列举了五类具体的场景。图1-11 区块链在金融行业的应用场景举例

1. 数字货币

区块链在数字货币场景中的应用可以帮助提高数字货币的发行和使用的便利性。以比特币为代表的基于区块链技术的数字货币正在改变着人们对货币的观念。由于数字货币以区块链技术做支撑,具有安全、便利、交易成本低等特点,尤其适用于电子金融和电子商务行业对货币的要求。

以比特币为代表的数字货币已经在各个国家获得了一定程度的承认,有一些国家已经开始推行国家版数字货币,例如厄瓜多尔就率先推出了国家版数字货币。厄瓜多尔实行国家版数字货币,不仅降低了政府的货币发行成本、增加了货币使用的便利性,还便于没有银行等金融服务机构的偏远地区民众能通过区块链上的数字化平台获得金融服务。

2. 跨境支付与结算

区块链技术能够帮助实现点到点交易,减少中间费用,在跨境支付与结算中具有极大的应用前景。当前的跨境支付结算业务都有着时间长、费用高的特点,这跟跨境交易必须通过多重中间环节有关。

如果在跨境交易业务中应用区块链,将可摒弃各种中转银行进行的中间转换,直接实现点到点的快速高效且成本低廉的跨境支付。不仅如此,区块链安全、透明、低风险的特性还给跨境交易带来了更高的安全性。

根据麦肯锡的测算,区块链技术支持下的B2 B跨境支付与结算业务能够把交易成本从每笔26美元降低到每笔15美元,也就是说降低了42%以上的交易成本。

已经有公司尝试性地搭建了通过区块链技术实现跨境支付的平台,例如Circle公司。Circle利用区块链技术实现C2C的跨境即时转账业务,已经获得了由英国政府颁发的首张电子货币牌照。

Circle获得英国政府的认证说明区块链在跨境支付与结算上确实有巨大的应用潜力,现有的金融交易体系极有可能被高效率低成本的新型技术手段颠覆。

3. 票据与供应链金融业务

在现在的票据和供应链金融业务中,由于各个环节都需要人为参与,不仅人工成本较高,而且带来了巨大的操作风险。

如果在行业中应用区块链技术,就能大量减少人工参与的情景,一方面实现了降低人工成本的目标,另一方面也带来了操作过程的透明化,减少了违规交易和人工操作失误。

根据麦肯锡的推算,如果在全球范围内的金融业务中推广实现区块链技术,能够帮助银行和贸易融资企业大幅降低成本,比如银行的运营成本一年就可降低135亿~150亿美元,风险成本可缩减11亿~16亿美元。不仅如此,有了区块链技术,整个行业的交易效率都会大幅提升,进而提高交易者的收益。

4. 证券发行与交易

现有的证券发行与交易的流程手续十分繁杂,而且由于流程过长业务办理的效率也十分低下,证券交易日和交割日之间存在1~3天的时间间隔。

运用区块链技术则能够实现准证券行业实时资产转移,加速交易清算速度。这是由于区块链技术能够通过共享的网络系统将原本高度依赖中介的证券交易事务转变为分散式的平面网络交易模式,大大提高了市场效率,能够将证券交易日和交割日的时间间隔从1~3天缩短至10 min。

5. 客户征信与反欺诈

为了满足越来越严格的监管要求和防止金融犯罪事件的发生,银行在客户征信和反欺诈上投入了越来越多的人力物力成本,这已经成为银行极大的负担。

区块链技术恰好能够改变现有的征信体系,存储所有用户的交易记录并生成信用评估,这样就为银行省去了大量的客户调研工作,节省了成本。同时区块链能够为银行提供共享的客户信用数据,在客户交易有异常行为出现时及时预警,降低欺诈行为出现的风险。

区块链能够为金融行业带来更加透明的交易流程和更低的交易成本,能够在金融行业的各个方面提供技术支持,是金融行业进行创新的一大助力。1.4.2 区块链在医疗行业的六大发展机遇

随着数字化医疗的推进,医疗行业也迎来了服务模式转变的重要时期。区块链在医疗行业的发展机遇有以下六大方面,如图1-12所示。图1-12 区块链在医疗行业的六大发展机遇

1. 解决网络安全威胁问题

尽管医疗行业有许多严格的法律法规来确保病人数据的安全和隐私,但日益严峻的网络安全隐患也让数字化医疗的发展受到了考验。

根据IBM安全研究机构波耐蒙研究所的数据分析结果来看,近年来医疗机构在防止数据泄露方面的成本有所增加,而其他行业则下降了10%,突出的对比结果预示着医疗行业在解决网络安全威胁上有着更为迫切的需求。

随着联网医疗设备的增多,医疗设备的网络安全系统成为影响医疗行业网络安全的关键因素。如果把医疗设备中现有的安全系统更改为基于区块链的系统,就可以为设备提供一层额外的保护。

因为区块链支持下安全系统使用的是分布式网络共识算法,整个网络中的所有用户共同管理监督数据内容,同时凭借内置的加密技术能够保证所有数字事件的记录不可篡改也不可能被破解。通过这种新的区块链技术,整个医疗数字系统面对网络安全威胁时有了更高的防御能力。

2. 提高医疗数据互操作性

随着数字化医疗的发展,良好的医疗数据互操作性具有十分重要的意义。而真正的互操作性不仅仅意味着医疗数据的信息交换,更加考验两个或多个系统或实体互相信任、责任共担的能力。

利用区块链技术,医疗数据可以实现加密共享的目标,能够实现分散式交互。同时如果在现有的HIT系统基础上融入区块链技术,就能够替换现有医疗数据交互工作中存在的第三方托付者,大大提高数据流通的可靠性和效率。

3. 有助于提高用户对医疗数据的掌控度

在数字医疗出现之后,消费者对自己医疗数据的关注度大大提高,并对主动参与到自己的医疗方案定制中抱有极大的热情。根据

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载