为数据而生:大数据创新实践(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-13 12:54:15

点击下载

作者:周涛

出版社:北京联合出版公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

为数据而生:大数据创新实践

为数据而生:大数据创新实践试读:

版权信息COPYRIGHT INFORMATION书名:为数据而生:大数据创新实践作者:周涛排版:Clementine出版社:北京联合出版公司出版时间:2016-04-01ISBN:9787550275836本书由天津湛庐图书有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —

献给我的父母,

他们的爱让我长大。

献给我的爱人,

她的爱让我永远不需要长大。自序在麻瓜和魔法师之间作出选择

我在中科大读本科的时候,上过一门关于“符号计算”的课程。当时授课的老师跟我们说,她以前曾经花很多年的工夫学习和研究过“怎么样在以穿孔纸带为输入方式的计算机上高效实现一些数值计算”。当时她的研究水平和成果在国内应该是领先的,本以为就靠此成就大业了,但是很快,这个世界上突然就再也找不到博物馆以外的穿孔纸带了——我们现在都用键盘和鼠标了。

纸带机的故事让我想起了一个有些悲伤的段子,我且用第一人称复述一遍。我有一个表哥,因为盗窃被抓。表哥负责藏赃销赃,团伙其他人不知道赃物在哪里,他也死活不承认自己知道,结果被重判了10年监禁。坐牢之后老婆也跑了,亲戚朋友也散了,只有我还时不时去看望一下,带些东西。直到快出狱的时候,表哥才跟我说,等出狱了要带我一起发大财。我当时特别激动,经常在梦中被大富大贵的场景惊醒,也觉得自己真的是好心有好报。等表哥出狱的时候,我隆重地给他接风洗尘。表哥也迫不及待,当晚就买了两把大铁锹,拉着我去郊外一个林子里挖宝。“是金条?是银元?”我激动不已,表哥却笑而不答。我们大半夜挖出了两个大铁箱,然后用铁锹把生锈的锁头劈开,哇,满满两铁箱的传呼机。

讲这两个例子,是想说我们这个时代变化太快——这个时代的特征就是有很多新时代层出不穷。而咱们中国人,最最悲哀的事情,就是经常以为自己是时代的精英,最终却成了时代的弃儿。N年以前最让人艳羡的一群人,不是大学生,而是国有企业的工人。他们或许没有想到有一天自己的“金饭碗”会被打破,贫病下岗。现在又有一大群人,削尖脑袋想挤进公务员或者事业单位人员的队伍,好一辈子守着公务员编制或者事业编制。对,就是这群扑火的人,会在未来编制改革的时候看清楚自己飞蛾的本体。什么样的人才能在下一个时代生存和发展

那么,问题来了,什么样的人才能在下一个时代生存和发展呢?是那些拥有公务员编制或者事业编制的人吗?在下一个时代,自动化、定量化和个性化会成为主要的特征。恒河沙数的智能终端将会遍布这个世界——从农场到工业制造装置,从智能家居到人体内外。这些智能终端采集和产生的数据,经由数据挖掘和机器学习的手段加工分析,不仅能够提高传统农业、工业的效率,还能够为每一个人提供包括教育、零售、娱乐、金融和医疗等方面完全个性化的服务。驱动这个时代来临的关键力量是数据与数据化的思维。

拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!不管你今天从事的是什么行业,金融、医疗、教育甚至只是一个一线的产业工人或者服务人员,你所在的行业将来都很可能被颠覆,你现在的职业将来都可能变成一种自动化的服务。面对奇幻而又危险的未来世界,今天你就需要在麻瓜和魔法师之间作出选择!在一个麻瓜占绝大多数的世界里面,做一个麻瓜也没有什么不好的,然而很可能,未来的世界是一个魔法世界,你还满足于做一个麻瓜吗?用数据说话,做最棒的魔法师

最棒的魔法师,是既深谙大数据的理念,又掌握着大数据的核心技术。但是,对于绝大部分人来说,后者是有困难的。我想特别强调的是,即便你不能掌握一项特定的数据技术,了解大数据的理念,培养大数据的思维模式,也是非常重要的——不管你从事什么工作,这种大数据的思维模式都是有帮助的。事实上,我一直觉得类似于统计学(包括概率论、数理统计、统计物理等)和机器学习的理念,对于我们理解这个世界都是有帮助的,应该有一些生动的科普书,把这些重要的理念用通俗的语言告诉大家。

数据化思维的核心是什么?就是定量化,或者说“用数据说话”。主观能动性当然是我们人类的重要能力,特别是行业专家的思路和判断往往非常重要,效果甚至好于机器学习的结果。但是,一切的评估都要定量化。举个例子来说,要证明一个营销行为B比营销行为A更好,必须要无偏地把用户划分成两个群,一个接受A一个接受B,然后通过对比来验证两者的效果。政府做决策的时候,例如改变医保的规则,也需要充分的数据支撑,提前能够量化这个改变带来的效果,并且时时监督政策实施后的结果。学会用数据来说明“哪个更好哪个更坏”,是数据化思维的第一步。作出让世界尊重的原始创新

当魔法师的另一个好处,就是我们可以进入魔法世界——这是一个浪漫的战争世界,我们必须变得更强,才能打倒伏地魔!

在我读大学的时候,我们的案头枕边,放着的是茨威格的《异端的权利》,是索尔仁尼琴的《古拉格群岛》,我们追忆和供奉几千年来为了人类进步付出甚至牺牲的科学家、哲学家、文学家、政治家,等等,我们能够非常清楚地说出哪些人是世界的脊梁。我们在字里行间追寻中国最苦难最黑暗的时代,羡慕在那个时代战斗的英雄,我们急切地希望这个时代能够让我们为民族的复兴战斗——尽管可能不是用刀枪!

我不知道我们这一代,是不是中国流淌着战斗血液的最后一代大学生。我们现在面对的是不一样的战场,不是刺刀机枪,而是要做让世界尊重的原始创新。我在这本书里面描写了很多在大数据领域努力拼搏希望有所创新的中国人,尽管他们中的绝大部分距离成功还非常远,但我希望他们的故事以及这些故事背后的理念、技术和精神,能够唤起更多的创新者。

有两个问题,我希望每一个读者都问问自己。第一,在你的一主中,有没有可能作出类似于SpaceX和AlphaGo这样让世界尊重的原始创新。人生特别美好的一件事情,就是通过努力,把一件看起来不可能的事情做成!这个问题可以换一个问法,就是如果有10个最聪明厉害的人,愿意3~5年竭尽全力为你工作,你会和他们一起做一件什么事情?第二,你所做的事情,能够为我们的国家乃至整个世界,产主什么样的重大贡献。建一个色情网站、开发一款暴力游戏,也能挣大钱,而且很快。致力于优化教育资源或医疗资源的配置,可能非常苦非常慢,挣钱也不如暴力游戏,但是可能改变甚至拯救一大群人。如果让我选择,我会选择后者。事实上,你所贡献的要比你所得到的更能体现你的价值!

有些了解我创业历史的人,掰着手指数我的企业和资产,几千万、几亿、几十亿……然后看着我千年不变的穿着,就认为我是一个艰苦朴素不懂得享乐的人,甚至笑话我是榆木脑袋。其实恰恰相反,我是一个非常了解生活品质,而且非常资深的吃货,也从来不觉得高级的享受是一种耻辱。我有很多非常喜欢吃的东西,而且往往都价格不菲:巴西松子、车厘子、山竹、哈根达斯朗姆酒味的冰淇淋……有的时候,我在超市里面或者路上看到这些东西,非常想吃非常想买,但是我都会问自己,我最近几天做了什么贡献,有什么成果,是否配得上去享受这些东西。绝大多数时候,我都忍住了。

序终于写完了,我去买山竹了,啦啦里啦啦。

忽如一夜春风来,千“数”万“数”梨花开。大数据这个概念突然之间席卷全球,势不可当!“荒林春雨足,新笋迸龙雏”。很多研究人员似乎感受到了春意的召唤,抖抖身子,“呼哧呼哧”就变成了大数据的专家。他们发表大数据的文章、撰写大数据的著作、提交大数据的报告、召开大数据的会议、申请大数据的项目,在一个本来纯粹而美好的概念身上喷涂了一夜暴富的泡沫。这种没有准备也没有判断的一拥而上,会使我们迷恋浅表的形式,而无法吮吸深刻的内容。新时代的宫门正缓缓开启,而我们中的大部分人,注定会一边山呼新时代万岁的口号,一边埋头冲进旁边的厕所。十年回首,先机已失,“山回路转不见君,雪上空留马行处”。本部分将教会大家分辨,何处是宫殿,何处是厕所。Part1大数据时代,用数据说话

上帝创造了整数,所有其余的数都是人造的。利奥波德·克罗内克德国数学家和逻辑学家01 从万物皆数到万事皆数BIG DATA INNOVATION

不管我们心中是否还带着对旧时代的眷恋和对新时代的惶恐,一个“一切都被记录,一切都被分析”的数据化时代的到来,是不可抗拒的。任何一个试图去阻止新时代到来的人,都会成为旧时代的关门人和关灯者。

四岁的时候,我搬到成都玉林小区无线电七厂的住宅区,一住就是二十多年,直到现在还时不时回去。住宅区旁边有一个花园,两千多平方米的面积,很小的一块绿地。不过,那时候还没有那么多麻将桌贴在它脸上,因此草木更葱郁,虫蚁也更繁忙。在街头电子游戏机还没有风行的时候,这湾小园承载了我童年大部分流连的身影。

在我算不上合群的童年生活中,有一件事情让身边的小伙伴们都惊呆了。花园里面种着一种树,似乎是柏树,但又有些不像。树只有四五米高,挂着一身一簇簇并在一起的叶子,到了冬天,大约一半还绿着,另外一半会失水变成深褐色。大概是小学三四年级的样子,那时候我每天中午都会从学校回来,在花园边上的“育苗食堂”吃午饭,然后回家午睡。有天中午刚吃过饭,不知道自己当时是怎么想的,我拿出一盒火柴去点那树的叶子。火借风势,如大鹏展翅,扶摇直上,也就十几秒钟的光景,把整棵树都点着了。四五米高的火焰跳跃在我面前,所有黄色的叶子都变成了火,而绿色的部分还依然绿着,只是“噼噼啪啪”失水呻吟。我不知道大江健三郎先生有没有亲历过类似的场面,我当时仰望这燃烧的绿树,俨然有一种宗教般的崇高与沉醉,现在想想,不过是渺小和畏惧的变体罢了。

在我的记忆中,点火烧树这件事情在我们小区广为流传,很长的一段时间里都让我风光不已。遗憾的是,我没有办法将彼时彼刻确切而生动的画面分享给我现在的朋友,更让我失望的是,最近和当年同一个院子里面长大的伙伴们说到此事,他们竟然已经完全没有印象了。至于亲长记忆中我的成长轶事:妈妈说我这辈子说的第一个词是“嘎嘎”,在四川话中是肉的意思,可见天生吃货;五舅妈说我小时候特别调皮,一溜烟跑过自由市场,要把所有豆腐摊子上面的豆腐都戳一个小洞,害得卖豆腐的远远看见我就要把豆腐盖上……这些有趣的故事,在我的记忆中是一点儿影子都没有了。

刚刚搬到玉林小区的时候,单位宿舍楼的外面就是一条小河,河对面是大片的农田。有时候,趁着爸爸妈妈不在,我们一群小屁孩儿取出藏好的“棍棒刀枪”,就到河对面去“远足探险”,往往因为带回来玉米、青蛙等成果,而被爸爸妈妈发现、教育。后来我们学聪明了,在河边整理了一小块空地,搬几块砖垒一个简单的灶,搞些树枝废纸点燃,把这些就地取材的东西加上从家里偷的土豆、红薯和各色调料,当场烧烤吃掉。现在想起来,其实爸爸妈妈应该是早就知道了,不然谁会经常到家里偷走土豆红薯,然后又一脸煤灰地回来。不说破,是因为不忍破坏我们的开心。

现在,我们的房子紧贴着一环路,算是城市中心的中心了。小河变成了马路,河对面的那块空地变成了交通银行一个很大的营业厅。好几次我和朋友路过此处,讲起以前童年的故事,都难以把营业厅里面取号等候的人群和“昨天”蹲在灶火边上等着红薯变熟的那群孩子联系在一起。有时候我自己都无法相信,今天这个被钢铁和金钱武装到了牙齿的伟大城市,曾经不过是绿水乡村柔软的延伸。

以前看法国作家帕特里克·莫迪亚诺(Patrick Modiano)的中篇小说《青春咖啡馆》,其中有一名外号叫“船长”的人,在一个红色塑料封皮的笔记本上,记录了三年来光顾孔岱咖啡馆的每一位客人进来时的确切日期和时刻,一共记满了190页。我一直以为这只是一种小说家的夸张手法,却不知道借助现代的技术,我身边的朋友做得比“船长”还要细致。

前几个月,我去拜访一个朋友,他家里有一个一岁四个月的小女孩儿,很可爱。在孩子房间的一角有一个很小的摄像头,视野覆盖了房间里大部分的空间,小孩子在这个房间里面绝大部分的活动都被这个摄像头记录下来了。朋友告诉我,这个摄像头一天记录的视频压缩存储,也就2GB左右的数据量,他们把每天的视频做成一个文件,小孩子从出生到一岁的所有记录,用一个移动硬盘就能全部存储下来了。孩子的母亲兴冲冲地把硬盘接上电脑,给我看小孩子满百天的样子、第一次摇摇晃晃站起来的样子、“抓周”时候纠结犹豫的样子……

对于爸爸妈妈而言,这些记录无疑是有用的,在他们年轻的时候,不会错过小孩子成长中每一个重大的飞跃;当他们慢慢老去,孩子也离开自己身边出去闯荡的时候,他们随时可以重温曾经的快乐温馨。

对于孩子而言,我不知道拥有这种记录到底是幸运抑或不幸。幸运的是,他们永远都不会在记忆的泥沼中迷失,因为有“标准答案”可以随时查证。不幸的是,他们失去了在记忆中重塑自己过去的机会:童年变成数据,定格在硬盘中,既不可能变得更好,也不可能变得更坏!

我读《神雕侠侣》不下十遍,前前后后,自己心目中小龙女这个人物的相貌和性情变化很大,既有自身感情离合的原因,也有彼时彼刻不同心境的原因。后来看了热播的电视剧,再想起小龙女这个角色,脑海里一定出现李若彤的形象,想赶也赶不走。

所以说,记忆中的童年是缤纷梦幻的,数据中的童年是不容置疑的,前者属于自己,后者属于大家。不仅属于大家,还抢走了原来属于自己的!主动或被动,我们都是数据贡献者

不管我们心中是否还带着对旧时代的眷恋和对新时代的惶恐,一个“一切都被记录,一切都被分析”的数据化时代的到来,是不可抗拒的。亲爱的朋友,如果你希望像纸版的《新闻周刊》一样,用血肉之躯抵挡互联网的巨轮,又或者学习张勋,重新蓄起辫子,向着过去狂奔,那我只能为你奏一曲挽歌。

人类是数据化舞台上当仁不让的绝对主角!

首先,我们自己主动贡献了大量的数据。

想想艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)[1]在他的著作《爆发》中介绍的三个例子:艺术家哈桑·伊拉希因为不满安全局对他的监视,干脆自己主动在网站www.trackingtransience.net上面记录了他所有到过地方的位置和数万张他所到之处的照片和场景;微软研究院的戈登·贝尔(Gordon Bell)十多年来一直随身携带一个能够自动拍下他眼前每个人照片的数码相机,以及一个能够随意捕捉身边大范围内的各种声响的录音机;麻省理工学院媒体实验室的德布·罗伊在家里安装了11个摄像头和14个麦克风,记录了数十万小时的音像资料。

看起来这些只是极端的个例,实际上,我们在主动贡献数据方面和他们没有多大的区别。我们去淘宝买东西、从网上下载各种软件和游戏、到医院刷卡看病、预订机票和火车票、在网络上发表博文、通过QQ聊天、去大众点评赞美成都火锅、去社区银行办理金融业务、到ATM机取款、向杂志投稿、给糗事百科写笑话、成为某会所的高级会员、到4S店维护汽车、在微信上摇朋友、去酒店开房入住……我们刷各种各样的卡、读取各种各样的证件、在线上写各种各样的东西、在线下填各种各样的表格,等等,都是一次次主动向不同的系统提供数据。

其次,在我们不知情或者意识不到的时候,很多数据已经被记录下来——我们也是数据被动的贡献者。

在浏览网页的时候,浏览器自身以及各种插件和Cookie都会记录你所访问过的网页以及你在这些网页上的点击。所以,当你打开自己儿子电脑的浏览器,发现推荐的网页都是色情的,千万不要投诉浏览器的开发团队。

在你搜索的时候,搜索引擎会记录你的搜索关键词以及在搜索结果中的点击行为,事实上像百度这样的企业,能够准确地判断出绝大多数电脑面前坐着的到底是男是女,也知道此人是资深屌丝还是高富帅。在你走路的时候,公安局的天网系统会记录下你的视频,如果你不相信的话,到火车站这类防盗抢的要地,贼眉鼠眼地来回走上一段时间,没准儿就有便衣来找你了。

在你打开手机之后——如果你用的是智能手机——你的位置和运动、安装和激活的应用、展示和点击的广告都会被记录下来;在你驱动汽车之后——如果你开的是一部好车——你的所有操作:油门、刹车、方向盘、离合器、挡位调整,等等,都会被主控电脑记录下来;在你打开电视之后——如果你用的是智能电视——你在遥控器上的所有操作以及你正在观看的电视节目都会被记录下来。一切都被记录,一切都被分析

除了人类自身,动物、植物和大自然也为我们贡献了可观的数据。我们在很多动物身上装上便携式的定位器或传感器,记录它们迁徙、狩猎的运动轨迹和环境特征;我们利用外太空的巨型天文望远镜和地表观测站的望远镜阵列来记录宇宙中曾经发生和正在发生的事情;我们整合温度、湿度、颗粒物、特定化学成分的探测设备,记录空气的质量;我们在主要河道的两边建设大量监测点,实时记录水位、流量、流速和水质。

政府、企业、科研机构、环保团体等共同构筑了一个巨大的棱镜。这个棱镜的一方是万生纷沓的数据,另一方是被肢解后等待分析的各色数据。不仅万物自身在其中,它们的行为、变化和关联也被忠实地记录下来。数据采集从静态变为动态,从记物扩展到载事,数据量也指数级地爆炸增长。数态万千

中国的运营商每天要记录50亿通电话,一家大型连锁超市每天的消费记录达到6000万条,百度每天要处理超过10亿次的访问请求,而Facebook一个月仅照片就会更新10亿张。根据IBM最近的估计,我们每天新产生的数据量达到2.5×1018字节。这个数字有多大呢?如果一个汉字占据2个字节,把它写在一张纸上需要1平方厘米,那么我们每3秒产生的数据,若是打印出来,可以把钓鱼岛严严实实地覆盖1000次。四大方面,让数据指数级增长

在可以想见的不远的将来,数据量的爆炸性增长还将继续。这些增长的数据,在很大程度上有赖于四个方面的发展。

第一,通过愈来愈强基于智能终端的通信,个人行为的数据将被深度采集。其中既包括桌面电脑和智能手机这种已经普及的终端形态,还包括各种智能家电和智能汽车,以及未来可以从我们的手表、手机和眼镜中投射到玻璃上甚至空气中的全息互动屏幕。

第二,针对人体主理信号和主物信息的采集,将产主巨量的新增数据。未来的健康保障机构,将通过存储和分析个人的基因信息,为不同个体提供量身定做的个性化医疗方案。当你的某些器官,甚至大脑的某些特定区域出现不可逆转的病变时,通过3D全息技术,可以用人工培养甚至3D打印的器官完成移植手术,还可以通过脑机接口(brain-computer interface,BCI)[2]和微芯片的植入,激活甚至增强你的大脑中的某些功能。更可观的是,通过某些非干预的随身设备,包括项链、手环、眼镜、耳塞、戒指,等等,我们可以实时采集你的生理信号,包括心跳、血压、血糖等基本信号,以及睡眠状况、新陈代谢水平等综合指数,这些数据被传到云端的服务器,通过分析计算,实时监控和管理你的个人健康。

第三,通过无处不在的各种传感器,大自然中发主的点滴变化都会事无巨细地被翻译成数据。传感器的发展正在经历几十年前发生在电子计算机上的一幕——它们变得更加小巧,更加便宜,同时却更加精确,拥有更强大的通信能力。越来越多的传感器被投放到大自然中,监察江河湖泊中的氮磷含量、土地的盐碱化程度、空气中的可入肺颗粒物(PM2.5)的数量……除了对环境的常态分析之外,很多传感器还将服务于对自然灾害的预警,包括森林火灾、地震、火山爆发,等等。未来,以传感器为代表的小型设备所采集的数据,以及这些设备之间通信产生的数据,将成为新增数据的主要构成。

第四,大型的科学研究将产主巨量的数据。欧洲核子研究组织在瑞士日内瓦建设了人类历史上最大规模的粒子对撞机,它每秒能够产生40TB的实验数据,相当于40000部高清电影。正是通过对这些数据的分析,我们找到了一篇在50年前并不起眼的论文,在这篇论文的最后,相当隐晦地提到了一个有质量且自旋为0的玻色子[3],从而,人类比历史上任何时期都更接近创造世界的神的本质。数态万千

数据化本身,或许还走在数据挖掘和分析之前,将成为未来十年极其可观的一个大产业方向。据互联网数据中心(Internet Data Center,IDC)预测,到2020年,全球将有300亿具有互联互通功能的智能终端,这些终端将成为更多数据的来源。仅这一项就将带来高达8.9万亿美元的收入预期。中国将在数据化产业中扮演关键角色,预计到2030年,一个中国的家庭平均会拥有40~50个智能传感器,这些传感器每年将产生200TB的数据。

将来总会有一天,我们的大脑活动会被记录分析,我们的身体姿态和微表情也会被记录分析。

我们因为微微出汗而改变的皮肤湿度和导电能力会出卖我们内心的紧张,我们身体的微微颤动会出卖我们灵魂的悸动。如果需要,我们在表白之前就能够预测到被拒绝的概率,我们还能够自动知道我们的伴侣最需要的礼物——通过对他/她在各处留下的数据轨迹的深入分析。如果需要,我们可以建立一座直达天堂的巴别塔[4],因为文化和文化、语言和语言之间都可以互相翻译。在一个由数据、计算和模型统治的世界里,文化多样性将丧失赖以存在的立足点。那个时候,我们或许不会再犯巨大的错误,因为错误的决定在出现之前就已经被数据和计算所否定。那个时候,我们或许也不会承受巨大的痛苦,因为我们与伴侣性格是否匹配、有多大的可能性能够白头偕老,都是可以计算并且排序的,所以我们在恋爱中遇到挫折、在婚姻中遭受背叛的可能性都会很低很低。

唯一幸运的是,我,以及看到这本书的每一位读者,在这一天到来之前,都已经去世了。02 从十数九表到数态万千BIG DATA INNOVATION

从数据自身的发展变化来看,我们已经经历了从“十数九表”到“数态万千”的变化,但是绝大多数企业在数据分析和应用方面,还依然停留在利用传统分析软件处理表格数据的阶段。那么,一个大型企业或者教育机构,怎么培养能够适应非结构化数据分析处理需求的员工和学生呢?

正如我们之前看到的,数据总量爆炸式地增长,绝大部分的数据和运算已经不能仅凭“纸、笔和聪明的头脑”完成了,而需要我们动用计算机的力量了。人可能是最挑食的动物,计算机也一样会挑食,它最喜欢吃的数据,叫作结构化数据。结构化数据

在一般意义上,结构化数据是指可以用一个二维表表示的数据。每个数据项在里面占据一行,例如在个人的特征属性表中,每个人占一行,这一行对应的特征可能是年龄、性别、职业类型、出生地点、居住地点……每一个特征对应一列,每一个特征的取值范围和存储所需的数据量都有清晰的界定。表2-1是一个二维表格,列出了我这几年看过的五本书的基本信息,是典型的结构化数据。

结构化数据背后的逻辑简单明了,不仅人容易理解,计算机也容易理解。一旦数据被整理成一张一张的表格,就有非常多成熟的数据挖掘和分析软件,可以自动化地从这些表格中获得洞见。

例如,利用表2-1的数据,我们可以探索什么因素和累计的销量关系最大:出版社、出版时间、图书类型、作者还是价格?有的时候,需要把多个因素组合起来分析,比如经济学的书卖得贵一点儿也没关系,但是小说最好便宜一些。把多个因素组合起来分析也并不困难,我们只需要多增加一些新特征列,包含这些组合项就可以了。对于计算机而言,这更不是什么困难的事情。有的时候,通过两两甚至三元、四元组合,我们从几十个基本特征出发,会得到数亿个特征项。虽然计算量增加了,但是计算背后的逻辑并没有变化。基于这些结构化数据的关联分析,当一本新书出版之后,我们还能够利用分析的模型对它未来的销量进行预测。表2-1结构化数据表示例

在进行预测的时候,我们也许会发现,结果不如我们期待的那么准确。因为这些简单的属性,以及属性之间的各种组合,还远远不足以刻画一本图书的质量和销量。吸引一个读者的因素很多,其中最重要的是书的内容,特别是简介、序言和书的开头部分,因为读者往往会阅读这些内容以判断是否购买。其他的因素还有很多,比如封面和封底的设计就很重要——简洁而有质感的封面往往能在第一时间打动我,“豆瓣”上面有价值的深度评论也很重要——我当然更愿意相信爱书者的评论而不是出版商的宣传。然而,这些明显具有很高价值的数据的引入,会给原本简单的“结构化数据处理方法”带来麻烦。

我们当然可以在这个表中新增加三列内容:● 一列叫作封面设计● 一列叫作正文文本● 一列叫作读者评价

第一列存放一个图片文件,第二列存放一个文本文件,第三列存放若干个文本文件。但是,由于这三个新增列的内容既不是一个具体的数值,也不是在有限的分类中的一个确定的类别,我们原来的处理办法一下子“瘫痪”了。除非是通过某种办法,我们能够利用图片文件和文本文件得到对于图片质量、吸引力、与图书主题的匹配度、全文阅读流畅感、文笔水平、读者评价倾向性等指标定量化的估计,然后把这些估计得到的特征变成新的列,放入刚才的表格中进行关联分析和预测。非结构化数据

这里提到的“某种方法”,代表了大数据时代一种典型的技术挑战:如何从形形色色的非结构化数据中,提取出有用的、可以量化或分类的信息。提取出来的信息既可以转化为某种结构化大表中的若干特征项,也可以直接应用,后面我们会介绍很多这样的例子。

以前,这类技术没有受到像现在这样的重视,是因为在所有等待处理的数据中,结构化的数据占据了大半江山。但是几年前,非结构化数据的总量超过了结构化数据,2014年新增数据中非结构化数据在总量上的占比超过了80%,2015年这个比例超过了85%。与此同时,非结构化数据增长的速度是结构化数据增速的两倍以上,这就使得未来非结构化数据的占比还要增加。因此,在现在以及可以预期的将来,如何处理非结构化的数据一直会是大数据挖掘分析的中心问题之一。

之所以处理非结构化数据难度很大,是因为非结构化数据形态各异,没有办法找到统一的分析挖掘的方法。除了刚才的例子以外,还存在很多不同种类的非结构化数据,比如:● 中国联通客户服务部收到的语音投诉记录● 搜狗上的视频内容以及相关的搜索和点播记录● 新浪微博的关注关系网络● 顺丰快递的送货车辆记录下来的GPS行驶轨迹● 科学网上的博文和评论记录● 大亚湾实验室的中微子通量数据● 公安部门多点采集的视频记录● 医院CT设备扫描得到的医学影像……

这些数据涵盖了文本、图片、音频、视频、时空序列、网络等不同形态。相应地,针对不同种类的非结构化数据,我们所希望通过这些数据得到的价值也各不相同:● 中国联通希望知道用户投诉的焦点问题是什么,以及如何从声音中判断投诉者的情绪。● 搜狗希望建立一个跨媒体的个性化的搜索和推荐系统,为用户提供更贴心的服务。● 新浪希望找到不同领域中最有影响力的用户,并且顺便把僵尸粉和广告粉都剔除掉。● 顺丰想探索有没有更好的办法能够优化出车任务的配置和相应的行车路线。● 科学网想要了解目前学术界关注的焦点问题是什么。● 大亚湾实验室希望深入了解中微子的基本特性,以求解决反物质消失之谜。● 公安部门希望在海量的视频记录中查找特定的人物、车辆和器件。● 医院希望得到对于肿瘤情况的准确诊断。……

不同形态的数据,不同的价值诉求,都要求不同的数据挖掘和分析方法。一方面,我们可以很幸运地坐下来观赏各种或惊鸿一现或大巧若拙的算法如雨后春笋一般嘟嘟嘟往外冒;另一方面,我们很遗憾,没有办法写出一本叫作《非结构化数据处理的方法论》的教材。尽管计算机处理问题背后的逻辑和方法有迹可寻,但我们不能要求一个能够从有烟雾遮挡和背景干扰的图片中识别主体的高手,快速学会如何从博客文本中挖掘博主的情绪、性格和心理特征。尽管从特征中挖掘关联、因果和进行预测的方法具有极大的共通性,但是我个人预计,从不同类别的数据中提炼出最有价值的特征,将变成越来越专门化的技术。就像二十一世纪不会有类似于戴维·希尔伯特(David Hilbert)[5]这样的数学通才一样,二十一世纪也不大可能存在精通各种不同形态数据处理方法的技术通才。

从数据自身的发展变化来看,我们已经经历了从“十数九表”到“数态万千”的变化,但是绝大多数企业在数据分析和应用方面,还依然停留在“利用传统分析软件处理表格数据”的阶段。

那么,一个大型企业或者教育机构,怎么培养能够适应非结构化数据分析处理需求的员工和学生呢?是不是因为不同数据的处理方法各不相同,我们在安排课程和培训的时候就只能抓狂了呢?是不是我们只能从最具体的需求出发,通过一些实践性的课程培养学生和员工呢?我不同意这种想法,因为过早地让学生接触非常细节的问题,容易让他们迷失。

数学教学体系又出来给我们上课了。尽管不同的数学分支已经渐行渐远,我们不会随便抓住一个理论或方法就交给学生学习。如果这样的话,很可能你会被导师要求学习望月新一的新方法[6],那就恭喜了,十年时间你都难以入门!反过来,大学生一进来,我们让他们学习《微积分》和《线性代数》,因为这两门学科既最有代表性,也是将来应用最广泛的。进一步地,当我们要学习偏微分方程(在理论物理专业,这个课程叫作数学物理方程)的时候,我们既不奢望穷尽一切可能的偏微分方程,也不是一下子进入一个个互不关联的具体方程的求解技巧中,而是在介绍了一些基本的概念、方法和技巧之后,从我们最常遇到的方程类入手进行详细的分析,例如波动方程、热传导方程和拉普拉斯方程。

所以说,如果要给出明确的建议,我认为应该开一门“非结构化数据挖掘”的课程,首先简单回顾和介绍数据库和机器学习的基本概念和方法,然后选择六种类型的数据:文本、图像、语音、网络、空间轨迹和时间序列,这就像是波动方程、热传导方程和拉普拉斯方程一样,既是理解普适性理念的最好例子,也是最常遇到也最具应用前景的例子。

文本数据。我们能够容易获取的最丰富的非结构化数据,也是目前价值密度(单位数据量中能够挖掘出来的价值大小)最大的一种非结构化数据。通过对文本数据的分析,我们能够了解兴趣、评价、情绪、关联和趋势,等等。

图像和语音。仅次于文本的常见的数据形态。目前,前者的分析方法和应用场景都比后者丰富,但是,最近语音的应用场景有爆发性的增长,因此,我认为语音分析的技术在未来会特别受欢迎。视频数据的分析技术从某种意义上讲是基于图像的,当然,视频分析中的部分技术,例如对特定对象的动态追踪、不损失有效内容的压缩和定位视频的主角,等等,都是仅靠图像分析不能完成的。由于这些技术可以看成是图像分析和若干技术的组合,所以没有单独强调视频分析。

网络。需要受到特别重视的一类数据结构,不仅仅电话通信关系、社会交际关系等可以通过网络表达,金融系统的“企业-企业”和“企业-个人”资金流、电子商务中的“用户-商品”浏览购买记录、物流系统的供销关系,甚至电视节目之间的竞争关系都可以甚至需要通过网络表示——可以这么说,哪里有关系,哪里就有网络。网络数据不仅仅要求例如GraphLab[7]这样的高效率计算框架,更需要在图挖掘算法方面的创新和突破。

空间轨迹。利用车载或者手机GPS,我们能够采集到越来越多交通工具和个人的空间轨迹,这些轨迹的分析,对于从基于位置的个性化服务到城市的区域布局和交通规划都有重要的作用。

时间序列。对时间序列的分析,从宏观上讲能够让我们预测到未来的发展趋势,察觉到可能的失稳甚至危机;从微观上讲能够从用户的活跃序列中分析用户的特征,设计更好的服务方案。时空数据有机融合后的深入挖掘分析会带来以前没有的巨大价值,而这方面的技术和人才储备基本是零[8]。

读者在本书后面无数的实际应用案例中会一次又一次看到这些数据的巨大价值。与此同时,我希望能够引起大家的思考和行动:怎么在中国培养出一批能够适应数据形态变化的数据挖掘和数据分析的人才?03 从隔水相望到阡陌交通BIG DATA INNOVATION

以前的数据与数据,就像漂浮在大海上的一个个孤岛,隔水相望却没有途径互相到达。而现在,连接不同岛屿之间的通路开始建立,大海孤岛的图景正在向着平原上阡陌交通的不同村落快速过渡。

大数据真正的精髓,还不是数据量的爆炸性增长和数据形态的多样性,而是数据与数据之间关联形式的变化。以前的数据与数据,就像漂浮在大海上的一个个孤岛,隔水相望却没有途径互相到达。而现在,一方面由于海岛自身面积的增大——得益于数据量的增加,另一方面由于海上交通工具的发明——得益于打通不同数据的技术和商业努力,连接不同岛屿之间的通路开始建立。大海孤岛的图景正在向着平原上阡陌交通的不同村落快速过渡。地点数据

举个例子来说,“中关村云基地”是位于中关村软件广场上的一栋不高的办公楼。在北京的智慧城市建设项目中,我们能够找到关于这栋楼的文本描述;通过百度、高德、腾讯等地理信息数据接口,我们可以定位它的经纬度范围;通过北京市公安局公安交通管理局提供的地面磁感圈和摄像头的数据,我们能够知道有多少车辆通过了这栋楼、有多少车辆停在这里(车的主人极有可能是在这里办公),大部分车辆的车牌和车型通过摄像头数据都是可以识别的;通过顺丰、申通等快递公司的快递单,我们知道与这栋楼相关的物流情况;通过进出这栋楼的智能手机设备标识码及GPS数据,我们可以估计出在这栋楼里面工作的员工人数、他们大致的消费水平、他们在北京居住在哪些地方,等等;通过分析互联网招聘信息和招聘地址的经纬度范围,我们能够找到和这栋办公楼里的企业有关的招聘信息;通过对微博或签到等APP经纬度的分析,我们能够挖掘一些到过这栋楼并且签到的人……未来,Google眼镜还会泄露出这栋楼里里外外的图片和文本信息,从而我们可以自动地用这些图片和文本在互联网上搜索到相关媒体和论坛对这里的报道或讨论。个人数据

对于个人而言,我们能够得到的数据种类更多。

通过手机,我们可以获得一个用户的短信和通话关系,他每天移动的轨迹——从而我们知道他有哪些朋友、住在哪里、工作在哪里、喜欢去哪里;通过社交媒体,我们可以获得一个用户的在线好友,他感兴趣的社区信息,以及他分享、评论和发布的文本和图片——从而我们知道他的社会影响力、兴趣爱好、是不是一个善于沟通的人;通过电子商务网站的记录,我们可以获取一个用户浏览、收藏、购买的数据——从而我们知道他的购买偏好、价格偏好、消费水平;我们甚至还能够追踪到一个人浏览网页的记录、论坛发言的记录、订阅报刊杂志的记录、使用手机应用的记录……当这些记录的关联显露出来,让我们知道,最近经常浏览孕婴网站并且参加了好几个准妈妈社区的小尼的老公小玛所使用的手机设备号,我们就能够通过手机推送广告,给小玛发送孕妈妈保健品的优惠券,而不是无穷无尽的房地产广告。广告商因为更精准的广告而获得收益,用户也因为接收到有价值的信息而非纯垃圾广告提高体验!

当然,在这些价值中,如何保护用户自身隐私数据的安全,是一个非常要害的问题。这本书不打算深入探讨这个问题,我们将来或许会专门探讨大数据带来的安全、隐私和伦理的冲击与对策!

针对地点,我们往往通过名称和经纬度范围进行数据之间关联的挖掘和分析。针对个人的地点数据要稍微复杂一些,有时候需要利用手机上的设备号识别同一台手机在不同地方留下的数据轨迹;有时候需要用到个人电脑上植入的存储在用户本地终端上的数据(Cookie);有的用户会在一些平台上分享自己在其他平台上的账号,例如在街旁的主页上列出自己的微博号,所以可以通过公开数据的爬取获得一些有价值的关联;百度、腾讯和B-Share[9]等企业提供了Open ID[10]的便利,让用户可以用一个ID管理多个平台的账号,这是天然的可以打通数据的渠道。

最近,微软亚洲研究院的一篇研究论文显示,相当一部分用户在不同平台中使用一些相同且非常个性化的昵称,这个昵称几乎不可能是偶然的重名[11]。比如我在科学网博客的账号是pb00011127,而在新浪微博的账号是super00011127,但凡包含00011127这个号码的,很有可能是和我相关的账号,因为这个号码比较独特。利用这种方法,可以通过公开爬取的昵称打通不同平台上的一部分数据。

没有什么普适化的方法能够一下子打通所有数据,所以,挖掘数据的关联和储备海量数据一样,也是一个由少而多逐步积累的过程。有趣的是,即便没有打通全部的数据,仅仅是一部分数据的打通也很有价值,它能够让我们了解经常上某某论坛的人有何种购物偏好,什么类型的社交关系对于什么类别的商品销售可以起到促进作用,等等。这些知识本身就可以应用到很多在线服务中,提高精确度。

刚才我讲的都是屌丝级别的打通手段,如果你足够富有,可以像阿里入股新浪、高德和多盟一样,直接通过资本运作的方式,把具有战略关联的数据方紧密结合起来——内部打通就太容易不过了。数据与数据,1+1远大于2

与人和地点相似,针对一款游戏、一家中小企业、一个网站、一种产品,等等,都能够找到来自不同源头的数据,这些数据围绕一个个体关联起来,可以产生一加一远大于二的价值。进一步地,这些不同个体之间也能够产生关联,比如我们通过手机的GPS信号和签到信息,就能够知道哪些人去过哪些地方,从而把地点和人关联起来;通过销售记录能够知道哪些人购买过哪些产品,从而又把产品和人关联起来。这种不同个体之间的关联,以及针对同一个个体不同数据源之间的关联,将彻底改变以前我们熟悉的商业模式。大数据创新实践BIG DATA INNOVATION用购买记录给用户画像通过用户在电子商务网站和资讯媒体上浏览、收藏和购买的记录,我们能够知道一个用户的住家或者工作的地点(通过包裹的寄达地),从而能够评估他住家或工作地点的经济水平以及搬迁频繁程度(是否经常更换本人收包裹的地点),以及他的购买偏好和价格水平。通过这个用户在社交媒体的种种行为,我们能够估计他的社会影响力。这些信息可以成为银行在发放信用卡和批准个人信贷时的重要参考。刚才的社交媒体行为中如果有足够多的文本信息(原创博文、评论、回复,等等),还可以用来判断一个人有没有抑郁症倾向、是否喜欢合作和沟通、是一个“大愤青”还是“大奋青”,等等。利用一个人的手机和签到行为,可以判断一个人主要的地理活动区域。这些信息结合这个人的简历,可以很大程度上帮助人力资源部门在招聘的时候作出快速准确的决定。通过分析一个产品的客户以及在互联网上提到过该产品的所有可能感兴趣的用户(条件许可的情况下,还可以分析竞争产品的潜在用户),再结合手机和签到数据,就可以得到感兴趣用户的地理分布,从而指导更精准的地面广告投放;结合互联网网页浏览数据,就可以得到感兴趣用户主要登陆的网站,从而指导更精准的互联网广告投放;结合人口统计学数据,就可以得到感兴趣用户的画像,包括年龄、职业、性别,等等,从而指导更好的产品设计和市场策略……

如果有些读者足够无聊而又有足够多的数据,你们应该能够在互联网和微博上搜索到本书的出版商——湛庐文化最近几年举办的活动,然后利用百度地图的接口,你们就能知道这些地方的经纬度范围。如果你有了运营商或者移动互联网广告平台的数据(后者比较容易获得),就可以从数亿智能手机用户中挖掘出参加湛庐文化的活动特别特别多的几个人(显然,他们应该是湛庐文化的工作人员),然后你会发现这几个人的工作地点是在我开头提到的“中关村云基地”。这个时候,你就基本可以确定,湛庐文化的所在地是在“中关村云基地”。这个办法很笨,因为你百度一下就能知道这个信息,不过它描述了一种蜿蜒曲折获得更多信息的可能的道路,这条道路连接了很多坐落在各地的数据村落,它们已经不再是孤岛!

另外,如果你继续努力积累数据,进行分析,你会发现刚才我说的那些数据地理分布的模式发生了重要的变化,这实际上是因为湛庐文化已经搬到了一个新的地址。如果你是一个关心湛庐文化并且拥有无穷数据资源的人,你就可以比所有信息更新更快地发现这个变化。

上面的例子听起来似乎还只是设想,但是我想特别强调的是,这些都是完全可以实现的案例,而且已经实现了。本文的后面会以很多商业实践的详细案例,向大家展示一加一之后产生的可观甚至可怕的效果。

再大的数据集,再丰富的数据形态,如果以孤岛的形态存在,闭关自守,不和外面的世界沟通,那都不能叫作大数据!就好像在工业时代,一个闭关锁国的国家,例如慈禧统治下的中国,实在很难叫作一个“大国”,虽然它面积足够大,人口足够多。类似地,电信运营商、金融机构,等等,都掌握了大量有价值的数据,如果它们总是以数据隐私、安全等借口拒绝任何形式的数据开放共享(读读清政府的公文,你会发现,借口永远俯拾皆是)那么死守孤岛的后果就是既拖累大家,又葬送自己。在技术革命的巨轮下,一个巨头的死亡很可能比大家估计的还快,只要想象一下从黄花岗的第一枪到溥仪下诏退位,时间短得吓死你!反过来,一个小国家如果开放,在新时代崛起并建立统治地位,也未尝不可能。

总结起来,我认为大数据是基于多源异构、跨域关联的海量数据分析所产主的决策流程、商业模式、科学范式、教育理念、主活方式和观念形态上的颠覆性变化的总和。它绝不仅仅是某些特定技术和需求的变化,而是代表一种新的理念。在本书接下来的内容中,我将尽力展现大数据对于商业创新在理念和实践方面的革命性影响。未来若有机会,再给大家介绍大数据在科学、教育、决策、生活和思想等方面的影响。04 大数据驱动新工业革命BIG DATA INNOVATION

在以大数据和云计算为驱动力的一次可能的新工业革命中,大数据所影响的范围绝不仅限于信息产业以及与其紧密相关的产业,而是使所有的行业都面临巨变;大数据所带来的改变将是新生产力的巨大释放和从理念到实践颠覆性的变化。

很多学术界和工业界的同行都相信,大数据加上云计算将会带来信息产业革命的第三个高峰。信息产业的第一个高峰,是信息高速公路;第二个高峰,是互联网化。前者是由Internet的建设驱动的,后者是由WWW的应用驱动的。这两次产业变革都是从美国开始的,虽然也没有时间上明确的边界,但先后相差不到十年,而且到现在也不能说已经完成了——不过最激动人心的时刻可能已经过去了。在中国,这两次产业大变革基本上是在同期进行的,分别造就了移动、联通、电信这三大巨头和阿里、腾讯、百度这三大巨头。

对大数据前景更为乐观的一群粉丝(我也是其中一员)相信大数据和云计算将会驱动一次新的工业革命。也就是说,大数据所影响的范围绝不仅限于信息产业以及与其紧密相关的产业,而是使所有的行业都面临巨变;大数据所带来的改变也绝不仅限于快速增长,而是新生产力的巨大释放和从理念到实践颠覆性的变化。

表4-1比较了前两次工业革命和可能的第三次工业革命宏观的特征。尽管三次工业革命形态差别很大,但具有内在的共通性,就是都包含了新的能源、新的材料和先进的工艺技术。实际上,这些因素很大程度上也决定了一次变革是否会带来颠覆性的深远影响。在以大数据和云计算为驱动力的一次可能的新工业革命中,计算、数据和证析将分别扮演新能源、新材料和先进工艺技术的角色。表4-1对比三次工业革命计算:第三次工业革命的新能源

你现在打开空调和电脑,今晚使用了20度电,智能电表会记录下你的用电量,等到月末的时候,这个费用会出现在你每月电费的账单上。你完全不需要关注这20度电,到底是来自于葛洲坝、大亚湾还是三峡,电作为一种能源,以一种对你而言并不透明的方式集中、分配和流动,然后以一种透明的方式向你收费。未来,不管是作为科学家、企业家还是普通消费者的你,都会时时刻刻使用计算能力。绝大部分的计算能力,不会来自于你膝头的笔记本电脑或者口袋里面的袖珍计算器,而是远在云端的计算资源提供商。正在分析实验数据的科学计算大型机、正在为你优化库存和物流方案的云计算中心、正在支持你的车载GPS进行“低碳路线计算”的某个内嵌了图挖掘架构的服务器……这些硬件设备都离你天远地远,你完全不需要真正知道这些计算资源到底是来自于上海超算中心、微软云、亚马逊、阿里云或是蒙古草原上某个远看起来像超大蒙古包的服务器群。与电力类似,计算资源将以某种对你而言并不透明的方式被整合起来,然后向你或者为你服务的厂商收费——当然,厂商承担的费用最终也会落在你的头上。你需要有电,才能开灯;同样地,需要有计算能力,才能打开一款游戏。未来,计算能力会变得和电力类似,在很多主产、应用和创新的环节中,扮演能源的角色。

如果我们认识到计算将在一次可能的产业大革命中扮演能源这么重要的角色,我们就需要仔细考虑“中国的能源布局”。

众所周知,服务器的硬件成本逐年下降,而运维的费用在整体成本中所占的比例越来越大。运维成本的来源非常多,简化一下主要有四个方面:● 用于支持服务器运转以及保持合适的温度、湿度等环境因素所消耗的电力成本。● 提供数据跨域输入和输出的带宽成本。● 土木建设及场地的购买或租赁成本。● 服务器管理维护的人力成本。

眼尖的读者一下子就发现了,中国西北部的广袤地区,天气干爽,不需要大功率的温度、湿度调节设备,而且部分地区在供电、土地、人力和带宽等方面都处于价格洼地,特别适合建设大规模甚至超大规模的数据存储与计算基地。通过这些基地的建设,我们可以使中国单位计算的成本低于发达国家的平均水平。当未来计算在整个国家经济技术发展中扮演的角色越来越重要的时候,中国就有机会成为石油时代的沙特阿拉伯。

对于地方而言,这类基地的建设带来的帮助也很大:● 可以释放新的生产力,引入投资,带来新的工作机会。● 可以帮助本地实现产业结构转型,通过基地本身以及带动作用,提高当地产业中高科技因素的比重。● 可以吸引一些离开家乡到外地读书工作的科技人才回来建设家乡,降低整个国家在人才分布上的不均等性。● 对于部分区域性电力产业比较发达的地区,这些大规模计算基地的运营,还能“吃掉”一些本地的富余电力。

总之,很多地方,因为气候干冷、土地贫瘠,难以养育高产量或高附加值的农作物,几千年来无法和“鱼米之乡”、“天府之国”抗衡,现在时代变了,干冷的土地特别适合“种植”计算服务器,其“附加值”非常可观!现在已经到了一个可以挥斥方遒,在中国版图上划界而治,用西北部成本可控的存储与计算资源,支撑东南部高价值商业应用,实现共赢共生的时机。

事实上,内蒙古自治区已经开展了“呼和浩特云计算产业基地”的建设,宁夏自治区则开始启动“宁夏中关村科技产业园及西部云基地”的建设,新疆自治区正在规划建设国家重要信息资源的战略性存储基地,贵州更是聚全省之力打造计算和数据的基地。我最近听说西藏也开始筹备建设大规模计算和数据中心。各位读者再关注一些曝光度很高的计划——例如北京祥云计划、上海云海计划、广州天云计划的同时,不妨把眼光多投注到原来经济技术发展相对落后的地区,在那些地方,有一群人正在“播种”中国未来十年、二十年数据产业的引擎。数据:第三次工业革命的新材料

在大数据时代,数据本身将扮演原材料的角色。我们生产出数据产品,提供基于数据分析的服务,都是建立在“有数据可供加工”的基础之上。认识到数据作为原材料的重要地位,每一个企事业单位、高校及研究院所、政府机关都有责任和义务把具有重要价值的数据存储下来。

有一些数据我们已经充分认识到了它们的重要价值,但对于更多的数据,我们对于它们有没有价值、有多大价值、如何实现这些价值等问题,都还没有答案。这时候,一种负责任的态度是在条件许可的情况下,用低廉的成本,将这些数据压缩存储下来,以待来者。南宋著名诗人陆游在谈到大数据的时候,曾经说过“数”到用时方恨少,虽然只是一句玩笑,但古人的智慧对今人是一个很好的启示:今天我们丢掉了一些看起来没什么用的数据,明天可能会因为缺失这些数据而丧失重要的机会。大数据创新实践BIG DATA INNOVATION一张失败的公交卡我在中科大有两位校友,谢幸和袁晶,在微软亚洲研究院做研究员,开展基于地理信息的数据挖掘、分析和预测研究。我2013年在微软亚洲研究院实习,正好跟着他们两位学习。前不久他们做了一个很有趣的实验,是给北京市民免费发放了上万张公交卡,里面预存了10块钱。参与实验的市民可以免费使用这些公交卡,但当费用用光后,有义务交还给微软亚洲研究院。通过对这些公交卡刷卡记录的分析,研究人员可以绘制公交流量的全景图,定量化分析公交线路和班次设计的合理性,并提出基于数据挖掘的优化建议。实验过程很顺利,发出去的卡七七八八也收回来了大部分,但是打开数据的时候,我们发现,很多公交车的刷卡记录中完全没有正确记录该乘客上车的地点和下车的地点,有的各站之间的公里数都是明显错误的。尽管还有一部分有价值数据,但是这个数据整体的价值大打了一个折扣!采集和存储这些数据记录是不是在技术上特别困难呢?不是!我的另外一位同事,石家庄铁道学院的闫小勇教授(闫小勇教授已于近期加盟北京交通大学,他也是电子科技大学的客座研究员),得到了石家庄市公交的乘客刷卡数据,其中每条线路的站名、站间距、乘客上车点、乘客下车点、刷卡时间,等等,都有非常完整准确的记录。除了抗污染能力外,石家庄这个城市在信息技术水平和从业人员技术能力方面,都和北京有明显的差距,为什么石家庄做得很好的事情,北京却做不到呢?因为北京公交车的费用和坐了几站,有多远没有什么关系,相关的工程技术人员只考虑收取费用的眼前需求,完全没有想过海量乘客在什么时间点,从哪个地方上了哪一路车,过了多长时间,到哪个站下车……这些数据对于北京交通情况的理解、建模和优化,有多么重要的价值!他们不是技术不行,而是理念不行;不是目光短浅,而是目光非常短浅!

简单总结起来,企事业单位、高校及研究院所、政府机关,等等,首先是要采集存储自己主产、经营、研究、管理过程中的数据,建立数据的战略储备;然后在数据安全和隐私风险可控的前提下,尽最大可能向社会开放数据。这种开放可以是免费的,也可以是收费的;可以是公益的,也可以是商业的。但是其根本的目的,是通过开放数据,充分调动有可能挖掘出数据价值的社会力量。证析:第三次工业革命的先进工艺技术

钢铁木材这类原材料,你如果占有了,别人就没有了。但是数据不同,除了部分需要实时采集、实时处理、实时输出的流数据,很多静态数据也蕴含了大量的价值,而且具有天然的容易共享的性质。别人把你的数据拷贝过去了,你的也不见少。正是因为这个特性,刚才提到的向社会开放数据才具有特别的价值;也正是因为这个特性,加工数据这种材料的工艺要求特别高——原则上所有人都可以同时加工同一组数据,工艺上的区别或许就是唯一的区别。更强大高效的分析能力,或者直白一点,更聪明的头脑和更正确的理念,将在大数据时代大放异彩。

大数据实验室的创始人郑毅先生,曾经写过一本很有价值但是难读的书,名字叫《证析》[12]。这本书介绍了一种在欧美开始流行的基于海量真实数据进行实证分析并获取深刻洞见的高端工作职位——证析师。我们现在经常提到的数据科学家、数据工程师,多多少少有这么个意思。认识到证析师的重要地位,我们就需要思考:什么样的教育制度能够培养出这些人才,以及什么样的政策和产业环境,能够积聚这些聪明的头脑,产主巨大的价值?个性化:大数据时代最显著的商业特征

大数据时代最显著的商业特征是个性化,即为每一个终端消费者提供专属性的产品和服务。以互联网为例,其发展趋势从“他们的”(门户网站、搜索),到了“我们的”(社交网络、用户生成内容),最终将到“自己的”(个性化应用)。如果有人问我“20年后打开互联网,会看到什么”,我的答案是“你会看到你想看到的内容”——这就是个性化的目标。

我回国任教前,在沃顿商学院的一次会议上,认识了当时会议的中方主席,北京大学光华管理学院的苏萌教授。苏萌的一个观点让我当时印象非常深刻,他认为:“商业的未来是个性化!实际上,从市场营销的角度看,市场细分是满足消费者不同需求的一种方法,而个性化是市场细分的极致,即把每一个消费者看成一个细分的市场,这也是营销的终极目标。”

在苏萌的介绍下,我认识了中科大少年班的师兄,国内率先进行个性化技术和商业实践的柏林森。后来,我们一起出版了《个性化:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载