赢在大数据:中国大数据发展蓝皮书(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-19 12:44:33

点击下载

作者:陈新河

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

赢在大数据:中国大数据发展蓝皮书

赢在大数据:中国大数据发展蓝皮书试读:

内容简介

大数据已经由一个概念变成一种工具和行动,与我们的生活时时相伴,推动着产业转型升级。它正在逐渐成为一种思想和文化,影响我们的日常行为和做事方式,由经验式拍脑袋决策转变为让数据说话。从产业层面来看,中国的大数据产业从每年的千亿元级数据营销领域快速向万亿元级金融、保险、电信、制造、能源、工业、农业和政府等行业拓展。相对过去10年的数据营销领域而言,行业大数据应用才刚刚起步,缺乏可借鉴、可参考的案例已成为行业大数据应用的瓶颈。“赢在大数据系列丛书”通过收集整理,并从216个案例中遴选出覆盖18个行业的106个行业大数据最佳实践案例,再加上内容全面、系统、深入的《赢在大数据:中国大数据发展蓝皮书》一书,希望为业界提供应用大数据、实践大数据的参考和借鉴。由DT大数据产业创新研究院(DTiii)集合上百家企业、聚集上百名一线业内专家学者编辑出版的第一批“赢在大数据系列丛书”共计5册。(1)《大数据领导干部读本(第二版)》;(2)《赢在大数据:中国大数据发展蓝皮书》;(3)《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》;(4)《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》;(5)《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》。

本书通过分析大数据产业整体发展情况,描述了大数据产业未来发展的蓝图,剖析了大数据在营销、金融、电信、房地产、政府等15个行业的应用情况,并附有包括1 311家企业的产业地图和企业详细清单。无论是大数据从业者,还是政府产业管理者,抑或投资者,均可从本书中获得可借鉴的信息。“赢在大数据系列丛书”将持续出版,以加速推进中国大数据生态发展。

丛书序 数据驱动中国,创新成就未来

2017年1月6日,碧桂园集团信息管理中心的郑桂清通过微信询问我能否联系到上海脉策数据科技有限公司的CEO高路拓,接洽房地产大数据项目合作事宜。加上可视化项目、房地产解决方案项目,这已是本月他第三次来寻找大数据厂商信息了。2016年10月18日,A文数据公司的Gall在微信公众号“软件定义世界(SDX)”后台说,他们是一支从美国回来的大数据创业团队,在美国XN公司具有丰富的销售预测实战经验,在数据科学领域具有很深的积淀,已经开始做一些电商货品销售预测的项目,但对创业方向有些困惑,想寻找一些新的突破口,了解哪些行业目前进入比较好,以及估值10亿元以上的大数据企业都在做什么。你可能以为碧桂园的大数据应用之路才刚刚开始,其实它已经上马3年有余了;你或许认为A文数据公司刚成立,其实它已经拿到了数千万元的A轮融资了,团队也已有30多人。它们有的需求应该也是成百上千家企业的需要,这也是我们编纂“赢在大数据系列丛书”的初衷:行业用户需要学习借鉴行业最佳实践案例,来指导本企业;创业企业需要深入洞察行业、了解同行,进行深入交流合作。

类似这种用户寻找供应商、创业企业寻求市场或合作的事情近3年来对我来说天天都会发生。从某种程度上说,我已成了“大数据驿站”(Big Data Hub),缘由还要从3年前的大数据社区开始。2014年2月,中关村大数据产业联盟发起“大数据100分”活动。“大数据100分”聚焦为大数据社区活动,每晚21:00—22:40,由一名大数据创新创业企业的CEO、CTO或行业应用企业的CIO、CDO,在500人微信大数据专业社群分享PPT及文字内容,分享内容经嘉宾同意后,在微信公众号“软件定义世界(SDX)”公开发布。该500人微信群每人必须分享一次,坚持众智、众享的理念,谁愿意分享便会被邀入,不分享便被请出,经过数轮迭代,几乎聚集了国内所有主流大数据创业企业的CEO和CTO,以及部分行业用户的CIO。自从活动开始以来,我组织近300场“大数据100分”活动,微信群也由最初的一个500人大数据专业社群,扩展至金融、工业4.0、汽车、房地产、消费、旅游、农业、政府、个人信息保护等十多个大数据专业社群,个人微信号也不得不由一个扩展至三个,微信好友有12 000多人,再加上微信公众号“软件定义世界(SDX)”近10万名专业订阅用户的需求与合作反馈,你能想象我的微信有多忙,我刚买3个月的128GB内存的手机容量已经告警。“大数据100分”活动影响了数百万人,在某种程度上完成了中国大数据的启蒙,影响之广远超乎我的想象。2015年9月,我在飞往上海的航班上,正在整理下午要用的PPT,邻座的陌生人突然跟我打招呼:“您是‘大数据100分’的主持人吧!‘大数据100分’的活动内容我经常看,很受启发,希望能有机会进一步合作。”原来,他是西安陕西微软创新中心的王真,看到我在做PPT上的部分内容,希望在旅游大数据方面帮忙寻求合作方。

2014年下半年开始,有几个出版社询问能否把“大数据100分”结集出版,我精选了63个案例,共计890页、29.89万字,思来想去,还是决定不出版了,原因有很多。一是这些内容都已经在网络上公开,再出版意义不大。二是有些解决方案还难以落地,认知类内容多,实战案例内容少;洞察性案例多,解决业务实际需求少;探索性案例多,解决方案少;单一项目多,产品方案少。三是市面上已经有太多大数据的书籍了,选题不慎将导致销量有限。四是网络、报纸、新闻、媒体上的大数据信息铺天盖地,大数据的基本理念已经被灌输得差不多了。五是各种大数据的研讨会、沙龙、论坛、峰会多如牛毛,一些案例被重复讲来讲去。六是一般大数据类书籍也就3 000~5 000册的销量,还不如“软件定义世界(SDX)”一篇稿子的阅读量,再出版一本大数据的书有点画蛇添足。但之后发生的事情,让我对大数据类书籍出版有了新的看法。

2014年9月,我有幸参与《促进大数据发展行动纲要》的编制,同期,参与的“大数据与国家治理”课题成果初具雏形。2015年4月,中国行政体制改革研究会常务副秘书长、课题组组长王露建议一鼓作气,把课题组已经有的研究成果进行综合,再进一步深入调研、研究和分析,编写一本《大数据领导干部读本》。一方面,它可以配合国家大数据战略,为各级政府领导干部提供一本深入、系统的学习材料;另一方面,它也是课题组申请到的国家社科基金特别委托项目“大数据治国战略研究”课题的重要研究成果。同时,还可以通过调研更深入地了解国内大数据应用情况,为课题组下一步建言献策做好准备。我说出了我的担忧,当前市面上有1 000多本大数据书籍,除了迈尔-舍恩伯格(英)的《大数据时代》销量百万册、涂子沛的《大数据:正在到来的数据革命》销量在数几十万册之外,一般的销量也就几千册,10 000册以上就算销得不错的了;再说,认知类书籍已经过了黄金时间窗口,迈尔-舍恩伯格和涂子沛两本畅销书占据了最佳时间窗口。经过课题组的再三讨论,最后得出结果:出一本系统分析大数据内涵和外延、国内最新大数据在政府治理方面的实践案例的书应该能销上万册。于是,课题组组织200多人,经过3个多月的奋战,《大数据领导干部读本》终于面世了。这本书发行出奇的好,1年销售近8万册,在当当、京东上的整体好评率超过99.5%,很多读者对案例部分评价很高:“里面有彩图,质量不错,内容丰富,值得读”、“内容很丰富,高大上!彩色印刷,喜欢!案例也不错”、“一下买了一百本,打算送给客户的”、“经典的书籍,值得一看再看,推荐购买”、“喜欢,挺好的,个人觉得是领导干部读本里面写得最好的”。

因为主持“大数据100分”的缘故吧,我受邀到各类组织分享、交流和培训大数据比较多,一方面通过交流推广一下大数据的思想和理念,另一方面深入了解各行各业对大数据的一线需求,同时也为这方面的研究积累素材。3年来,各类分享、交流和培训累计超过200场,既有国土资源部、苏州工业园、宁波市经信委、深圳市龙岗区、兰州市大数据社会服务管理局等政府组织,又有华为南京研究所、上海移动、北京联通、中国电信、华夏基金、南方基金等IT企业、运营商、金融企业,还有中国石油、国家电网、北控集团、花样年集团等传统企业,交流后大家都会问到这些问题:本企业也有大数据应用方面的需求,但苦于不知道找谁来实施,也不知道同行业其他企业应用大数据的情况,如果能有本行业的最佳实践案例做指导,或者其他行业的案例拿来借鉴就好了。这些反馈说明,一方面,大数据认知教育活动还不够,如果把“大数据100分”精华版结集成书,全面、系统、深入介绍大数据在各行业的应用,辅以国内案例,推动应用的效果会更好些;另一方面,行业用户已经从认知教育阶段,开始进入尝试应用阶段,需要行业最佳实践案例来进行引导。“大数据100分”虽然影响了数百万人,但还是一个小圈子,更具体地说是IT圈子,也就是乙方圈子,对项目的应用方——甲方影响有限,否则我的分享、交流和培训也不会多在甲方群体中了。信息化的发展历程也证明,乙方的觉醒和认知更快些,甲方往往是被推着走;但甲方被动地说服使用的进程,远不如主动要求“我要使用”快。对于乙方而言,目前大数据书籍介绍国外案例多,国内案例少;案例浅尝辄止,不深入、不具体、不详细,距离实际操作相距甚远,缺少借鉴的可能性;另外,也无法知道供应商是谁。除了4个“V”、只要相关不要因果,就是啤酒与尿布的故事,具体如何进行数据分析、建模、系统建设等信息寥寥。

在组织“大数据100分”活动及走访上百家大数据创新创业企业的过程中,我了解到很多大数据应用的创新案例,非常精彩,商业价值非常明显,用户非常认可,非常值得在全行业推广。尤其是2015年下半年以来,很多案例逐渐从项目衍化成标准的产品,逐渐在行业用户中规模应用起来。上一波IT驱动流程的信息化1.0过程中,“金字工程”、“甩图板工程”的行业最佳实践案例起到了很大的“引路人”、“导航灯”作用;这一波DT驱动业务的信息化2.0也同样需要行业最佳实践案例,人类最善于模仿,历史很多是重复过去。

2016年,在我近20年的软件产业研究基础上,以及近几年大数据研究、专家组织、业内资源积累的基础上,筹建起大数据智库——DT大数据产业创新研究院(DTiii),专注

于大数据生态体系研究和建设。DT大数据产业创新研究院(DTiii)于2016年11月,在第三届世界互联网大会·乌镇峰会上发布《2016中国大数据应用最佳实践案例TOP50》,案例发布后引起业界强烈反响:行业用户想借鉴最佳实践案例的成功经验,大数据创新创业企业想学习同行的案例经验;风险资本想找好的苗子并做横向比较;政府想了解本地大数据企业在业界的位置;业界想通过案例进行深入学习;出版界想拿到最好的书稿。乌镇峰会后,我们又进一步广泛征集,行业从15个扩展至18个,最佳实践案例从50个扩展至106个,这106个案例是从219个上报案例中经过初选、意见反馈、修改、专家评审最终确定的。

希望“赢在大数据系列丛书”能够加速中国大数据万亿元生态的快速形成,更希望成为数据驱动中国创新发展道路上的一盏明灯。DT大数据产业创新研究院(DTiii)院长、中关村大数据产业联盟副秘书长陈新河2017年1月31日

前言 DT驱动中国新世纪

DT时代已经扑面而来!2017年春晚,CCTV主持人董卿称“利用大数据,统计目前总共有1.04亿位观众观看了2017年春节联欢晚会,而移动端用户所占比例超过70%”。估计不少电视机前的观众听后,肃然起敬,内心不懂也不好意思多问边上的人,就把大数据当作20世纪80年代媒体上到处出现的电脑一样的高科技家族!很明显,大数据在此得到了运用,不少模拟电视用户、单向广播式接收的数字电视用户数量还只能用小数据的方式进行统计和估算。

暂且不论1.04亿位观众数量的准确性,毫无疑问,大数据已经与我们如影随形、时时相伴,与我们每个人的吃喝玩乐娱住行分不开了。当你打开微信,微信页面底部的广告条内容是基于大数据营销推荐引擎的;当你打开电脑浏览器浏览网页时,嵌入页面的广告内容是基于大数据推荐的,它会根据你过去一段时间的浏览记录在浏览器中的Cookie信息来向你推荐零食、服装或智能手机;出门叫个专车,看似简单的一个匹配,其实后面也蕴含着复杂的模型和算法,大数据在位置、距离、评分、拼车等多个参数约束下不停地运算。3年之后的2019年,你的车辆保险费很可能与你的驾驶行为数据相关,如果你的日常驾驶行为数据显示你是“三急”(急转弯、急刹车、急加速)用户,那么你的保险费用可能比别人要高30%,甚至更多;2020年的某天你在王府井步行街漫步时,你看到的路边广告可能与别人不同,广告系统能够自动捕捉你随身携带手机的硬件标识信息,然后根据该硬件标识信息,结合后台的大数据画像系统,从而显示你最关心的内容。

从产业层面来看,善用数据者,将占领竞争的制高点。在“赢在大数据系列丛书”房地产大数据应用案例篇,一家房地产企业通过利用大数据和不用进行对比,效果相差明显。其中,来电效果是2.5∶1,到访效果是3∶1,成交效果是3∶0。效果对比后,客户立即决定2017年加大DT投入预算。从宏观层面来看,大数据已成为国家基础性战略资源,正日益对全球生产、流通、分配、消费活动,以及经济运行机制、社会活动方式和国家治理能力等产生重要影响。党的十八届五中全会明确提出要实施“国家大数据战略”,标志着大数据战略正式上升为中国的国家战略,政府和企业将利用大数据共同推进产业全面改革和升级。

大数据是什么?大数据是物理世界在网络世界的客观映射,是物理世界的DNA。如果说过去几千年是人类生活的模拟世界,那么DT时代的到来,人类开始进入数据世界。大数据给予人类重新认识自我、认知世界、改造世界的新理念、新思想和新方法。小而言之,生活离不开大数据;大而言之,大数据重构产业,进而重塑世界新格局。

如果说过去百年中国在追赶欧美日工业强国的道路上,受困于既有路径难以超越,以及人均矿产、石油等不可再生资源的稀缺,那么毫无疑问,DT时代,中国有望在东方崛起,成就中国新世纪。数据成为一种新的战略资源,永不磨灭;13亿人无时无刻不在产生数据,从人口多的劣势转变为数据优势;中国人的数学智慧在数据科学领域的数据能力有望超越在工业时代中国因后发劣势所导致的材料科学、制造工艺等工业能力的不足。

当前,中国大数据产业仅数据营销领域产值每年已超过1 000亿元,但整体而言仍处初级发展阶段,大数据应用的行业不断拓宽,深度日益加强,应用的重心从数据营销向行业领域扩展,万亿元行业大数据应用市场已经拉开帷幕。相对于已发展10年左右的数据营销领域,行业大数据应用才刚刚起步,即使在国外也没有太多成熟的案例可借鉴,基于此,DT大数据产业创新研究院(DTiii)组织国内大数据创新创业企业、一线专家编写了这套“赢在大数据系列丛书”,丛书的编写汇集了近百家企业在18个行业领域的106个大数据最佳实践案例,在一定程度上反映了大数据在各行业的应用现状和发展趋势。撰写丛书的目的在于,梳理中国大数据应用现状及发展趋势,为行业用户、大数据创新创业企业、政府和从业人员提供参考和借鉴。

DT大数据产业创新研究院(DTiii),聚集了上百名产学研用各界知名大数据专家,专注于大数据生态体系研究,发布《DTiii版中国大数据产业地图》、《中国大数据发展蓝皮书》、《中国大数据创新企业TOP100》、《中国大数据应用最佳实践案例TOP50》、《中国大数据领军人物》等,全面深入洞察中国大数据技术、产品、市场、产业、人才、资本、政策、应用案例、创新创业等,深入研究国内外大数据最新发展动态,分享大数据最新发展模式,全面展示大数据应用最佳实践案例、创新创业企业风采,引领中国大数据产业发展方向,推进中国大数据生态建设。“赢在大数据系列丛书”力求全面总结大数据行业发展情况,反映新特点、分析新问题、提出新趋势。第一批“赢在大数据系列丛书”共计五册,分别为《大数据领导干部读本》(第二版)、《赢在大数据:中国大数据发展蓝皮书》、《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》、《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》、《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》。五本书不仅从宏观的行业环境角度为读者提供了全面的视角,也从具体的实践案例角度为读者提供了可以借鉴的方法和手段,以便读者能真正把握大数据的脉搏。《大数据领导干部读本》(第二版)在第一版的基础上更新了一些案例,仍是强调对大数据内涵和外延的阐释,帮助读者深刻理解大数据的概念,以及大数据对经济社会方方面面的影响,着重强化了政府治理层面的大数据应用案例。考虑读者的多样性,也涉及了一些行业案例,在政府数据开放、信息安全方面也做了重要安排。从京东、当当网对该书评价来看,该书的特点是通俗易懂、图文并茂、案例丰富。第二版再次继承了这些特点。

尽管该书名曰“领导干部读本”,其实读者对象不仅局限于政府人士,也可作为各行各业大数据入门培训系统教材。从销售跟踪的数据来看,不少组织把该书作为大数据培训教材。因该书出版在前,为保持该书书名的连贯性,仍旧保持《大数据领导干部读本》原名,没有添加“赢在大数据系列丛书”统一前缀“赢在大数据”。《赢在大数据:中国大数据发展蓝皮书》是行业篇,主要从产业宏观发展和行业应用全貌进行分析和研究,力求产业描述全面、系统,行业覆盖广泛,行业各业务环节大数据应用深入。行业篇既有涵盖1 311家大数据企业的详细名单和产业地图,也有产业发展现状和趋势预测分析,同时也对投融资、人才、数据交易,以及存在的问题进行了深入的分析。在每个行业领域,从行业的痛点出发,总结了大数据在各行业应用的概貌,分析了利用大数据解决行业痛点的手段和方法,也介绍了各行业已经成熟的大数据技术框架和模型、应用现状、存在的问题及发展趋势,从大数据产业整体发展情况进行详细分析,并描述产业未来的发展蓝图。对数据营销、金融、电信、房地产、政府、制造、农业、医疗健康、零售、影视、旅游、教育、人才、体育等14个行业的整体发展进行了深入、系统、完整的分析。《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》、《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》、《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》这三本书是翔实的案例分析,详细介绍了各行业如何结合行业及大数据的特点来解决行业痛点,如何形成具体的行业数据解决方案及这些方案所带来的优势等。大数据应用最早是从数据营销开始的,通过各种数据的收集形成客户画像,为数据营销和运营提供了最佳手段。目前,大数据已经在金融、电信、房地产、政府等行业得到了广泛的应用。例如,政府利用大数据来反恐,房地产企业利用大数据来拿地,工业方面利用大数据来进行设备的诊断,农业方面利用大数据来选种、培育作物等,城市管理方面利用大数据来进行城市规划、人口统计,媒体娱乐方面利用大数据来预测票房、推荐歌曲,教育方面利用大数据进行个性化的教学,等等。随着大数据在各行业中的运用,“大数据”这个词可能会消失,因为大数据可能逐渐成为各行业的“血液”,尽管你没有感觉到它的存在,实际上它却时时刻刻伴你左右。每个案例都按照统一的框架进行规范,内容基本依据行业痛点、大数据应用方式方法(技术原理、产品和实现方法)、大数据应用成效、重大意义未来前瞻、企业介绍等部分展开。

因出版时间限定,部分企业错过了这次案例提交的最后时间,没关系,“赢在大数据系列丛书”项目将持续进行,案例收集到一定数量便会结集出版,案例提交邮箱是Dtiiimail@126.com。

同时,DT大数据产业创新研究院(DTiii)还在准备一个在线交互的大数据产业地图,对不断增加的大数据创新创业企业进行更新。大数据产业地图更新每年进行一次,并提供PPT版下载,欢迎访问:www.DTiii.org。

尽管中国大数据呈现蓬勃生机,但大数据的发展和应用还存在一些问题。尽管大数据在各行业的深入应用逐渐形成了相应的产业链,但也面临着“数据意识不到位”、“信息化程度参差不齐”、“数据就绪化差”、“数据难以整合”、“缺乏行业标准和规范”、“数据安全意识薄弱”、“数据管理制度缺乏”、“政府数据开放程度低”等诸多瓶颈。目前,国家大数据发展战略已经形成,随着对大数据价值认识的不断提高、企业转型压力的加大、创新性大数据技术产品的不断推出、政府数据的逐步开放、制度的不断完善,大数据将迎来持续高速发展时期,万亿元大数据产业指日可待。“赢在大数据系列丛书”采用“众包”、“众智”、“众筹”、“众享”进行编辑出版,从2015年9月《大数据领导干部读本》出版发行时就开始筹划,直接参与的企业有190多家,参加编写的人员多达350人,因企业、人员太多,在此不再一一列出,特别是提供案例,但因各种原因最后没有成为本书作者的朋友们,真诚感谢大家的努力和支持。

由于我们的资料不全、深入实际调研不够、研究能力有限,“赢在大数据系列丛书”的内容与观点难免存在不全面、不准确等问题,敬请业内专家与广大企业提出批评和建议,共同推进中国大数据产业的发展。DT大数据产业创新研究院(DTiii)2017年1月31日

致谢人员名单

感谢以下人员对本书提供的帮助(按姓氏笔画排列):丁冬、丁军、于莹、于笑博、马可、马斋、马超、马景辉、王二虎、王乐、王伟、王波、王建民、王炼、王晨、王清波、王琳琳、王筱东、王鹏云、文建平、左磊、石鹏、石磊、龙明盛、龙凯、付永晖、付海鹏、冯一村、宁笑娟、成立立、朱铎先、乔云云、乔玉川、伍邵旭、任广杰、任永杰、华保健、刘东日、刘宇航、刘奇、刘岩、刘星、刘虹、刘彬、刘翔、齐红威、闫旭东、米维聪、汤灏、许冬琦、孙岚、孙盛峰、孙静博、苏江文、苏萌、李少娜、李丹丹、李伟、李纪洲、李青龙、李雪鹏、李献坤、李楠、李颖超、李馥岑、杨帆、杨伟伟、杨佼杨、杨柏、杨紫胜、杨斌、连冰玉、吴子明、吴轶伦、吴爱国、何香萍、余莉、汪德嘉、沈贝伦、沈立勤、宋仲伟、宋志远、宋神桥、张弓、张文、张伟佳、张宇、张军、张昆仑、张春猛、张继生、张琳琳、张敬亮、张鹏英、张韶峰、张赜、陆薇、陈传林、陈庆华、陈军、陈思恩、陈娟、陈露妃、武新、茅明睿、林永汉、林松涛、林莉、林强、罗海英、金雅昭、周友鸿、周莉、郑林钢、郑颖尔、孟磊、赵龙、赵伟、赵华、赵博、赵婷、胡许冰、胡芳槐、胡嘉琪、饶翔、姜春玲、姚娟、贺群、骆飞、莫倩、贾信明、顾竹、钱家俊、倪时龙、徐连明、徐超、高岩、高瑞鑫、郭红岩、郭洁、郭尉、席强辉、唐日新、唐岳岚、陶涛、黄玉麟、黄东旭、黄代恒、黄岩、黄骞、盛尊阔、崔晓波、崔晓霞、崔晶晶、梁玫娟、梁笃国、彭作文、葛利鹏、韩正清、韩昱、韩涵、韩斌、谢鹏、蓝云鹏、赖星星、雷涛、詹俊、鲍忠铁、蔡劲松、廖常如、廖雅哲、熊薇、樊庆伟、魏晨曦。

第1部分 综述篇

第1章 万亿元大数据产业新生态

2017年1月,工业和信息化部发布《大数据产业发展规划》,规[1]划目标为:到2020年,中国大数据产业规模达到万亿元。那么,中国大数据产业的现状如何?其产业生态格局如何?未来的发展趋势怎样?万亿元的产业目标如何实现?希望通过本章内容的分析和研究,让读者对中国大数据产业有个整体清晰的认识。

1.1 人类利用数据征服自然、改造社会、服务生活古今有之

19世纪50年代,英国医生约翰g 斯诺利用空间统计学(如果一个家庭有两个霍乱患者,在这个家庭所在的地图上画两横;三个就画三横),发现水是霍乱的传染源,打破了人们怀疑空气传染霍乱的看法,这一发现对城市环境管理也有积极的推动作用。

自古以来,中国东南地狭人稠、西北地广人稀似乎早成事实,但没有人对这种模糊的认识加以有力的佐证。20世纪30年代,中国地理学家胡焕庸以1个点表示1万人,根据掌握的实际情况将2万多个点画到地图上,再以等值线画出人口密度图,以瑷珲—腾冲线分全国为东南和西北两半壁,这条线被称为“胡焕庸线”,它对中国经济布局、民政建设、交通发展具有重要的参考价值。大家可以看一下,中国高铁的分布,基本在“胡焕庸线”以东。80年后,我们用QQ同时在线的人的地理分布这个大数据工具,同样完美印证了“胡焕庸线”的存在。其实,利用大数据工具,还会有更多的“智能手机胡焕庸线”、“微信胡焕庸线”、“APP胡焕庸线”,这些线基本与基于人口统计的“胡焕庸线”等效。如图1-1所示,数据洞察世纪古今有之。图1-1 数据洞察世界古今有之

大数据就在我们身边。我们天天出门用的优步、滴滴等专车时刻根据周边在候车辆和待乘人员的数量进行动态定价。毫无疑问,大数据已经与我们如影随形、时时相伴,与我们每个人的吃喝玩乐娱住行分不开了。当你打开微信,微信页面底部的广告条内容是基于大数据营销推荐引擎的;当你打开电脑浏览器浏览网页时,嵌入页面的广告内容是基于大数据推荐的,它会根据你过去一段时间浏览记录在Cookie的信息来决定向你推荐零食、服装或智能手机;出门叫个专车,看似简单的一个匹配,其实后面也蕴含复杂的模型和算法,大数据在位置、距离、评分、拼车等多个参数约束下不停地运算。到2019年,你的车辆保险费很可能与你的驾驶行为数据相关。如果你的日常驾驶行为数据显示你是急加速、急刹车、急转弯等“三急”用户,那么你的保险费用可能比别人要高很多;2020年的某天,你在王府井步行街慢步时,你看到的路边广告可能与他人不同,广告系统能够自动捕捉你随身携带手机的硬件标识信息,然后根据该硬件标识信息与大数据画像系统进行匹配,从而显示你最关心的内容。

1.2 数据是物理世界在网络世界的客观映射,是物理世界的DNA

如图1-2所示,IT持续创新催生大数据时代。存储成本不断下降,30年下降近20万倍;计算成本急速降低,半个世纪下降近20亿倍。按此下降速度,一架几十年前的波音客机到现在也就是一瓶可乐的价格。带宽成本13年以来也下降240倍,2000年的家庭带宽也就是几十Kbps,目前10Mbps、100 Mbps甚至1 000 Mbps正在进入家庭。图1-2 IT持续创新催生大数据时代

很多人提到大数据时特别重视“大”,似乎数据量没有PB级容量或100万条似乎就不是大数据。如图1-3所示,数据大只是表象,数据内容、结构、工具和本身所包含意义的变化才更具意义。数据从结构化数据扩展到网页、文档、视频等非结构化数据,数据工具从数据库演变到数据仓库,继而是分布式数据管理系统,数据管理内容从企业生产资源管理、财务管理扩展到客户行为、产品状态、社交数据等,无不体现数据的变革。例如,在企业信息化领域,过去的数据更多的是IT驱动流程优化的附属物,而目前反映个人消费行为、产品工作状态的数据则是DT驱动业务的核心要素;过去的POS机数据是IT辅助完成交易结果,供统计、备查的,而当下流行的支付宝、微信支付工具,数据则成为其产品设计、产品运营、金融风控的核心支撑。无数据,这些业务很难进一步优化,甚至运转。图1-3 数据大只是表象

大数据的概念是相对小数据而言的。大数据的数据维度更多,深度更深,小数据的维度和深度都比较有限。我们到招商银行办理信用卡的时候,招商银行会让你提供一段时间的工资单,这个工资单就是小数据,银行凭借工资单来对用户的信用进行评价。现在,有了所谓大数据的方式来评价客户信用。例如,针对你敲击键盘的速度、录入单词的正确率而言,如果速度过慢、频繁出错,你的信用价值会降低,银行的大数据信用评价系统认为IT不熟练的人士社会竞争力弱,信用价值理所当然低些;如果发现你经常玩游戏连续超过2个小时,你的信用价值也会低,你会被银行的大数据信用评价系统评价为玩物丧志者……大数据信用评价会有数万个维度来评价一个人的信用。你的一言一行,只要出现在网上都会被记录下来,作为你信用评价的一个维度。相对工资条的评价方式,它不可谓不大。我们重视大数据评价一个人的信用价值时,千万不可忽视小数据。任何一条数据都是你行为画像的侧写,只有把大数据和小数据完美结合,才能形成一副层次丰富、色彩饱满的全息版数字油画。否则,可能因为缺乏工资这一条关键数据,本来画“蒙娜丽莎”,结果却画成了“憨豆先生”。如图1-4所示,大数据与小数据对比,可对结果产生决定性影响。图1-4 小数据与大数据的对比

如图1-5所示,大数据是数据在这个时代的标签。所谓的4V[数量大(Volume)、种类多(Variety)、速度快 (Velocity)、真实性高(Veracity)]或6V,并不是大数据的必要条件。4V可能在某些领域,如数据营销,才有用武之地,而很多商业案例既不要那么“大”,也不要那么“快”。大数据是一个相对的概念,20世纪70年代、80年代、90年代都有大数据的概念,70年代的大数据也就是几兆而已,再过10年、20年,我们现在所谓的PB级也就自然而然地变成小数据了。图1-5 大数据是数据在这个时代的标签

我们现在讨论的大数据与之前谈论的大数据有何不同呢?有很大不同,简单概括是“还原真相”,即还原每个人的所思所想所为,还原机械设备的运行状态。当你在工商银行柜台取完钱后,除非柜员与你发生激烈冲突,那么即使柜员的服务不是那么令你满意,碍于情面,一般你还是会给她很满意的评价。这就是典型的小数据调研过程中很难避免的口是心非问题,也典型反映了数据在结构化过程中,信息的失真。用大数据的方式就能够避免这种口是心非结果的出现。类似新西兰航空等很多航空公司,通过收集Twitter、Facebook、微博等社交平台的旅客评论,来客观评价服务质量。我们出差乘坐的飞机、高铁是高度数字化的产品,一架波音787一个航程会产生TB量级的数据,从飞机位置、姿态,到温度、压力等上千个维度的数据分分秒秒都在产生;空客A380产生的更多,30分钟高达10TB,这些大数据时时刻刻反映飞机的运行工况。如图1-6所示,真相来自真实语言的表达、物理世界的反馈。图1-6 真相来自真实语言的表达、物理世界的反馈

如图1-7所示,数据是物理世界在网络世界的客观映射,是物理世界的DNA。当然二元世界不是割裂的,是相互渗透、相互融合的。2000年热议的“鼠标+水泥”和当前大家谈论的O2O,都是指融合的二元世界。当下流行的手机游戏“口袋妖怪Go”(Pokemon Go)把物理世界与网络世界有机地融合起来,创建了一个亦真亦幻的增强现实的游戏空间。大家可翻看一下手机,看看手机通讯录和微信群之间的差异。通讯录更多反映物理世界的亲戚、同学和朋友,微信群则更多反映网络世界的朋友。以前,我们的生活多是从线下到线上,从物理世界向网络世界映射、迁徙,如电子地图、餐饮评价等。随着网络应用的深化,从网络空间向物理空间的逆映射也在不断出现。以前人们买房,基于经济条件、工作地方、学校等因素,所以即使门对门,也没有多少交往——因为之间没有交集。现在,很多创业者首先在微信群相识,但网络空间交流不够充分,于是转移到类似WeWork、YOU+国际青年社区等创业社区,创业活力得到极大激发,可能在等电梯的2分钟就会完成一个创业话题的讨论。以后这种从线上映射到线下的项目和内容会越来越多,可能会出现钓鱼社区、骑行社区等,人类的创新活力也将得到极大的释放。图1-7 数据是物理世界的DNA

1.3 大数据应用从数据营销拓展至各行各业

1.3.1 数据营销是过去10多年大数据的主战场

过去10多年,大数据的应用主要集中在数据营销领域,这个领域从全球范围来看已经形成上千亿美元的产业,我国在该领域也已经形成上千亿元人民币的产业,具体如表1-1所示。表1-1 典型企业数据营销收入对比

我们搜索、点击、浏览、阅读、购买、收藏等一切网络行为都被记录下来,搜索引擎、门户网站、电子游戏企业、电子商务企业根据这些数据,然后打上标签,给每个用户进行数字画像(如图1-8所示,我们每个人都有一个网络画像),在合适时间、合适场合把广告商的广告推送到网络用户面前,网络用户点击,广告厂商付钱,以此形成数据商业价值闭环。目前,全球已形成近千亿美元的产业。在美国网络上点击一次“Cheap Car Insurance”广告,保险公司会向谷歌支付33.97美元;谷歌最贵的关键词一次点击的价格高达670.44美元,点击一次等于送谷歌CEO桑达尔·皮查伊(Sundar Pichai)一台iPhone 6!在国内点击一条医疗广告也高达上百元。如表1-2、表1-3所示,精准营销的商业价值已经实现。图1-8 每个人都有一个网络画像表1-2 谷歌和百度部分关键词点击一次广告价格表1-3 谷歌利用大数据,日进斗金

当有网络用户在新浪汽车频道浏览汽车,新浪网会根据用户行为模型判断他是学车、买车,还是换车。如果一个用户总是浏览8万~12万元的德系车,浏览指数从一般无任何指示状态的8~12,跃升到60~80,那么未来半年向他推销捷达很可能奏效。如图1-9所示,互联网数据可以满足你的所想、所思、所求。图1-9 互联网大数据:满足你的所想、所思、所求

1.3.2 金融、地产、制造、政府等行业为大数据提供了更为宽广的腹地

2015年,全国媒体收入为3 840亿元(其中,互联网广告市场为2 096.7亿元,广电报刊四大传统媒体行业的广告之和为1 743.5亿元,数据来源于《新媒体蓝皮书:中国新媒体发展报告No.7(2016)》),相对于4.13万亿元(GDP值,下同;收入为8.9万亿元)的房地产业、5.75万亿元(GDP值)的金融业、6.6万亿元的批发和零售业、22.9万亿元的工业而言相差一个数量级。如果这些行业的核心业务从拍脑袋式经验决策转变为数据驱动的决策,给大数据带来的市场空间显而易见。

以房地产为例,过去20年,房地产行业的信息化程度很低。拥有上千亿元销售收入的房地产企业每年信息化的投入也就几亿元,拥有上百亿元收入的企业投入仅有几千万元,整个行业信息化投入也就100亿元左右,这也就导致为房地产提供信息化建设的IT企业最大规模年收入也就6亿~8亿元。以前是不知道客户在哪儿,各环节的决策也是靠拍脑袋,往往导致小麦比面包还贵的土地竞拍事件。大数据时代,从项目调研、土地评估和决策、产品推广和销售、物业服务和社区运营等全流程四大核心环节均可以由大数据来驱动,每个环节都会有数百亿元的潜在市场规模。一家房地产企业通过利用大数据和不用进行对比,效果相差明显,其中,来电效果是2.5∶1,到访效果是3∶1,成交效果是3∶0,效果对比后,立即决定2017年加大DT投入预算。

互联网金融的兴起逐步打开了普惠金融的大门。中小微企业的资金需求从未被满足过,该市场是传统金融企业不能、也不愿涉足的领域。中国人民银行征信中心有信贷记录的自然人为3.5 亿人,也就是说我国有近10亿人得不到传统金融机构的眷恋。只要获得这近10亿人的上网、APP安装、使用、社交行为、用水、用电、用车等数据,利用大数据的模型和算法,转化为金融征信评分,传统金融机构不愿做的事立马变为金矿,而这些数据在大数据时代获取并不困难。我们每个人一天近6个小时在网络空间畅游,积累了大量的数据,只是这些数据被不同主体的企业拥有而已。

传统银行机构平均贷款规模为179万元,每笔贷款尽职调查成本等为5.2万元,贷款发放周期为2周至1个月。基于店铺基本信息、店铺日常经营活动、客户评价信息和行业基准信息等大数据,蚂蚁微贷的平均贷款规模仅为3.6万元,每笔贷款尽职调查成本等为1 600元,贷款发放周期仅需要3分钟。最重要的是,贷款违约率大幅下降,从传统金融机构的2%~3%的不良贷款率下降到不足1%。金融行业的壁垒也正在被大数据所打破,有数据的企业纷纷进入金融行业。电子商务企业阿里、京东,卖电器的国美、苏宁,卖房的万达、卖二手房的链家,经营物业的花样年集团等企业蜂拥进入金融领域,未来还将有更多企业进入金融领域。硅谷也涌现出了一批互联网金融企业,凭借数据挑战富国银行等传统的金融巨头。如图1-10所示,金融大数据将重构金融生态。

如表1-4所示,大数据推动保险从千人一面转向千人千面。通过汽车上的数据记录装置可以时时刻刻记录驾驶人员的操作状态,基于急加速、急刹车、急转弯等“三急”数据,再加上驾驶者平均用车时段、驾驶者行车速度比值、是否定期保养等多维度的数据,保险公司可以彻底改变过去基于事故概率的统一定价机制。基于数据,保险定价可以做到千人千面。图1-10 金融大数据:重构金融生态表1-4 保险大数据:千人一面转向千人千面

亿海蓝通过监测10多万艘100吨以上的国际航行船舶,累计8年的历史轨迹、上亿个位置数据,为国际货轮提供全方位的加油、补充供给等服务,并基于数据开发金融服务,同时亦能洞察全球经济脉搏为基金、证券服务。如图1-11所示,航运大数据带你洞察全球经济脉搏。图1-11 航运大数据:洞察全球经济脉搏资料来源:亿海蓝。

医疗卫生因为数据而变。如图1-12所示,医卫大数据,将用数据诊断一切。类似智能手表、智能手环等可穿戴设备正在逐步进入大众市场,通过心率、脉搏等传感器,你的生理状态数据无时无刻不在产生、记录,有了连续的多维度生理状态数据记录,通过你的手机APP,即使没有医生,根据曲线变化情况,你自己就会有一个初步身体状态的判断,如果这些数据被保险公司、医疗保健企业、药店获得,他们将会为你提供更为周到的服务,当然是要在隐私不被侵犯的前提下。图1-12 医卫大数据:数据诊断一切

如图1-13所示,房地产行业正在被大数据重塑。以商铺选址为例,过去调研公司在一个红绿灯路口派8个人,点过往人头,根据最低人流量来决定是否在该街角开家麦当劳。这种传统的调研方式正在成为过去时,利用TalkingData覆盖超过10万款移动应用、累计48亿台独立智能设备、每天处理数十亿次会话请求数据,不但可以知道过去一个季度某个商业网点经过多少人,还可以知道这里有多少外地人,更可以知道这些人过去一段时间去过多少次快餐店,从而比传统的调研方式更快、更准确地做出商业决策。图1-13 地产大数据:重塑房地产资料来源:Talkingdata。

如图1-14所示,利用WiFi探针、指纹技术可以更深入、更精确地洞察用户线下行为。相对于移动运营商宏基站的公里级定位精度、微蜂窝的百米级定位精度,GPS室内定位无能为力等其他定位方式,WiFi为室内定位提供了新的制导武器。利用WiFi可探测到客户到过案场的次数、精确到米级的位置,并且定位精度可调节。如果一个用户一个月到过楼盘销售点3次、在三居沙盘件停留20分钟以上,同时又到过财务间10分钟以上(可能询问支付购房款细节),基本可以判断该客户买房的概率很大。有了到店来访数据用户群体的精准画像,根据这些人群标签特点,基于Talkingdata公司48亿独立智能设备,使用Lookalike技术,与全国范围内的智能手机用户标签进行比对,发现更多潜在客户。

2006年,花样年集团提出了“零物业管理费”,当时掀起轩然大波。花样年物业管理公司通过为业主提供“购买充值卡”、“送桶装水”、“订送牛奶”等100多项“增值服务”,沉淀下大量用户交易、行为数据,利用这些数据来对社区居民及家庭进行画像,对接需求,从而获取佣金来补贴物业管理费。基于社区大数据,可以构建社区金融信用评价体系,为社区家庭提供小贷服务、理财服务。到2020年,花样年服务的社区面积将超过10亿平方米,人口将超过4 000万。假设每人每月社区消费是2 000元,一年就是2.4万元,那么4 000万人一年将消费上万亿元。如果按1%的佣金计算,收益就是100亿元;拿到2%,就是200亿元;按天猫模式收3%~5%的佣金计算,就是300亿~500亿元。“零物业管理费”模式的核心逻辑是通过数据实现“羊毛出在猪身上”的付费转移。如图1-15所示,物业大数据,让零物业费成为可能。图1-14 利用WiFi更深入洞察用户线下行为资料来源:Talkingdata。图1-15 物业大数据:零物业费成为可能资料来源:花样年集团(中国)有限公司。

艾漫数据通过持续抓取覆盖全网3 200家新闻站点,包括700家纸媒、300家电视台等新闻数据,微博、论坛、社区等社交类网站热议数据,售票软件卖出电影票的数量、视频网站中同类型影片的点击率、电视节目的收视率等用户行为数据,院线的票房、上升率和排片率等行业数据,然后通过行业经验和大数据技术,从影片体裁、编剧、导演、演员、发行时间、发行区域等维度进行分析判断,从而进行演员筛选、广告投放和票房预测。《小时代》从男主角的替换,到重点城市的广告投放,到海报内容的设计,再到排片时间的选择,都是基于该系列电影的82%的关注者都是“90后”,女性观众更是接近80%等数据来做的科学决策。

一家大数据创业企业利用社交媒体数据发现,喜欢赵本山电影的人75%集中在东北三省,毫无疑问,赵本山的电影进行发行、广告投放时,75%以上的资源也应集中的这些省市,常规的北上广重点投放被这个事实数据打破。如图1-16所示,影视大数据将重塑影视业。图1-16 影视大数据:重塑影视业资料来源:艾漫数据等。

在F1赛车、篮球赛、足球赛、射击等体育比赛中均可见到大数据的身影。NBA为每座球馆都装上了摄像机来跟踪、记录每个球员的每个动作。追踪系统可以记录得分、篮板、助攻、盖帽,甚至球员跑动范围、触球点、投篮点等详细的数据,这些数据对于双方教练和球员来说,是非常重要的情报信息和弥补短板的事实依据。

我们来看一个倒数第二的篮球队如何利用大数据逆袭的案例。2010年,由硅谷风险投资家领衔的一批高管花费创纪录的4.5亿美元,买下了美国职业篮球联赛(NBA)中表现倒数第二的一支加州球队(勇士队)。在大数据的驱动下,新管理层得出的重要观点是,目前的篮球打法是错误的。数十年来,球员跳得比篮筐还高然后把球塞进篮网的所谓“扣篮”,一直是这项运动的标志性投篮动作,但它只值两分。

勇士队的高管重新设计了球队,要求他们更多地从距离篮筐约24英尺(约7.3米)的三分线外远投,因为从那里投进一球能得3分。2015年6月,勇士队夺得了该队40年来的首个NBA总冠军,但真正引起全美球迷关注的是它本赛季的战绩。本赛季中勇士队已经打破一项纪录,投中超过1 000个三分球,成为NBA历史上单赛季命中三分球最多的球队。速得尔科技(北京)有限公司利用不可见光装置分析射击运动员的轨迹特征来筛选、培养优秀射击选手。如图1-17所示,体育大数据可以助体育一臂之力。图1-17 体育大数据:助体育一臂之力资料来源:速得尔等。

大北农集团农信互联有限公司利用摄像头、传感器、手机APP等设备和软件知晓全国1 500多万头生猪的生长发育信息,根据仔猪数量、重量和生长发育时间就能够推断明年豆粕、玉米等饲料需求、猪肉可能的价格区间,期货交易所可根据这些数据来指导大宗农产品期货价格。一家期货交易所愿意用10元的价格,购买一头猪的基本信息,用作饲料期货交易的参考。如图1-18所示,农业大数据助你发现“猪联网”的独特价值。图1-18 农业大数据:“猪联网”的独特价值资料来源:农信研究院。

通过对气候、土壤和空气质量、作物成熟度,甚至设备和劳动力的成本及可用性方面的实时数据收集、预测分析,可以做出更明智的决策。在精准农业中,控制中心实时收集并处理数据,来帮助农民在播种、施肥和收割作物等方面做出最明智的决策。遍布田间的传感器用于测量土壤和周围空气的温度与湿度。此外,卫星图像和无人机会被用来拍摄田地的照片;随着时间的推移,图像会显示作物成熟,加上对未来48小时的精准天气预测模型,就可以建立模型并进行模拟,从而预测未来的情况,并帮助农民做出前瞻性的决策。约翰迪尔是家美国拖拉机制造企业,他通过在拖拉机、农耕机具上加装各种传感器,能够分析土壤样本、田间作物颜色、生长速率、营养水平、农作物品种等信息,帮助农场主生产经营农产品,同时提供农产品销售服务、供应链金融服务。如图1-19所示,农业大数据使农业焕发生机。图1-19 农业大数据:使农业焕发生机资料来源:约翰迪尔。

百度拥有数十万台服务器和数万台交换机、200多万块硬盘。硬盘的年报错率为4%~7%,月均硬盘故障超过1万起,占全部硬件故障的80%以上。通过对9亿条实例进行采集处理,选取15万个训练样本,监控240个特征实时变化,构建预测模型,可以提前一天预测出硬盘故障,并及时迁移数据。此举可节约70%的带宽,85%的计算资源,节省服务器的10%运营消耗,每年节省1万多块硬盘。

石家庄天远科技通过监测分布在全国20多万台工程机械的运行数据,能够及时、准确提供备件。如果工程机械出现异常问题,远程监控系统能实时向机手发送短信告知潜在的危险,避免严重事故发生。同时,它还能优化油耗管理、二手车残值管理、产品设计等。对于货车超载监控,他们也研发出了新的解决方案——根据动力输出与加速度之间的关系,用算法和模型可以计算出货车装载量,省去大量人力、物力去围追堵截超载车辆。如图1-20所示,工业大数据将重塑工业体系。图1-20 工业大数据:重塑工业体系资料来源:百度、天远科技。

大数据助力旅游。旅游者出发去某景点旅游前,总会搜索交通、餐饮、住宿、特产等相关信息,根据这些信息可以创建旅游预警指数,从而进行有效的疏导和引导,避免类似华山2012年事故的发生。

搜胜于言,行胜于搜,买胜于行,线下行为数据要比线上数据更有价值。

2007年,北京地铁中出现大量河南焦作云台山的广告,这也是大数据决策的结果。根据电信信令数据发现,云台山景点60%的游客来自北京,20%来自山东,剩余20%来自山西、河南省内及其他省市,所以当地旅游部门把广告资源重点投向了北京。如图1-21所示,旅游大数据助旅游机构了解游客行踪。图1-21 旅游大数据:你的行踪我知道资料来源:百度、河南移动。

克强指数是基于耗电量、铁路货运量和银行贷款发放量等三个经济指标判断经济形势的,从某种程度上来说克强指数是基于大数据思想的经济指数。近几年,出现了更多类似克强指数的大数据经济指数,如根据百度整体平台上的广告投放来创建的百度整体行业消费量景气指数(见图1-22)。华尔街利用日本小松分布在全球的200万台工程机械的位置和每斗挖掘的重量来分析各国经济的走势,用以指导货币交易。图1-22 大数据经济发展指数资料来源:百度、龙信、小松等。“挖掘机指数”——借助大数据和物联网技术,一台台机械通过机载控制器、传感器和无线通讯拈,与一个庞大的网络连接,每挥动一铲、行动一步,都形成数据痕迹。海量机械的应用场景和开工率等来自一线的真实情况,从无数最基层的工人手中汩汩流淌,流动到三一重工,成为企业经营、转型的依据。通过7年多的积累,三一重工形成了5 000多个维度、每天2亿条、超过40TB的大数据资源。当一台台设备成为屏幕上跳动的亮点时,数据分析师们突然发现,这不就是基础建设行业的活力图吗?三一重工总裁助理陈爽说:“这是最底层的核心数据。不管宣布多少投资,真正落实和施工量紧密相关。”三一是行业龙头,一些类别机械国内市场占有率超过40%,数据代表性远超过统计抽样,具备指数条件。2014年3月,国务院有关领导视察三一重工,观看了大数据平台后,要求每个月报送相关工程机械运营情况数据。目前,报送周期已缩短到半个月一次。“引入大数据思维,是国家治理理念的飞跃。”三一重工总裁向文波说。尽管“挖掘机指数”仅仅是观察中国经济的一个微观侧面,但这反映出中央政府调控经济的思路已经发生积极的变化。三一重工基于工程机械大数据的经济指数如图1-23所示。图1-23 基于工程机械大数据的经济指数

正向人们身体出现感冒症状会利用搜索引擎寻求帮助,从而可以利用这些搜索关键词来构建流感指数一样。框定如“治疗艾滋病哪种抗生素好”、“治疗艾滋病哪家医院好”等搜索关键词,可以创建艾滋病指数,卫生部门可以提前数周获知艾滋病流行情况。此外,还可以利用电信信令、手机APP、微信和QQ同时在线数来监测热点景区、活动区人流密度情况,从而进行及时疏导、动态警力配置,避免类似上海踩踏事故的发生。2015年广州亚运会期间,就是利用微信和QQ同时在线数来动态布置警力的。如图1-24所示,利用大数据可以加强公共事件预警。图1-24 利用大数据加强公共事件预警资料来源:百度等。

大数据在反恐领域也大有作为。暴恐是社会的毒瘤,但只要暴恐分子上网,总会留下蛛丝马迹。波士顿马拉松爆炸发生后,美国联邦调查局根据摄像头、Facebook、Twitter等社交媒体数据24小时内锁定了嫌疑分子。如图1-25所示,可以利用大数据开展反恐工作。图1-25 利用大数据进行反恐

套牌车几乎在每个城市都有,如何用大数据来解决这个问题呢?其实逻辑很简单,在5分钟之内如果距离大于10公里的两个电子警察设备,同时抓拍到了一个车牌,那这个车牌可能就是套牌了,或者说套牌的概率已经非常非常大了。因为车不可能会开得这么快,超过了我国120公里/小时的限速。对一个地级城市三年汇聚的12亿电子警察车牌数据进行分析后发现,有394辆疑似的套牌车。如图1-26所示,利用大数据可以发现套牌车。图1-26 利用大数据发现套牌车资料来源:李伟,预警 预知 预测——大数据催生“智慧警务”。

利用大数据技术来分析10年以来一个地级市的60多万违法犯罪人员入住旅馆的规律,对比15亿条全部房客登记数据,很容易发现违法犯罪人员的蛛丝马迹。一般开房的高峰是在下午一点和夜间九点左右,而违法犯罪人员的峰值在凌晨三点左右,高峰期从凌晨一点一直持续到早上五点到六点。继续细分发现,盗窃类的嫌疑人开房的高点是凌晨两点和早上七点。这是因为,盗窃者一般会在凌晨一点左右和凌晨五六点左右作案,作完案他们可能在凌晨两点和七点钟左右去开房。从时间段来看,19~23岁的人,在上述时间段入住嫌疑的可能性比较大。还有,普通人入住酒店的档次,多为中档酒店,而犯罪嫌疑人多为中低档和低档。还有些客户一会儿五星级,一会儿火车站招待所,也要引起高度警惕,其背后很可能是作了案钱到手去花天酒地,没钱的时候只能到火车站招待所。如图1-27所示,利用大数据可以发现犯罪嫌疑人。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载