漫话大数据(txt+pdf+epub+mobi电子书下载)-txtepub下载

作者：郎为民编著

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

漫话大数据试读：

前言

与《小崔说事》中的白云、黑土一样，《大话物联网》《大话云计算》《大话移动互联网》和《手机那点事儿》出版之后，我参加的活动那是相当地多。活动之余，经常遭人调侃：“热点IT技术都让你大话完了，下一次看你小样儿拿啥开刀。”还好，有大数据！单位同事更是拿我开涮：“老狼，快写《漫话大数据》吧，院里厕所可没纸用了！”其实，写一本大数据科普图书的想法由来已久，只不过我一直在用大数据掐算什么时候出版、写些什么东东（东西）才能火。

网络社会新概念真是层出不穷，人们还没有完全适应现代互联网生活，“下一代互联网”的竞赛已经如火如荼；信息高速公路带来的海量信息资源还不曾被充分利用，又有人在想通过“物联网”玩转“智慧的地球”；在云尚未聚雨带来甘霖之时，大数据的概念又被热炒起来，它俘获了无数创业者和技术男的春心。

大数据是当前最火的科技词语，每个人都在谈论大数据，仿佛谁不谈论大数据就落伍了似的。2013年大数据当仁不让地坐上 IT 江湖的头把交椅。套用赵本山在小品《功夫》中所说的台词：反正你接受它也来了，不接受它也来了，接受不接受大数据时代它都带着诚意扑面而来了。

男大当婚，女大当嫁，数据大了不中留，留来留去留成仇，需要赶紧为她找个归宿。2013年可谓是大数据的花季之年，提亲媒婆似乎踏破了每个数据中心的门槛，大家都对大数据产生了无限的好奇和遐想。天涯何处无芳草，人家大数据才最懂你的心。手牵手，跟她一起走，创造幸福的生活。昨天你来不及，明天就会可惜。

大数据开启了一次重大的时代转型，一场生活、工作与思维的大变革。就像望远镜让我们能够感受宇宙，显微镜让我们能够观测微生物一样，大数据正在改变我们的生活以及理解世界的方式，成为新发明和新服务的源泉，而更多的改变正蓄势待发……套用一句广告词：有了大数据，生活好滋味；更多选择，更多欢笑，就在大数据！

在国家自然科学基金资助项目“节能无线认知传感器网络协同频谱感知安全研究”（编号：61100240）资金的支持下，结合自己多年来在大数据领域的研究经验和体会，特撰写拙作，以期抛砖引玉，为我国大数据事业的发展尽一份微薄之力。

本书是一本关于大数据的幽默科普读物，它使用大量的漫画、故事、笑话、网络流行语、相声小品台词等生动风趣的语言，采取比喻、夸张、排比、拟人等多种表现手法，以独特的视角深入浅出地为大家解读了大数据的产生背景、前世今生、衡量标准和基本特征，描述了大数据采集、存储、分析、处理和展现等关键技术，列举了大数据在政治、经济和生活中的应用实例，分析了大数据在隐私、安全、宕机（死机）、数据公开等方面面临的困境，展望了大数据的发展趋势，最后总结了国内外知名大数据公司的发展策略与应用现状。本书通过大量实例和漫画式插图来帮助读者理解晦涩、枯燥的技术，向读者诠释了大数据的巨大魅力，为初学者打开了一扇深入学习大数据的大门。

本书由郎为民主编，武汉职业技术学院的焦巧，解放军第二炮兵指挥学院的陆雪娟，解放军国防信息学院的刘建国、苏泽友、钟京立、刘勇、陈凯、张国峰、吴帆、陈红、夏白桦、毛炳文、刘素清、邹祥福、瞿连政、徐延军、张锋军、陈于平、余亮琴、张丽红、王大鹏、王昊、陈虎、姜斌、和湘、朱元诚参与了本书部分章节的撰写，高泳洪、蔡理金、王会涛、崔遥绘制了本书的全部图表。孙少兰、刘建中、靳焰对本书的初稿进行了审校，并更正了不少错误，在此一并向他们表示衷心的感谢。

人民邮电出版社的李强老师作为本书的责任编辑，为本书的面世付出了辛勤的劳动。人民邮电出版社对本书的出版给予了大力支持。在此一并表示感谢。

由于大数据仍在发展之中，新的技术和应用不断涌现，加之作者水平有限，编写时间仓促，因而本书难免存在错漏之处，恳请各位专家和读者不吝指出。我的E-mail是：wemlang@163.com。

谨以此书献给我聪明漂亮、温柔贤惠的老婆焦巧，活泼可爱、机灵过人的宝贝郎子程！郎为民2014年1月于武汉第1章大数据的春天

2013年度最心疼奖应当颁发给歌手汪峰，理由是有一种创伤叫上不了头条。2013年9月13日在微博宣布离婚碰上“菲鹏”婚变；11月9日公开告白章子怡又撞上球队夺冠；11月13日发表新作品，却遇上吴奇隆与刘诗诗公开恋情以及杨幂与刘恺威的婚讯；11月27日登苍山，好不容易攻顶，但同一天，王力宏与李云迪先后认爱，头条再次被抢走；12月2日汪峰发布新专辑，想不到遇上了嫦娥三号的发射，让他第5次冲击头条失败。

与汪峰狂抢头条未果不同，2013年大数据当仁不让地坐上IT江湖的头把交椅（如图1-1所示）。我们在经历了以PC、网络、服务器和存储为中心的时代后，大数据如约而至，它将深刻地改变我们每个人的生活。大数据的江湖很热闹，热闹到许多与大数据没有半毛钱关系的人，都会义无反顾地投身到大数据的江湖里来，包括贩菜的、修车的、卖书的、开店的、做饭的……都纷纷声称要向大数据转型。图1-1 大数据上头条

从 2012年起，大数据一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。它光顾过《纽约时报》《华尔街日报》的专栏封面，进入了美国白宫官网的头条新闻，现身在国内一些互联网主题的讲座沙龙，甚至被嗅觉灵敏的证券投资商等写进了投资推荐报告。

一桩桩围绕争夺大数据制高点而展开的并购案，一家家发布大数据战略的 IT 厂商，一个个关于大数据的传奇故事，一场场以大数据为主题的研讨会议，一名名轮流登场布道的专家大佬（老大，指有权威的人），无一不在宣告：大数据时代来了。1.1 四部影视剧帮你看懂大数据

盘点近年来的西方影视剧，最靓丽的风景莫过于其中的高科技奇观。这些影视剧使用先进的高科技进行制作，拥有无可比拟的观赏性和征服力，总能给人以极大的震撼和幻想，充分体现了科技和艺术结合的魅力。同时，它们又总能紧跟潮流，与时俱进，将最时尚、最前沿的新东东（东西）融入到影视剧当中，因而一些年轻人对西方影视剧情有独钟也就不足为奇了。

大数据，无疑是2013年IT业内最热的词。厂商热推，媒体热炒。仿佛不谈大数据，不推大数据，不用大数据，就没有了未来。当 IT 业界正在爆炒大数据的时候，影视圈的导演和主角们自然也不甘寂寞，他们雄赳赳、气昂昂地投身到这场轰轰烈烈的造星运动之中。娱乐没有圈，没有谁规定电影人不能玩高科技！1.1.1 英剧《黑镜》：“复活”爱人

当深爱之人不幸殒命，你会用科技的力量复活他么？2011年热播的英国电视剧《黑镜》给出了答案：Yes！（是的！）《黑镜》（如图1-2所示）是英国电视4台于2011年12月播出的迷你电视剧，由英国制片人查理·布鲁克制作。“黑镜”的灵感来源于人人都有的“黑镜子”——每个家庭、每张桌子、每个手掌之间都有一个屏幕、一个监视器、一部智能手机，这是一面反映时下现实的黑镜子。图1-2 英剧《黑镜》

在《黑镜》第二季第1集《去去就来》中，艾什生前是一个社交网络控（控来自Complex，即情结、极度喜欢的意思），几乎天天泡在Facebook、Twitter这类网站上。每天玩社交网络的艾什伤不起啊！除了做梦的时候不上，其余时间每一分钟都在上网，没事儿就想着点刷新，手贱得根本无法自控。在玛莎的劝说下，艾什同意和她搬到一处偏僻的小屋去住。糟糕的是，艾什在一次车祸中不幸遇难。在艾什的葬礼上，玛莎的朋友萨拉称某公司可以利用艾什生前在社会媒体上留下的“生活轨迹”，再造一个“真实”的、具有“人工智能”的艾什。一开始玛莎认为这个想法太不可思议，但最终还是同意了。此后，玛莎很快发现自己怀孕了。人工智能艾什给玛莎发来很多邮件，玛莎决定回复其中的一封。这个“死后重生”的艾什会做何反应呢？

寂寞无助的玛莎经不起亲情和爱情的双重诱惑，她太爱艾什了！于是，在供应商为玛莎量身定制从文字聊天到语音通话的套餐吸引下，她无法自拔，自愿加入了一个尚在测试阶段的项目，该项目利用艾什在Facebook、Twitter等社交网络上留下的大量数据，重建了一个模拟艾什人格的人工智能（Artificial Intelligence，AI）机器人。

在社交网络上分享信息实际上是一个量化自我的过程。量化自我（Quantified Self， QS）是指通过科技方式将一个人日常生活的各方面，包括物质摄入、身体状况以及体能情况记录下来的一项活动。量化自身的追随者相信收集，分析数据可以改善一个人的生活。

千金难买爱人一笑。剧中替身机器人的生产商采用了软件免费+硬件收费这一营利模式。先提供免费的文字和语音沟通服务令用户产生依赖，然后借机推销昂贵的人形终端设备。当厂商成功地将用户对逝去亲人的感情转移至人工智能，有谁会拒绝一掷千金来换回爱人的音容笑貌呢？

供应商提供了3种服务：初级服务、中级服务和高级服务。初级服务提供在线聊天服务，但这里的在线聊天是文字类型的，用户通过IM（Instant Message，即时通信）的形式与机器人进行交流；中级服务在文字沟通交流的基础上，拓展至可语音通话，从而使机器人更加立体化和情感化；高级服务则直接给你一个活生生的人。他可以陪你说话，可以陪你睡觉，可以给你做饭，而且他还遵循机器人三大定律（机器人不得伤害人；机器人应服从人的一切命令，但不得违反第一定律；机器人应保护自身的安全）。对于数据提供商来说，初级服务是可以免费提供的，而中、高级服务则是需要收费的。

通过对艾什在社交网络上留下的信息进行分析，获得模型、发现规律、统计比较，最终实现“预测”这一终极目标，即预测在特定的情景下，“如果艾什活着，他会怎么做？”

当然，需要提醒的是，社交网络上不可能包含所有的生活情景，这使得重建的人格中存在数据空白。如艾什身上有颗痣，而替身机器人（如图1-3所示）却没有，因为艾什可能不会在社交网络上公布身体的这些细节信息；替身机器人并不知道艾什生前触碰女友胸部时的性反应，因为这部分属于艾什在网上不能说的秘密；当玛莎将替身机器人赶出卧室时，他不会和玛莎吵架，因为艾什不会把与老婆打架，被老婆抓了个满脸花的照片上传到社交网站；当玛莎让替身机器人跳海时，他不会向玛莎哭着求饶，因为他不知道艾什性格中还有怕老婆的一面；当玛莎驱车播放她和艾什喜欢的音乐时，替身机器人评价“好俗气”，因为他不知道艾什夫妇其实就是一对俗人。图1-3 人工智能艾什

这些数据的空白环节需要替身机器人自行学习。人工智能学习的知识有两类：一类是数据库；一类是使用过程中用户的实时反馈。例如，剧中的替身机器人从AV（Adult Video，成人影片）中学习各类性爱姿势，还会经常询问女主角某个词的含义。重建人格并填补上数据的缺项后，人工智能就拥有了一个情景库，其中包含可能遇到的各种情况，并有与之对应的处理方式。人工智能接下来要做的，就是将实际遭遇的场景与这个库中的范例进行匹配。

这个“复活”了的男朋友最初通过文字，继而通过语音与女主角聊天，最后甚至通过一具机器人身体“实实在在”地陪伴在女主角身边。在剧中，替身机器人会用艾什的口吻安慰玛莎，会恰到好处地说些艾什风格的俏皮话，但这并不意味着替身机器人能够完全理解人类的行动和情感。女主角将机器人当作复活的男友，但恐怕存在于服务器里的“男友”只是把与她的每一次沟通在情景库中进行匹配，并用糅合了艾什人格和一般化数据的“应对方案”进行回应。

替身机器人的本体是保存在云端服务器的人工智能。眼下方兴未艾的一“云”多“端”思路在剧中的时代已经生根发芽，观众看到的替身机器人同女主角最初用来与人工智能沟通的计算机、智能手机一样，只是一台终端。

科幻从来不是无根之水，剧中的替身机器人涉及的技术已初现端倪，“复活”爱人并不遥远。如果这事儿发生在古代，活生生的一出《人鬼情未了》。还好，剧集发生在未来，所以一切都经得起推断和解释。

此类替身机器人面临着诸多伦理问题：一是中国有个不成文的传统，即人死为大，逝者为尊，入土为安。在亲人不幸离世之后，使用逝者生前留下的数据重建他的人格甚至外貌，并将重建的数据用于订制替身机器人是否合适？是让爱人“复活”还是假以怀念？二是发表在社交网络的大部分数据都是公开的，如何避免有未经授权的机构或个人擅自盗用这些数据，复制出死者甚至活人的替身用于非法行为？三是不同于普通的家政机器人，替身机器人作为爱人的替代品，会在非常私密的场合下使用，如何防止个人隐私的泄露？剧中，女主角在短暂的蜜月期之后，逐渐认识到“复活”的艾什并非原本的那个“TA”。无法狠心摧毁替身机器人的女主角，最终将“TA”关在阁楼，每周上去一次怀念曾经深爱的男友。

社交网络的大数据分析，除了复活逝者，还能在人海中寻找拥有相同思考逻辑与兴趣爱好的“灵魂伴侣”。当曲终人散，科技不该让人沉湎过去，而该助人迈步前行。我们不想去纠结剧集本身的压抑和黑暗以及主创所想要表达的思想，只想通过这么一个剧集，来看一下大数据未来的应用。无疑，在这部剧集中大数据最为直观的应用就是能够生产人。1.1.2 电影《点球成金》：用数据拿冠军

一名棒球好手走在路上，忽然看到一只小猫在树上摇摇欲坠。他赶忙奔去将小猫接个正着，然后朝一垒方向扔去。在国内，棒球仍属于非常小众的运动，但在美国却红得发紫，本人在美国田纳西大学留学时，每当体育馆有棒球比赛时，诺克斯维尔市的道路堵得跟北京似的，两旁店铺中球迷们边看电视边狂饮酒，搞得跟圣诞节一样。但是，打好棒球其实并不是一件容易的事情，就连棒球巨星米奇·曼陀都说：“难以置信，打了一辈子球，却依然对它知之甚微！”一个0.4亿元家底的棒球队如何能够与一个1.4亿元家底的球队相抗衡，而且还能赢得1亿元？电影《点球成金》（如图1-4所示）给出了答案。图1-4 电影《点球成金》

影片《点球成金》改编自迈克尔•刘易斯的《魔球：逆境中制胜的智慧》。讲述的是一个真实的故事，介绍奥克兰运动家棒球队总经理比利•比恩的经营哲学，描写了他抛弃几百年一直依赖的选择球员的传统惯例，采用了一种依靠计算机程序和数学模型分析比赛数据来选择球员的方法。他并没有采用那些像“棒球击球率”这样传统的标准，而是采用了看上去很奇怪的、类似“上垒率”这样的标准。这个方法发现了这项体育赛事的另一面，始终存在却一直被忽略了的一面。一个球员怎样上垒并不要紧，不管是地滚球还是三垒跑，只要他上垒了就够了。当数据表明盗垒不实用的时候，即使这会让比赛更有看头，比利•比恩也不会再关注这种华而不实的技能。

2003年，此书出版后在美国掀起了一股热潮，从波士顿、纽约到旧金山、洛杉矶的球迷、新闻媒体乃至金融精英都津津乐道于书中的只言片语。数年后，该书的影响力甚至跨越太平洋传到了欧洲足球界。这本颠覆了美国体育管理层思路的书，讲述了精明的奥克兰运动家棒球队总经理比利•比恩如何采用统计学和数学建模的方式分析数字，从而取得最终胜利的经营哲学。他是逆向投资的表率，用极少的资金经营着这家俱乐部，并使用复杂的计算机程序分析比赛数据，用“数据”的方式将一个小球队打造成超级劲旅，使得这支球队取得了一场又一场的胜利，甚至有能力与大名鼎鼎的纽约扬基队竞争。2011年由原著改编的同名电影正式上映，布拉德•皮特扮演了书中主角奥克兰运动家队的总经理比利•比恩。《华尔街日报》评价说：“从来没有一部电影将枯燥的数据转化为如此令人愉悦的娱乐体验。”《芝加哥太阳报》则认为：“这是一部聪明、紧张且感人的电影……虽然入场前我已经知道电影的故事，但影片的智慧与深度是我没有预料到的。”该片获得第84届奥斯卡最佳影片、最佳男主角、最佳男配角、最佳改编剧本、最佳音响效应、最佳电影剪辑6项提名，以及第69届金球奖最佳剧情片提名和最佳剧本提名。“一鼓作气，再而衰，三而竭”。这句话的意思是，做事情必须要一鼓作气，才能成功。可是，影片《点球成金》的拍摄却是一波三折，在经历了大卫•弗兰科尔和斯蒂文•索德伯格的参与和退出之后，这部电影最终被交到了《卡波特》的导演贝尼特•米勒的手中，而影片的剧本也是一改再改，到了米勒这里，已经不知道是几易其稿了，而且影片的制作成本也被一再削减。不过，好在原著小说的作者迈克尔•刘易斯没有在这些事件中公开表态支持哪个导演，否则这部电影还要继续“命运多舛”下去。

在美国职业棒球大联盟（Major League Baseball，MLB）比赛中，比利所属的奥克兰运动家队败给财大气粗的纽约扬基队，三名主力被重金挖走。总经理比利很早就发现自己的天赋不足以成为大联盟的球员，因而他下定决心成为一个棒球界的高层管理人员。他在奥克兰运动家队做球探，8年后就成了总经理。他暗下决心改造球队。

比利是一个“特立独行”、“思维怪异”的家伙，就是在这样一个经理人的掌控下，他的一切行事和工作几乎皆不按常理出牌，处理一切皆采用逆向思维的方式。就是这样一个比利，按照他自己所谓的对事物真谛的顿悟，打破一切惯例常规之后，成功组建和塑造了一支具有强大战斗力的棒球队。

在竞争激烈的美国职业棒球大联盟，比利的奥克兰运动家棒球队无论在人员构成、物质配备，还是在资金实力上都仅仅位于“下三流”之列，不可能像扬基队那样一掷千金来购买高身价的球星。一次偶然的机会，他认识了耶鲁大学经济学硕士、大胖子彼得，两人对于球队运营的理念不谋而合。

比利聘请彼得作为自己的顾问，查询所有球员的历史数据，利用数学建模定量分析不同球员的特点，合理搭配，重新组队，颠覆棒球界靠重金挖明星球员的传统理念。在新的赛季中，奥克兰运动家队创造20场连胜的战绩，刷新了大联盟纪录，如图1-5所示。图1-5 比利和彼得用数据拿冠军

大块头有大智慧。在彼得的辅佐下，比利召集和物色了一批表面看上去都各有瑕疵、性格怪僻，但骨子里却都在棒球运动某方面拥有超强能力的队员，以打破常规、突破传统的经营模式，在一片批评与质疑声中取得了骄人的比赛成绩，甚至达到了比肩实力雄厚的纽约扬基队的程度！

如何在不公平的竞争中以弱胜强？这是比利•比恩面临的难题。所谓“不公平的竞争”便是指美国棒球大联盟不同球队间巨大的薪资差距。2001年，纽约扬基队的总年薪高达114 457 768美元，这个天文数字不仅在当时美国体育界鹤立鸡群，即便是在世界范围内也毫不逊色于皇家马德里、巴塞罗那、曼联之类的足球豪门。然而，奥克兰运动家队同时期的总年薪约为纽约扬基的三分之一，只有39 722 689 美元，在全联盟位列倒数第3位。薪资的巨大差距意味着优秀球员的流失，更难以寻觅联盟中那些当红的超级巨星。除了捉襟见肘的工资预算，运动家队还是一支典型的“小市场”球队。一穷二白的状况不仅使其无法招揽球员，甚至连一座像样的专业棒球场都供养不起。自 1968年至今，运动家队都不得不与同城另一支美式橄榄球队共用体育场。设施陈旧和全美倒数的观众上座率几乎成为运动家队主场的“特色”。

然而，运动家队却是近年来“投入产出比”最高的职业棒球队。2000——2003年间，他们每赢一场球的成本约50万美元，而扬基队每赢一场的成本则几乎是其3倍（近150万美元）。至于联盟中其他那些“富队”（如巴尔的摩金莺队、德州游骑兵），则需要花费近300 万美元才能赢一场“天价”般昂贵的胜利。金融圈出身的作者刘易斯非常敏锐地捕捉到了这个诡异的现象，于是便有了这本书。他希望借此来勾画与解释比利•比恩是如何扮演这么一位近乎“无米”的“巧妇”角色。

棒球是一项强调数据的运动。所谓“数据”不仅包括球队的各项胜败指数，还有每个职业球员的各类成绩——防御率、胜投数、打击率、长打率、全垒打数、打点数等多达几十种类型。在谈论某个球员时，资深棒球迷都会如数家珍般报出一连串数字。若被不谙棒球者听到，或许是以为两位证券分析员在交流工作心得。长久以来，美国棒球界也将这些数据的记录工作看作重中之重。因此，即便是 20 世纪初某场比赛的交战数据都能毫不费力地找到。然而，在比利•比恩看来，棒球界却没有将这些数据转换成真正提升球队战绩的“不二法门”。基于这个想法，他开始摸索一套全新的方法来解读棒球数据背后的“真谛”，甚至不惜向所谓“百年传统”宣战。

比利的成功之道是运用一整套的数据分析法（Sabermetrics）来代替传统的球队运作，这是一种美国棒球研究协会（Society for Advanced Baseball Research，SABR）所倡导的统计方法。直到现在，美国高级棒球研究协会一直是一个奇特亚文化的中心。比利最重视的是上垒率，而这种统计方法帮助他成为出色的管理人员，也使得运动家队最终成功。

这套全新方法被称为“棒球统计学”，其创始人并不是比利•比恩，而是一位统计学家比尔•詹姆斯。他是刘易斯《魔球：逆境中制胜的智慧》书中的另一位主角。比利认为，棒球界传统的统计数据无法准确反映出球队或球员的价值，也无法准确预测其未来的表现，而对这些数据的解读也缺乏一种科学的方式。于是，他雄心勃勃地设计了一套统计学公式来计算各类既有的棒球数据。在一片批评与质疑声中，比利的“棒球统计学”在奥克兰运动家棒球队的办公室里被铭记了下来。

早在1977年，比尔就自费出版了自己的“研究成果”，但却几乎毫无反响。棒球界的元老们根本瞧不上这样一位从没真正打过棒球的“门外汉”。在他们看来，这类书呆子式的纸上谈兵可能连“票友”水平都不如。问世20年后，穷则思变的比利•比恩才成为第一个真正吃螃蟹的实践者。

比利破天荒地将“棒球统计学”作为球队的经营方针。他尽可能地将球员能力数据化，并以此作为衡量球员能力的唯一标准，而非某些基于主观经验的判断。通过这套统计学公式，比利以有限预算去寻找那些价值被低估的球员。同时，他还强迫整个球队摒弃传统的成绩评估标准：既然让棒球比赛结束的因素是27个出局数，而不是时间；那么就忘记“打击率”、“盗垒”等华而不实的成绩，“上垒率”才最重要。因为只有上垒才能减少出局的概率，并提高得分的概率。比利打破一切常规惯例，就如同伽利略用“太阳中心论”来挑战天主教的权威一样。最终，在全新理念的指引下，运动家队在 2000年后曾 5 次打入季后赛，4 次获得分区冠军，共赢了 1 045 场比赛。期间，甚至还创下了美国职业棒球大联盟百年历史上连胜 20 场的空前纪录。从那以后，统计学家取代球探成为棒球专家，其他很多球队也开始争相采用“棒球统计学”来指导球队运作。1.1.3 美剧《疑犯追踪》：有贼心也会摊上事儿

幼儿园的时候我不谈恋爱，因为不知道什么是贼；小学的时候我不谈恋爱，因为没有贼心也没有贼胆；初中的时候我不谈恋爱，因为有贼胆没贼心；高中的时候我不谈恋爱，因为有贼心没贼胆；大学的时候我不谈恋爱，因为有了贼心，也有了贼胆，可贼却没了。人们经常用“有贼心没贼胆”来调侃自己，未来有贼心可能也会犯事儿。

它几乎无所不能，全天候监视所有人的行踪，聪明地预测出谁是危险分子，谁会遭遇不测……美国政府用它攻击恐怖分子，开发者则用它拯救普通人，这是美剧《疑犯追踪》（如图1-6所示）里的“神器”。这真的只是一部科幻剧吗？图1-6 美剧《疑犯追踪》《疑犯追踪》讲述了一位推定死亡的前CIA（Central Intelligence Agency，中央情报局）特工里瑟与一位神秘的亿万富翁芬奇联合起来，运用一套独特办法制止犯罪的故事。该剧每集一个案子，将主角和情报局互相间的猫鼠游戏作为主线，同时配合时代错综的来回倒叙手法，可谓精彩迭连。此剧的大胆之处是将 CIA 和FBI（Federal Bureau of Investigation，联邦调查局）与罪犯交错复杂的人物关系以及理不清的内部白吃黑、黑吃黑、黑吃白场景一一呈现，特别是莱纳尔·弗斯科，长着黑警察的脸，怀着好警察的心，走着双面卧底的路线，还卖着为黑白两道争相奔走和相互欺瞒的命。

相比帅哥主角单一的角色设定，我更喜欢芬奇的傻劲和执着。在大数据时代，人们感到越来越不安全，生活在监视器下，没有任何隐私，不知不觉地开放着个人信息，通过社交网络、联网信息、条条光缆，随时随地向罪犯或政府输送着情报和证据，这些数据可能会在不久的将来，被拿来用作威胁的资本。

哈洛•芬奇是一位深居简出、极度重视个人隐私，且拥有亿万身家的天才软件工程师，担任着一家软件公司的幕后老板。他为政府开发了一套称作“神器”的、可侦测恐怖攻击的计算机系统（如图1-7所示）。该系统通过观测已有模式来识别有可能进行暴力犯罪的罪犯，可以监视所有人，并预测“有计划性或经谋略策划的犯罪”，诸如“9•11”事件之类的大型恐怖攻击灾难，并提供情报让有关当局防患于未然。图1-7 “神器”

他雇用了一位被推定死亡的前美国特种部队“绿色贝雷帽”队员、前CIA探员里瑟，二人使用国家级监测技术，加以里瑟的专业技能和芬奇的无限财富，开始“法外执法”，力图在犯罪发生前就对其加以阻止。里瑟的行动引起了纽约市警察局的注意，包括警探卡特和弗斯科。面对无数的犯罪调查，里瑟和芬奇发现能够改变一切的关键就是找到正确的人、正确的信息和正确的时间。

强大的计算机集群将整个纽约市的摄像头整合在一起，结合每个人的信用卡记录、医疗及社会保险记录、行车罚单等各种数据，推断并锁定危害别人或即将被害的自然人。1.2 大数据汹涌来袭

2013年3月1日，工业和信息化部电信研究院在北京召开了2013年ICT深度观察大型报告会暨移动互联网白皮书、中国通信产业十大关键词发布会。电信研究院在会议上发布了《移动互联网白皮书（2013）》以及 “2012年中国通信产业十大关键词”的评选结果，云计算、智能终端、TD-LTE、宽带中国、移动互联网、物联网、网络与信息安全、微博、大数据、微信入选十大关键词。

近年来，大数据的概念受到了学术界、商界甚至政府的热捧，一时间大数据无处不在，这让同时代其他的 IT 技术相形见绌，无地自容。数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然目前企业可能还没有意识到数据爆炸性增长带来的问题隐患，但是随着时间的推移，人们将越来越重视数据的作用。正如《纽约时报》2012年2月的一篇专栏中所称：“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析作出，而不是基于经验和直觉。

大数据是2013年最火的科技词语，每个人都在谈论大数据，仿佛谁不谈论大数据就落伍了似的。2013年的大数据已经从之前的虚无缥缈逐渐开始落地，各种类型的大数据应用开始落实到实践中去，为企业和个人都带来了便利。套用赵本山在小品《功夫》中的台词：反正你接受它也来了，不接受它也来了，接受不接受大数据时代它都带着诚意扑面而来。1.2.1 大数据有多大

互联网所涵盖的范围非常广阔，人们产生、分享和消耗的数据量很难以实体形式来衡量，那么到底有多少数据产生呢？

最近，一张以“一天之间，互联网上要发生多少事”为主题的统计图，在各大科学网站上流传，如图1-8所示。其结果是非常惊人的，真是“不看不知道，世界真奇妙”！互联网每天产生的流量信息可以装满 1.68 亿张碟；每天发出2 940 亿封邮件，如果这些是实体信件，则美国需要花费2年时间来处理；每天的社区论坛上发出200万个帖子，相当于美国《时代》杂志770年的文字量；每天世界各地有 1.72 亿人访问 Facebook，4 000 万人访问Twitter，2 200 万人访问 LinkedIn，2 000 万人访问Google+，还有 1 700 万人访问 Pinterest；人们每天在Facebook 上耗费的时间总计 47 亿分钟；“状态”的更新达5.32亿人；每天有2.5亿张图片上传到Facebook，如果把它们都打印出来，堆起来相当于80座埃菲尔铁塔的高度；人们每天在Netflix观看2 200 万小时的电视电影节目，相当于全美剧院 3 天播放电影的总时长；每天人们将 86.4万小时视频上传到YouTube，即使不间断地播放，全部播完这些视频也需要98年；每天有1 870 万小时音乐在Pandora（流媒体音乐网站）上播放，如果一台计算机从公元元年开始播放 Pandora 的音乐，那么它现在仍然处于播放状态；每天新增 1 288 款应用，下载次数超过 3 500 万次；每天卖出 37.8 万台手机，高于全球每天出生的婴儿数量（37.1 万）。是数字时代的战利品还是一堆数字垃圾，一切由你来决定。庆幸的是，我们不用像以前那样弄个仓库把它们搬进去存储起来。图1-8 互联网上的一天

在现实生活中，一分钟也许微不足道，连抽袋旱烟的工夫都不够，但是当你用一分钟，看完这行文字的时候：新浪已经发送了2万条微博；淘宝已经卖出了6万件商品；人人网发生了30万次访问；百度产生了90万次搜索查询；YouTube用户上传48h的新视频；电子邮件用户发送2.04亿条信息；Google收到超过200万次搜索查询；Facebook用户分享了68.4万条内容；品牌和企业收到3.5万个“赞”；消费者在网上购物花费了27.2万美元；Twitter用户发送了超过10 万条微博；苹果公司收到大约 4.7 万个应用下载；Tumblr 博客用户发布 2.8 万个新帖子；WordPress用户发布347篇新博文；Instagram用户分享36 000张新照片；Flickr用户添加3 125张新照片；Foursquare用户执行2 083次签到；全球有571个新网站诞生；移动互联网新增217个用户。图1-9将帮助读者从一分钟互联网数据读懂大数据。图1-9 从一分钟互联网数据读懂大数据

目前，互联网的数据量已经从TB级跃升至PB、EB乃至ZB级，它们之间的换算关系如表1-1所示。表1-1 数据存储单位之间的换算关系

2012年12月，IDC（International Data Corporation，国际数据公司）发布了《2020年的数字宇宙》研究报告。报告指出：2005年全球产生的数据量为130 EB，2008年全球产生的数据量为0.49 ZB，2009年的数据量为0.8 ZB，2010年增长为1.2 ZB，2011年的数量更是高达1.82 ZB，2012年数据量为2.8 ZB，按照每两年翻一番的速度，2015年全球数据量将达到近8 ZB，2020年将达到40 ZB（如图1-10所示）。迄今为止，人类生产的所有印刷材料的数据量为200 PB，全人类历史上说过的所有话的数据量大约为5 EB。整个人类文明所获得的全部数据中，有90%是过去两年内产生的。

仅就数据量而言，1.82 ZB 数据相当于：13 亿中国人每人一台1 000 GB容量的计算机所存储的信息量；中国每个人每分钟发送3 条微博且连续6 217年不间断；每位美国人每分钟写3 条Tweet，而且还是不停地写26 976年；全球每人产生200 GB以上的数据；全世界每人每天进行逾2.15 亿次高分辨率核磁共振成像（Magnetic Resonance Imaging，MRI）扫描；如果把所有这些数据都刻录存入普通 DVD 光盘里，光盘的高度将等同于从地球到月球的一个半来回（即大约720 000英里，1 英里≈1.6km）；超过 2 000 亿个高清电影（每部时长为 2h），一个人 24h 不间断地看这些电影，全部看完需要 4 700 万年；可填满 575亿个32 GB的苹果iPad（如果真有这么多iPad），我们可以：建起一堵长4 005 英里、高61 英尺（1英尺=30.48 cm）、从美国阿拉斯加安克雷奇一直延伸到佛罗里达迈阿密的iPad墙；在中国建起一堵iPad长城，平均高度是真实长城的两倍；围着南美建起一堵高20英尺的墙；覆盖86%的墨西哥城；建起一座比富士山高25倍的山峰。图1-10 数据量增长

天文学是大数据的典型代表，也是最先经历信息爆炸的科学领域之一，其数据量之大、类型之复杂，恐怕不是一般的行业领域所能比拟的。一台最先进的望远镜扫描整个天空，可能会看到 2 000 亿个恒星世界。我们经常看到的天文奇观的预测报告，其实很多都来自NASA（National Aeronautics and Space Administration，美国航空航天局）背后的海量数据的收集、管理、分析。从 1959年至今，美国航空航天局约翰逊航天中心（Johnson Space Center，JSC）已收集400 多万幅静态图像，长达950 万英尺的16mm胶卷，85 000 卷录像磁带，以及总时长81 616h 的视频模拟及数码档案。通过开发在线影像应用平台，将影像文件名与所有相关元数据连接，并对其进行存档、管理，以备科研之需。

IDC的《2020年的数字宇宙》研究报告指出，个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码相机和在线信用卡交易等多种方式，每个人日常生活都在被数字化。数字宇宙的规模从2006——2011年这五年间膨胀了10倍！1.2.2 大数据从哪里来

与小品《心病》中的范伟不同，许多人不想知道大数据是怎么没的，而只关注大数据是怎么来的，如图1-11所示。

数字信息每天在无线电波、电话电路和计算机电缆中川流不息。我们周围到处都是数字信息。我们在高清电视机上看数字信息，在互联网上查阅数字信息，我们自己也在不断制造新的数字信息。每次用数码相机拍照后，都会产生新的数字信息，通过电子邮件把照片发给朋友和家人，又制造了更多的数字信息。图1-11 大数据是怎么来的

大数据是从哪里来的？是从天上掉下来的吗？不是。是地球上固有的吗？不是。大数据，只能从泛互联网、工业互联网、行业/企业信息系统和社交网络等中产生。

1．泛互联网

泛互联网是指使信息和服务通过当下可能的技术和手段在计算设备、通信设备、机器、人之间传递和交付的网络，包括物联网、移动互联网和车联网等。

物联网是指通过射频识别（Radio Frequency Identification，RFID）、红外感应器、全球定位系统、激光扫描器等信息传感设备，按约定的协议，把任何物体与互联网连接起来，进行信息交换和通信，以实现智能化识别、定位、跟踪、监控和管理的一种网络。通俗地说，通过装置在物体上的传感器、电子标签和GPS（Global Positioning System，全球定位系统）等设备，网络将赋予物体智能，从而既可以实现人与物体的沟通和对话，也可以实现物体与物体互相间的沟通和对话。物联网就是“物物相连的互联网”，其目标是让万物开口说话。世界上的万事万物，小到手表、钥匙，大到汽车、楼房，只要嵌入一个微型感应芯片，把它变得智能化，这个物体就具有“智慧”，可以“自动开口说话”，再借助无线网络技术，人们就可以和物体“对话”，物体和物体之间也能进行“交流”。

以农牧业为例，1990年以来，全球各地陆续爆发动物疫情；2003年12月，美国发现了第一宗疯牛病病例；2004年起，联邦政府农业部启动了“全国动物身份识别系统”的项目，为全国的新生牲畜建档立户、安装射频识别耳标（如图1-12所示）。通过这个移动传感器，对牲畜进行连续跟踪，一旦家畜疫情爆发，就能通过数据库追踪溯源，快速确定传染源和传播范围。目前，美国已经装备射频识别耳标的家畜总数无从得知，但可以肯定这个数据库也是海量级的。图1-12 “从现在开始，9527 就是我的终身代号”“生命在于运动，通信在于移动”。移动接入已经将世界带到互联网的下一站——移动互联网。得益于更快、更好的连接，移动互联网将成为真正个性化和移动化网络。它势必会完全改变人们使用互联网的方式，甚至改变互联网的本质。移动通信和互联网趋于融合，这一趋势正在影响着全世界人民的生活。谱写这一数字音符的，不是舒伯特、莫扎特，而是移动互联网时代的每个网民以及每部手机、平板计算机、上网本、MID、PDA等移动通信终端。

2013年7月17日，中国互联网络信息中心（CNNIC）在北京发布第32次《中国互联网络发展状况统计报告》。报告显示，3G、移动设备的快速普及和无线应用的多样化极大推动了手机网民的增加，促进了中国互联网的快速发展，且来自手机终端应用的带动作用明显，基于位置的应用等一些属于手机上网的独特应用正在吸引越来越多的用户。截至2013年6月底，我国手机网民规模达4.64亿，网民中使用手机上网人群占比由74.5%提升至78.5%，如图1-13所示。我国用手机即时通信网民数为3.97亿，使用率为85.7%；我国用手机搜索网民数达3.24亿，使用率为69.9%；我国用手机上微博的网民数为2.30亿，使用率为49.5%；我国用手机上网在线收看或下载视频的网民数为1.60亿，使用率为34.4%；我国用手机玩网络游戏网民数为1.61亿，使用率为34.8%；手机在线支付网民规模达到 7 911万，使用率提升至17.1%；手机购物网民规模达到7 636万，使用率为16.5%；我国用手机阅读网络文学网民数为2.04亿，使用率为43.9%。图1-13 中国手机网民规模及其占网民比例

移动互联时代，数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据。即便是在“摩尔定律”的支撑下，硬件性能进化的速度也早已赶不上数据增长的速度，并且差距越来越巨大。1 分钟之内，新浪微博发送数万条微博，苹果应用商店下载次数数以万计，淘宝卖出了几万件商品，百度产生了百万次搜索查询……所有这些行为都由海量的数据来呈现。随着传统互联网向移动互联发展，全球范围内，除了个人计算机（Personal Computer，PC）、平板计算机、智能手机、游戏主机等常见的计算终端之外，更广阔的、泛在互连的智能设备，比如智能汽车、智能电视、工业设备和手持设备等都连接到网络之中。基于社会化网络的平台和应用，让数以百亿计的机器、企业、个人随时随地都可获取和产生新的数据。互联网搜索引擎是大数据最为典型的应用之一。百度日处理数据量达到数十PB，并呈现高速增长的态势。如果一张光盘容量为1 GB，这相当于几千万张光盘的容量总和。微软Bing（在中国名为“必应”）搜索引擎，一周需要响应100亿次量级的搜索请求。通过与Facebook合作，每天有超过10亿次的社交网络搜索请求通过Bing来处理。短短的18个月，中国移动互联网流量增加了10倍。随着社交网络的逐渐成熟、移动带宽迅速提升，更多的传感设备、移动终端接入网络，产生的数据及其增长速度必将比历史上任何时期都要多，互联网上的数据流量正在迅猛增长。在云计算、物联网等技术的带动下，中国的移动互联网已经步入“大数据”时代。

2013年9月23日，IDC发布《中国手机市场季度跟踪报告（2013年第2季度）》研究报告。报告显示，在运营商的大力补贴和消费者旺盛的换机需求拉动下，2013年中国智能手机市场的出货量快速增长，全年中国智能手机出货量将达到 3.6 亿部。随着 4G 牌照的发放和苹果移动版的上市，预计 2014年中国智能手机出货量将超过 4.5亿部，其中支持4G功能的智能手机为1.2亿部，采用中国移动TD-LTE制式的智能手机将超过3200万部，从而带动整个产业链的大发展——无论是上游的4G芯片和屏幕厂商，还是中游的手机厂商和 APP 开发者，乃至渠道商和配件厂商都会从中获益，并加速大数据产业的革新和发展。

车联网作为移动互联网大背景下诞生的一个产物，不管是车辆的接入、服务内容的选择，还是服务的精准性，都离不开大数据。车辆上传的每一组数据都带有位置信息和时间，并且很容易形成海量数据。时至今日，几乎所有路上跑着的汽车都在产生难以置信的庞大数据量。从轮胎气压，到发动机转速，到油温和速度，在传感器的监测之下，汽车每小时能产生5～250 GB 的数据。高级概念车产生的数据更多，如谷歌的无人驾驶汽车每秒产生约1 GB 的数据。这相当于每秒发送20 万封纯文本电子邮件或用计算机上传100 张高清数码相片。当然，从数据洞察角度来看，收到一千条传感器发来的“轮胎压力正常”消息，没有实际的长期价值，汽车厂商们也不会费心去把这些数据存储在汽车中或云端。但考虑到如今路上跑着数以亿计的汽车，如果每一辆车都能产生一点有价值的数据，就会发现一个崭新的天地，你就会明白人们对车联网大数据感兴趣是理所当然的了。

2011年10月，联邦政府商务部下属的国家气象局（National Weather Service，NWS）宣布，该局已经在全国2000辆客运大巴上安装了传感器（如图1-14所示）。随着巴士的移动，这些传感器可以收集沿途所有地点的温度、湿度、光照度等数据，并立刻传回国家气象局的数据中心。数据采集是每10s一次，每天传感器要采集10万次以上的数据。这些数据是实时的、高精度的，这意味着天气预报将不再仅仅是“预”报，将逐渐走向“实”报、“精”报。同时，联邦政府国家邮政局（United States Postal Service，USPS）也宣布，他们计划在全部邮车上安装传感器，当邮车投递邮件的时候，能够实时采集社区的空气质量、污染指数和噪声等数据指标。

2．工业互联网

工业互联网是一种开放的全球化网络，它将人、数据和机器连接起来，目标是升级那些关键的工业领域。其实，类似概念最近几年已多次被业界提及，如思科的“万物互联”、IBM（International Business Machines Corporation，国际商业机器公司）的“智慧地球”。

工业互联网既是一个宏大愿景，又是一个简单概念，即将机器连入网络，并利用产生的数据为企业服务。不同于阿里巴巴的大数据来自对个人行为的监测，工业互联网的数据来自安装在机器上的传感器。机器启动，传感器开始采集数据，并将机器的快慢、歪斜等状态一五一十地形成数据，传到云端进行存储、分析与决策。图1-14 安装有传感器的客运大巴

在医疗保健方面，由于大型医疗设备的联网，患者可以在社区附近医院做 CT （Computed Tomography，计算机断层扫描），由“医疗工业互联网”按照距离和水平来分配空闲的医生。病人可以根据医生的长相、性别、年龄、从医经验、毕业院校等条件自动挂号，还可以与医生通过聊天软件进行沟通。住院部没有病房也不要紧，患者可以通过云端预订其他医院的病房，即拿着A医院的片子、B医院的诊断书，到C医院照方抓药，在D医院安心疗养。医生云端化和工作室化是必然的趋势，这使得《北京遇上西雅图》那样的爱情故事怕是要绝种了。阜外医院的医生——“落魄叔”弗兰克，即使人在西雅图不坐班也照样会订单不断，再不会发生苦哈哈地给美国待产女青年——“败金女”文佳佳开车这类丢人的事情了。

2010年11月29日，上海市长宁区宣布，针对居民“看病难、看病烦”的呼声，已率先在上海市建成利用信息化平台、实现远程诊断监控等功能的“健康云”。该“健康云”实际上是一个基于云计算技术的健康档案数据中心，全面覆盖了居民在区辖医疗机构的就诊信息和公共卫生服务信息。在长宁区，社区居民只要与自己的家庭医生签约，就可以租赁一台远程生命体征仪（如图1-15所示）。依托“健康云”平台，居民使用远程生命体征仪就可以简单地测心电图、血压、胎心、血氧含量等健康数据。与一般的电子诊疗设备不同，这台远程生命体征仪所测数据可以通过手机、无线网络等多种方式传送至长宁区“健康云”平台。专业的健康监测团队将对这些数据及时进行分析和监测，一旦发现居民的健康可能出现问题，就会立即通知家庭医生，由他为居民实施进一步诊疗。目前，越来越多的长宁区居民开始拥有一份“居民电子健康档案”，实现了“一卡、一库、一网、一平台”，即一张社保卡或医联卡，一个包括患者基本信息、临床信息和管理信息的中心数据库，一个连接各医院的网络，一个医院间临床信息共享云平台。借助日趋发达的云存储技术，居民们的“居民电子健康档案”可在政府部门、疾控卫检、妇幼保健、各大医院、社区服务中心等多家机构内共享，不但能够减少重复检查开药、降低医药费用，还可量身订制各种健康服务。图1-15 远程生命体征仪

3．行业/企业信息系统

一些行业/企业已经将其活动的每个环节都建立在数据收集、分析和对行动能力的认知之上。它们每天对无数的数据进行收集、交换、分析和整合，数据宛如一股“洪流”注入了行业/企业中，与行业/企业的固定资产和人力资源一样，成为生产过程当中的基本要素。

2013年2月，在EMC的资助下，IDC发布了《2020年中国的数字宇宙》研究报告。该报告指出，中国每年产生的数据量，将从2012年的364 EB 增加到2020年的8.6 ZB（如图1-16所示）；中国在全球数字宇宙的占有率将从2012年的13%提高到2020年的21%。如果将2020年的数据量打印成文本，堆起来可以往返地球和冥王星30次。在2012年产生的364 EB数据中，个人数据和行业/企业各占50%。

2013年3月，IBM公司发布由IBM商业价值研究院和牛津大学赛德商学院共同撰写的《分析：大数据在现实世界中的应用》白皮书。白皮书指出，超过一半的受访者把内部数据视为“大数据”的主要来源。这表明企业正在采取一种注重实效的方式开展“大数据”工作，也显示出其内部系统中仍有巨大的价值尚未得到开发。麦肯锡估计，全球企业 2010年硬盘上存储了超过 7 EB（1 EB 等于 10 亿 GB，相当于美国国会图书馆中存储数据的 4 000 多倍）的新数据，消费者在个人计算机等设备上存储了超过6 EB 的新数据。图1-16 中国每年产生的数据量

通过大数据对用户行为进行分析，互联网企业在这方面普遍起步得较早。2008年，eBay就建立了大数据分析平台。在这个平台上，可以将结构化数据和非结构化数据结合在一起，通过分析促进eBay的业务创新和利润增长。现在，eBay的分析平台每天处理的数据量高达100 PB，超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为，eBay定义了超过500种类型的数据，对顾客的行为进行跟踪分析。同时，eBay对互联网广告的投入一直很大，通过购买一些网页搜索的关键词，将潜在客户引入 eBay 网站。为了对这些关键词广告的投入产出进行衡量，eBay建立了一个完全封闭式的优化系统。通过这一系统，可以精确计算出每一个关键词为 eBay 带来的投资回报。通过对广告投放的优化，自2007年以来，eBay产品销售的广告费降低了99%，顶级卖家占总销售额的百分比却上升至32%。

4．社交网络

社交网络即社交网络服务，源自英文SNS（Social Networking Services），中文直译为社会性网络服务或社会化网络服务，意译为社交网络服务。社交网络含义包括硬件、软件、服务及应用，由于四字构成的词组更符合中国人的构词习惯，因此人们习惯上用社交网络来指代SNS。

社交网络源自网络社交。互联网本质上就是计算机之间的联网，早期的 E-mail 解决了远程邮件传输的问题，至今它仍是互联网上最普及的应用，同时它也是网络社交的起点。BBS（Bulletin Board System，电子公告板）则更进了一步，把“群发”和“转发”常态化，理论上实现了向所有人发布信息并进行话题讨论的功能。

BBS把网络从单纯的点对点交流的成本降低，推进到了点对面交流成本的降低。即时通信（IM）和博客更像是前面两种社交工具的升级版本，前者提高了即时效果（传输速率）和同时交流能力（并行处理）；后者则开始体现社会学和心理学的理论——信息发布节点开始体现越来越强的个体意识，因为在时间维度上的分散信息开始可以被聚合，进而成为信息发布节点的“形象”和“性格”。比如从RSS（Really Simple Syndication，简易信息聚合）、Flickr到最近的Facebook、YouTube、Digg、Mini-feed、Twitter、Fetion、Video-Mail都解决或改进了单一功能，是丰富网络社交的工具。

大数据时代已经来临，并悄悄地影响着我们的生活。根据IDC最近一项研究显示，在Facebook上每20分钟就有100万个新链接被分享，1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用，已经逐渐形成了集数据采集、分析、处理、增值于一身的数据架构。

在中国，社交网络同样如火如荼。截止到2013年3月底，新浪微博的总注册用户达到5.36亿，日活跃用户达到4980万，其中来自移动端的日活跃用户占76.5%。截至2013年10月24日，腾讯微信的用户数量已经超过了6亿，每日活跃用户1亿。

2013年9月，反映中国新媒体经济（互联网、移动互联网、广电网、物联网等）的商业信息服务平台——易观智库，发布了《2013年8月移动互联网SNS类APP活跃用户排行榜》。《排行榜》统计了2013年8月移动端活跃用户数排名前5位的网站，腾讯家族的QQ空间和腾讯微博占据两席。其中，QQ空间手机版的月活跃用户数超1.8亿，占据排行榜首位，以明显优势领先于排名第二的新浪微博，如图1-17所示。

试读结束[说明：试读内容隐藏了图片]

下载完整电子书

漫话大数据试读：

相关推荐

颠覆性创新：如何改变公司，撼动行业，挑战自我？(txt+pdf+epub+mobi电子书下载)

格列佛游记(txt+pdf+epub+mobi电子书下载)

王蒙精选集：惶惑(txt+pdf+epub+mobi电子书下载)

经济中国(txt+pdf+epub+mobi电子书下载)

致天上的父亲(txt+pdf+epub+mobi电子书下载)

时光，若能重新来过(txt+pdf+epub+mobi电子书下载)

共生与跨界：全球化背景下的环境可持续设计(txt+pdf+epub+mobi电子书下载)

高中政治教学的个性化追求(txt+pdf+epub+mobi电子书下载)

中小企业财务管理实务(txt+pdf+epub+mobi电子书下载)

内向性格的竞争力：青少版(txt+pdf+epub+mobi电子书下载)

中公版·2017公务员录用考试专项教材：申论范文宝典(txt+pdf+epub+mobi电子书下载)

骆驼祥子(txt+pdf+epub+mobi电子书下载)

《新东方英语》大学生2012年10月号(txt+pdf+epub+mobi电子书下载)

CMBS：国际经验和中国实践(txt+pdf+epub+mobi电子书下载)

The War Chief of the Ottawas：A chronicle of the Pontiac war(txt+pdf+epub+mobi电子书下载)

2017年小学教学理论考研题库【章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

花开的季节(txt+pdf+epub+mobi电子书下载)

狄德罗哲学选集(汉译世界学术名著丛书)(txt+pdf+epub+mobi电子书下载)

十五少年漂流记(txt+pdf+epub+mobi电子书下载)

余罪：我的刑侦笔记6（同名网剧点击量破40亿！）(txt+pdf+epub+mobi电子书下载)

最新文章

人生就要不断精进(txt+pdf+epub+mobi电子书下载)

做个心智成熟的人：人生可以不走弯路(txt+pdf+epub+mobi电子书下载)

跟谁都能聊不停：一看就能用的魔鬼搭讪学(txt+pdf+epub+mobi电子书下载)

赴美留学必知(txt+pdf+epub+mobi电子书下载)

我的男友(txt+pdf+epub+mobi电子书下载)

中国东北与东北亚古代交通史(txt+pdf+epub+mobi电子书下载)

幸福生活讲座(txt+pdf+epub+mobi电子书下载)

情商决定一生(txt+pdf+epub+mobi电子书下载)

夜雨寄北(txt+pdf+epub+mobi电子书下载)

让学生热爱学习(txt+pdf+epub+mobi电子书下载)

On Dreams(txt+pdf+epub+mobi电子书下载)

我的史学人生(txt+pdf+epub+mobi电子书下载)

Creo2.0完全学习手册(txt+pdf+epub+mobi电子书下载)

2018年陕西省军转干部安置考试《公共基础知识》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

假如给我三天光明(txt+pdf+epub+mobi电子书下载)

带出高效执行力(txt+pdf+epub+mobi电子书下载)

北史（四）(txt+pdf+epub+mobi电子书下载)

影响力的企业富豪(上册)(txt+pdf+epub+mobi电子书下载)

商界40年：逐鹿人(1999-2008)(txt+pdf+epub+mobi电子书下载)

The Boats of the Glen Carrig(txt+pdf+epub+mobi电子书下载)