数据科学实战指南(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-09 11:57:12

点击下载

作者:TalkingData

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据科学实战指南

数据科学实战指南试读:

前言

大约在2015年,TalkingData的数据科学部翻译了博思艾伦咨询公司(Booz Allen Hamilton)的The Field Guide to Data Science作为内部参考资料,该资料立刻引发了全公司员工的关注,甚至有各行各业的客户前来询问是否有多余纸质资料可以送给他们学习。一时间,洛阳纸贵。

这份资料也在 TalkingData 内部掀起了一股关于数据科学的讨论热潮。对于什么是数据科学、什么是数据科学家、什么是数据科学项目等关键问题,TalkingData的内部知识管理系统Furion上出现了一篇又一篇的讨论热帖。

随着智能移动设备、可穿戴设备的用户量不断增加,以及工业大数据呈指数级增长,数据行业迎来了越来越多的挑战,大数据、云计算、人工智能、区块链、机器学习等热词也不断出现。

数据科学作为一个早已存在于大数据领域但最近几年才被关注的概念,与数据分析学(datalogy)、数据智能(data intelligence)有着密不可分的关系。数据科学就像大数据、人工智能的“灵魂”,看不见、摸不着,却常常在各种场合被提及。每个人似乎都在讨论数据科学,但对于这个概念的理解却各不相同。

例如,鄂维南院士认为,数据科学主要包括两个方面:用数据的方法研究科学,以及用科学的方法研究数据。前者要用到生物信息学、天体信息学、数字地球等领域的知识,后者则涉及统计学、机器学习、数据挖掘、数据库等领域的内容。这些学科都是数据科学的重要组成部分,只有把它们有机地整合在一起,才能看清数据科学的全貌。

另一些学者认为,数据科学是一个包含多学科知识的领域,专注于从大量原始数据和结构化数据中找到切实可行的解决方案。数据科学专家将借助包括计算机科学、预测分析、统计学和机器学习等不同领域的知识,通过对海量数据集进行解析,努力为尚未被意识到的问题提供解决方案。数据科学家的主要目标是找出潜在的问题和解决之道,而不必找到具体的答案。

作为一个新兴的学科,数据科学还很“年轻”,其边界和具体研究内容还难以用一个公认的定义来描述。但是在数据行业中,数据科学已经成为数据业务的“灵魂”,是实现数据价值的关键。通过对实际业务的探索,业界甚至已经有了专门的数据科学团队、数据科学流程规范和数据科学工具,这个进度远远领先于数据科学的学术研究。

TalkingData认为,数据科学是用来探索数据价值的,也是挖掘数据价值的核心手段。不同于其他业务,数据的价值不是一下子就能确定的,数据价值的挖掘依赖于不断假设、分析、验证、校准,是一个反复迭代的过程,数据科学的生命周期如图 1所示。

这个过程不仅要遵循科学的步骤,也要使用科学的工具,这样才能保证结果的信效度和普适性。数据科学的实现需要借助一个符合数据科学流程的技术平台,平台上的工具也得是专业的,这样才能找到数据最终的价值。常见的数据科学能力有数据科学探索、可交互的视觉化探索等,常见的数据科学工具有数据准备组件、可扩展的数据模型等。图1 数据科学的生命周期来源:domino,翻译:Talking Data University

可能并不是所有的企业都在经历需要透彻了解数据科学的阶段,也就是说,数据科学并不是万能灵药,因为企业处于数字化发展的不同阶段,所面临的数据问题是不一样的,如图2所示。在企业数字化发展的初期,数据能力需求集中在整理、吸收、归纳、分析等方面,较小的数据团队和简单的数据分析方法即可满足需求。但当企业积累了大量、多源、多维度的数据,并且需要挖掘数据的价值,形成新的数据产品时,数据科学就会变成企业的核心竞争力之一。图2 企业数字化发展的不同阶段

数据科学项目的实施需要技术支持,需要有明确的组织结构,更需要由特定的人来执行。一个典型的数据团队一般由数据工程师、数据科学家、数据分析师、数据产品经理组成,如图3所示。图3 典型数据团队的组成

由于不同数据团队所面对的工作对象不一样,项目生命周期不一样,沟通交流的范式和工作的产出也都很特别,所以数据团队需要专门的工作流程、专业的协作工具,当然最重要的是要遵循专门的考核标准。基于以上几点,本书试图从实践经验的角度出发,从概念定义开始,将数据科学领域所涉及的人才、项目流程、工具、产出,以及关键注意事项娓娓道来,并辅以案例详述,力图帮助那些从事数据科学工作的人,以及即将在企业中引入数据科学的决策者梳理思路、整合资源,带领他们通往业务成功的彼岸。

本书共分为三部分:第一部分将介绍数据科学工作开始前的必要准备事项,涉及数据安全与数据治理等;第二部分将从人才、数据、工具三个维度指导决策者启动数据科学项目;第三部分将分享真实的数据科学实战案例,为数据行业从业者提供实践思路。

本书在写作过程中,汇聚了 TalkingData 的数据科学从业者们在实际工作中积累的行业经验,因此在这里要感谢为本书提供专业知识和宝贵意见的专家们:感谢负责数据科学概述部分的专家孔元明和戴民,感谢数据安全领域的专家吕博卿,感谢数据治理领域的专家李想,感谢数据科学工具领域的专家张学波,感谢数据可视化领域的专家彭嘉,感谢精通数据科学流程的专家潘松柏、曾晓春,感谢精通数据科学实战项目的专家李堃、王丽燕,感谢对全书进行审校的杨慧、谢若涵。

同时,本书在写作过程中也得到众多业内专家的指导。希望本书能够成为数据科学从业者及对数据科学感兴趣的人的知识手册,能够随时帮助来自企业、科研界的人们统一思想,形成共识。

愿数据科学与所有人同在!

读者服务

轻松注册成为博文视点社区用户(www.broadview.com.cn),扫码直达本书页面。

下载资源:本书提供配套插图文件,均可在 下载资源 处下载。

提交勘误:您对书中内容的修改意见可在 提交勘误 处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。

交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。

页面入口:http://www.broadview.com.cn/35965第1篇 数据科学项目之战壕篇第1章 数据科学项目的概念1.1 数据科学概述

在介绍数据科学项目之前,我们先来介绍一下数据科学。如果你还不了解数据科学,那么就通过以下内容一探究竟吧!

1.1.1 产生背景

从线下活动到线上活动,从PC互联网到移动互联网再到物联网(IoT),人类社会产生的可收集数据的体量呈指数级增长。比如人们日常上网“冲浪”,就会留下许许多多的“足印”。

浏览的网页

在网页上逗留的时间

点击的链接

在社交网站上发表的内容

与之进行互动的人或组织

点赞的内容

即便只采集某一天的“足印”,这些数据的体量也是非常巨大的——如果用 A4纸将这些数据以默认的正文字体和字号进行打印,然后一张张堆积起来,高度堪比从地球到月球的距离。

再来看几组数据:2017年,全球 IDC 市场规模再创历史新高,达到534.7亿美元;据TalkingData 2018年第二季度的数据统计,中国已经拥有15.1亿智能手机用户,使用智能手表等可穿戴设备的用户数量也已经达到千万级,同时各种传感器的使用数量超过了80亿。智能设备无处不在,正在随时随地产生各种维度的数据。

数据量级不断增长,数据维度不断增加,数据类型日益复杂,这些变化一方面让新的业务模式成为可能,另外一方面也让传统的数据处理工具捉襟见肘。人们在沉醉于大数据红利的同时,也被大数据所淹没——我们在思维方式、工程能力、管理手段、技术工具等方面都面临重大挑战,我们需要通过新的方法来解决问题,以便更好地从数据之海中获取洞察力,指导决策。

因此,数据科学应运而生,它将深刻地改变企业的决策方式。

1.1.2 概念定义

如今许多产品或服务中都有数据科学的身影,例如广告推荐、食品药品安全质量检测、电影票房预测、潜在客户寻找等。

那么,什么是数据科学呢?“数据科学”一词在20世纪60年代至80年代间经常出现在计算机科学文献中。然而,直到20世纪90年代后期,这个词才开始时常出现在统计和数据挖掘领域。

2001年,数据科学成为独立学科,横跨计算机科学、统计学、数学、软件工程等多个领域,从定义与解决实际问题出发,经过描述、

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载