数据分析从入门到进阶(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-14 14:12:21

点击下载

作者:陈红波,刘顺祥

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据分析从入门到进阶

数据分析从入门到进阶试读:

前言

随着大数据技术的快速发展,人们对数据的价值越来越重视,数据采集、存储、安全技术也变得日益重要,数据分析和数据挖掘技术得到了日益广泛的应用。利用数据分析技术从海量数据中提取的信息具有极高的价值,例如,支持企业高层进行业务决策、发现新的销售和市场机会、提升组织的社交媒体营销能力、提高用户忠诚度以及复购率、降低用户流失率、提前预测风险并进行防范等。

对于数据的重视以及数据分析技术的发展与应用,带动了企业对数据分析人才需求的快速增长。在未来一段时间内,数据分析人才缺口会很大。从事数据分析工作需要专门的技能,一名优秀的数据分析师既要熟练掌握数据分析之“道”—数据分析的策略、方法(也可以将其理解为做数据分析的思路),也要熟练掌握数据分析之“术”—数据分析工具的使用。此外,数据分析师还需要熟悉行业知识、公司业务及流程,了解企业产品和运营活动的设计思路,才能根据数据分析的结论驱动业务增长落地,使得数据分析工作的价值和自身的价值得以实现。

本书结合数据分析工作的实际情况,通过大量案例介绍了数据分析的方法和工具,内容涵盖了Excel、SQL、Tableau以及Python这几个常用的数据分析工具的使用,融会贯通地介绍了数据分析的道与术。通过本书,读者可以由浅入深、循序渐进地学习数据分析,为日常工作中数据的处理与分析打下坚实的基础。本书内容

第1章数据分析入门。主要内容包括什么是数据分析、数据分析的职业发展及分类,以及数据分析之“道”(数据分析需要掌握的理论知识)与数据分析之“术”(各类软件工具的运用)。

第2章数据分析—从玩转Excel开始。主要内容包括Excel概述、高效处理数据的Excel函数家族、十分有用的Excel数据分析技巧、酷炫的Excel图表可视化、让你的Excel报表动起来(VBA)。

第3章海量数据管理—拿MySQL说事儿。主要内容包括MySQL数据库的安装、将数据写入到数据库中、重要的单表查询、复杂的多表查询、通过索引提高数据的查询速度、数据库的增删改操作。

第4章数据可视化—Tableau的使用。主要内容包括数据可视化概述、Tableau概述、数据可视化图表、仪表板的制作与发布。

第5章数据分析进阶—Python数据分析。主要内容包括数据分析的利器—Python、Jupyter的使用技巧、数据读取—从pandas开始、常见的数据处理技术、探索性数据分析、线性回归模型的应用。本书特点

● 由浅入深,循序渐进:本书在简要概述了数据分析的基本概念之后,首先讲解了数据分析入门工具Excel的操作技巧,然后结合案例讲解了VBA的知识点,帮助读者快速掌握表格处理技术;结合MySQL数据库对SQL语言的讲解可以让读者轻松地处理海量数据;Tableau是用来进行数据可视化分析的重要工具;Python作为本书的进阶部分内容,可以帮助读者高效处理数据和通过建模进行数据分析。书中讲解的知识点环环相扣、逐层深入,比较符合初学者学习数据分析的认知规律。

● 案例丰富,轻松易学:本书在介绍各类数据分析工具时结合了大量的实际案例,能够让读者快速理解并掌握各个知识点,简单易学、轻松上手。

● 内容全面,讲解详细:本书定位在数据分析的入门与进阶,从数据分析理论到数据处理、从可视化分析到建模分析,知识点覆盖得很全面。全书最后附有彩插,将书中对应效果图直观呈现,方便读者参考。

● 配套资源丰富,免费提供:本书中的案例涉及的数据集、代码等资源都免费提供给读者学习使用,可通过扫描封底二维码IT有得聊,并输入本书书号中的五位数字获取。适用对象

本书适合有志于从事数据分析工作或已从事初级数据分析工作的人士自学,也适合产品经理、运营人员、市场人员、对数据分析感兴趣的企业高管以及创业人员等参考。本书作者

本书由陈红波、刘顺祥等编著,参与本书编写的人员还有孙宗鹏、朱烨、陶颖。此外,还要对帮助本书出版的所有朋友致以衷心的感谢!由于作者水平有限,书中难免出现错误和不足之处,敬请广大读者批评指正。

希望本书能够成为您数据分析入门的领航者。陈红波 刘顺祥2019年1月11日第1章 数据分析入门

大数据技术的发展使得数据采集、存储、安全技术变得越来越成熟,并且当前人们对于采集到的各种数据的价值越来越重视,从而带动了数据分析技术的发展。数据分析初学者首先得了解什么是数据分析,然后明确自身的职业发展方向,逐步掌握数据分析理论及数据分析工具的使用,夯实数据分析相关技能,再结合企业实际业务进行数据分析挖掘,从而实现业务流程优化,提高工作效率,并能辅助企业基于数据对市场变化进行快速判断,以便采取有效的行动。

通过本章内容的学习,读者将会掌握如下几个方面的知识点:

● 数据分析的概念及操作步骤。

● 数据分析的应用场景及发展趋势。

● 数据分析的职业发展及分类。

● 数据分析常用的策略及方法。

● 数据分析常用工具及介绍。1.1 什么是数据分析1.1.1 数据分析的含义

数据分析是指使用适当的统计分析方法对收集的大量数据进行分析,将隐没在一大批看似杂乱无章的数据中的有价值的信息进行整合并提炼出来,找出所研究对象的内在规律。图1-1 数据分析的含义

一般情况下,初期收集的原始数据都是相对比较粗糙的,需要通过一定的技术手段进行加工,最后提炼出方便用户理解的知识。如图1-1所示,底层的粗糙数据经过一系列的加工处理,然后将处理产生的相关信息与实际业务相结合,进行规律性总结,生成知识(解决方案或商业预测)。

实践证明,数据分析是非常有价值的,它与现实生活是密切相关的。例如,信用卡的审批额度、电商网站对消费者的产品推荐、游戏活动的奖品设置、超市的捆绑式促销、病人疾病的诊断预测等,数据分析可以渗透到这些业务环节中,帮助实现业务流程优化,提高工作效率,并能辅助用户进行快速判断,以便采取有效的行动。1.1.2 数据分析的操作步骤

数据分析有一套比较规范的操作步骤,作为数据分析人员必须掌握好它,才能减少工作失误,提高工作效率。数据分析的操作步骤如图1-2所示。

1.明确目的

数据分析的第一步就是要明确分析目的。和大家在生活中处理某件事情一样,先确定目标,然后再去动手实施。例如,某电商APP上线后,前期导入了大量新用户但是用户质量不是很好(包括登录、付费等表现),需要通过数据分析查明原因。作为数据分析师,需要明确此次分析的目的是找出大量注册用户登录时间不长、付费金额低的原因,可以首先从注册用户本身的属性着手展开分析。图1-2 数据分析的操作步骤

2.数据收集

数据是进行数据分析的前提,“巧妇难为无米之炊”说的就是这个道理。因此,数据的收集显得尤为重要。按收集方式的不同,数据收集可以分为线上收集和线下收集;按收集渠道的不同,又可以分为内部收集和外部收集。数据收集的两种不同分类如图1-3所示。图1-3 数据收集的分类

线上收集的数据指的是利用互联网技术自动采集的数据。例如,企业内部通过数据埋点的方式进行数据收集,然后将收集来的数据存储到数据库中。此外,利用爬虫技术获取网页数据或借助第三方工具获取网上数据等都属于线上收集方式。一般情况下,互联网科技企业、互联网电商企业、互联网游戏企业等都采用此种方式收集用户行为数据,因为其效率高且错误率较低。

线下收集的数据相对比较传统,对技术要求不高。例如,通过传统的市场调查问卷获取数据即为线下收集。此外,通过手工录入获取数据、出版物收集的权威数据以及通过其他人提供的电子表格获取数据等都属于线下收集方式。这种收集数据的方式效率低且容易出现偏差。一般情况下,传统制造型企业、线下零售企业、市场调研咨询类企业等都采用此种方式收集数据。

内部收集的数据指的是获取的数据都来源于企业内部数据库、日常财务数据、销售业务数据、客户投诉数据、运营活动数据等。此类数据的获取相对较为方便,数据分析人员可以根据实际业务需求对内部收集的数据进行处理分析。

外部收集的数据指的是数据不是企业内部产生的,而是通过其他手段从外部获取的。例如,利用爬虫技术获取的网页数据,从公开出版物收集的权威数据,市场调研获取的数据以及第三方平台提供的数据等。外部数据的收集不像内部收集那么容易,且大部分都是碎片化、零散的数据。因此,数据分析人员需要对这些数据进行清洗和整合,然后再去进行分析。

总之,不管以何种方式收集过来的数据,都是企业宝贵的财富。数据分析人员需要多和这些数据打交道,多去研究数据背后隐藏的规律,为业务决策提供支持。

3.数据处理

一般通过不同途径收集过来的原始数据都是相对比较粗糙且无序的。此时,需要利用数据处理软件进行一系列的加工处理,降低原始数据的复杂程度,最终汇总成用户可以解读的业务指标。数据处理包括前期的脏数据清洗、缺失值填充、数据分组转换、数据排序筛选等,后期的业务指标计算、报表模板填充等。常用的数据处理工具包括Excel之类的电子表格软件、各类数据库软件、Python、R、SAS、SPSS等,这些工具都包含数据处理模块,方便用户对数据进行快速清洗,然后进行分析。

4.数据分析与数据挖掘

基于处理好的数据,数据分析人员才可以对其进行分析和挖掘,结合实际业务得出相关结论,提供给管理层进行决策。因此,数据分析人员需要掌握数据分析和数据挖掘的常用方法,才能为后期的数据报告的制作打下坚实的基础。

数据分析的侧重点在于对业务的熟练掌握,一个优秀的数据分析人员往往对公司业务了如指掌。例如,产品日常活动的前期设计、中期上线跟踪、后期效果评估以及最终的建议与反馈等,数据分析人员都要非常熟悉。当然,除了熟练掌握业务之外,数据分析人员对数据分析常用的分析策略和分析方法也必须掌握。一般情况下,数据分析策略分为描述性统计分析、探索性统计分析、推断性统计分析,如图1-4所示。图1-4 数据分析常用的分析策略

常用数据分析方法包括对比分析法、分组分析法、预测分析法、漏斗分析法、A/B测试分析法,如图1-5所示。通过这些数据分析方法,可以挖掘出数据隐藏的价值,从而降低企业成本,提高营业利润等。

数据挖掘的侧重点在于对模型和算法的理解,一个优秀的数据分析人员必须拥有扎实的数学基础和熟练的编码能力。数据的复杂性、多样性、动态性等特点会使得数据挖掘变得很困难。因此,在数据挖掘过程中,应该要清楚每一步需要做什么,达到什么样的效果,有问题及时调整方案策略,从而确保整个数据挖掘项目的最终成功。图1-5 数据分析常用的分析方法

数据挖掘的规范化步骤可以采用SIG组织在2000年推出的CRISP-DM模型,如图1-6所示。该模型将数据挖掘项目的生存周期定义为六个阶段。六个阶段分为商业理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、建立模型(Modeling)、模型评估(Evaluation)、结果部署(Deployment)。数据挖掘的流程并非要完全参照这个顺序执行,数据分析人员可以根据实际业务场景进行调整,通过不断地测试和验证,才能做好一个完整的数据挖掘项目。此外,数据挖掘具有循环特性,并不是一次部署完就结束挖掘过程,需要通过不断的迭代优化,获得最优结果。图1-6 CRISP-DM模型流程图(来源网络)

5.制作数据报告

数据分析的最终结果需要汇总成一份数据报告,最常见的是PPT格式的报告。因此,关于数据分析报告的制作显得尤为重要。数据分析报告的制作要求目的明确、结构清晰、有理有据。

报告开始部分一般为目录和前言,简单扼要地列出本次汇报需要陈述的章节;中间部分为正文,主要是对目录的各章节点展开叙述;结尾部分进行报告总结并提出相关建议和解决措施。数据分析报告的结构如图1-7所示。

开始部分的目录是数据分析报告的整体纲要,要求简洁扼要、结构清晰、逻辑有序,让阅读者能快速了解整个汇报的内容。目录切记要归纳总结,不要分太多章节,大致包含分析目的、分析要点、结论与建议。前言是对分析报告的目的、背景、思路、方法、结论等内容的基本概括,然后引出分析报告的正文内容。图1-7 数据分析报告结构图

正文部分的分析和论证是数据分析报告的核心部分,按目录的章节排序分别进行阐述,详解分析思路并进行论证。分析和论证要求条理清晰、层层剖析、有理有据。

结尾部分的结论和建议是依据前面的分析结果得出的相关结论。结论要求准确、干练、有价值,切不可冗余拖沓。在准确的结论基础之上,提出自己的见解和建议,为管理者进行决策时提供参考依据。

最后,数据分析报告的风格要前后一致,内容也可以加入一些动态展示效果,让阅读者赏心悦目,心情舒畅。当然,数据分析报告的核心还是分析、结论与建议,过分重视分析报告的美观程度而忽视分析报告的本质是不可取的。数据分析人员应抱着科学严谨的态度,将对业务的理解与分析挖掘技术相结合,得出可靠且令人信服的分析报告,提供给管理层进行业务决策。1.1.3 数据分析的应用场景

随着大数据分析技术的发展,日常生活、政府及企业对数据分析的应用需求越来越多,利用大数据分析技术可以为人们的日常生活带来便利,促进社会变革和科技发展。日常生活方面,人们的衣食住行都离不开数据的支撑,大数据分析技术的发展正在逐渐改变人们的生活方式。政府方面,国家出台了一系列政策,明确提出实施国家大数据战略,建设数据强国的目标。政府在交通、天气、农牧业、医疗卫生、教育等众多领域出台了一系列的大数据应用政策,支持其发展。企业方面,公司都在积极架构大数据分析部门,支持其他业务部门的发展,旨在降低企业运营成本、提高企业运作效率、创造更多利润。下面介绍数据分析众多的应用场景,可以看到数据分析与人们的日常生活结合得有多么紧密。

1.日常生活应用场景(1)电商购物

电商平台的崛起让用户不需要出门就能购买到自己需求的商品,提高了用户购买日常生活物品的便利性。移动互联网技术的发展让用户可以随时随地购物,但这一切的发展都离不开大数据技术的支撑。随着数据量的日益增长,包括大数据存储、大数据处理、大数据分析在内的各类大数据技术也在不断发展。利用大数据分析技术,电商企业可以对用户的偏好进行分析,然后进行商品推荐,从而提高用户的购买效率;电商企业对用户反馈的评论进行收集并分析,可以用来对产品进行优化,从而提高用户对产品的体验。(2)外卖订购

外卖平台的发展让消费者在家就可以享受到各种美食,随着平台用户规模的增加,大数据技术的支撑显得尤为重要,包括商家数据的接入、客户消费订单数据、定位信息数据以及实时外卖路线规划等都与大数据技术的应用息息相关。随着市场需求的升级,餐饮外卖行业的发展环境迎来进一步优化,同时,外卖用户大数据分析渗透程度将更深。例如,提升平台和商家的经营效率,增进用户对于平台和商家的满意程度以及扩展配送商品品类等,都要基于大数据分析。(3)物流配送

物流的配送效率直接体现在用户从下单到收到商品之间的间隔时间上,高效的物流配送也是建立在大数据分析基础之上。通过大数据分析可以对物流资源配置进行优化,合理规划物流路线,从而降低物流成本,提升物流配送效率。物流网点的选址、交通网络规划、辐射区域规划,都可以通过大数据分析进行辅助决策。此外,对车队的能耗数据、路线跟踪、调配信息等数据进行整合并分析,进行数字化管理,可以有效控制车队的运营成本。(4)交通出行

大数据分析技术在交通出行方面的应用也很广泛。例如,利用大数据分析技术可以实时监控车辆通行密度,合理规划行驶路线;实现即时的信号灯调度,提高已有线路运行能力。此外,近几年来发展迅猛的打车平台和共享单车也是利用大数据分析技术快速匹配司乘信息,从而提高用户乘车便利性,降低能源损耗,提高出行效率。(5)游戏产业

游戏厂商可以基于用户数据根据用户的偏好行为进行分析,可以主动推荐符合其偏好的游戏产品,减少用户搜索感兴趣游戏的时间。此外,对用户在游戏平台内产生的大量行为数据进行分析挖掘,可以迅速定位产品存在的问题并进行优化改进,提高用户忠诚度,降低用户流失率。市场推广渠道的数据分析可以帮助渠道进行优化,从而降低获取客户的成本并实现优质客户的新增导入。

2.基于行业的应用场景(1)天气预报

基于历史海量数据的预测分析结合气象知识,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升。此外,对于重大自然灾害,例如台风、龙卷风等,大数据分析技术可以更加精确地判断其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力,减少损失。天气预报准确度的提升和预测周期的延长将会有利于农业生产的安排。(2)农牧业

借助于大数据技术收集农牧产品的产地、产量、品种、流向、销售等各种信息,在大量数据分析基础上得到农牧产品的指导信息、流通信息等。通过不同的应用场景,可以使得农牧业从业者获取农牧产品的市场行情、相关技术等信息,从而做好预判。此外,企业基于大数据分析可以获得农牧产品的流通数据、市场消费需求、市场布局情况等专业的分析报告。政府可以通过大数据的整合分析,为农牧业生产提供合理建议,引导市场供需平衡,避免产能过剩,造成不必要的资源和社会财富浪费。(3)医疗卫生

根据医院病人的就诊信息,通过大数据分析得出涉及食品安全的信息,及时进行监督检查,降低已有不安全食品的危害;基于用户在互联网的搜索信息,掌握流行疾病在某些区域和季节的爆发趋势,及时进行干预,降低其危害;基于覆盖区域的居民健康档案和电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。(4)教育行业

大数据分析技术可以被政府教育部门运用到教学改革实践中。通过对学生成绩、行为表现、心里活动等数据的分析,可以让教育工作者理解学生在个性化层面是怎样学习的,从而制定相关策略来提高学生的成绩。此外,基于大数据分析可以将学习兴趣相同的学生进行分组,从而提高共同学习效率,还可以为每位学生创建适合自己的学习环境和个性化的学习方案和学习路径。(5)金融行业

银行基于客户资料的大数据分析,对申请贷款的客户进行信用评分,从而确定是否给客户发放贷款以及发放贷款的额度。此外,银行可以对客户数据进行细分研究,通过聚类分析发现不同类型客户的特征,挖掘不同客户的特点,从而为客户提供优质的服务。

利用大数据挖掘技术对投资的理财产品进行组合策略分析,从而降低投资风险,提高资金使用效率。此外,对已有的投资产品的组合模型进行优化分析,为投资者提供更为精准的数据分析。

保险业可以通过大数据技术对客户数据进行挖掘,研究欺诈客户的行为特征,进行实时监控与预警,降低企业风险。(6)零售行业

客户群体的细分以及精细化运营同样适用于零售行业,根据客户的消费喜好和趋势,进行商品的精准营销,降低营销成本。

利用大数据分析技术缩短产品生产时间,根据顾客反馈意见,快速进行决策并迅速修正产品缺陷,给用户更好的体验,从而提高产品的服务质量。

建立用户预测趋势的模型,对消费者购买方式和地点进行预测,从而能够调整库存量,提高产品周转效率,满足消费者的需求。(7)制造业

对制造业企业的销售业绩、利润率、成本等数据的分析,有助于了解企业销售状况,从而制定相应的销售策略,扩大生产利润。

对采购及库存数据的分析,有助于全面掌握企业采购及库存状态,为优化采购流程、降低库存积压提供决策依据。

针对产品故障数据进行预警分析,了解产品的故障状态,对于发生概率较高的故障问题、排名靠前的故障产品型号,可以改进生产工艺流程,降低产品故障率。1.1.4 数据分析的发展趋势

1.技术发展趋势

大数据技术的发展使得数据采集、存储、安全等技术变得越来越成熟。人们对于采集并存储的数据的价值越来越重视,从而带动了数据分析和数据挖掘技术的发展。利用大数据分析技术从海量数据中提取的信息具有极高的价值,例如,支持企业高层进行业务决策、识别新的销售和市场机会、提升组织的社交媒体营销能力、提高用户忠诚度以及复购率、降低用户流失率、提前预测风险并进行防范等。未来大数据分析技术的发展方向大致可以分为以下两点:一是对海量的结构化和半结构化数据进行深度分析,挖掘数据背后隐藏的知识;二是对非结构化数据进行深度挖掘,将文本、图形、声音、影视、超媒体等类型中蕴藏的丰富信息转化为有用的知识。

2.产业发展趋势

大数据技术的发展带动了包括数据软件和硬件相结合的高科技服务行业,提供专业大数据解决方案的咨询服务业,从事数据采集、处理、加工及分析为一体的数据服务产业的产生和发展。此外,2016年以来国家政策持续推动大数据产业发展,“十三五规划”中明确提出实施大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。国家众多部门相继出台政策推动大数据产业的发展,随着政策的逐步落地,大数据产业的发展速度也将越来越快。

3.人才发展趋势

大数据技术的发展带动了企业对于大数据分析人才需求的快速增长,由于当前国内大数据人才培养的滞后,导致大数据分析人才的缺口很大,因此未来一段时间内大数据分析人才依然炙手可热。目前国内主流招聘网站上发布的数据分析相关岗位的数量呈现持续快速增长,可以看出企业对于大数据分析人才的需求量很大。从数据分析师的职位分布区域来看,主要分布在北京、上海、广州、深圳、杭州等经济发达的大城市。从数据分析师的职位分布行业来看,主要集中在互联网、金融、游戏、生物医疗、房地产、制造业等行业。互联网、金融行业的数据分析师职位数占比很高,因为这些行业在日常运营工作中积累了大量业务数据,而且数据依然在快速增长。1.2 数据分析的职业发展及分类

数据分析的职业发展分为技术路线和管理路线。技术路线分为数据分析助理、数据分析专员、初级数据分析师、中级数据分析师、高级数据分析师、资深数据分析师、数据科学家等;管理路线分为数据分析主管、数据分析经理、数据分析总监、首席数据官等。

从工作内容上划分,数据分析的职位主要分为两大类:业务数据分析和数据挖掘算法研发,如图1-8所示。下面分别对这两类职位的基本要求和职能进行详细介绍。图1-8 数据分析职位分类

1.业务数据分析

● 熟悉行业知识、公司业务及流程,有自己独到的见解,能够根据分析结论驱动业务决策。

● 熟练的沟通技巧,需要和运营、产品、市场、技术、客服等部门打交道。

● 掌握数据分析思路、分析理论以及数据分析方法,并能灵活运用到实际工作中。

● 熟练掌握数据分析相应工具,包括Excel、SQL、SPSS、R、Python、SAS、Tableau、PowerBI等软件;熟悉常见的算法,了解产品和运营的分析思路,能拿出业务优化方案并促进落地等。

● 职位主要细分为数据运营专员、业务分析师、运营分析师、商业分析师、BI分析师、数据产品经理等。

2.数据挖掘算法研发

● 熟悉公司业务及流程,推动数据挖掘理论在不同场景的落地,解决产品线、企业经营等方面的实际问题。

● 扎实的统计学、数据挖掘、机器学习理论基础,能够利用高等数学知识推演高维数学模型。熟悉聚类、分类、回归、图模型等机器学习算法,对常见的核心算法理解透彻,有实际建模经验。

● 具备扎实的计算机操作系统、数据结构等理论基础,熟练掌握大数据依赖的计算机技术,包括:操作系统(Linux、shell等)、实时流计算(Spark、Storm)、海量数据处理(Hadoop、Hbase、Hive)、开发语言(C、C++、Java、Scala等)、数据分析与机器学习框架(R、Python、TensorFlow、Mahout等)。

● 职位细分主要为数据挖掘工程师、数据算法工程师、数据开发工程师、数据研发工程师、机器学习工程师等。1.3 数据分析之道

对于一个数据分析从业者而言,不仅要掌握数据分析之术—各种数据分析工具的使用,如数据库SQL、Excel、Python等,还需要掌握数据分析之道。这里的“道”指的是数据分析的策略(或方法论),读者也可以将其理解为数据分析的思路或套路。“道”是灵魂,工具是技能,如果仅掌握技能,那么数据分析人员的角色就成了搬运工,无法体现价值。做数据分析必须要有自己的思想和主见。

数据分析是指使用适当的统计分析方法对收集来的大量数据进行分析,并从中提取有用信息并形成结论。那么问题来了,用于数据分析的策略和统计分析方法都有哪些呢?从宏观角度出发,作者将数据统计分析策略划分为三类,即描述性统计分析、探索性统计分析和推断性统计分析,将数据分析常用方法归纳出5种,即对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法。掌握这些,就相当于在某种程度上悟得数据分析之道了。接下来,重点介绍一下这些数据统计分析策略和方法的相关知识点。1.3.1 三类统计分析策略

描述性统计分析、探索性统计分析和推断性统计分析三类策略是一种循序渐进、由浅入深的分析步骤,从事数据分析需要掌握这三类源自统计学领域的统计分析策略。

1.描述性统计分析

描述性统计分析侧重于对数据的描述,这种描述就相当于在阐述所看见的一幅图画。对数据的描述性统计,其实就是描述数据的特征,如数据的平均水平、数据的可行范围、数据的波动分散程度等。通过描述性统计分析,可以使数据分析人员更好地掌握和理解数据,做到心中有“数”。描述性统计分析在数据分析过程中,既是基础环节也是重要环节,基础是因为它的操作非常简单,重要是因为它是进行下一步数据分析工作的前提。

下面是一个描述性统计分析的例子。

老板可能会问:小王,帮我查一下9月份网站流量的基本数据。

那么问题来了,这个基本数据都会包含哪些内容呢?首先查看9月份的流量数据。如图1-9所示,其中PV和UV分别代表页面访问量和用户访问量,即网站的访问人次和访问人数。如果你了解描述性统计分析,就可以将网站流量的基本数据展现在表格中。

如表1-1所示,即为常用的基本统计指标,以PV为例,简单解释这7个指标的含义:9月份网站的日均访问人次为41,072.87次,标准差为5,685.52,最少的一次访问量为30,471次,该月中有四分之一天数的每天访问人次在36791.5次以下,该月中有一半天数的每天访问人次在42,529次以下,该月中有四分之三天数的每天访问人次在44,643.25次以下,全月中最多的一次访问量为49,847次。需要注意的是,表格中的下四分位数即统计学意义的25%分位点,上四分位则为统计学意义的75%分位点。

该案例就是一个典型的描述性统计分析,其实就是针对数据的统计结果做简单的描述,表达出数据的统计特征。除此之外,还可以通过图形的方式描述数据的内在规律。例如,需要统计某电商平台在近一个月各支付渠道的支付比例,或者分析用户年交易额的分布特征。通过饼图和直方图就可以很好地描述这两个问题。图1-9 待描述的网站流量数据表1-1 统计描述的汇总结果

如图1-10所示,电商的快捷支付占比最大,达到42%,占比第二的是微信支付,达到28%,两者相差14%,货到付款的比例最小,只有7.3%,该支付方式与其他支付方式的比例非常接近。图1-10 各支付方式的占比

如图1-11所示,用户的总交易金额存在严重的不平衡,交易额在2000元以内的用户最多,且占到绝对优势;几乎所有用户的交易额都在10000元以内,超过10000元的用户只有零星点点;从数据的分布形态来看,存在严重的右偏特征(即长尾分布在右侧)。图中还绘制了两条曲线,分别是实际分布曲线(即核密度曲线)和理论分布曲线(即正态密度曲线),通过两条曲线的对比,发现它们的吻合度并不是很高,故进一步断定该数据的分布并非正态分布。

因此,描述性统计分析包括数据的频数分析、数据的集中趋势分析(如均值、中位数、众数等)、数据离散程度分析(如标准差、极差、变异系数等)、数据的分布(如偏度值,峰度值等)以及一些基本的统计图形(如饼图、直方图、箱线图等)。在日常的学习或工作中,数据分析人员需要掌握这些基本的统计描述方法,进而可以很好地融入业务中,并了解业务的数据环境。图1-11 用户交易金额的直方图

2.探索性统计分析

探索性统计分析主要用于数据分析过程中的探索,通过探索可以发现数据背后隐藏的内在规律和联系,通常探索性统计分析还可以挖掘出数据中出现异常的原因。例如,需要研究某些变量之间是否存在一定的相关性,研究两组样本之间是否存在显著的差异,探索企业内某指标(如曝光量、广告点击率、支付成功率、某支付渠道占比等)没有达标的原因,探索企业内某指标在接下来的一段时间内将会有怎样的变化趋势等。

对于数据分析人员而言,探索性统计分析的策略在工作中的应用非常频繁,因为通过该策略可以帮助分析人员了解数据中不易发现的内在价值和联系。在绝大多数情况下,探索性统计分析都是借助于数据可视化的技术将问题的答案图形化呈现,以便于直观地发现数据中有意思的信息。

为使读者更好地理解探索性统计分析的应用,这里举三个通俗易懂的小例子:探索汽车的速度与刹车距离之间的关系;探索某电商的交易量在PC端和移动端之间的比例变化;探索泰坦尼克号男女乘客在一等舱内的票价是否存在差异。

对于探索两变量之间的关系,最常用的方法就是绘制它们的散点图,通过散点图可以直观地发现两者之间的某种内在关系(如线性关系、非线性关系或无相关关系)。所以,在探索汽车的速度与刹车距离之间的关系时,不妨绘制散点图来观察两者之间的关系,如图1-12所示。

图1-12中,横轴表示汽车的行驶速度,纵轴表示汽车的刹车距离。从图中可知,随着行驶速度的增加,刹车距离也在增加。所以,可以明确地得出,它们之间存在正相关的线性关系。那么,这种线性关系可否通过某个具体的数学函数来表达呢?答案是肯定的,这部分内容将涉及后文所介绍的推断性统计分析。图1-12 汽车速度与刹车距离的散点图

通常在对比两组或多组样本之间的差异时,可以选择统计学中的箱形图(也称为盒须图,关于该图形的具体介绍可以查看2.4.2节的内容),该图形有两大作用:一是可以方便地实现数据的对比;二是可以识别出数据中的异常样本点。所以,在探索泰坦尼克号男女乘客在一等舱内的票价是否存在差异时,不妨选择箱线图来描述,如图1-13所示。图1-13 男女乘客的票价箱线图

图1-13中横轴表示乘客的票价,纵轴表示男女性别,在两个箱线图的中间箱体部位都有一个明显的分界线,它是中位数(一种用于描述数据的中心化指标,即理解为整体水平)。从图中可知,两个箱线图的中位数并没有近似垂直对齐,说明男女乘客的票价存在显著差异。而且从图的最右侧,也发现了一些样本点,它们就是利用箱线图技术识别出的异常点。很显然,这是通过图形的对比,得出两者存在差异,那么有没有定量的方式验证男女性别在票价上存在显著差异呢?答案仍然是肯定的,可以通过推断性统计分析实现。

对于探索某电商的交易量在PC端和移动端之间的比例变化,可以选择百分比堆叠条形图,该图形最大的特色是将所有的条形高度标准化到100%(即所有条形高度都是一样的),然后可以对比内部比例的变化趋势。如图1-14所示,即为交易量在PC端和移动端在不同时间段上的比例差异。

图1-14中横轴代表2014—2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。借助于百分比堆叠条形图,可以非常直观地发现移动端的交易量在迅速扩张(即随着移动互联网的发展,用户越来越青睐于选择移动端完成网上的交易),由2014年第一季度的11.7%,发展到2016年第四季度的85.5%,短短的三年时间,发生了翻天覆地的变化。图1-14 PC端与移动端的占比趋势

3.推断性统计分析

推断性统计分析非常经典但相对较难。我们都知道,统计学实质上就是根据样本的特征来推断总体的情况。例如,借助于随机抽样的方法,从总体中抽出部分样本,并根据样本推断出总体的平均水平(解决问题的方法是统计推断中的均值检验);根据样本的两个属性(即两个变量),判断属性间是否存在相关性(需利用统计推断中的相关系数检验或卡方检验);根据样本的分布,判断其总体是否服从正态分布(该问题的解决可以使用数据的正态性检验技术)。

相比于探索性统计分析,推断性统计分析更加侧重于寻找定量的答案,通常是计算统计量和对应的概率P值。如果概率P值小于0.05(默认的对比值),则需要拒绝原假设(原假设即假设事件成立的情况,如样本均值等于某个值,两属性之间不相关,样本服从正态分布),反之需要接受原假设。

为使读者掌握推断性统计分析的方法,接下来通过几个小的例子加以说明:通过t检验推断两样本之间的均值是否存在差异;通过卡方检验与Pearso相关性检验推断样本的两个属性是否不相关;通过Shapiro正态性检验推断样本是否服从正态性分布。(1)t检验

t检验也称为均值检验,即通过该检验方法可以验证样本的均值是否满足某个常数或者两样本之间的均值是否存在差异。假设如表1-2所示的数据为某品牌充电宝电容量的抽样数据,为检验该品牌充电宝是否满足其宣传的5000毫安容量的说法,需要借助于t检验的工具(基于Python):表1-2 充电宝电容量数据

1)提出原假设与备择假设。

● H:样本均值为5000毫安(原假设)。0

● H:样本均值不为5000毫安(备择假设)。1

2)计算统计量。

结果显示,t检验的所得的统计量为-0.694。如果单从该统计量的值,并不能直接得出样本是否满足均值为5000毫安的说法,所以需要进一步比较概率P值。

3)对比概率P值,下结论。

结果显示,概率P值为0.502,大于0.05的阈值,说明不能拒绝原假设,即认为样本均值为5000毫安的说法是正确的,也就是说该品牌的充电宝符合其宣传的电容量5000毫安的说法。(2)卡方检验与Pearson相关性检验

卡方检验用于验证两个离散型变量之间的独立性,而Pearson相关性检验则用于验证两个数值型变量之间的独立性。图中为两组数据(部分):一组是关于高三某班级学生的性别与其是否被录取的数据(如图1-15所示);另一组是关于汽车速度与刹车距离的数据(如图1-16所示)。

首先通过卡方检验对学生性别与其是否被录取进行相关性分析。步骤如下(仍然基于Python):

1)提出原假设与备择假设。

● H:学生的性别与其是否被录取相互独立。0

● H:学生的性别与其是否被录取不相互独立。1图1-15 学生录取表图1-16 汽车信息表

2)计算统计量。

结果显示,卡方检验的统计量为4.86,可以进一步借助于概率P值得到明确的判断结果。

3)对比概率P值,下结论。

结果显示,概率P值为0.028,小于0.05的阈值,说明应该拒绝原假设,即认为学生的性别与其是否被录取是相关的。

接下来通过Pearson相关性检验分析汽车速度与刹车距离的相关性。具体步骤如下:

1)提出原假设与备择假设。

● H:汽车速度与刹车距离不相关。0

● H:汽车速度与刹车距离相关。1

2)计算统计量。

结果显示,汽车速度与刹车距离之间的Pearson相关系数为0.807,说明两者之间存在很强的相关性,为进一步验证这个结论,可以计算概率P值。

3)对比概率P值,下结论。

结果显示,概率P值远小于0.05,说明需要拒绝原假设,即认为汽车速度与刹车距离之间强相关性是正确的。(3)Shapiro正态性检验

对于样本的正态性检验,可以使用Shapiro检验方法(通常要求样本数量在5000以内,如果样本量在5000以上,可以使用KS检验方法)。不妨以Titanic乘客的年龄数据为例,验证其是否服从正态性分布。

1)提出原假设与备择假设。

● H:乘客的年龄数据服从正态性分布。0

● H:乘客的年龄数据不服从正态性分布。1

2)计算统计量。

结果显示,Shapiro检验的统计量为0.981,但看该值,无法直接得出检验的结论,故仍然需要结合概率P值才能够明确地下结论。

3)对比概率P值,下结论。

结果显示,概率P值远小于0.05,故需要拒绝原假设,即Titanic乘客的年龄并不服从正态性分布。

所以,在数据分析过程中,通常要对数据做如上的探索和研究,一方面通过探索方法,让分析人员能够对数据做到心中有“数”,了解数据呈现的特征和规律;另一方面通过深入研究,让隐藏在数据背后的价值淋漓尽致地展现在数据分析人员的面前,进而基于数据分析的结果,为下一步的决策提供有力依据。1.3.2 数据分析的常用方法

上面介绍的三类统计分析方法属于概括性的方向指引,即读者在进行数据分析过程中,需要借助于这三类统计分析方法的策略去描述或思考数据反映的现象和问题。本节将从细化的角度,分享一些具体的常用数据分析方法(考虑到篇幅的限制,这里仅分享部分重要的方法),这些方法在平时的学习或工作中得到广泛的应用。

1.对比分析法

该方法又称为比较分析法,通过指标的对比来反映事物数量上的差异和变化,属于统计分析中最常用的方法。在实际应用中,读者可能听过纵向对比和横向对比的说法,纵向对比指的是同一事物在时间维度上的对比,这种对比方法主要包含环比(如日活用户数DAU在本月与上月之间的对比)、同比(如销售额在本年度3月份与上一年3月份之间的对比)和定基比(如2~6月份的点击量均与1月份的点击量做对比)。而横向对比则是不同事物在固定时间上的对比(如不同用户等级在客单价之间的差异;不同品类之间的利润率高低;新用户在不同渠道的支付转化率)。应用对比分析法,得到的结果可以是相对值(如百分数、倍数、系数等),也可以是相差的绝对数和相关的百分点(一个百分点即指1%),即把对比的指标做减法运算。所以,通过对比分析法就可以对规模大小、水平高低、速度快慢等做出判断和评价。

2.分组分析法

分组分析法与对比分析法很相似,所不同的是分组分析法可以按照多个维度将数据拆分为各种组合,并比较各组合之间的差异。为使读者能够理解分组分析法和对比分析法之间的差异,这里各举一个简单的例子加以说明。

假设新书上市做营销时,会考虑多个销售渠道,例如新华书店、当当、京东、天猫和中国图书网。如果要对比各销售渠道在10月份的销量,就应采用对比分析法,如表1-3所示;如果要对比各销售渠道在9月、10月和11月的销量,就应采用分组分析法,如表1-4所示。表1-3 10月份各销售渠道的销量对比分析

表1-3中运用对比分析法可以发现,新书在10月份的销售总量为3863册,其中当当网的销售量最高,占到总销售的34.3%;相比于中国图书网的销售渠道,当当网的销售量是它的近6倍。当当、天猫和京东为销售量前三名的渠道,它们的销售量在总销售量中超过85%。表1-4 各销售渠道在时间维度上的对比

如表1-4所示,销售渠道基础上又添加了时间因素(即综合了横向对比和纵向对比),所以通常称这样的数据为横截面数据。表中的数据(比例为行百分比)是为了对比各渠道销售量在当月的销售占比。从数据中可以发现,当当的销售占比在呈现逐月上涨趋势,而京东和中国图书网则呈现逐月下降趋势,天猫和新华书店的销售占比则非常稳定。为了使数据展现得更加直观,不妨使用前文介绍的百分比堆叠条形图展现数据的变动趋势,如图1-17所示。图1-17 各销售渠道在时间维度上的对比

依据此图,可以非常容易得出这样的结论,即京东和中国图书网的销售占比在逐步下降,而当当则呈现上涨趋势,其余两种渠道的销售占比并没有大的起伏。

3.预测分析法

预测分析法主要用于未知数据的判断和预测,这个方法在大数据

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载