数据分析实战：基于EXCEL和SPSS系列工具的实践(txt+pdf+epub+mobi电子书下载)-txtepub下载

作者：纪贺元

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据分析实战：基于EXCEL和SPSS系列工具的实践试读：

前言

F O R E W O R D

为什么要写这本书

在我做数据分析培训和咨询的过程中，经常会有学员来问我，有没有合适的统计分析方面的参考书可以推荐。被学员问得多了，慢慢地就有了写本书的冲动，一是毕竟自己写的书和培训的内容比较配套，二是写书对自己来说也是一个总结和提高的过程吧。“理想很丰满，现实很骨感”，原来觉得自己手里有不少案例，各种工具的使用也算是比较熟练，写起书来应该得心应手，进度也会比较快，但是真到开始动手写作时，才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨，到分析结果截图的选择等，每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳，颈椎病也复发了，因为在写书的同时，我的数据分析方面的培训并没有停止。

我在写作本书的时候，给自己规定了几个原则：

一是要实用，要能够解决企业工作中的实际问题。

二是要尽可能地降低读者上手的难度，那种操作非常繁复、需要强大坚实的统计分析理论基础，或者需要编程才能实现的功能，我都没有放在本书中。原因很简单，即使本书讲了那些难度比较大的内容，读者也很难真正应用起来。

三是语言风格尽可能轻松活泼一点，尽量避免很严肃、很晦涩的专业术语，我很难做到“寓教于乐”，但还是尽己所能让本书的阅读轻松一点吧。

在本书的写作过程中，我经常提醒自己这三条原则，并且要求自己遵守它们。

简言之，给读者带来一本“有用的、上手比较容易的、读起来比较轻松的”数据分析书，这就是我写这本书的原则和动力。

读者对象

这本书的读者对象是企事业单位中从事数据分析的非统计专业人士：

·企业中的市场部相关人员，包括市场分析人员、产品设计和研发人员、销售经理等。

·企业中的生产部人员，包括生产经理、质量控制经理等。

·企业中的财务部人员，包括财务总监、财务经理等。

·企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。

如果读者是高校或者科研院所的教师、学生、科研人员，要从事专业学术论文的撰写或者纵向科研项目的研究工作，不建议你将本书作为主要的阅读和学习的书籍，因为使用的工具、模型、方法都会大相径庭，例如撰写学术论文经常要使用Eviews、Stata等专业计量工具，而这些专业计量工具在企业中使用的概率非常低。

如何阅读本书

本书分为三大部分，第一部分基础篇（第1章和第2章）主要介绍数据分析的概念、术语、方法、模型等，为后续的内容展开奠定基础。

第二部分制表篇（第3章到第5章）介绍数据的采集、整理以及常用数据报表的制作。

第三部分数据分析篇（第6章到第14章）占据了本书的大部分篇幅，囊括了常用的、有代表性的、实用的功能，包括数据扫描、数据标注、异常值分析、回归等。

正文中所提“案例文件”为本书的配置案例资料，请通过网络自行下载，下载地址为http://www.hzbook.com。

勘误和支持

由于作者的水平有限，编写的时间也很仓促，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。如果你发现本书有错误，或者有其他宝贵意见，请发送邮件到我的邮箱jhyjhy8888@163.com，我很期待能够收到你们的真挚反馈。

致谢

我跟我的家人说，我这本书是以“part time”的方式写出来的，因为在写书的过程中，我还在四处上课，也做了一些小的咨询项目。

多年以后，如果回顾2016年，我给哪些企业上过哪些课，我未必能记清楚，但是2016年我写作了平生第一本书，这点我不会忘记。

感谢机械工业出版社华章公司的编辑杨绣国老师，感谢你的魄力和远见，在这一年多的时间中始终支持我的写作，你的鼓励和帮助引导我顺利完成了全部书稿。

最后我一定要感谢我的家人，是你们给了我一个温暖的港湾，让我在这一年中几乎不用做家务，专心从事培训和本书的写作，多谢多谢！

谨以此书，献给我最亲爱的家人，以及众多热爱数据分析的朋友。

纪贺元

2017年1月于中国上海第1章什么是数据分析1.1　一眼就看到结论还需要数据分析吗

在我做数据分析培训和咨询的时候，时不时会有学员或者客户流露出这样的情绪：

我们的企业其实是不需要数据分析的。

我们公司的业务情况，我很清楚，分析不分析都那样，反正我都知道了。

公司的数据好简单啊，就那么几列，有啥好分析的。

公司里面的很多数据都是造假的，没有分析的价值。

在以上问题中，除了数据质量，其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难解决的问题，如果企业员工出于种种原因总是在编造各种假数据，这应该属于职业道德或者企业管理水平（企业应该通过严格严谨的管理流程使得员工无从造假）的范畴，这里暂且不讨论。那么，什么是数据的可分析度呢？

这个问题实际上包含如下两层意思：

1）这个企业的数据是比较复杂的，一眼是看不到结论的，需要使用一些工具、模型、方法进行分析。

2）关于数据的分析是有价值的，也就是说分析的过程和结论对于企业是有价值的，能够对企业的生产经营等带来促进和提高。

因此，在数据的可分析度方面，我们需要有一些判断的维度，以帮助我们辨识数据是否值得分析，这里所说的维度主要考虑企业数据量、数据复杂度、数据颗粒度这三个方面（如图1-1所示）。图　1-11.1.1　企业数据量

企业数据量是企业可分析度的第一要素，企业数据量的大小往往取决于两个因素：

一是企业的行业属性，二是企业的信息化程度。众所周知，互联网行业往往也是产生大量数据的行业，“BAT”不仅仅引领了各自行业的发展，同时也是数据行业发展的标杆。

一般情况下，企业的数据量跟企业的规模呈正相关关系，中等以上规模的企业数据量均比较大。但是也有例外，我曾经接触过一家从事智能手机操作系统推送业务的公司，该公司规模很小，只有40多人，但是由于合作方是国内诸多智能手机的生产企业，因此该企业的手机用户数量有3000多万，每天产生的业务数量高达几GB。1.1.2　数据复杂度

如果说数据量相当于数据的行，那么数据复杂度就相当于数据的列。某公司营销部曾给我发来的数据样例，总共的列数加在一起是12列。该公司要求分析客户数据，但是涉及客户资料的数据基本上就是客户名称、客户行业（行业数据还是不全的）这两列，客户注册资本、销售收入、雇佣人数都没有，怎么分析？

做过数据分析的人肯定都知道“巧妇难为无米之炊”的苦楚！请想想，你提供的客户数据就是寥寥数列，那要怎么去分析？怎么做文章？

到目前为止，并没有什么明确的指标来度量数据量与数据复杂度，我们很难说每天的数据超过3万行就算数据量多，或者说数据超过30列就算数据复杂。特别是数据复杂度，这中间还有一个数据相关性的问题：以案例文件1.1为例，虽然其中的数据是3列，但是用EXCEL自带的“数据分析”模块中的“相关分析”进行分析（相关系数的函数，后面会详细讲解），我们发现第二列“销售数量”和第三列“销售额”之间的相关系数是1（完全相关），如图1-2所示。图　1-2

从数据分析的角度看，这里实际上是两列数据而不是3列，换句话说，第3列的销售额数据属于“衍生指标”，因为单价30是固定的，我们只需要用销售量这个数据就可以反映销售的状况。

因此通过数据的列数来衡量数据复杂度其实也未必准确，而是应该看剔除相关性之后的列数。1.1.3　数据颗粒度

数据颗粒度指的是从不同的层次来看待数据。很难用语言来形容数据颗粒度的重要性，还是通过一个例子来说明一下。炒过股票、用过股票软件的人都知道各种周期的分析（如图1-3所示）。图　1-3

从图1-3可以看出，股票有1分钟、5分钟、15分钟、30分钟等多个观察周期，而各种周期之间存在着相互包含的关系，例如5分钟的周期线实际上是由5个1分钟的周期线组合而成的，而15分钟的周期线是由3个5分钟周期线组合而成，以此类推。因此，我们说股票数据的颗粒度是：1分钟、5分钟……

其他颗粒度的例子还有很多，例如在分析各地GDP的数据时，涉及全国、省、市、区（县）等颗粒度；考虑家电产品的维度时，也有家电、白色家电、冰箱、型号等颗粒度。

理解了颗粒度之后，就很容易理解如下道理：数据的颗粒度越细越好，因为有了细颗粒度的数据，就可以自行组合成颗粒度比较“粗”的数据。例如我们知道了全国各个区（县）的GDP数据，就可以推算出市、省、全国的数据，但是反向的操作无法实现，即知道了市的GDP数据，未必能够知道下辖区（县）的GDP数据。

综上所述，可以得到如下结论：企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据，就有比较高的分析和利用价值。1.2　数据分析能给我们带来什么

数据分析是有成本的，这种成本包括时间精力、金钱，以及情感上的烦恼等。既然有成本付出，那人们自然关心，我能够从数据分析中得到什么？1.2.1　了解数据的整体状况

曾有人在培训时提出，我公司的业务状况，我非常清楚，还用得着分析吗？可是，事实真的是这样吗？你真的对公司的数据了如指掌？对它所体现的特征一清二楚？如果公司的数据量比较大、比较复杂，那么它就有可能存在潜在的价值，就有分析的必要。

数据的整体状况包括如下内容：（1）总体状况

总体销量是多少？质量问题的总计是多少？研发团队目前有多少人？研发费用是多少？（2）结构状况

在关注总量之余，我们也关心结构情况，例如销售在各产品、各区域的分布是怎么样的？哪些设备、哪些机床有质量问题？（3）异常情况

曾经有客户问过我这个问题：“老师，我们希望把产品销售增速放缓的品线找出来，可以吗？”这里先解释一下客户的需求，就是假如客户一月份的销售增速是3%，二月份的增速是3.4%，三月份的增速是4.5%，如果四月份的增速是3.9%，那么4月份的增速就放缓了，就属于异常值。

什么是异常值？简单地讲，就是根据客户的想法感觉有些异样的值，这些值是我们要重点关注的东西，并且会试图分析其背后的原因。后面会成体系地详细讲解。（4）其他一些数据特征

我们有时候也会关心数据的稳定性、对称性等特征，后续都会详细讲解。1.2.2　快速查询数据

数据分析的第二个好处是我们可以快速地查询数据，在数据分析领域中，筛选查询是一个宽泛的课题，涉及很多技术，从简单的筛选数据到动态筛选再到ACCESS的数据查询，内容非常丰富。

我曾经碰到一个企业的老总，他跟我说，企业里面的数据，他不可能都记得很清楚，但是他时常需要了解某个数据，例如某个产品在某个时间段里的返修率是怎么样的，这个时候他会去问秘书，秘书找到数据后再告诉他。“有的时候查一个数据，要一个小时”，这位老总觉得效率不高。

碰到这种情况，如果企业的规模比较大，则需要建立数据库；对于小规模的企业来说，用VB控件把企业的重要数据全部整合起来放在一个EXCEL文件中，是一个高效而且切合实际的做法。后面会详细讲解VB控件的具体安装和应用。1.2.3　数据之间关系的探索

这部分内容应该是数据分析中最像“数据分析”的部分，例如以下的问题：

·产品价格中的成本占比是多少？

·如果成本上升了，价格怎样调整才是最优的？

·影响产品质量的因素有很多个，假如这些数据都是能量化的，那么哪些因素对产品质量是有影响的？

·肥胖和饮食习惯对冠心病有影响吗？

这些都是“正规”的数据分析的内容，需要运用一些统计分析的模型算法等进行分析。1.2.4　业务预测

这里把业务预测放在数据分析收益的最后，并不代表数据预测的重要性是排在最后的。在我和企业接触的过程中，发现很多企业都有数据预测的需求，即使我告知他们预测未必很准确，但是一些企业也坚持要做一些预测，他们认为科学预测过的数据，对他们的生产经营等能有一个比较科学的指导。1.3　数据分析的几大抓手

时不时地有培训学员来问我一个问题：“我怎么样才能把数据分析做好？”要回答这个问题还真是不容易，就像业余围棋爱好者问“我怎么样才能快速提高自己的棋力？”或者刚刚进入职场的大学生问“我怎么样才能把销售业绩做好？”一样。

任何一项工作要做好，都是一个综合的成体系的事情，这里就简单梳理一下把数据分析做好的几个必要条件。1.3.1　足够多的数据

给巧妇多一点米吧！数据量越多，每天更新的数据就越多，做分析的价值就越大。这也就是为什么现在数据分析做得比较好的还是电信、金融、互联网等几个行业，汽车行业现在进展也比较快。从部门的角度看，市场部、财务部、生产部、质量部等是需要做数据分析的重点部门，为什么？就是因为数据多啊。1.3.2　数据质量

光有数据量还不行，数据质量也是非常重要的。总体来说，我国很多企业的数据质量目前还比较低下的，先不说数据是否有造假的成分，光是数据的“粗漏错乱”这些就足以让企业的数据分析人员头疼了。“粗”是指数据的颗粒度很粗，过于粗疏的数据，使得数据的分析价值非常低。“漏”是指由于企业的数据规划或者数据记录仪器等的问题，很多数据都没有被记录下来。“错”和“乱”指记录的数据错误，或者是数据被不同的部门所记录，但是数据对不上。例如有一个指标数据，市场部记录为103，而财务部记录为124，大家看到这个例子可能会觉得这怎么可能啊？但是我想告诉你，由于IT系统的五花八门以及部门之间数据经常缺乏稽核比对，因此很容易出现这类问题。1.3.3　合适的工具

用来做数据分析的工具很多，比较知名的就有10多种，如果再加上那些不知名的，说几十种都算少的。

有的学员在跟我交流时提到不愿意换工具，例如他好不容易熟悉了Eviews，然后要做销售数据的季节性分解，虽然听说SPSS比较好，但是他不愿意换，觉得再学一个软件比较麻烦。

我个人的观点是：存在的就是合理的。每种软件都有它的优势，反过来，也有它的问题。其实我们可以逆向思维，如果有一个软件什么都能干，那么其他的软件就可以退出市场了。

要把各种软件的优势和长处说清楚是件不容易的事情，2.2节会尽可能做一个总结和描述。1.3.4　分析结果的呈现

仅仅能够分析数据是不够的，还需要把分析的结果展示给其他人，这包括领导、同事、客户等。数据呈现目前是一个热门话题，所谓呈现，就是把数据分析的比较专业甚至晦涩的结果，以生动的甚至有趣的形式展示给他人看。

比较通俗地讲，有人认为呈现就是画图，我比较认同这个观点，“一图抵千言”，人们对于图形的接受程度要远远高于文字和数字。

EXCEL中有很多绘图技巧，EXCEL的更新版本也在对图形绘制进行不断地改进，各种专业统计工具中都有绘图模块，Stata、SAS、R等软件都有专门的绘图命令用来绘制图形。1.4　数据分析的流程

数据分析一般有数据采集、数据整理、制表、数据分析、数据呈现等多个阶段。当然，不是说每一个数据分析的过程都需要这些阶段，有的企业数据质量非常好，自然就不需要数据采集过程了；也有些数据分析并不怎么需要呈现过程。不过，为了方便读者理解，下面将介绍一个完整的流程。1.4.1　数据采集

数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作。数据采集工作的难度、跨度非常大，有的采集工作非常简单，仅仅是几个简单的邮件、电话，就能够完成数据的采集工作；有的数据采集工作则非常痛苦，甚至经常会出现采集不到数据的情况。

数据采集的难度一般表现在如下几个方面。（1）数据根本就不存在

由于企业缺乏数据规划或者现场人员疏漏等原因，在采集数据的过程中，经常发现数据根本就不存在。（2）数据过粗

如1.1.3节所述，企业经常在数据记录的颗粒度方面出问题，例如根据某企业的规定，项目的成本数据应该按照“天”为单位来记录，但是我们最后发现成本记录的单位是“月”，这中间的差别非常大。（3）数据质量低下

数据的错误、对不上、缺漏等情况普遍存在，曾经有一个项目合作方对我说，如果严格校对数据质量，我们的数据可以删除70%。试想想，在30%的比较“靠谱”的数据上做分析，得出的结论是否靠谱？（4）人为原因导致数据采集困难

一些人为原因也会导致数据采集的困难，包括部门之间的隔阂、人际关系等因素。1.4.2　数据整理

但凡是做过数据分析的人都知道，数据整理是一个痛苦而且复杂的过程，很多数据拿到手之后，并不能马上做处理，而是要经过一个转换过程，请看图1-4所示的一个需要整理的数据案例。图　1-4

从图1-4可以看出，A列的数据都是合并单元格格式，如果要对以上的数据进行透视表分析，需要进行如下的操作。（1）取消合并单元格

选中A列，点击EXCEL中的“开始”→“合并后居中”，取消合并单元格之后的数据效果如图1-5所示。图　1-5（2）填充空白单元格

按F5键，点击“定位条件”，如图1-6所示。图　1-6

在弹出的界面中选择“空值”，如图1-7所示。

这时工作表中的空白都被选中了，效果如图1-8所示。图　1-7图　1-8

在公式栏中输入“=A2”，也就是让每一个单元格都等于上一个单元格的值，然后按“Ctrl+Enter”组合键，空白处都填充好了。填充后的效果如图1-9所示。图　1-9

以上只是一个小小的例子，我们在进行数据处理的时候，都要先进行各种数据整理。甚至有时数据整理的时间会占据数据分析时长的70%以上。1.4.3　制表

制表是日常工作的重要组成部分，也是数据分析的重要组成部分。实际上不少企业已经把企业管理工作贯穿到报表的实现当中，通过一张张精心设计的报表，管理人员可以迅速了解企业的采购、生产、销售、售后、财务、人事、安全等相关信息。

企业常见的报表包括如下类型。

·采购报表：反映企业各部门的需求，供应商供货品类、价格等状况，采购项目进展状况等；

·生产报表：包括产量表、成本表、人力消耗表、设备故障表、安全质量表等；

·财务报表：包括销售输入管理、成本管控表、量本利分析表、流动资产管理表、负债管理表、投资项目决策表、财务预测表等；

·售后报表：包括样品跟踪表、设备状况跟踪、客户满意度跟踪、投诉建议表等；

·人事报表：包括人员状况、薪资福利、人员雇佣离职表等多个报表。1.4.4　数据分析

数据分析的范围非常广泛，凡是基于业务需求出发且依托于数据进行分析的，就是数据分析。

企业的数据分析一般包括以下方面。

·营销数据分析：这是企业数据分析的主要部分，个人认为也是数据分析最迷人最有魅力的地方。营销数据分析包括营销整体状况分析、客户分析、产品线分析、促销分析、客户画像、客户购买原因分析、营销预测、营销异常值分析等。

·生产质量数据分析：包括生产态势分析、设备故障分析、生产成本分析、质量稳定性分析等。

·财务数据分析：财务数据分析也是数据分析的主要部分之一，在很多企业，营销数据和财务数据有很多交集，甚至我见过一些企业的营销数据基本上是在财务部进行汇总的。财务数据分析一般比较关心异常值分析、财务预测、成本结构、项目投融资决策等多个方面。企业的其他部门也有一些数据分析的需求，不过分布得比较零散。1.4.5　数据展示（呈现）

数据展示这件事情的跨度很大，高度重视数据展示的大企业会购买类似Tableau这样的专业可视化软件，这类软件功能强大，能够承受大数据量的考验，且运转速度快；而一般的企业由于实力限制或者没有那么高层次的需求，通常利用EXCEL或者一些数据分析插件来优化图形展示效果即可。1.5　如何成为数据分析高手

在工作中接触数据比较多的朋友，由于提高工作效率的需要，或者考虑到职业发展前途，经常会关心一个问题：我怎么样成为一个数据分析高手？这种想法非常自然，如同一个下围棋的人经常会想“我怎么样成为围棋高手”一样。

根据我个人的理解，要想成为数据分析高手，要做到如下几个方面。1.5.1　“拳不离手，曲不离口”

我培训的课程大概有10多门，不过课程的频度不同，有的课程一年要上好多遍，而有的课程相对比较冷门，一年也上不了几次。然后我就发现，那几个冷门课程，我每次上课之前都要备课，因为有些细节我忘记了。

项目中也是如此，自己写的系统代码，隔段时间不看了，就会有点看不懂了，需要静下心来仔细看一看。

所以，要成为数据分析的高手，第一要旨就是你工作中的数据很多，而且天天要做表、做分析，做得多了，自然熟练了，感觉也有了。

记得卖油翁的那句话吧：无他，唯手熟尔。1.5.2　熟练掌握常用工具“工欲善其事，必先利其器”，这话一点不假，身处信息时代的我们，掌握（尤其是熟练掌握）一些工具是非常有必要的。

第2章会比较详细地介绍统计分析工具，以下只是谈谈我自己的一些体会。

1.贵精不贵多

我曾经碰到过这样的人，他平时工作用EXCEL，也用VBA，根据我对他的了解，他的VBA用得一般，基本就是入门的级别吧。他报名去学习Matlab，也自学过R，2015年碰到他的时候，他说现在要考虑学Tableau。首先，我很赞赏和佩服他的学习精神，毕竟要学这么多东西，是要耗费很多时间和精力的（包括要花不少钱），但是，我绝对不赞成他的这种风格。要知道，对于一个分析工具的掌握需要长时间的学习和实践，有人说大部分人只掌握了EXCEL中5%的功能，我个人基本表示赞同。我使用VBA近20年，仍然觉得对VBA的很多功能还是知之甚少。再说，如果你熟练地掌握了一种工具，再学其他的也比较容易。

2.工具之间往往是互补的

我们需要掌握一个工具组合，一个有效的工具组合可以基本解决你的大部分问题。实际上，我在分析数据时，经常是多种工具一起使用。我会用EXCEL VBA表来收集数据，用EXCEL来预处理数据，用EXCEL数据透视表和SPSS来分析数据，用XLSTAT来做对应分析和决策树（因为我觉得XLSTAT虽然是个小工具，但是它在多重对应分析和决策树这两个模块上做得特别好），然后我会用clementine来处理关联分析。因此，“组合拳”还是很有必要的。1.5.3　最好能编点程序

记得曾经看过一篇文章，写的是在美国，很多小孩都能编点简单的程序，有的小学生甚至能够熟练地掌握双重循环，也就是说，编程这个技巧，起码在美国，大家没认为它是一个很高端的技能。

国内的情况则大大不同，个人的感觉是很多企业人员对编程都比较害怕，甚至到了恐惧的程度。我曾经在班上问过一些学员，在大学的时候有没有学过编程，有1/3的学员举手。实际上，现在的大学在大一的基础课中是有VB和C语言的。不过即使这样，我仍然觉得很多学员包括学过VB或C语言的学员都不大喜欢或者不大愿意去接触编程。

我们的很多学员，还没有开始编程，就已经掉头撤退了，他们已经把自己归类到不可能学会编程的那个行列中去了！

本书的主旨不是探讨为什么很多有点编程基础的人不愿意编程，这里想说的是，编程技能几乎是数据分析高手的必备技能。如果学会一种编程语言将极大地提高数据分析的能力，如果精通的话那实在是太棒了。

试想，人家在跑代码，而你是手工做数据，这可是天壤之别！数据量大到一定程度，步骤多到一定程度，手工就没法做了。1.5.4　一定要通晓业务

做数据分析，不能为了做分析而分析，做数据分析的出发点是业务需求，例如，我们要做商务预测，或者我们要找到有兴趣购买我们产品的客户，因此但凡是数据分析高手，基本上都有两个特征：一是懂业务，二是会做数据。

曾经有企业领导问我，他们要建一个数据团队，如何组建？我跟他说，不管你是内部选拔还是外部招聘，建议你团队里面一定要有几个从业务口出来的人，这几个人懂业务，跟企业其他人员也熟，沟通、交流都方便。后来，我得知，他们的数据团队有两个副经理，一个是偏业务的内部人员出身，一个是外部招聘的统计学硕士，我觉得这个设置比较合理。第2章数据分析的理论、工具、模型

记得在我上研究生的时候，曾经有一位老师问我，什么是足球的“越位”？我很奇怪他为什么问这个问题，他说看世界杯转播老是在说越位，但他不知道啥意思。而我上大学的时候特别喜欢踢球，大学毕业之后也经常踢球，所以“越位”对我来说再简单不过了，只是没想到一位智力超群、知识渊博的大学老师却并不知晓，所以这件事给我留下了深刻的印象。那时我就明白了，原来我觉得简单不过的东西，若其他人未接触过，可能就未必知道。反之亦然，别人觉得非常简单的东西，我若未入门，有可能也不知道。都说隔行如隔山，也就是这个理儿。

之所以说隔行如隔山，那是因为每个行业都有其规定、规矩、基本概念和术语，行外人常常是摸不着门道的。数据分析也不例外，它也有自己的特色，下面就一起来了解一下。2.1　基本概念和术语2.1.1　基本概念

有关统计和数据挖掘的概念很多，以下拣选一些常用的基本概念进行说明。

1.统计与挖掘“统计”，对于读者来说可能并不陌生，在“统计”、“挖掘”这两个概念中，可能大家往往会觉得“挖掘”更难理解。统计和挖掘最大的差别在于：统计是事先设想好的一个动作，然后去验证它。例如先假设销售收入和销售投入之间有关系，公司多投钱给推销人员去拜访客户，就能获得更多的用户和订单，销售收入就能上升，然后我们用统计的模型去验证它。

另外的一个例子是：社会大众都认为吸烟是导致肺癌的重要原因，然后大家找来了一些肺癌患者的相关数据，研究表明，同样是吸烟者，有的人得了肺癌，但是很多人却没事，并且一些从来不吸烟的女性也有得肺癌的。这样，大家慢慢开始怀疑肺癌和吸烟之间的正向关系。或者简单地说，对于这个例子，统计分析的结论是固定的：只有两种可能，一是肺癌和吸烟有关系，二是无关！

那么数据挖掘是怎么样的呢？

曾经有炒股票的大户给了我们很多数据，包括股票是否涨停、是否放量、前几天的各种指标，涉及KDJ、RSI、MACD等，客户希望我们帮他确定：具有什么样特征的股票是比较容易涨停的？这个需求怎么实现后面再说，这里想要说明的是，在分析这个数据之前，是没有“假定”的，我们不知道最后做出来的结果是什么样的。这就是数据挖掘，从大量的数据中通过各种方法找出隐藏于其中的信息。

2.平均值

平均值似乎是一个无须讲的东西，但是实际上在数据量大的情况下，平均值反映的是一个数据“应该”是什么。记得之前曾看过一份报告，说上海成年男性的平均身高是170.5厘米，那份报告的样本量是比较大的，实际上就是说上海男性的身高“应该”是170.5厘米。

3.标准差

如果说平均值反映了数据的“中轴线”，那么标准差就反映了数据的波动情况，也就是说数据是波澜不惊还是起伏不定。“平均值+标准差”仿佛就是一对结义兄弟，焦不离孟、孟不离焦，我们经常用这个组合来衡量数据的变动范围，如图2-1（数据的平均值和标准差分布图）所示。

4.正态分布

说起正态分布，我自己都有点犯难，因为正态分布是理论性比较强的，这本书的初衷是侧重应用而不是理论。不过正态分布实在是重要，它贯穿了统计分析的全过程，几乎无处不在，正态分布如同统计分析中绕不过去的一堵墙，因此还是需要解释一下。图2-1　（附彩图）

理解正态分布，就从这个例子开始：90年代末的时候，移民还比较容易，那时很多人都选择了移民，那么，我们现在来看看当时移民到美国、加拿大的人过得怎么样吧！大致梳理了一下，得到如下结论：

·混得好的：很少，应该说是极少数。在当地大企业里面做得不错，没几个；自主创业成功的，好像没有。当然这里说的自主创业是正儿八经的创业，开中国餐馆个人认为不算创业。

·混得一般的：大多数，就是在企业里面有一个普通的职位，算不上有钱，但是温饱不愁。

·混得差的：也是少数，有一些人回来了，或者在那边就是干司机、导游或体力活，这里丝毫没有瞧不起这些职业的意思，但是对于在国内受过良好高等教育的人来说，算是专业不对口吧。

简单地讲，就是混得好的和混得很差的都很少，大多数都是普普通通。

其实这种规律在工作和生活中大量存在，如果跟踪统计一下大学毕业生的发展情况，大致也是这样；老百姓的体重、身高、血压、血糖等的分布都是如此。这种规律就是我们经常提到的正态分布。

如果把这个规律稍微讲得形象一点，就是“两头小，中间大”，请见图2-2（数据的频率和正态分布图）。

让我们简单地看一下正态分布的规律：

1）两边基本是对称的。图　2-2

2）形状像一个倒扣的“钟”。

3）高峰在中间，越到中间，数据分布的概率越大，越到两边，概率就越小。

这个看上去很简单的正态分布，其实就是统计分析的重要基础，实际上很多统计规律都是建立在数据正态分布的基础上的。或者说，如果数据不是正态分布的，那么很多统计规律则是不成立的。

根据正态分布的规律可以得到，绝大部分（95%）的数据，是分布在居中的位置上的，只有很小概率的事件分布在正态曲线两侧，这个就是假设检验中的单侧和双侧，如图2-3所示。图　2-3

5.峰度和偏度

峰度和偏度算是数据分析中比较专业的概念了，峰度反映的是数据中极值的情况，请看图2-4峰度的数据。图　2-4

在图2-4中，极值是-10的时候，KURT函数结果为21.86，下面观察一下当极值范围在-10和10之间时，KURT函数的取值结果，如图2-5所示。图　2-5

从图2-5可以看出，当极值与原值的取值范围比较接近的时候，峰值会接近于0，而极值与原值的范围差距比较大时，峰度值会变大，但是无论是正极值还是负极值，峰度的最大值都是23左右。

偏度是衡量数据对称性的一个重要指标，EXCEL中对应的函数是SKEW，它用于比较对象正态分布曲线，如图2-6所示，这是一个左偏的数据图。图　2-6

在图2-6中，数据明显左偏，其偏度值为0.346，再来看看图2-7，这是一个右偏的数据图。图　2-7

在图2-7中，数据的偏度为-0.098，此时数据明显右偏。因此根据偏度值判断数据对称性的规则如下：

·数据服从正态分布，偏度为0。

·数据左偏，偏度＞0。

·数据右偏，偏度＜0。

6.连续和离散

连续变量和离散变量是数据分析中经常碰到的概念，所谓连续变量就是一个区间里可以任意变化的量，例如国民收入在0～100万之间波动时，每一个值都是可以取到的；离散变量就是只能取很少数的几个值，例如性别，就是男和女；大气雾霾的等级是优、良、中、轻度污染、重度污染、爆表。

离散变量内部也有区分，图2-8所示为离散型变量的分类。图　2-8

二元离散量的例子很多，例如医生关心患者是否得病，“得病”和“不得病”就是二元离散的；企业关心客户的购买行为，“买”和“不买”也是二元离散的。

只要离散变量超过两个，就是多元的，在“多元名义离散量”这个概念中，“名义”这两个字其实挺难理解的，它的英文是nominal，意思是有多个变量，但是变量之间并没有明确的排序关系，例如企业品牌之间的关系，宝洁有飘柔、伊卡璐、潘婷、海飞丝等品牌，我们很难说这些品牌之间有明确的排序关系。再例如，在研究城市的经济发展时，北京、上海、南京、武汉、南宁这些城市之间，也很难说有明确的排序关系。

多元有序则不然，现在国内空气质量不好，考虑PM2.5指数，有“严重污染”、“中度污染”、“轻度污染”、“良”、“优”这五个档次，见表2-1。表2-1　我国空气质量级别和PM2.5指数对应表

类似于表2-1这种有多个并且之间可以明确排序的变量就是多元有序。

7.因变量和自变量

因变量，一般指的是我们研究和关心的变量，自变量一般就是其发生变化后会引起其他变量变化的变量。

因变量和自变量说起来很容易，但是在实际的数据分析中，学员往往会容易混淆。

我在上课的时候，经常举到一个“销售收入和销售费用”的例子，并且提出了一个判断因变量和自变量比较简单有效的原则，即：时间上靠前的就是自变量，时间上靠后的就是因变量。在实际销售工作中，通常是先有销售费用，然后去推销，然后再有销售收入，因此销售费用是自变量，销售收入是因变量。2.1.2　术语

如同数据分析的概念一样，数据分析的术语也非常多，以下我们挑选一些常用的术语给大家做一些介绍。

1.稳定性和波动性

稳定性和波动性是一对反义词，在数据分析的很多领域，我们都更关注数据的稳定性，比如，在工业生产领域，我们关心产品质量的稳定程度，都不希望产品质量一会儿好一会儿坏。同样，在教育领域，我们在评估教学质量时，不仅仅是关注相关指标的高低状况，也关注数据的稳定程度，例如学生对教学的评分忽高忽低，这里面一般是有问题的。关于数据的稳定性和波动性，在本书的第6章“数据扫描”中，有详细的叙述。

2.数据变形

在我们的工作中，经常会碰到数据中存在极值的情况，情况如图2-9所示。图　2-9

在图2-9中，6月份的数据属于极大值，这个极大值的出现导致了其他月份的数据被大大压缩（压缩在0~10000的狭小区域中了），这使得这些数据之间的相互比较变得比较困难，例如9月份和11月份的数据谁大谁小，单凭肉眼比较难以判断。

在这种情况下，我们就在想，是否可以把上述的数据进行一个变形，既保留原来数据的基本特征，然后也让数据之间的对比变得比较容易？这个技术就是数据变形技术。

关于数据变形技术，会在第14章“高级绘图技巧”中详细阐述。

3.分类汇总

要讲清楚分类汇总，首先要理解什么是明细数据和概要数据，请看图2-10。图　2-10

可以看到，图2-10是业务的明细数据，明细数据就是细节数据的体现，也就是说，产生了一条细节的统计数据，就记录下一条。不过在实际工作中，我们也经常关心汇总数据，例如我们往往关心：每周的销售数据是多少？每种销售渠道的销售数据是多少？这就是分类汇总数据。

4.数据透视

数据分析人员经常会说“这个数据要透视一下”，实际上就是用数据透视表的方式来看数据，虽然数据分析属于统计的范畴，但是EXCEL数据透视表在数据分析中使用的频率非常高。

5.相关分析

相关分析和关联分析是两个比较容易混淆的概念，不过都非常重要。相关分析反映的是在发生变动时，变量相互之间的“互动”关系，例如在增加销售投入时，我们会关心销售收入是否增长；或者在产品的成本上升时，我们关心产品的价格是否变动。

再强调一下，相关分析反映的是数据变动量之间的关系，而不是数据本身。

6.关联分析

关联分析在数据分析领域是一个特定的术语，这里先简单地介绍一下购物篮。大家都习惯了去超市时要拿一个购物篮或者推一个购物车，然后将要买的东西放在购物篮或者购物车里，那么超市的经营者往往会关心一个问题：顾客同时会购买什么东西？例如一个顾客购买了猪肉之后会不会买芹菜？买了牛奶之后会不会买鸡蛋？在知道了这些信息之后，超市的经营者能用来干什么呢？答案：他们可以做关联销售啊。如果知道顾客经常同时购买猪肉和芹菜，就可以做捆绑销售。

7.数据拟合

在解释这个概念之前，先看看案例文件2.6的数据，并且看看图2-11所示的销售收入和消费费用的散点图。图　2-11

如果希望知道销售收入和销售费用之间的关系，怎么办呢？我们的统计学家很聪明，他们就会想办法找到一条曲线，这条曲线能够把上面的散点基本上都“串”起来，见图2-12数据拟合中的趋势线。

当然，这条曲线也有一个方程，找到这样的曲线及其方程的过程，就是曲线拟合。图　2-12

8.假设检验

有人说，假设检验是统计学中的最基本的概念，个人基本表示认同，不过讲清楚假设检验，并不那么容易。

首先看一个生活中的例子，我们中的大部分人都是“外貌协会”的，看到相貌英俊的男人或者清秀美丽的女人，都会产生好感。不过帅哥美女一定是好人吗？未必！可能打过交道之后，你的印象会大大改观。

图2-13所示为人和人打交道的过程图，看到帅哥美女从而心生好感，就是“假设”，后面继续打交道，就是“检验”，合起来就是“假设检验”。图　2-13

那么如何检验呢？

先做假设，如果检验的结果跟其假设一致或者相差不多，那么就肯定之前的假设；如果相差太大，例如，假设A是个好人，结果我们发现他表面上看起来不错（是个影帝），但是实际上品质很恶劣，那么就推翻假设，请见图2-14假设检验。图　2-142.2　选择称手的软件工具

数据分析的工具有很多种（大约有十多种），每种都有其优势和长处，也有它的缺陷。根据作者的经验，还真没有一种工具软件能够包打天下。当然从逻辑上讲也应该是这样的，如果存在一个“万能”的软件，那么其他的软件肯定就要消亡了。

笔者基于自己的经验列出了常用统计分析软件的利弊对比，见表2-2。表2-2　各种主流统计分析软件的优缺点分析2.2.1　EXCEL

无论如何，EXCEL都是最基础的数据分析工具，绝大多数人都在使用EXCEL，起码在使用EXCEL来收集录入数据。

从专业分析的角度来看，EXCEL的分析功能太弱了：数据透视表的功能还不错，但几乎没有像样的“统计”功能，图形的功能也很弱。此外，虽然配备了数组等比较高级的功能，能够勉强地实现编程中“循环”的功能，但是数据量比较大的时候，EXCEL会变得很慢甚至不能忍受。

事实上，EXCEL是否够用，完全取决你手里的数据、你的需求。如果你手里的数据一般、需求也不复杂，EXCEL差不多能满足你的需求；如果你的需求很大并且需求复杂，那么EXCEL可能会让你失望。2.2.2　VBA

个人认为微软Office成功的一大原因，就是将高级语言VB整合到了Office中，形成了VBA。VBA几乎可以做所有数据分析类的事情，有人将聚类、关联分析、主成分分析这些统计分析算法都用VBA实现了，因此VBA几乎无所不能。

VBA还有一个很大的优点是：EXCEL中运用VBA控制Powerpoint和Word，这又可以大大地提高工作效率，在EXCEL中运用VBA处理完数据后，可以直接生成相应的PPT和Word文件。2.2.3　Access

Access是微软提供的一个“半专业”的数据库，之所以称其为“半专业”数据库，是因为相对于MySQL、Oracle这些专业数据库而言，它的专业性确实还不够。

Access在操作灵活性等方面远不如EXCEL，按照笔者个人的理解，ACCESS优势主要体现在以下三个方面：

1）相对于EXCEL，它的数据存储量提高了，准确地讲，ACCESS数据库最大可以存储2GB左右的数据，至于具体能放多少条，那就要看数据的复杂度了。

2）数据一致性检查方面，效率特别高，例如A表中有BOM料号“ABC123”，我们要检查关联的B表中是否有该料号，在数据量比较大的情况下，使用ACCESS非常高效。

3）多条件查询的效率很高，EXCEL几乎不支持多条件查询，而ACCESS几乎是为图2-15所示的多条件查询而生的。图　2-152.2.4　SPSS

SPSS是知名度最高的专业统计软件，据我所知，虽然现在做数据分析的人可使用多种分析工具，但SPSS通常是他们使用的第一款统计软件。

SPSS的优点和缺点都很明显，优点是界面美观、功能强大，缺点是界面做得很复杂，是一款比较复杂的软件，以至于一些使用SPSS多年的人都说“我就是在糊里糊涂地用”。

值得一提的是，IBM在收购SPSS之后，认为SPSS过于学术化，IBM想对SPSS进行改造以增加其“商业气息”，因此就搞出来一个“直销”模块（见图2-16），里面整合了几个比较有用的小工具，后面会有详细介绍。图　2-162.2.5　XLSTAT

XLSTAT是一个小软件，或者说是一个小插件，它是在EXCEL环境中运行的，请见图2-17。图　2-17

XLSTAT插件的好处不言而喻，由于跟EXCEL环境无缝整合，使用起来比较方便，能够实现大多数统计分析的功能，但是缺点也很明[1]显，数据量一旦比较大，插件运行的效果就比较差。

因此，XLSTAT就是个小工具，不大能作为一个正规的统计分析软件来使用。

[1] 笔者没有仔细测试过，留给读者去检测。

试读结束[说明：试读内容隐藏了图片]

下载完整电子书

数据分析实战：基于EXCEL和SPSS系列工具的实践试读：

相关推荐

众筹：超实用的互联网融资指南(txt+pdf+epub+mobi电子书下载)

声环境监测(txt+pdf+epub+mobi电子书下载)

南宋行暮：宋光宗宋宁宗的时代(txt+pdf+epub+mobi电子书下载)

室内设计创新思维与表达(txt+pdf+epub+mobi电子书下载)

无端欢喜(txt+pdf+epub+mobi电子书下载)

遇见，良辰美景(txt+pdf+epub+mobi电子书下载)

医说成语(txt+pdf+epub+mobi电子书下载)

长夜漫漫路迢迢(txt+pdf+epub+mobi电子书下载)

愿你的青春永不散场(txt+pdf+epub+mobi电子书下载)

暗黑者外传：惩罚(txt+pdf+epub+mobi电子书下载)

清史讲义(国学基本文库)(txt+pdf+epub+mobi电子书下载)

孟昭兰《普通心理学》【教材精讲＋考研真题解析】讲义与视频课程【33小时高清视频】(txt+pdf+epub+mobi电子书下载)

从地球到月球(博集典藏馆)(txt+pdf+epub+mobi电子书下载)

(2017)考研英语题源报刊阅读：提高篇(txt+pdf+epub+mobi电子书下载)

天降萌宝(txt+pdf+epub+mobi电子书下载)

穿过历史的迷雾(txt+pdf+epub+mobi电子书下载)

全国中医药专业技术资格考试全科医学专业(中医类)押题秘卷(txt+pdf+epub+mobi电子书下载)

中小学体育知识文库——一手定乾坤——棋牌运动(txt+pdf+epub+mobi电子书下载)

基础藏医学(基础藏医药学丛书)(txt+pdf+epub+mobi电子书下载)

故事知道答案(txt+pdf+epub+mobi电子书下载)

最新文章

人生就要不断精进(txt+pdf+epub+mobi电子书下载)

做个心智成熟的人：人生可以不走弯路(txt+pdf+epub+mobi电子书下载)

跟谁都能聊不停：一看就能用的魔鬼搭讪学(txt+pdf+epub+mobi电子书下载)

赴美留学必知(txt+pdf+epub+mobi电子书下载)

我的男友(txt+pdf+epub+mobi电子书下载)

中国东北与东北亚古代交通史(txt+pdf+epub+mobi电子书下载)

幸福生活讲座(txt+pdf+epub+mobi电子书下载)

情商决定一生(txt+pdf+epub+mobi电子书下载)

夜雨寄北(txt+pdf+epub+mobi电子书下载)

让学生热爱学习(txt+pdf+epub+mobi电子书下载)

On Dreams(txt+pdf+epub+mobi电子书下载)

我的史学人生(txt+pdf+epub+mobi电子书下载)

Creo2.0完全学习手册(txt+pdf+epub+mobi电子书下载)

2018年陕西省军转干部安置考试《公共基础知识》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

假如给我三天光明(txt+pdf+epub+mobi电子书下载)

带出高效执行力(txt+pdf+epub+mobi电子书下载)

北史（四）(txt+pdf+epub+mobi电子书下载)

影响力的企业富豪(上册)(txt+pdf+epub+mobi电子书下载)

商界40年：逐鹿人(1999-2008)(txt+pdf+epub+mobi电子书下载)

The Boats of the Glen Carrig(txt+pdf+epub+mobi电子书下载)