人人都会数据分析——从生活实例学统计(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-28 08:03:00

点击下载

作者:谢运恩,李安富

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

人人都会数据分析——从生活实例学统计

人人都会数据分析——从生活实例学统计试读:

前言

人人都应该会数据分析

数据分析已经成为数据时代各行各业突破各自行业发展瓶颈的最有效手段,无论是公司职员还是个体商户或大公司管理者,都需要有数据分析的能力。很多人认为数据分析能力就是对数据进行描述和做出漂亮的统计图形的能力,这是狭隘的理解。数据分析能力的基础在于数据分析的逻辑思维能力,而逻辑思维能力的培养必须建立在统计理论基础之上。

统计学是数据分析的基础

在移动互联网时代,信息的获取成本越来越低,这也导致拿来主义和实用主义盛行。数据分析科学是一门需要紧密联系生活实际的科学。数据分析方法非常多,这是因为不同的数据分析环境需要选择不同的数据分析方法来处理。因此,在数据和数据分析方法之间,天然地存在鸿沟,拿来主义和实用主义经常行不通,而磨平鸿沟的方法就是学习统计理论基础。

笔者接触过很多希望学习数据分析或正在学习数据分析的朋友,发现他们身上都有一个通病,就是将学习各种分析软件作为学习重点,觉得学习数据分析就是学习分析软件操作。他们在进行具体的数据分析时,通常的做法是套用别人的数据分析逻辑和方法,如果分析结果与参考结果一致,那么没有问题,但是通常的情况是不一致的,这时他们就需要浪费大量的时间和精力查找原因。而不一致的原因通常是数据情况不符合导致的,解决的办法是根据实际的数据分析环境进行数据调整或选择其他合适的数据分析方法,而要做到这些,归根结底需要的还是扎实的统计理论基础。

学习数据分析应该以统计理论基础为主线,分析软件仅仅是各种分析方法的实现工具。因此,在开始学习时,应该辅以一到两种操作简便的分析软件,例如SPSS。这样就能够比较快速地建立统计理论框架,并掌握一款分析软件。当你的统计理论基础夯实以后,会发现学习各种分析软件都能够游刃有余,甚至像R和Python这种编程语言也能在比较短的时间内掌握。

从生活实例中开始学统计学

标准版的统计教材往往偏重于理论推导,描述语言专业严谨,这不可避免地带来了晦涩难懂的问题。本书的写作初衷就是为了解决没有任何统计基础的各行各业的数据分析学习者,他们学习和构建自己统计理论基础的需求,大部分知识点都列举了生活中的应用案例,能够帮助学习者更好地理解和掌握各个知识点的分析逻辑,并内化为自己的统计理论基础的知识框架。

除此之外,本书在章节设计上做了精心的安排,共包括5章内容。

第 1 章阐述了数据分析在当今生活中的重要性,以及人们成为各自领域的数据分析师的必要性和学习路径。

第 2 章从数据描述的三个维度展开,详细介绍了如何从集中趋势、离散程度和分布形态对数据进行描述,从而使分析者充分了解自己手头的数据。

第3章为推断性数据统计分析的内容,介绍了如何通过样本数据特性推断出总体数据特征。

第 4 章为预测分析内容,介绍了变量之间的相关分析,以及如何使用容易获取的数据信息预测难以获取的数据信息,用过去的历史数据信息预测未来可能出现的数据信息。

第5章是数据结果可视化的内容,包括各种统计图形的功能及使用场景。“不积跬步,无以至千里”,夯实基础的过程总是比较乏味的,希望本书通俗的描述语言和鲜活的生活应用案例能够帮助数据分析学习者顺利建立统计理论的知识框架,形成数据分析思维逻辑,成为各自领域的佼佼者。作者第1章生活在数据时代二百多年前,英国批判现实主义小说家狄更斯曾经说过:“这是一个最好的时代,这也是一个最坏的时代。”这句话放在今天,依然适用。随着科技的进步,计算机技术的成熟以及移动互联网的普及,我们已经步入大数据时代。在大数据时代,我们每个人的信息都是透明的,个人偏好、行为习惯以及社会关系都可以被捕捉,这促进和发展了广告精准推送以及服务量身定制等商业模式。这些新的商业模式让用户获得更好的个人体验的同时,也直接戳向了传统商业模式的软肋,使传统企业叫苦不迭,以至于银行都抱怨自己是弱势群体。由此可见,这个时代对于固守传统商业模式和经营理念的行业及厂商来说,无疑是最坏的时代。大数据时代的到来并非是一个非好即坏的结局,如果选择故步自封,那么必然会被这个飞速变化的时代所抛弃;如果选择审时度势,顺应时代发展的需求并主动求变,享受大数据时代带来的普惠成果,那么就有很大的机会进一步跨越发展。1.1数据分析无处不在

生活在大数据时代,能够被记录和分析的数据无处不在。特别是随着智能手机以及各种可穿戴智能设备的出现,每个人的行为、位置、偏好,甚至各项生理指标都成了可被记录和分析的数据。但是数据本身并不能产生价值,只有经过有效的数据分析过程,隐藏在大量数据背后的富含价值的信息才会展现在我们面前,从而帮助我们做出正确的行为决策,带给我们巨大的价值回报。现如今,各行各业都逐渐意识到数据统计及分析的重要性,数据分析的应用已经渗透到人们生产和生活的各个领域。无论是政府机构、机关企事业单位、私营工厂,还是家庭、个人,数据分析都扮演着越来越重要的角色,发挥着重要的作用。1.1.1 常用的国家统计指标

政府对国家的管理需要关注到社会生活的方方面面。从人们的衣食住行到国家的内政外交,政府对于每项政策的制定和决策的实施,都要依赖于大量的统计调研和数据分析。国家统计局是主管全国统计工作的政府机构,对国民经济和社会发展情况进行统计分析、统计预测和统计监督,为政府对国家的有效管理提供统计数据支持。除此之外,国家统计局还会定期发布全国国民经济和社会发展情况的统计数据报告,人们可以通过报告中的统计指标对整个国家的运行情况进行了解。经济和人口指标是很重要的国家运行情况指标,它们可以反映整个国家的经济发展水平和人民的生活状况。下面我们就介绍几种常用的国家统计指标,帮助大家更好地理解我们国家的运行情况。

1.国内生产总值

国内生产总值(Gross Domestic Product)的简称是我们熟悉的GDP。国内生产总值是指在一定时期内,一个国家或地区的经济中所生产出来的全部最终产品和劳务的价值,它是衡量国家经济状况最常用的指标之一。国内生产总值有三种表现形态:价值形态、收入形态和产品形态。从价值形态看,它是所有常住单位的价值增加值之和;从收入形态看,它是所有常住单位在一定时期内创造并分配给常住单位和非常住单位的初次分配收入之和;从产品形态看,它是所有常住单位在一定时期内最终使用的产品价值与净出口的产品价值的总和。图1-1显示的是我国从1995年到2014年间的国内生产总值及其增长率的变化情况。从图中可知,从1999年到2007年,我国的国内生产总值增长率都是逐年递增的,并在2007年达到峰值,年增长率达到14.2%。此外,国内生产总值也是逐年增加,从1995年的61339.89亿元增长到2014年的643974亿元,20年间增长了10.5倍,成为仅次于美国的世界第二大经济体。我们都切身体会到了祖国快速发展给我们的日常生活带来的极大变化。2.国民总收入图1-1 国内生产总值趋势变化图

国民总收入(Gross National Income,简称为GNI)。国民总收入是在 1993 年由国民生产总值(Gross National Product,GNP)改称而来的。国民总收入是指一个国家或地区的国民在一定时期内,在国内和国外所生产的最终产品及劳务价值的总和。例如,我国有很多国民在海外工作并取得报酬,这部分收入属于国民总收入。国民总收入常用于反映一个地区或国家居民的富足情况。图 1-2 显示的是我国从1995年到2014年间国内生产总值和国民总收入的变化情况,可以发现,国内生产总值和国民总收入之间是高度相关的,数值相差很小,由此可以推断,我国的国内生产总值大部分是由我国公民自己创造的。中国人民是世界上最勤劳的人民,改革开放以后,中国人民创造了令世界瞩目的发展奇迹。图1-2 国民总收入及国内生产总值柱形图

3.居民消费价格指数

居民消费价格指数(Consumer Price Index)就是这几年经常提及的CPI,它是反映市场物价变化情况的基本术语。每个国家统计CPI的方法都略有区别,我国的CPI指数是按食品、烟酒及日用品、服装、家庭设备用品及服务、医疗保健及个人用品、交通和通信、娱乐教育文化用品及服务和居住这八大类来计算的。这八大类的权重相加定为100,其中食品所占的比重最大,包括粮食、肉禽及其制品、蛋、水产品、鲜菜、鲜果等具体商品。国家统计局会在八大类消费品中分别选出一种或几种最具有代表性的商品,例如,大多数人是吃米还是吃面,是穿皮鞋还是穿布鞋等,把这些代表性商品的物价按每月、每季、每年折算成物价指数,定期向社会公布,这就是人们常说的CPI指数。

CPI是反映城乡居民消费水平和消费品价格变动情况的重要指标,也是观察通货膨胀水平的重要指标。如果CPI在过去的一年中上升了6.8%,就表示当下的生活成本比一年前平均要高出6.8%,这无疑是不受欢迎的。随着生活成本的提高,人们口袋里钱的价值便会随之降低,也就是说,去年的100元纸币到今年就只能购买到价值93.2元的商品或服务。CPI涨幅过大表明货币贬值幅度过大,是通货膨胀的表现,而通货膨胀可能成为经济不稳定的因素。政府能够通过CPI了解国家的物价情况,如果CPI涨幅过大,政府可以通过实施紧缩的货币政策和财政政策来抑制通货膨胀,保证国家经济的稳定。

经济的高速增长不可避免地会拉高CPI,因此,需要在保持经济增长的前提下将CPI控制在合理的范围内,国际上一般认为CPI在2%到3%属于可接受范围。图1-3是我国自1995年以来的居民消费价格指数变化图,从图中可以看到,1995年和1996年,2007年和2008年,以及2011年的CPI都超过或接近5%,处于较高水平。离现在比较近的2007年和2008年,我们能够很明显地感觉到物价的快速上涨,例如,方便面从原来的1.5元/包涨到了2元/包;原来500元/月的大学生活费已经不够用了。图1-3 居民消费价格指数变化图

4.基尼系数

基尼系数是意大利经济学家基尼在1912年提出来的,它可以表示一个国家或地区的收入分配差异程度,也就是国民的贫富差距程度。基尼系数的经济含义:在全部国民收入中,用于进行不平均分配的那部分收入占全部国民收入的百分比,基尼系数的最大值为1,最小值为0。如果基尼系数等于1,表示国民的收入分配是绝对不平均的,即全部国民收入被一个单位的人全部占有;如果基尼系数等于0,表示国民的收入分配是绝对平均的,即人与人之间的收入完全相等,没有差异,这两种情况都只存在于理论中,在实际生活中不会出现。

为研究一个国家或地区的国民收入在国民之间的分配情况,美国统计学家洛伦兹在1907年提出了著名的洛伦兹曲线,它先将一个国家的人口按收入由低到高进行排列,然后考虑收入最低的任意百分比人口所得到的收入百分比,将人口累计百分比和收入累计百分比的对应关系描绘成图形,就得到图1-4所示的洛伦兹曲线。图1-4 洛伦兹曲线

如图 1-4 所示,洛伦兹曲线的横轴表示按收入由低到高排列的人口累积百分比,纵轴表示收入的累积百分比。弧线OAL为洛伦兹曲线,曲线越弯曲,越接近于折线OHL,表示收入分配越不平均,国民之间的贫富差距越大。如果曲线与折线OHL重合,表示所有的国民收入都集中在一个群体的人手中,其余的人将得不到任何收入,收入分配达到绝对不平均,基尼系数等于1;如果弧线OAL与通过原点的45°直线OL重合,则收入分配是完全平均的,基尼系数等于0。一般来说,一个国家或地区的国民收入分配既不会是完全不平均,也不会是完全平均,而是介于两者之间,相应的洛伦兹曲线既不会与折线OHL重合,也不会与直线OL重合,而会是图1-4中的弧线OAL,只是不同国家的洛伦兹曲线的弯曲程度不同。我们将洛伦兹曲线与45°直线之间的部分(A部分)称为“不平均面积”,当收入分配达到完全不平均时,洛伦兹曲线与折线OHL重合,此时OHL与45°直线之间的面积称为“完全不平均面积”。不平均面积与完全不平等面积之比即为基尼系数,显然,基尼系数的取值在0到1之间。

5.恩格尔系数

德国统计学家恩格尔在19世纪根据数据资料的分析,发现了消费结构变化的一个规律:一个家庭的总收入越少,这个家庭将把总收入中的绝大部分金钱用于购买食物,也就是食物支出占总收入的比例越大;随着家庭总收入的增加,家庭总收入中用于购买食物的支出比例将会下降。这个规律放到国家层面依然有效,如果一个国家越贫穷,国民收入的绝大部分将用于购买食物;随着国家的富强,国民收入的增加,国民收入中用于购买食物的金钱比例将随之下降。恩格尔由此提出了恩格尔系数,即食品支出总额占总收入的比重。恩格尔定律主要表述的是食品支出占总收入的比例随收入变化而变化的趋势,揭示了居民家庭收入和食品支出之间的关系。

根据世界粮农组织提出的标准,恩格尔系数在59%以上为贫困,50%到59%为温饱,40%到50%为小康,30%到 40%为富裕,低于 30%为最富裕。恩格尔系数一般随居民家庭收入和生活水平的提高而下降。简单地说,一个家庭或国家的恩格尔系数越小,就说明这个家庭或国家经济越富裕,反之,如果这个家庭或国家的恩格尔系数越大,就说明这个家庭或国家的经济越困难。图 1-5 展示的是我国自1995年以来的恩格尔系数变化趋势,从图中可知,在1995年之前,我国的城镇及农村居民恩格尔系数都大于50%,处于温饱阶段,随着国家经济的发展,恩格尔系数逐年降低,到2013年,我国的城镇及农村居民恩格尔系数都低于40%,达到了世界粮农组织划定的小康水平。图1-5 我国的恩格尔系数变化曲线

6.股票价格指数

股票是什么?相信大多数人经历过2014年到2015年年初的牛市后,都已经烂熟于心,股票是股份公司发行给股东的,证明持股人对公司部分资产拥有所有权的证券。关注股市的朋友都知道,每天的财经新闻都会播报股票价格指数来表示前一天或当前股市的涨跌情况,我国股市的股票价格指数包括上证指数和深证指数。股票市场有成百上千只股票,这些股票的价值各异,涨跌不同,在如此千变万化的市场中,如果仅用一种或几种股票的价格变化来描述整个股票市场的情况显然是不合理的。因此,为了衡量整个股票市场的情况,人们提出了股票价格指数。股票价格指数是反映某一个股票市场上多种股票价格变动趋势的一种相对数,单位用点表示,将基期的股票价格指数定为100,每上升或下降一个单位称为上升或下降1点。以道琼斯指数为例,每日的道琼斯指数是以1928年10月1日的股票价格指数为基期,基期指数定为100,以后各期股价同基期相比计算出来的百分数就是每日道琼斯指数。

前面介绍的都是经济类的统计指标,我国作为世界上拥有最多人口的国家,政府对人口类统计指标同样需要格外关注。下面我们介绍几个人口类的统计指标。

7.人口自然增长率

人口自然增长率是指一定时期内人口的自然增长数(出生人数减去死亡人数)与该时期内平均人口数的比值,通常以年为时间单位进行计算,用千分比来表示。人口自然增长率是反映人口增长速度以及国家制定人口计划的重要指标,表明了国家人口的自然增长速度和趋势。图 1-6 是我国从1995年到2014年的人口自然增长率、人口出生率和人口死亡率的曲线图。从图中可知,近20年来,我国的人口死亡率一直比较稳定,保持在千分之七左右,而人口的出生率则是逐年降低,近几年来保持在千分之十二附近,这与我国实行计划生育以及人们逐步建立的少生优生的生育观念有关。人口自然增长率等于人口出生率减去人口死亡率,它的变化趋势与人口出生率相似,也是逐年降低,近几年保持在千分之五左右。图1-6 我国的人口自然增长率曲线图

8.人口老化

人口老化是指一个国家或地区在一个时期内老龄人口比重不断上升的现象。人口老化的直接原因是人口自然增长率和人口死亡率的降低。如果人口自然增长率下降,同时老年人口的死亡率也下降,那么儿童和少年的人口比重也将下降,而成年人和老年人的比重将会上升,这样的现象称为人口老化。在国际上,一般以60岁或65岁为老年人的年龄起点,老年人比重占5%到10%称为成年型人口社会,10%以上为老年型人口社会。人口老化将增加劳动年龄人口的负担,明显加大社会保障和公共服务压力,凸显劳动力有效供给约束,人口红利减弱,持续影响社会活力、创新动力和经济潜在增长率。

我国自从实施计划生育以来,人口自然增长率从1995年的千分之十七(见图1-6),降低到2014年的千分之五点二一,与此同时,我国的人口死亡率近二十年来都稳定在千分之七左右,所以我国将逐步进入老龄化社会。截至2015年,我国60岁及以上老年人口占比达到16.1%,预计在2021年到2030年期间,人口老化速度将明显加快,到2030年60岁以上老年人口占比将达到25%左右。伴随人口老化现象的愈发严重,在2016年,我国开始实施全面的二胎政策,以期提高人口自然增长率,减缓人口老化的趋势。

9.负担系数

人口老化将会增加劳动年龄人口的负担,负担系数就是对这种负担的量化。负担系数也称为抚养系数、抚养比,是指人口总体中非劳动年龄人口数与劳动年龄人口数的比值,从计算公式来看,负担系数还可以解释为每100名劳动年龄人口负担的非劳动年龄人口的数量。14周岁及以下的儿童和65周岁及以上的老人属于非劳动年龄人口,虽然14周岁及以下和65周岁及以上的人群中也可能有人参加劳动,15周岁到64周岁的劳动年龄人口中也可能有人未参加劳动,但是上述指标只是根据年龄划分来计算的,并不一定反映实际抚养与被抚养的比例,所以负担系数又被称为年龄负担系数。负担系数的计算公式为:

负担系数还可以细分为总负担系数、儿童负担系数和老人负担系数。总负担系数为儿童负担系数与老人负担系数的总和。儿童负担系数和老人负担系数所反映的负担性质是不同的,少年儿童尚未成为劳动适龄人口,社会和家庭为他们的成长必须付出一定的费用,如果他们中途夭折,社会对他们的付出就无法收回;老年负担则不同,这些老年人都已经为社会做出过自己的贡献,他们年老时的花费实质上是对他们过去劳动所创造价值的扣除。因此,如果分别计算少儿负担系数和老年负担系数,就可以反映人口年龄结构变化对社会经济发展带来的影响。

10.国家失业率

我国在实行计划经济时,是没有失业率一说的,因为工作都是国家安排好的,人们不存在没有工作的情况。改革开放后的20世纪90年代,随着国有企业和集体企业的改革,企业职工开始实行下岗分流,自谋出路,出现了失业人口,于是我国在1994年开始统计和使用失业率指标。对于失业率的统计,我国是这样规定的:在一定劳动年龄内(男性16岁到50岁,女性16到45岁),有劳动能力和就业要求而未能就业的城镇居民被定义为失业人口,其中临时安排了工作,劳动收入达到最低收入水平者;虽无职业,但不要求就业者;农村人口都不被算作失业人口。国家失业率的计算公式如下:

近几年,每年的大学毕业生人数都高达几百万,2016年我国高校毕业生达765万人,以高校毕业生为主的青年就业群体数量持续增加,对就业产生很大的压力。政府制定和实施了各种政策和措施,鼓励大学生创业,确保绝大多数大学毕业生能够就业。大学生应该抓紧时间学习和掌握社会生存技能,避免一毕业就失业的情况发生。1.1.2 制造业的数据分析应用

过去的十几年间,印有“ade In China”标志的商品被销售到了世界各地,成为国人骄傲的同时,也为我国的经济增长做出了卓越的贡献。从2015年开始,一些制造业大省接连传来了工厂倒闭的消息:东莞和苏州两地的数家万人规模的制造企业破产倒闭,温州每天都有小型制造企业在消亡,这些信号都预示着我国的制造业走到了发展的拐点,迫切需要做出改变,寻找新的发展动力。

1.我国制造业面临的问题

前有珠三角,后有长三角,这两块区域由于经济发展水平较高以及交通运输便捷等因素,成为制造型企业选址时的最佳地点。虽然这两个区域的制造型企业有很多,但是企业之间的生产水平和制造规模却良莠不齐,市场经济的游戏规则就是优胜劣汰。因此,企业破产倒闭的情况并不罕见,过去也有大型制造型企业破产倒闭的情况出现,但是此次接连出现的企业倒闭却有别于以往,需要我们仔细分析其中的缘由。

首要原因是劳动力供给出现不足,人口红利逐渐消失。随着我国逐步进入老龄化社会,劳动人口的数量已不能与过去相比。目前我国的劳动力人口正呈现出缩减趋势,按照联合国经济与社会事务部2013年的最新预测,2016年到2020年期间,即“十三五”期间,我国15周岁到59周岁的劳动年龄人口将从2015年的9.38亿人下降到2020年的9.29亿人,平均每年减少175万人。劳动力人口的下降将会影响到劳动力的供给,劳动力供给不足,用工成本就会上升,用工成本高已成为影响企业发展的一个很大原因。

第二个关键原因是制造业水平整体偏低。我国的制造产业发展了很多年,但大部分仍然停留在产业链的最底端,它们大多只关注产品的产量和规模,而忽视产品的质量,且在生产过程中不注重技术发展和创新,其结果是利润微薄不说,企业也因逐渐跟不上市场发展的要求而失去竞争优势。例如,我国的机床产量占到世界机床总产量的 38%,但是高档的数控机床基本得靠进口;我国的钢铁产量世界排名第一,但是港口码头上高吨位起重机的钢丝绳却需要进口;我国的铝产量同样是世界排名第一,但是制造飞机所需的特种铝我们还得进口;我国每年的服装产量平均到全球人口是每人三套半衣服,但是这么大的服装产量基本上都是为外国品牌代工。大部分的苹果手机都在中国生产,但是每生产一部苹果手机,49%的利润被美国苹果公司拿走了,中国代工企业只能拿到3.63%的利润。国内外已经有很多的实例证明,制造型企业如果不肯投入资本尽快实现转型升级,等待它们的只能是倒闭和淘汰。

第三个原因是我国的制造业面临发达国家和发展中国家的前后夹击。“前后夹击”是对当前中国制造业的精准评价:一方面,一些东南亚国家正在中低端制造业上发力,凭借比中国更加廉价的劳动力,吸引了原本在华的外资企业转移产能,甚至有些中国本土企业也顺势在东南亚建厂;另一方面,由于中国商业成本的快速增加,原本在华生产的外资高端制造业回流到发达国家,这些国家还掌控大比例的高端制造业的技术和产能。

2. 6σ质量管理科学对制造业发展的影响

制造业是数据产生最密集的领域之一,从供应链上游的原材料采供销环节到末端消费者的购买提货环节,每时每刻,整个供应链的每个环节都在产生数据。在数据分析技术和手段还不发达的时期,大多数的数据都逃脱不了产生即死亡的命运,它们没有被制造业充分重视和利用。而最早开始利用数据,并取得巨大成就的制造业环节是就是生产环节,并由此产生了一门产品质量管理科学——6σ质量管理科学(也称六西格玛质量管理科学)。6σ质量管理只是使用了数据统计分析的一个重要知识点,也就是正态分布数据的六西格玛理论,就改变了当时整个汽车制造行业的格局,被称为第三次产业革命,可见其影响之大。

20世纪70年代,众多美国企业曾惊呼第二次珍珠港事件爆发了!原因是日本越来越多的产品以过硬的质量和低廉的价格不断冲击美国产品,美国企业的市场份额不断被日本竞争对手蚕食,这些企业中也包括在当时声名显赫,现在已是明日黄花的摩托罗拉公司。

1974年,摩托罗拉公司卖掉了它们的电视机业务,又于1980年在日本竞争者面前失去了音响市场,接着,其移动电话业务也因质量等问题而走下坡路。摩托罗拉公司已经意识到它们最大的问题是产品的质量问题,然而更让它们惊讶的是,买下摩托罗拉公司电视机业务的日本松下株式会社在雇佣相同的美国工人,只是进行适当的质量改进,就将制造过程的缺陷率从原先的15%减少到4%。这一惊人的质量进步让摩托罗拉深刻地认识到了自己与日本竞争对手之间的巨大差距。摩托罗拉公司在认识到自己与日本竞争对手之间的差距后,投入了大量的时间和精力进行仔细的数据分析和研究,后来发现在制造任何产品时,高质量和低成本完全可以并存,这是与原来制造业的普遍认识相左的发现——在当时,绝大部分美国公司认为提高质量会导致生产成本提高。1981 年,摩托罗拉提出在5年内把产品的不合格率降低10倍,到1986年,摩托罗拉通过投资22万美元节省了640万美元的生产成本,使公司的业绩和顾客满意度都得到大幅提高。尽管获得如此巨大的成功,公司的首席执行官罗伯特·高尔文及管理团队在对日本工厂的参观访问中仍然看到了日本优秀公司的产品质量水平仍旧远远优于摩托罗拉,于是决定付出更大的努力来提高产品质量,并改善生产运作效率。由此,六西格玛质量管理方法诞生了。

通信部门一直是摩托罗拉最主要的制造部门,因而其质量的改进对整个公司有着至关重要的作用。通信工程部有一个沉默寡言的工程师比尔·史密斯,他是整个改进行动中的关键人物,他一直在思考如何让产品更具有竞争力,于是他利用空余时间收集了大量的数据,研究产品的竞争力与产品的返修率之间的关联性。1985年,史密斯提交了一份报告,他在报告中指出:如果产品存在缺陷,当顾客在初次使用该产品时通常就会发现这种缺陷,从而严重影响了顾客的满意程度,使该产品的竞争力受到致命的打击。根据史密斯的研究发现以及公司质量部门历时两年对摩托罗拉24家工厂的评估结果,摩托罗拉的高级管理人员认识到,正是因为产品缺陷才导致产品竞争力受到了致命的打击,而摩托罗拉的产品缺陷率远远高于日本竞争者,他们必须采取措施来减少,甚至消除产品的缺陷。于是他们向高尔文先生提交了一份题为《六西格玛机械设计公差》的文件,提出了如何减少或消除缺陷,以及提高产品质量的一些具体办法。那时,摩托罗拉的统计数据表明他们当时的质量水平处在四西格玛水平,即每一百万个产品中有6800个缺陷,而六西格玛水平则是通过改进要实现每一百万个产品中只有3.4个缺陷的目标。通讯部门估计在未来6年可以实现这一目标,于是将这份规划命名为六西格玛方案,具体的目标反映在 1987 年高尔文写给所有员工的一封公开信中,到 1989年,将产品和服务质量提高10倍;到1991年,达到至少100倍的改进;到1992年达到六西格玛的质量水平。“六西格玛质量”作为摩托罗拉命名的方案,与其同时运行的还有与“顾客完全满意”紧密相关的几个战略行动:全面缩短生产周期、改善经营效益、员工全面参与管理等。

一整套严谨且落地的行动计划在摩托罗拉公司的运营中都得到了严格的执行,而不是仅仅停留在计划书上。正是这套严谨且落地的行动计划,使摩托罗拉公司的产品质量有了质的飞跃。在推行六西格玛管理两年后,摩托罗拉公司节约了数量可观的制造成本,总计约 7 亿美元。如果从开始推动六西格玛管理的时候算起,则总计节约了24亿美元。摩托罗拉公司借此契机发展成为生产电子设备和零部件的国际跨国公司,销售额超过300亿美元,员工达13万人之多,成为国际电子产品的主要制造商。

后来,六西格玛质量管理方法在通用电气得到进一步发展。1996 年年初,通用电气CEO韦尔奇在通用电气公司的 500 名高级管理人员聚集的年会上正式宣布启动公司的六西格玛质量行动。他将六西格玛质量行动称为通用电气公司前所未有的最雄心勃勃的项目,提出用 5 年时间达到摩托罗拉公司用 10 年时间达到的目标,并借此项目使通用电气公司从一个优秀的公司成为一个伟大的公司。通用电气公司首先把质量行动的重点放在减少和消除那些造成公可宝贵的资源(时间和金钱)浪费的工作环节上。

1997年3月22日,韦尔奇向通用电气全球的管理人员发送了一份传真,明确规定管理人员的晋升将直接与六西格玛质量项目结果挂钩。这无疑是向全公司郑重重申,通用电气的每一位员工都必须慎重对待公司的六西格玛质量项目。1997年5月22日,韦尔奇亲自发布了一条关于将六西格玛培训结果与职位晋升相联系的命令,该命令由韦尔奇和他的两位副总裁联合签发,充分显示了最高管理层对六西格玛质量行动的重视。1998年1月1日,通用电气新版的管理人员晋升制度正式生效。从即日起,基层管理人员必须事先通过六西格玛绿带和黑带的培训才能够获得晋升中级管理职位和高级管理职位的资格。从1999年1月1日起,另一项质量政策正式生效:通用电气公司的所有专业员工,包括办公室的职员都必须参加并完成六西格玛绿带和黑带的培训。1998年,通用电气公司将六西格玛质量管理应用于对客户的管理,大大提高了顾客满意度,使通用电气产品的销售量得到了成倍的增长。1999年,通用电气公司又将六西格玛质量管理应用到供应链管理中,改善了供应链状况,使整体运行周期缩短。2000年,通用电气公司将六西格玛质量管理继续延伸到了网络管理、网上采购以及其他电子商务部门。这一系列不同部门的六西格玛质量管理运动的实施,发展了六西格玛质量管理的内涵及范围,并使通用电气公司取得令人瞩目的效果。2001年,通用电气公司着重于供应链管理中的六西格玛质量管理,用六西格玛质量管理方法去解决供应商交货质量以及交货周期中的难题,取得了很好的效果。2002年,通用电气公司开始意识到六西格玛质量管理不仅应该在自己的企业中开展,也应该帮助原材料供应商做好六西格玛质量管理,这样才能真正达到互利共赢,并且实现企业的进一步发展,所以通用电气公司提出供应商应该做好六西格玛质量管理,并制定了相应的供应商的奖励机制,激励供应商开展六西格玛质量管理。

六西格玛质量行动的财务回报远远超出原先的预期。通用电气公司的六西格玛质量行动的子项目从1996年的3000个上升到1997年的6000个,并且实现了3.2亿美元的收益,比原先设定的1.5亿美元的目标翻了一倍还多。到1998年年底,由于六西格玛质量改进项目而产生的直接收益超过7.5亿美元,远远高于通用电气公司在六西格玛质量行动上的投入。由于六西格玛质量管理的作用,通用电气的经营利润率从1996年的14.8%上升到2000年的18.9%。根据韦尔奇估计,随着通用电气公司市场份额以及产量的不断增加,六西格玛质量行动将继续为公司带来上百亿美元的成本节约,并直接构成公司的利润收益。

此后,六西格玛质量管理方法进一步发展,并被成功推广到其他制造领域,从电子、机械、汽车、食品、化工甚至农业领域都可以看见它的身影。六西格玛质量管理方法能够在极大降低生产成本的同时提高产品质量,提高客户满意度,增强企业的核心竞争力。六西格玛质量管理方法已经成为制造型企业管理者的必备技能。

3.数据分析助力制造业转型升级

6σ质量管理科学只是数据分析在制造业中成功应用的一个例子,随着数据分析手段的不断发展,数据分析已经参与到制造业转型升级的各个阶段。

随着人口红利等优势条件的丧失,中国的制造业走到了必须转型升级的生死关头。如果企业经营者依旧故步自封,没有创新和利用数据分析方法的观念,其结果只能是被数据时代所淘汰。几十年前,摩托罗拉和通用电气公司仅仅是通过生产数据的分析并创造性地利用和延伸了统计基础里的六西格玛理论,就在短短的几年时间里取得影响至今的惊人成果。如今,随着各种计算机技术、互联网技术和移动互联网技术的发展,数据的分析利用已经非常快速、高效、便宜和便捷,这为制造业的从业者积极学习和掌握数据分析技术和手段,并通过数据分析结果的应用创造惊人价值提供了通道。数据分析目前在以下几方面对我国制造业的转型升级发挥着重要作用。(1)产品故障诊断与预测

无所不在的传感器,互联网技术的引入使得产品故障实时诊断成为现实,大数据应用、建模与仿真技术则使得预测动态性成为可能。(2)智能生产线的实现

现代化工业制造的智能生产线安装有成百上千的各类传感器,它们可以实时测量温度、压力、热能、振动和噪声的数据,利用这些数据可以快速实现包括设备诊断、用电量分析、能耗分析、质量事故分析等活动。(3)生产计划优化

制造业面对多品种小批量的生产模式是一个巨大的挑战。大数据可以发现历史预测与实际的偏差概率,考虑产能约束、人员技能约束、物料可用约束、工装模具约束,通过智能的优化算法,制定预排产计划,并监控计划与现场实际的偏差,动态调整计划排产。(4)产品质量管理与分析

大数据及数据分析能够帮助制造企业改进原本漏洞百出且昂贵低效的工艺生产过程,在降低生产成本的同时提高产品的质量,提高产品的竞争力。(5)工业4.0的实现

工业4.0概念的火热仿佛让人们一下子看到了制造业转型升级的方向,而工业4.0概念中的核心——工业机器人的应用一定需要大数据作为支撑。工业机器人只有在大数据的支持下,才能进行有效的机器学习,从而准确完成过去只有经过培训的人类才能完成的工作。

目前来看,大数据及数据分析利用是制造业转型升级的必由之路。制造业是所有行业中为社会提供最多就业岗位的行业。中国的情况更是如此,劳动密集型企业在中国大量存在,但是制造企业的转型升级已经来临,工业机器人将逐步替代流水线员工。这些改变都要求所有的制造业人员具备大数据意识和基本的数据分析技能,同制造企业一样,如果制造业从业人员不能够拥抱和融入大数据时代,就必将被更加“勤劳”和“高效”的工业机器人代替。1.1.3 营销领域的数据分析应用

过去很长一段时间里,推播式的营销手段大行其道,这种营销方式只是一味地向尽量多的消费者灌输广告信息,而并不尝试与消费者互动和找到目标消费者。这种营销模式在过去精神生活不丰富、人员聚集场景稀少的时代取得了非常好的效果。例如,前几年有几个产品的广告,将简短的广告词和广告画面在短短的几十秒内连续重复播放五到六次,让人印象深刻,取得了非常好的产品宣传和渗透的效果。然而随着电脑和智能手机、互联网和移动互联网的普及,原本大量聚集在电视和广播前的人群被这些新兴媒介分流,与此同时,由于电脑和手机娱乐自主性非常强,用户可以随意选择自己喜欢的活动,导致原本屡试不爽的推播式的营销手段失去了原有的效力。面对时代的发展和人们生活习惯的改变,基于互联网用户数据分析的精准营销方式开始发挥作用,并取得令推播式营销方法望尘莫及的效果。

经常上网的人可能已经发现,如果一段时间内,你用搜索引擎搜索过一种产品,接下来这种产品的广告将频繁出现在你的面前,从电脑打开的网页到手机新闻客户端,从 QQ 到微信的即时聊天页面,让人有种被跟踪记录的感觉。这种基于用户搜索行为数据的营销方式只是迅猛发展的精准营销方式的冰山一角,也是最初级的表现形式。

近两年,手机应用“今日头条”的发展来势凶猛,它利用复杂的用户数据分析模型将精准营销带上了一个新的高度,并有一个响亮的名字叫个性化推荐。个性化推荐的数据分析逻辑是怎么样的呢?下面简单介绍一下。

首先要做的是冷启动。当手机应用产品链接到新用户后,需要一段时间来收集用户的行为数据。那么在收集到足够多的用户数据之前,如何做出较为精准的推荐呢?今日头条选择的解决方案是新用户可以用微博、微信或 QQ 等社交账号进行登录,通过对用户账号的分析建立一个“兴趣图谱”,根据用户在社交账号上发布的内容及所属类别、用户标签、社交关系、社交行为、参与群组、机型和使用时间等数据推测出用户的兴趣点有哪些。例如,当我使用微博账号接入今日头条后,系统便会对我的兴趣做出分析,建立我的初始兴趣模型,并根据分析出来的不同兴趣的权重进行推荐。因为这是第一步,所以称这个过程为冷启动。

在冷启动后,今日头条会根据初始的兴趣模型从三个维度呈现内容:第一个是“推荐”,即从资源库中抓取资源信息,从中提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户的兴趣模型来推荐这些资源,今日头条每天会抓取并处理超过 100 万个网页,以保证内容来源足够充足准确;第二个是“热门”,也就是互联网和社交网站上出现最多的内容;第三个是好友动态数据。当然,用户也可以根据自己的喜好对文章进行顶、踩、转发和收藏等操作,这些用户行为数据会被实时地传送到后台,在用户每次操作后的30秒内,系统就会对用户模型进行更新。所以,在冷启动之后,随着用户行为数据的积累,系统为每个用户建立的兴趣模型就越精确,你会感觉到这款产品越来越了解你,你也就会对这款产品越来越信任和依赖,这也是个性化推荐系统希望得到的效果。除此之外,精彩的评论也是个性化推荐不能忽视的领域,甚至有时候评论比正文更加受到网友的追捧。每一篇文章下面的评论,今日头条都会依照用户的社交关系、评论人的影响力等因素进行排序,把最吸引当前用户的评论展现在用户面前。所以我们看到,基于用户数据分析而发展起来的个性化推荐已经深受用户的喜爱,这也是越来越多广告商在今日头条上做广告的原因,相比于推播式的广告营销,个性化推荐的精确营销更能帮助商品找到喜爱它的顾客,从而提高营销效率并降低成本。数据分析技术在个性化推荐中扮演了举足轻重的角色,是个性化推荐的灵魂。1.1.4 医疗行业的数据分析应用

医生是一个讲究经验积累的职业,去医院看病,如果坐诊的是一位老大夫,那么病人往往会感觉庆幸。因为老大夫意味着治疗经验丰富,能够针对病人的病情做出更加准确的诊断,病人就有更大的概率被医治痊愈。这里可以做个形象的比喻,老大夫的大脑就是电脑的硬盘,他经历的每个病人的治疗过程就是一条数据,几十年下来,硬盘里已经存储了无数条数据,每当接诊一位新病人,根据病人的病情,大脑会自动搜索过去经历过的所有病例,检索出与眼前这位病人相匹配的病例,然后根据过去病例的治疗经验,对眼前这位病人做出更为准确的诊断。年轻医生因为从业时间短,经历的病例少,虽然掌握的书本理论知识丰富,但是往往与实际情况有差异,所以年轻医生误诊的情况比较多。

经验丰富的老医生诊断准确,但是数量不足,再加上他们的时间和精力有限,远远不能满足社会的需求;年轻医生的时间和精力充足,但是缺乏实践经验,误诊情况较多,这是矛盾的现状。如何让全科医生和刚毕业入职的新医生在面对不同患者时,能够给出更科学准确的判断、制定更合理与个性化的诊疗方案,成为降低临床误诊率,满足社会需求的关键。对于我国临床误诊率的统计,国内医疗行业的共识是30%左右,其中,鼻咽癌、白血病、胰腺癌、结肠癌等恶性肿瘤以及肝结核、胃结核、肠系膜淋巴结核等结核类疾病的平均误诊率更是高达 40%以上。近几年,虽然医疗检测技术有快速发展,但是临床误诊率依然在 30%上下,基本没有什么改进。如何提高临床诊断的正确率是医学领域迫切需要解决的问题。

你可能会想到:如果能将所有医生的诊疗经验都存储在计算机里,病人去医院看病时,将病人的病情线索输入到计算机,计算机自动在病例库内检索出相应的病例,帮助坐诊医生做出诊断,那么每位医生都可以成为老大夫,从而大大提高医生诊断的正确率并提高人们的健康水平。随着计算机互联网技术的发展,这样的设想已经可以实现并快速开展起来,这样的工作被安上了一个贴切的名字“智慧医疗”。智慧医疗是基于数据技术和智能数据分析技术形成的综合性智能辅助医疗系统,当医生在系统中输入患者的个人病情信息之后,系统可以在毫秒间为医生推荐相应的有针对性的治疗方案。数据分析系统之所以能在瞬间给出最佳的诊疗方案,得益于系统背后庞大的病例数据库和不断完善的数据分析模型,该数据库存储的信息一般包括病案、教科书、文献、专家会诊结果等六大数据模块、知识与经验来源。

国外的很多著名科技公司已经在智慧医疗领域进行布局,将大数据、深度学习、云计算、人工智能等相关的技术手段应用于疾病诊断与治疗,其中以谷歌、IBM、苹果和微软为代表。微软专门成立了一个项目“Hanover”,该项目旨在希望能够将每年发表的所有医学论文进行消化、分类和存储,“Hanover”已经在俄勒冈卫生科学大学Knight癌症研究所被投入使用,在自动分析研究论文中的数据以及临床试验、影像学诊断报告、电子医疗记录的基础上,以寻求能够有效治疗急性骨髓性白血病的药物,同时预测药物的有效性,并为病患制定个性化的治疗方案。IBM公司开发的Watson肿瘤解决方案,通过对多个肿瘤研究机构与医院的病案进行学习,能帮助医生分析临床数据,为病患制定个性化的治疗方案。2016年8月,IBM公司宣布将其旗下开发的智能医疗系统Watson系统引入中国,马上引起了国内医院的强烈兴趣,在很短的时间内,国内已有21家医院计划使用这套系统,以期基于此认知计算平台助力医院医生获得有效的个性化癌症治疗方案。Watson系统之所以如此被医院青睐,是因为它在其他国家已经发挥作用。例如,日本东京大学医学研究院曾利用Watson系统成功判断一位女性患有罕见的白血病,并提供了个性化诊疗方案,而在几个月前,该患者还曾被其他医院误诊。

从统计学上看,即使是经验丰富的医生也会出现判断或诊疗失误,这是无法克服和避免的,然而通过智慧医疗系统,能够充分分析和利用过去的海量医疗数据信息,从而快速将过去的相关医疗信息呈现在医生的面前,提高医生的诊断正确率。

本节小结

本节主要介绍了数据分析在社会生活中不同领域的广泛运用,从政府对国家的管理到制造业的产品质量管理,从市场营销领域到医疗改革领域,处处都有数据分析的身影。数据分析已经成为社会生活中各个领域都不可或缺的一门科学,它能够帮助落后的行业尽快实现转型升级。数据分析如此重要,也就要求生活在这个社会中的每个人都应该掌握一定的数据分析技能,这是社会发展的需要,也是个人价值实现和发展的需要。1.2人人都能成为数据分析师

大数据时代改变着人们的生活和商业活动,同时也改变着就业市场的需求。数据分析能力已经成为不少具有前瞻性公司招聘人才时要求的基本技能之一,因为无论什么工作岗位,岗位的工作职责中必定包括数据分析和结果展示的要求。例如,销售岗位的市场调研数据分析;财务岗位的财务数据分析;生产岗位的生产数据分析等。信息化时代的发展要求人人都需要掌握一定的数据分析能力,这不仅能帮助人们在工作中解决各种问题,提高个人的工作能力和工作效率,还能在生活中帮助人们在面对艰难选择时理性地做出正确的选择。数据分析能力这么重要,那么数据分析能力包括哪些?数据分析师是如何练成的呢?本节将向你介绍如何一步一步成为数据分析师。1.2.1 数据分析过程

数据分析能力贯穿在数据分析的所有步骤中,在分工细致的专业咨询公司,数据分析的每个具体步骤甚至都由专人负责,由此可见,数据分析能力是一项综合性的能力。如图 1-7 所示,数据分析过程一般包括六个步骤:确定目标数据、目标数据采集、数据清洗、数据存储、数据分析、结果可视化及结果支持的决策等步骤。图1-7 数据分析过程

1.确定目标数据

在获取数据之前,首先需要根据数据分析的目的筛选出需要采集的目标数据,这是确保整个数据分析过程合理有效的首要条件,因为只有对目标数据进行分析才有可能得到对分析者有用的分析结果。确定需要采集的目标数据种类时,不仅要全面筛选出重要数据的种类,而且要避免筛选出具有重复功能的数据种类。例如,某食品工厂为了降低自动化生产线的物料损耗,需要记录如下数据种类:物料损耗类型、数量、金额,发生物料损耗的工艺位置、时间、操作人员、物料损耗的原因等。

2.目标数据采集

确定好目标数据以后,第二步就是依据确定的目标数据列表对目标数据进行有效采集。根据数据采集的难易程度,数据采集可以分为数据实时采集和数据抽样采集两种形式。虽然数据实时采集的成本较高,但是实时数据分析的结果能够更真实地反映数据总体的情况,且随着计算机软硬件技术和传感器设备的快速发展,数据实时采集的成本也将快速降低,因此,现在已经有越来越多的数据采集过程使用数据实时采集的形式。例如,通过传感器对生产过程的温湿度、产品重量等生产数据进行采集就是数据实时采集的过程。因为数据实时采集的数据量都很庞大,所以常被冠以“大数据”的名号。对于一般的数据分析过程,更多采用数据抽样采集的形式,然后用样本的数据特征来推断总体的数据特征。例如,用问卷调查的形式对顾客的满意度进行抽样调查就是数据抽样采集的过程。数据的抽样采集首先需要从总体中抽取合适的样本,尽量使样本能够反映总体的特征,这样才能使数据分析结果具有参考性。

抽样方法可以分成两大类:非概率抽样和概率抽样。非概率抽样常用于某些特定研究项目,而概率抽样才是更常用的抽样方式。(1)常用的非概率抽样方式

· 方便抽样:抽样时,以方便为原则。例如,某影评人为收集观众对某部电影的评分情况,可以随机在电影院出口进行抽样采访。

· 主观抽样:以采样者的主观经验选择总体中具有代表性的样本。例如,研究榨菜销量下降原因,采集农民工群体购买榨菜的情况。

· 配额抽样:将总体按照某些因素进行分类或分层,然后在各层或各类中进行主观抽样。配额抽样使样本在结构上与总体相似。例如,对某小学进行抽样,根据每个年级学生人数在总人数中的比例来确定每个年级需要抽取的人数。

· 滚动抽样:根据上一个样本的信息来确定下一个样本。例如,小红被老师提问,小红回答错误后,推荐小丽回答。(2)常用的概率抽样形式

· 简单随机抽样:从总体中随机抽取个案作为样本,每一个个案被抽中的概率都是相等的。例如,欧洲冠军联赛淘汰赛的对阵抽签,组委会事先将含有足球队名称的纸条放置在乒乓球内,然后嘉宾随机从盘中抽取乒乓球,打开并宣布结果。

· 等距抽样:将总体中的所有个案按某个条件进行排序,然后随机确定开始位置,再按照事先确定的相等距离抽取下一个个案。例如,某学校对新生分班,首先按照入学成绩从高到低排序,然后等距抽样组成一个班级。

· 分层抽样:将总体按照某些条件进行分层或分类,然后从每层或每类中随机抽取个案组成样本。配额抽样是分层抽样的一种特殊形式,只不过分层抽样没有要求从每个层或类抽取的个案数量。

· 整群抽样:将总体按照某些条件划分成不同的群体,然后随机抽取一个或几个群,并对抽取的群中个案进行数据采集。例如,有些机构在进行美国总统大选的民意调查时,会随机从50个州中随机抽取其中的几个进行调查。

3.数据清洗

数据采集回来以后,需要对采集回来的数据进行清洗,提高数据质量。无论是通过传感器采集的实时数据还是通过问卷调查采集的抽样数据,都不可避免地会出现各种数据缺失和记录错误的情况。纠正拼写错误、处理缺失数据以及清除无意义的数据是数据清洗中非常关键的步骤。因为垃圾数据即使应用最合适的数据分析方法,最终也将产生错误的分析结果,从而误导业务本身。

关于数据清洗的必要性,有一个发生在美国的经典案例。在20世纪的八九十年代,很多美国公司在从事业务的过程中会有意识地记录顾客的邮政编码,以此分析主要客户的来源地。结果有不止一家公司发现有很大一部分客户住在纽约的斯克内克塔迪,邮政编码是12345,但是该小镇的人口却不足70000人。后来才发现,由于顾客往往不愿意将他们的真实信息填入问卷,所以12345这个邮政编码会以很高的频率出现在顾客的档案数据库中。如果直接分析这些失真的数据,将导致错误的结论,除非数据分析师提前发现异常,并采取了相应措施来验证和清洗数据。

4.数据存储

在计算机技术还未发展起来的年代,各种数据都是以纸质文件的形式存储的,特别是某些需要存储大量数据的单位,甚至需要用整栋楼的空间来存放这些纸质的数据文件。例如,公安部门的人口信息数据,气象部门的气象信息数据和制造业的生产数据等。纸质文件的数据存储形式虽然更容易,也很便宜,但是存在着数据存储过程容易发生错误,存储在各地的数据无法共享以及数据检索过程麻烦等问题,所以在大数据时代的今天,用纸质文件进行数据存储的方式已经越来越少被采用,取而代之的是各种数据库的数据存储形式。

最近几年,很多拖延了几十年的大案要案被侦破,数据库在其中发挥了非常重要的作用。例如,白银市的连环杀人案。在1988年至2002年的14年间,在甘肃省白银市有9名女性惨遭入室杀害,部分受害人曾遭受性侵害,作案手段残忍,极具隐蔽性,造成巨大的社会恐慌。直到2016年,杀人犯高承勇才被抓获,此时距离首案时间已经过去长达28年。案件能被破获的关键是公安机关建立了DNA数据库,采集和存储了大量的DNA数据,通过DNA数据的分析,初步确定了犯罪嫌疑人的姓氏为高姓,极大地缩小了侦查人群的范围,后经指纹和DNA比对,最终确定犯罪嫌疑人为高承勇。

目前市场上有许多数据库产品,如Oracle、Microsoft SQL Server、Microsoft Access、Visual FoxPro等,这些产品都有各自的特点,在数据库市场上占有一席之地。

5.数据分析

在经过了以上数据处理步骤以后,就需要采用不同的数据分析方法对数据进行分析,得到所需的数据分析结果。数据分析方法的理论基础是统计学。统计学是一门古老的学科,随着时代的发展,它所囊括的内容也越来越丰富,甚至发展出应用于各种领域的分支学科。统计学是数学的一个重要组成部分,以数理统计学为基础,对收集到的数据进行描述,然后通过推断与预测,为最终的决策提供数据参考。统计理论是数据分析过程的核心基础,只有学会了统计理论,才能快速且正确地选择合适的数据分析方法对数据进行分析。本书将会在接下来的篇章中完整地介绍统计基础,帮助大家迈出成为数据分析师最扎实的一步。

如图 1-8 所示,统计学首先根据数学推导理论研究和统计分析应用分为理论统计学和应用统计学。应用统计学又分为描述性统计学和推断性统计学,描述性统计学主要从数据的集中趋势、离散程度和概率分布三个维度对数据进行全方位的描述,是推断性统计的基础;推断性统计学主要包括参数估计和假设检验两种分析技术,这两种分析技术又形成了很多外延的数据分析技术,最后这些分析技术被运用于各行各业,形成丰富的统计学分支流派。图1-8 统计学的理论框架

6.结果的可视化

数据经过不同的分析技术分析以后,将会得到含义丰富的数据分

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载