从零开始学统计(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-26 22:01:12

点击下载

作者:归璐

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

从零开始学统计

从零开始学统计试读:

内容简介

大数据时代,每个人都要懂一点统计学,我们缺的不是数据,而是正确分析数据的路径,从海量数据中撷取有用信息、产生新价值,甚至用以推估未知的事物,并且已经成为个人和企业的关键竞争力。这是一本关于统计轻知识的书,作者希望借助轻松幽默的语言来激发读者对统计学的学习热情。内容从描述性统计到推断性统计,通过将生活中有趣的事件一一展开,了解统计学中的核心知识点,最后是常见疑问的答疑汇编。本书偏重于对案例和图表的引用,不会过多关注于数学推导。

本书主要针对未曾学习过统计学或初学统计学并对此有兴趣的读者,以及希望通过学习相关知识补充数据分析技能的在职人士。

学统计的理由

Hi,亲!很高兴遇见你,虽然你看不到我,我也无法目睹你的容颜,但当你翻开这本书的时候,我们就已经通过文字这个载体见面了!

我猜你应该是被本书的标题吸引才会翻开它的吧?那么聪明的你应该知道,这是一本关于统计学的图书。统计学是一门有趣而实用的学科,它将会成为你生活、工作中的好帮手(别告诉我你不炒股、不玩微博、不买彩票,甚至不逛淘宝,你以为我会告诉你这些都和统计有关吗?)。● 想知道为什么不能赌博吗——学统计吧!● 想知道为什么淘宝总能“猜透你的心”吗——学统计吧!● 想知道怎样才能获得升职加薪的捷径吗——学统计吧!

你有没有想过买一张福利彩票,然后被五百万元大奖砸中?我就想过,那通常发生在大白天,两眼呆滞且目光涣散,幻想自己抱着一堆红色的人民币傻乐……但是当我回过神来之后,我就清楚地意识到中大奖的机会微乎其微——这是概率论教会我的。

你也许会想:这是我小时候就懂的道理,你还要读了概率论才知道?

要知道,概率论诞生于赌博游戏。一两次的小赢,甚至接连几次都赢是有可能发生的,这属于概率的正常波动。其实,如果在完全公平的情况下,输赢概率应该各为50%。但为什么总感觉赌的时间越长,越容易输呢?这是因为我们忽视了一个重要的因素,那就是输赢各半的前提是可以进行无限多次的赌博,但事实上我们根本不可能有那么多的资金和精力。要知道,得出抛硬币正反面出现概率各为50%的结论,是建立在上万次试验结果之上的。所以,你若知道概率还蕴含积分的数学思想,就不难理解为何“十赌九输”了。

你有没有想过,“万能”的淘宝为何总能在你搜索宝贝的时候顺便推送一些名为“猜你喜欢”的产品,而且这些推送有时还能被你成功加入购物车?其中就用到了推荐算法。推荐算法不仅涉及文本挖掘技术,而且与统计学中频率的计算和关联性知识有紧密联系。

在我们的日常工作中,如果你从事的是销售、财务工作,或者你是某项目的策划者,当领导询问你对即将上架的产品,或者要削减某项开支,或者某项目的推广方案的看法时,你该如何回答?

如果你对自己所做的工作有过翔实的数据采集,例如,对需要销售的产品做过统计,就可以得出一系列图表来证明该产品在某个时间段或针对某些特殊人群有明显的销量提升(这通常涉及方差分析);再如,你对公司的财务数据做了详细的台账记录,则可以清楚地知道缩减哪些开支既不影响生产销售又可以提高营业利润(这时可以运用相关分析);又如,你使用定量方法将推广方案的定性数据量化,通过分析得出最佳方案。试着使用数据来说话,慢慢培养统计思维,你会发现,你的工作将会事半功倍。

生命和统计息息相关

如果上述例子无法给你学习统计的充分理由,那么,当数据和生命联系在一起时,会是怎样的呢?

手术中,麻醉师的用药剂量与病人的个体情况有着严格的匹配要求;新药物上市之前,必须经过无数次试验检验;用药说明书上的剂量指导,更是建立在海量试验检验基础之上的。其中就涉及抽样调查、假设检验和实验设计等多种统计学的理论知识。

不久前,“雾霾致癌吗”这个话题异常火爆。关于这个命题的真伪,在此不做评述,但众所周知,吸烟是有害健康的,吸烟致癌也被大家广为接受。但你知不知道,“吸烟是否是引起肺癌的原因”这个论题曾经在统计学界掀起了轩然大波?当时,费希尔(统计学界的泰斗级人物)极力反对这个观点,其实,在证明吸烟与肺癌关系的过程中,更值得讨论的是对于试验的设计和流行病医学里的因果关系的论证。直到目前,仍然没有一种有效的方法能够证明统计学和哲学双层面的因果关系。但随着统计学的飞速发展,医学统计逐渐流行起来,并发展成为一门热门学科。

生活中的每一部分都和统计密切相关

当一门学科发展到可以通过量化数据来解密人体科学的时候,还能说它不值得去学习了解吗?比如,在大数据时代,如果你不会两个统计名词,怎能充分利用大数据的价值?从事金融行业的不会数据分析,不能跑代码,怎么体现你的专业素养?如果没听说过什么是Hadoop/R/SAS,你怎么做合格的程序员?还有机器学习、词频分析、文本挖掘、数据挖掘……所有这些都离不开统计理论的支撑。所以,如果你想走在时代的前沿,就抓紧时间学统计吧!

当然,即使有千万个学习统计的理由,但总有一个理由会让你拒绝学习,那就是数学!你不热爱数学,所以拒绝学习和数字有关的学科。但是,这并不能成为你不学习统计的理由,因为统计和数学并不相同。我认为,统计学就是“高冷”数学和深奥哲学的平衡点。

其实,我天生对数学也没有兴趣,丝毫看不出那些积分符号优美在何处。但是这并不能阻碍我对统计学的热爱。诚然,统计理论是完全建立在数学基础上的,数理统计对数学的要求很高,但是统计学里还有一个分支叫应用统计,本书就是为了应用而生的。

本书不会有繁冗的数学公式推导,不过在有些时候,为了说清楚问题,数学公式和定理是不可或缺的。水平有限,力争通过通俗易懂的语言让大家明白统计是怎么回事,以及统计可以用来做些什么。

你不用惧怕巨大的计算量,这些都可以通过软件来完成。喜欢编程并想深入研究理论知识的,可以使用Stata、SAS、R;想要快速解决问题的,可以使用SPSS;甚至可以使用Excel完成绝大多数统计分析工作。

至此,你应该找不到不学统计的理由了吧?

欢迎大家和我一起进入奇妙的统计学世界!归璐2016年12月1日

第0章入门阶段——带你迈入统计学的大门

0.1 我和统计学的从零开始

既然书名是《从零开始学统计》,那么本书的目录自然也从第0章开始。0意味着起点,在我们开始系统地了解统计学之前,先来听我讲讲我和统计学之间的故事。

我和统计学的相识是一场美丽的意外。在选择统计学专业之前,我对统计的了解仅限于求平均数、求方差。如果说得再深奥一点,那么还能略微扯上一些概率论。对于学了统计学将来能做什么,我也是一知半解。是什么原因让我选择了这个在当时略显生僻的专业呢?原因很简单——好奇。“统计”一词起源于国情调查,最早意为国情学。首先来看看“统”字的含义。“统”字可以作三种解释:(1)充满、充盈;(2)总括,总起来,如统一、统帅等;(3)事物的连续关系,如系统、传统等。从中可以看出,统计学的“统”更倾向于后两种解释。“计”为核算之意。那么两者相结合,表示对总体的核算和对事物连续关系的计量。结合日常生活,一些工作偏向于总体的核算,如对宏观经济数据的披露;而现如今一些职业如Data Scientist则需要统计学的专业背景,且更倾向于事物连续关系的挖掘。两者有一定的共性,归结起来就是统计的定义:对数据进行收集和整理,并在此基础上加以分析和科学决策。至于怎么收集和整理数据、怎么分析和决策,将在本书的后续章节详细介绍。

客观地说,数学功底好对于学习统计学大有益处,但这并不能保证你一定能够学好统计学。以笔者的经验来看,统计学真正迷人的地方在于统计方法和统计思想。在很多优秀的统计学著作里,通常看不到长篇大论的数学证明,有些甚至放在附录中,正文则更多地阐述数据处理方法的创新,以及建模和算法的创新。

为什么说数学好未必能学好统计学呢?首先,数学讲究严密的逻辑演绎,而统计学则更多的是归纳推理。比如,通常人们认为,统计结论都应该建立在数据服从正态分布的基础之上,但很多数据仅仅是近似服从。这么宽泛的条件,怎么能得到让人信服的结论?笔者试图用大数定律和中心极限定理来验证结论的可信度,但事与愿违。其中的矛盾就在于统计学往往更注重应用。在实际应用中,数据是无法达到完美的理论要求的,适当地放宽和采用近似方法反而更能够接近真相。

其次,市面上种类繁多的统计软件,让那些不擅长数学的人也可以掌握统计学的知识。常用的统计软件有:龙头老大——SAS;后起之秀——R;新手福音——SPSS;擅长面板数据计量分析的Stata/MATLAB;计量入门小能手Eviews;数据挖掘方面也有Clementine、Python等。

如果你不想深入研究,只想利用统计学来解决一些非统计专业领域的难题,那么,大可不必选择高深的软件,拥有菜单操作的SPSS甚至Excel都可以满足你的统计需求。是的,只需轻轻地单击一下,结果自然呈现。但前提是你必须知道结果的含义,也知道如何选择正确的统计方法。

但如果你想要专业一些,那么还是需要学习R、SAS和Python的。R、SAS、Python是目前比较热门的软件,通常金融类企业需要处理海量数据,SAS使用频繁,而且较为权威;R是免费开源的,包含各类程序包,所以现在很多分析公司也会采用R作为主要软件,也有很多编程爱好者喜欢研究R,如果你的工作偏向于数据分析类,那么SAS和R可以任取其一;如果你的工作偏向于数据挖掘方向,那么可以考虑选择Python,它的应用面非常广。

学习统计软件的过程不仅仅是为了简化运算,也不单单是为了建模。笔者之所以喜欢统计,很大一部分原因在于在学习这些软件的同时加深了对统计思想的理解。笔者通常会把数据在各类统计软件里执行一遍,看结果会有何不同;也会试着用不同的检验方法检验同样的数据,如使用参数检验和非参数检验,再来对比一下结果有何不同。尤其是在进行多元统计分析的时候,如进行聚类分析,不同的数据处理方法会带来完全不同的结果。这类小实验给笔者的统计学习带来很大的乐趣。

统计学是一门探索的学科,一百个人做同一个统计研究可能得出一百个结论。但同样的,统计学也带给你更多的提问机会。学好统计学并不难,只要你喜欢问为什么,也喜欢去回答为什么就可以了。

笔者认为统计学有着“中庸”之美!“中庸”并非数学中的中项,恰恰是精确可计的两端的平均数,它随着环境的改变而改变,并且只对成熟且有灵活性的理性才显露自身。精度与费用之间的平衡就是“中庸”的体现。要知道,误差是统计学的一个特征,如果你不能跳出这个思维限制,过度纠结于理论的严苛条件,那么就很难学好统计学了。

统计学还有着“哲学”之美!它是一种由经验到理性的认识,是一种运用偶然性来发现规律性的科学。偶然中蕴含着必然,这属于统计学的哲学美,这个美的最佳体现就是大数定律。0.2 统计学的从零开始

比起古老的数学(初等数学诞生于公元前5世纪),统计学也可以算作一门有着浓厚历史文化的学科,追溯其源可以发现,统计学和亚里士多德有着千丝万缕的联系。历史悠久的统计学经历了人类的农业经济时代、工业经济时代,并在知识爆炸的今天掀起了一次新的“生长发育”。

要说统计学的发展史,不得不说它名字的由来。“统计学”一词最早来源于现代拉丁文statisticum collegium(国会)。那时,亚里士多德写了150多种纪要,这些纪要被称为“城邦纪要”,其内容包括各城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况的比较分析,具有社会科学的特点。到了16世纪,意大利语用statista来称呼和政府相关的政治家;接着,德国人戈特弗里德·阿亨瓦尔开始使用statistik一词来表示对国家资料进行分析的学问;1785年,在法语中出现“统计”一词,写为statistique;1807年,丹麦语也引入statistik作为统计的名称;最终演化为现如今的“统计学”(Statistics),依然保留了城邦(state)这个词根。

任何一门学科在其发展的道路上都会有派别的划分和争斗,统计学也未能幸免。在其发展道路上,每一次衍生出的新派别都是推动学科前进的动力。

1. 17世纪——政治算术学派VS国势学派(1)政治算术学派——统计学的始祖:威廉·配第&约翰·格朗特。

17世纪,在英国诞生了政治算术。这里的“政治”是指政治经济学,“算术”是指统计方法。其代表人物之一是威廉·配第,如图0.1所示。图0.1 威廉·配第

威廉·配第出生于英国的一个手工业者家庭,早年学过数学、希腊文和拉丁文,接着去法国继续深造数学、天文和航海,后在皇家海军中服役,又到巴黎和阿姆斯特丹学习医学。他的后半生是在爱尔兰度过的,在那里,他主持土地丈量的工作,并与爱尔兰的一些政治和经济问题有过关联。晚年成为拥有大片土地的大地主,还先后创办了渔场、冶铁和铝矿企业。威廉·配第在其代表作《政治算术》一书中写道:“本书不用比较级、最高级进行思辨或议论,而是用数字来表达自己想说的问题,借以考察在自然中有可见的根据的原因。”该书标志着统计学的诞生。

在这本书中,威廉·配第利用实际资料,运用数字、重量和尺度等统计方法,对英国、法国和荷兰三国的国情国力进行了系统的数量对比分析,从而为统计学的形成和发展奠定了方法论基础。因此,马克思曾说:“威廉·配第——政治经济学之父,在某种程度上也是统计学的创始人。”

政治算术学派的另一个代表人物是约翰·格朗特,如图0.2所示。图0.2 约翰·格朗特

格朗特出生于伦敦,其父母经营一家服装店,他从小在店里帮工,受到了良好的英语教育。小格朗特是一个勤奋的孩子,每天在店铺开门前,他都会自学法文和拉丁文。他以1604年伦敦教会每周发表一次的“死亡公报”为研究资料,于1662年发表了名为《关于死亡公报的自然和政治观察》的论著。在论著中,他分析了60年来伦敦居民死亡的原因及人口变动的关系,首次提出通过大量观察,可以发现新生儿性别比例具有稳定性和不同死因的比例等人口规律,并且第一次编制了“生命表”,对死亡率与人口寿命进行了分析,在当时的学术界获得很高的评价。随后,他被英国皇家学会收为会员。他的研究清楚地表明了统计学作为国家管理工具的重要作用。

政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究,为统计学的发展开辟了广阔的前景。(2)国势学派——“统计学”的命名者。

国势学派诞生于17世纪的德国,由于该学派主要以文字记述国家的显著事项,所以又被称为记述学派。戈特弗里德·阿亨瓦尔和赫尔曼·康令是该学派的代表人物。

康令和阿亨瓦尔都在德国大学开设了相关课程来讲授政治活动家应具备的知识。阿亨瓦尔在其主要著作《近代欧洲各国国势学纲要》中讲述了“一国或多数国家的显著事项”,主要用对比分析的方法研究了国家组织、领土、人口、资源财富和国情国力,比较了各国实力的强弱,为德国的君主政体服务。

该学派在进行国势比较分析中,偏重事物性质的解释,而不注重数量对比和数量计算,但却为统计学的发展奠定了经济理论基础。

2. 19世纪——社会统计学派VS数理统计学派

从18世纪开始,统计学进入了飞速发展阶段。到了19世纪,各学派的主要学术观点已成型,这个阶段涌现出来的学派可以说是政治算术派和国势学派的融合与衍生。(1)数理统计学派——理论在争论中前进。

要说这个派系,不得不提概率论。16世纪20年代,有个酷爱赌博、算命、开方子的意大利数学家卡尔达诺,根据长期的赌博经验,计算了概率;17世纪,意大利的伽利略通过对赌博问题的研究,创立了早期的概率理论;17世纪下半叶,瑞士数学家雅克布·伯努利发现大数定律中最早的一个定理——伯努利大数定理;19世纪初,法国的拉普拉斯终于集古典概率之大成,初步奠定了数理统计学的基础。古典概率理论的日趋成熟,促使统计科学开始酝酿着嬗变。

19世纪中叶,比利时人阿道夫·凯特勒把概率论引进统计学,进而形成数理统计学派。在学科性质上,凯特勒认为,统计学是一门既研究社会现象又研究自然现象的方法论科学。在当时,这一思想已属突破性的创举,它已经让统计学在准确化道路上跨进了一大步,为数理统计学的形成与发展奠定了基础。19世纪中叶到20世纪中叶,数理统计学得到迅速发展:英国生物学家高尔顿提出并阐述了相关的概念;K·皮尔逊提出了标准差、卡方检验等方法;戈塞特建立了“小样本理论”;费希尔在样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。到了20世纪中期,数理统计学的基本框架已经形成,统计学也逐渐从记述性统计转变为推断性统计。数理统计学派已然成为英、美等国统计学界的主流。(2)社会统计学派——重“质”的学派。

社会统计学派诞生于19世纪后半叶,创始人是德国的克尼斯,主要代表人物有恩格尔、梅尔等人。他们融合了国势学派与政治算术学派的观点,沿着凯特勒的“基本统计理论”向前发展,但在学科性质上认为统计学是一门社会科学,是研究社会现象变动原因和规律性的实质性科学,以此同数理统计学派的通用方法相对立。

社会统计学派在研究对象上认为,统计学研究总体而非个别现象,而且认为由于社会现象的复杂性和整体性,必须对总体进行大量观察和分析,研究其内在联系,才能揭示现象的内在规律。这是社会统计学派的“实质性科学”的显著特点。

随着社会经济的发展,要求统计学提供更多的统计方法;社会科学本身也不断地向细分化和定量化发展,也要求统计学提供更有效的调查整理、分析资料的方法。因此,社会统计学派日益重视方法论的研究,出现了向实质性方法论转化的趋势。不过,社会统计学派和数理统计学派的对立点建立在对“质”和“量”的争论上。社会统计学派仍然强调在统计研究中必须以事物的“质”为前提和认识事物“质”的重要性,而数理统计学派则侧重计“量”不计“质”的方法论。

在20世纪以前,统计学的研究领域主要包括人口统计、生命统计、社会统计和经济统计。随着社会、经济和科学技术等多领域的共同发展,如今统计学的范畴已覆盖了我们社会生活的一切领域,成为通用的方法论科学。特别是第二次世界大战以来,由于经济、社会、军事等方面的客观需要,统计预测和统计决策科学有了很大发展,使统计走出了传统领域而被赋予新的意义和使命。在近阶段的统计学发展史上,贝叶斯派系的统计学获得越来越多学者的关注,也是推动近代统计学发展的新动力。

贝叶斯统计学派的主导思想来源于贝叶斯的后验概率,它和之前所说的各大派系(一般统称为经典统计学派)的区别在于是否利用先验信息。贝叶斯统计学派认为,利用这些先验信息不仅可以减少样本容量,而且在很多情况下可以提高统计精度;而经典统计学派则忽略了这些信息。

诚然,贝叶斯统计学派与经典统计学派有着较大区别,但是它们各有优缺点,各有其适用范围。经典统计学派历经了时间的冲刷,理论体系已然相当成熟;而贝叶斯统计学派带来的新理念,势必会激起新的一轮方法论研究。两种方法相辅相成,在很多情况下,二者得出的结论在形式上是相同的,在结果上也具有同质性。

我们来梳理一下20世纪统计主要理论的发展,如图0.3所示。图0.3 20世纪统计主要理论时间轴

随着计算机等信息化工具的普及,统计学也具备了普及的条件,统计思维必将成为现代人的必备思维之一。第1章你的数据从何而来

前面我们对“统计”一词有了一个粗略的定义:对数据进行收集和整理,并在此基础上加以分析和做出科学决策。既然统计的主体是数据,那么问题来了:数据从哪里来?得来的数据可信吗?我们怎样才能获得高可靠度的数据呢?本章要回答的就是这三个问题。首先让我们来看看数据可以从哪些方面获得。

如果对进行统计分析所使用的数据做大致分类,可以将其分为两类:一手数据和二手数据。

什么是一手数据?打个比方,就好比新房一样,一手数据是刚刚“建造出来”的,也被称为原始数据。一手数据可以分为调查、观察所得数据和实验所得数据。比如调查取样时获得的数据;又比如通过化学、物理实验得出的各种数据。

那么什么是二手数据呢?同样作个类比,二手数据就像二手房一样,是经过“转手”的,常见的二手数据是利用文献、统计年报、行业协会信息及数据库等统计好的数据资料。

一手数据和二手数据各有优缺点:● 一手数据能够提供量身定制的信息。比如你需要做哪项研究,即

可专门为此设立调查问卷,获得最为直接、最为相关的数据,便

于进行有针对性的分析研究。不过搜集数据需要较长的时间,而

且花费的成本也更多,最重要的是在搜集数据的过程中,采用何

种调查方法对结果具有重要影响。● 二手数据通常能够廉价,甚至免费获得,而且可以在更短的时间

内进行分析。不过在采用二手数据之前,我们必须考虑这些数据

的含义是什么、它的获取方法和计算口径是什么、数据的可靠度

如何、数据是否具有可比性等问题。如果数据获取的初始目的与

研究目的不相关,那么还需要进一步梳理信息来提取内容。

相较于二手数据,我们往往会将数据来源的质量焦点更多地集中在原始数据上。这就涉及怎样才能获得高可靠度的原始数据问题。

通常而言,采集原始数据的方法主要有普查、抽样调查和实验观察,接下来我们主要探讨一下普查和抽样调查的基础知识。1.1 “不可能完成的任务”——普查

普查对于老百姓而言并不陌生,最为熟知的就是我国每十年都会进行一次的全国人口普查。对于普查,其种类不仅限于人口,还有每逢“3”的年份进行第三产业普查,每逢“5”的年份进行工业普查,每逢“7”的年份进行农业普查,每逢“1”或“6”的年份进行统计基本单位普查。看到这里,你可能会产生疑问:为什么普查的时间跨度那么大,而且往往由国家、政府牵头?这就引出了普查的概念和特点。

简单说来,普查类似于企业定期的盘点工作:在某个时点、在某个范围内对账款货物进行清点。专业描述为:普查是为了某种特定的目的而专门组织的一次性的全面调查。在通常情况下,它调查的是在一定时点上的社会经济现象的总量,但也可以用来调查某些非总量的指标。

普查具有以下几个特点:(1)一次性或周期性。由于普查耗费的人力、物力、财力都是巨大的,因而不可能经常开展。一般进行常规性的普查都会有一定的周期性,比较常见的周期为5年或10年。设定周期还有一个好处,就是便于数据的利用,有了规律的周期,可以更方便地进行数据比较。(2)统一的标准时点。所谓标准时点,就是规定一个时间点,无论普查员登记在哪一天进行,登记的指标都是反映那个时间点上的情况。

为什么要规定一个时间点?因为普查的开展往往有一个期限,在这段时间内,万事万物都可能发生改变,为了避免调查时因情况变动而产生重复登记或遗漏现象,所以必须规定一个时间点。(3)统一的普查期限。虽然普查工作繁复,但总不可能无限期地进行。开展普查时,在普查范围内,各调查点应该尽可能地同时登记,力求在最短的期限内完成,以便在方法和步调上保持一致,保证资料的准确性和时效性。(4)规定的普查项目和指标。普查时必须按照统一规定的项目和指标进行登记。对项目和指标进行规定是为了避免影响汇总和综合,降低资料质量。需要强调的是,在指标的计算和解释上也要保持一致,以便进行历次调查资料的对比分析和观察社会经济现象的发展变化情况。(5)基础性和有限性。相对而言,普查获得的数据是比较准确和规范的,所以可以利用其为抽样调查或其他调查提供基本依据;不过,以客观来看,因为普查的适用范围较窄,且时间跨度较长,所以只能调查一些最基本及特定的现象,这也是普查的局限性。1.2 “四两拨千斤”——事半功倍的抽样调查

相较于普查的声势浩大,抽样调查就要低调多了。因为抽样调查涉及的调查对象相对规模小,且方法灵活,所以在日常生活中,这种数据取样方法的使用率最高。

说得严谨一些,抽样调查可以这样理解:它是从研究对象的全部单位中抽取一部分单位进行考察和分析,并用这部分单位的数量特征去推断总体的数量特征的一种调查方法。其中,被研究对象的全部单位称为“总体”;从总体中抽取出来,实际进行调查研究的那部分对象所构成的群体称为“样本”。

抽样调查有很多优点,比如节省费用的同时可以提高效率(费用和调查精度也密切相关,如何做到二者的均衡是一门艺术);又比如可以快速、准确地得到信息(利用概率论和统计学的相关知识,可以方便、准确地从样本出发推算总体的参数情况)。

但是抽样调查是一件有概率参与其中的调查工作,所以伴随而来的就是抽样的误差。误差其实不可避免,控制误差也是整个抽样方案设计时需要着重思考的地方。不过对于误差,如果采取科学的抽样方法,是可以做到有效控制和规避的。

要说抽样界里哪个抽样案例最著名,那就不得不提盖洛普在1936年的那次总统竞选上成功预测罗斯福获胜之例了。

1936年,美国的总统选举进入白热化阶段。在选举进行的同时,《文学摘要》杂志和盖洛普舆论研究所等三家民意调查机构就对谁会成为本次选举的最后赢家分别做了预测。当时盖洛普使用了定额抽样法,根据调查对象的年龄、性别、受教育程度等在全国按比例选择调查对象,抽取了大约5万名民众就得出了罗斯福会取胜。而《文学摘要》杂志花费了大量的人力、财力、物力,采用了大规模的模拟选举。他们以电话簿上的地址和俱乐部成员名单上的地址发出1000万封信,收到回信200万封。这种大规模的调查在调查史上都是少见的,因而杂志社坚信自己的调查统计结果——兰登会以57%的比例获胜,并为此进行了大力宣传。现实是残酷的,再多的资源耗费都不及科学的调查方法,最后罗斯福以62%的巨大优势获胜,连任总统。

在生活中,我们经常看到一些调查结果和我们自身感觉差异较大。那么,怎样做才能使通过抽样调查得到的数据,经过分析之后可以得出令人信服的结果呢?我们不妨来总结一下1936年那次总统选举预测的经验教训:

盖洛普舆论研究所在选择样本的时候对调查对象做了定额抽样,其实质并非是随机的,在具体操作上可能存在一定的主观选择性,在选择对象的时候考虑到了性别、年龄和政治观点等因素,这在某种程度上弥补了非随机抽样的不足,使得所获样本更具有社会代表性。相比之下,《文学摘要》杂志的样本不是从总体(全体美国公民)中随机地抽取。1936年,美国有私人电话和参加俱乐部的家庭都是比较富裕的家庭。1929—1933年间发生了世界经济危机,这使美国经济遭到沉重打击。“罗斯福新政”动用行政手段干预市场经济,损害了部分富人的利益,但广大的美国公民却从中得到了好处。所以,从这部分富人中抽取的样本严重偏离了总体,导致样本不具有代表性。

这个故事揭露了一个很实用的规律:当样本的选取方法发生偏差时,你有再多的样本都是徒劳的,这只会让你在错误的道路上走得更远点罢了。

那么,怎样设计抽样方案才能既省时又省力,还能得到接近总体的调查样本呢?下面来看看几种常用的抽样方法。

1. 简单随机抽样——随机≠随意

简单随机抽样法是所有抽样方法中最简单也最为基础的一种方法,它是等概率抽样方法。它的抽样理念是从总体中选出抽样单位,从总体中抽取的每个可能样本均有同等被抽中的概率。

简单随机抽样是日常生活中常用的,比如公司年会上的抽奖活动,就会采用随机抽签的方式来选出那个幸运儿。不过,有时候,我们也会无意间让随机抽样沦为随意抽样。仍以年会抽奖为例,如果所用的摇奖箱没有将奖券混匀,当参会者依此投入自己的奖券时,到得越早的被抽中的概率越小,因为在抽签时人们更倾向于抽取中段部分的奖券。

另一种将随机抽样沦为随意抽样的情况就是,在抽样时完全按照抽样者的主观意愿,随意进行抽样对象的选择,这在街头的抽样调查中经常见到。比如,一家化妆品公司派出几名调查员去了解市场对化妆品的认知度情况,有的调查员嫌麻烦,就在工作日对自家小区进行了采样,这样的采样效果就会大打折扣。因为工作日在住宅小区里闲逛的往往是退休人员,年轻的职业女性都在职场上拼搏,而化妆品的消费人群又以职业女性为主,这就是典型的随意抽样。

为了让获得的样本更符合“随机”而非“随便”,使它更能代表总体,可以通过科学的方法来实施抽样。具体操作方法为:在抽样时,将抽样总体中的抽样单位用1~N编码,然后利用随机数码表、抽签法或专用的计算机程序确定处于1~N的随机数码,那些在总体中与随机数吻合的单位便成为随机抽样的样本。举个简单的例子,如果要对某工厂车间生产的产品进行质量抽查,采用简单随机抽样法,首先将产品依次编号;然后根据要抽取的样本量来选择是用抽签法还是用随机数发生器来决定抽取的编号;接下来,只需取出与编号相对应的产品,对其进行质量检查即可。

简单随机抽样方法虽然简单,进行误差分析也比较容易,但当总体的容量非常大时,该方法既费时又费力,因此它适合总体容量较小、个体之间差异较小,并且可以让样本等概率入选的抽样情况。

2. 系统抽样——机械→效率

所谓系统抽样,其实并没有什么复杂的系统,换个名字就能很好地理解,如等距抽样。它和随机抽样是近亲,近到什么程度?先来看看什么是系统抽样。

系统抽样是将总体中的各单位按一定顺序排列编号,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。

具体做法如下:首先将总体从1~N相继编号,并计算抽样距离K=N/n(式中,N为总体单位总数,n为样本容量);然后在1~K中抽取一个随机数k,作为样本的第一个单位,接着取k+K、k+2K……111(这个过程其实就构成了一个系统),直至抽完n个单位为止。它和随机抽样的区别在于,后者通过抽签或随机数来获得编号,前者通过固定起点和距离来获得编号。

系统抽样法简单方便、经济有效,在很多时候它是随机抽样的优秀替代品,得到的样本与简单随机抽样得到的样本几乎相同。不过系统抽样也有随机抽样所不具备的缺点,那就是它抽取出的对象在总体中是均匀分布的,比如都间隔10个单位,这就需要我们对总体结构有一定的了解。如果能充分利用已有信息对总体单位进行排序后再抽样,则可提高抽样效率。

3. 分层抽样——偏心or公平

针对简单随机抽样适合容量较小、个体差异小的总体,分层抽样法是很好的一种补充抽样方法。分层抽样法是根据某些特定的特征,将总体分为同质、不相互重叠的若干层,再从各层中独立抽取样本。与简单随机抽样不同的是,它是一种不等概率抽样。

不等概率抽样其实就是在抽样时有目的地设置不同的权重。以全国1%的人口抽样为例,如果使用随机抽样或者系统抽样法,对于有十多亿人口的中国来说,要抽取1000多万人口作为样本,那么仅编号就是一项庞大的工程,更别说因此抽出的样本中会出现遗漏问题了。但如果根据地区或民族人口分布比例来制定抽样比,那么抽样调查工作不仅能有条理地开展,调查工作量也会分散开,获得的样本也会更具有代表性,这样的抽样可操作性更高、效果更好。

分层抽样法的特点是:利用辅助信息分层,各层内差异小且具有同质性,但各层间差异尽可能大。这样的分层抽样能够提高样本的代表性、总体估计值的精度和抽样方案的效率。

但分层抽样与简单随机抽样也有区别。如果从相同的总体中抽取两个样本,一个是分层样本,另一个是简单随机抽样样本,那么相对来说,分层样本的误差更小一些。反过来,当我们确定了抽样误差水平后,那么更小的分层样本将达到这一目标。

不过分层抽样的抽样框比较复杂,所需的费用较高,在计算和分析误差时也会较为复杂。通常在遇到总体情况复杂、个体之间差异较大、总体数量较多的情况时会选择这种抽样方法。

4. 群抽样——普查迷你版

之前说过,普查是一项耗费巨大的“工程项目”,虽然能够了解总体的信息,但是代价也很大。其实,在抽样调查里也有一种被称为“小普查”的方法——整群抽样。

如果总体可以分为N个初级单位(它们就是群的概念),每个群包含若干个体,通过某种方式(常用的有随机抽样方式)从总体中抽取n个群,然后对这些群中的所有个体进行普查(这就是小普查的由来),则称为整群抽样。

用一句话来概括,整群抽样其实不是直接抽个体样本,而是抽群。还是通过例子来理解这种方法。

比如,想要了解某市中学生近视发病率,如果采用整群抽样法,则可以这样操作:该市共有48所中学,这48所中学构成了调查的总体。对于调查者来说,只需抽取48所中学中的几所,然后对抽中的学校进行学生的普查即可。为什么抽取学校而不直接抽取学生呢?因为从抽样工作开展上来说,直接抽取学校更为方便,而学校与学校之间对于学生近视发病率而言并没有太多特征上的差异;相对的,各学校中因为学生的年级、性别不同,学生个体是存在差异性的,对学校中的学生进行普查则可以了解学生发生近视的特征性。

整群抽样和分层抽样之间的区别还是很明显的:分层抽样要求层与层之间差异要大,同一层内的个体差异要尽量小(因为分层是对抽个体的辅助行为,最终是抽个体);而整群抽样则要求群与群之间差异要小,而群内个体差异越大越好。

整群抽样的优点在于样本比较集中,可以降低调查费用,便于组织,但得出的结果误差较大。比较上述4种抽样方法的抽样误差,通常情况下:整群抽样≥简单随机抽样≥系统抽样≥分层抽样。

5. 多阶段抽样——终极大成者

如果能掌握上述4种抽样方法,则能完成大多数的抽样调查。不过有些调查的复杂程度和工作量是超乎想象的,比如,若想单一地使用上述任何一种方法来完成全国1%人口抽样这种规模的调查,则收效甚微,这时就需要进行抽样方法的综合,进行二阶段甚至多阶段的抽样。

多阶段抽样法其实不是一种具体的抽样方法,而是一种抽样组合法,比如分层抽样和整群抽样的结合。以二阶段抽样为例,从总体上所有一阶单元中抽取一部分单元,相当于从总体所有群中抽取部分群的整群抽样;而在每个抽中的一阶单元中分别抽取部分二阶单元,就相当于分层抽样。即先整群,后分层。因此,二阶抽样从技术上看是整群抽样与分层抽样的综合。抽样形式对比如表1.1所示。表1.1 抽样形式对比抽样形式第一阶段第二阶段分层抽样抽全部抽部分整群抽样抽部分抽全部二阶抽样抽部分抽部分

仍以1%人口抽样为例,对于落实到区级的人口抽样方案,就可以这样考虑:先在某行政区每个街道抽取n个居民小区,再对n个小区根据门牌号进行系统抽样或者随机抽样。这就是一个多阶段抽样的应用。

研究数据的来源其实是一个很有趣的话题,不同的数据获取方法会获得不同的调查结果,是花力气普查得到最原始、最全面的数据,还是用点“小伎俩”抽取一些样本数据来推算总体数据,这不仅需要专业知识,还需要丰富的“实战”经验。

不管你掌握了多少种抽样方法,笔者并没有在书中探讨各类抽样所需的样本量及抽样会产生的误差计算这类专业话题,只希望大家能发现抽样的美,在可能的情况下多尝试几种不同的抽样方法,然后择优选择。☆本章重点归纳● 数据来源方法优缺点对比:第2章掌握指标学会数据分析

如果你掌握了均值、方差(标准差)、峰度、偏度这几个指标,就能对数据进行分析。不信?且看下文分解。2.1 被误解还是“被平均”

在正式开始本章的知识点介绍之前,我们先来看一篇新闻报道。注意,我们所关注的并不是新闻报道的时间,而是报道中用到的几个词。“2014年,发改委官员曾表示,我国人均GDP已达到6700多美元,属于中高收入国家的行列。目标是希望通过“十三五”的努力,用世界银行的标准接近高收入国家的行列。”

这则新闻报道其实说的并无不妥之处,按照理论来说,如果中国能保持目前的发展速度,那么10年左右进入高收入国家行列是顺理成章的事。到2020年,中国人均GDP达到1万美元也不是梦想。但很多人还是质疑自己可能“被高收入”了。

其实,我国民众对统计数据的“不适”已经不是第一次了,近年来,网络吐槽“被平均”、“被幸福”等情况屡屡出现。比如2012年,某大学发布的《中国民生发展报告2012》中提及,全国家庭的平均住房面积为116.4平方米。这个结论是不是让你很诧异?那么,到底是什么原因导致统计结论让人感觉与自身情况不符呢?

抛开理性,你会发现这种感觉其实很好理解。对于广大人民群众而言,要判断统计数据是否真实,最好的印证和参照物就是自身和周围的生活状况。如果你发现自己及周围人的情况和统计结论有不小的出入,那么感觉“被平均”就再自然不过了。但是如果仅凭统计数据和自身感受不一致就认为数据不正确,那就比较片面了。

引起误解的还有一个很巧妙的用词——“人均”。这一平均,很多数据就被“削峰填谷”、加权计算了,呈现在你眼前的是一个总体性指标,作为个体的你只能略作参考,它和个体数据还是有很大差异的。

下面讲解本章的第一个重要知识点——平均数。先来看一道题。

假设有100人,他们的平均身高为163.5cm,请判断以下三句话的对错:(1)身高低于和高于163.5cm的约各有50人。(2)全部人员的身高加起来共16350cm。(3)每10cm分成一组,160~170cm的人数是最多的。

在公布答案之前,先来看看这三句话分别涉及哪些概念。●“ 他们的平均身高为163.5cm”——平均数(算术平均数)。●“ 身高低于和高于163.5cm的约各有50人”——中位数。●“ 每10cm分成一组,160~170cm的人数是最多的”——众数。

在统计学上把平均数分为两大类:数值平均数和位置平均数。前者包括算术平均数、加权平均数和几何平均数,后者包括中位数和众数。这几个指标通常用来描述总体均值情况,但它们是不是真的那么平均?要正确理解它们,还得回到指标的本质含义来探讨。2.1.1 数值平均数——最熟悉的陌生人

数值平均数可以说是最为熟悉、最为常用的表示平均的指标。数值平均数可以分为好几类,这里仅对算术平均数、几何平均数和调和平均数进行简单介绍。

1. 算术平均数

算术平均数通常也称为均值,可分为简单算术平均数和加权算术平均数两类。在实际生活中,并不是每次计算均值时,各项都拥有相同的权重(相同权重时,称之为简单算术平均数),当各项权重不相等时,计算平均数时就要采用加权算术平均数。

一般简单算术平均数可以通过如下公式得到:

而加权算术平均数则是把原始数据按照合理的比例来计算。若在n个数中,x出现f次,x出现f次,…,x出现f次,那么加权平均1122nn数的公式可以如此推导:

式中,f,f,…,f是x,x,…,x的权。12n12n

为了更好地理解,我们来看一个简单的例子。某人特别爱吃青菜,于是某个周日决定去买点青菜亲自下厨。当他兴冲冲地来到菜市场时,发现在甲摊位青菜卖2元/斤,而在乙摊位青菜卖3元/斤。由于不知道到底哪个摊位的菜更好,他决定从甲、乙两个摊位各购买1斤,求平均价格。

这种情况很简单,可直接用简单算术平均数的公式求得平均价格为:(2+3)/(1+1)=2.5(元/斤)。

现在假定其他条件不变,若从甲摊位购买2斤,从乙摊位购买1斤,再来求平均价格。

加权算术平均数=(2×2+1×3)/(2+1)=2.3(元/斤)。

在这个例子中,我们所选用的是同一种蔬菜,具有同质性。但在运用算术平均数的时候往往忽略了这个内涵要求,从而导致结果有失偏颇。比如,在电梯里,你的体重是120斤,有个小孩的体重是80斤,还有一个箱子重400斤,平均重量是(120+80+400)/3=200(斤)。这时,能说三者的平均重量是200斤吗?这个均值只能说明电梯负重了多少,此时的平均重量并没有什么参考意义。

算术平均数虽然计算简单、理解方便,但它有一个致命的缺点——容易受到异常值的影响。

请看下列数字:5、7、5、4、6、7、8、5、4、7、8、6、20,其平均值为7.1,实际上大部分数据(有10个)不超过7,如果去掉20,则剩下的12个数的平均数为6。之所以算术平均数容易受到异常值的影响,是因为它反应灵敏,每个数据或大或小的变化都会影响最终结果。

2. 几何平均数

比起众所周知的算术平均数,几何平均数就显得有点小众,但是几何平均数有着无可替代的地位。既然取名为几何平均数,那么它自然是具有几何意义的。可是,一个平均数怎么会和几何有关?其实在中国古代数学书中提到矩形面积时,往往就是用长、宽的几何平均数来表示的。我们来看看到底什么是几何平均数。

几何平均数是指n个观察值连乘积的n次方根,公式如下:

仅有公式,还是没有看到它的“几何”在哪。别急,先来看下面这张图:

所谓几何关系,可以这样理解:过一个圆的直径上任意一点作垂线,直径被分开的两部分为a,b,那么这条垂线在圆内的一半长度就是,并且。这就是它的几何意义。一般来说,几何平均数主要用于以下几个方面:● 用来对比率、指数等进行平均。● 用来计算平均发展速度。● 用来计算复利下的平均年利率。

下面来看一个小案例(引自网络博客):现在有两只基金投资组合,投资了4只股票,盈亏率情况如下:

组合方案A:+10%,-10%,10%,-10%

组合方案B:+30%,-30%,30%,-30%

如果让你选择一只基金投资组合,你认为哪只基金盈亏比较平衡呢?先用简单的算术平均数来比较一下:方案A和方案B的盈亏都是0,甚至你会认为方案B更好些,符合“挣得多,赔得多”的风险投资理念。

但如果采用几何平均数再进行计算:

组合方案A:,得出平均约有0.5%的亏损。

组合方案B:,得出平均约有4.6%的亏损。

可以看出,两只基金投资组合都是亏损的,但如果必须选择一只基金投资组合,则方案A比较稳妥。这个案例是不是让你对几何平均数的优势有了深刻印象?

不过几何平均数也有自己的不足,在变量值可能出现负数的情况下,不能用样本的连乘积或者几何平均值,因为变量的负值会带来连乘积的值时正时负。所以对于变量可能存在负值的样本(如摄氏气温),不能统计其几何平均值。类似地,变量可能为0的样本,会使连乘积等于0,所以这类变量也不能统计几何平均值。

3. 调和平均数

调和平均数也叫倒数平均数,是总体各统计变量倒数的算术平均数的倒数。在数学中,调和平均数与算术平均数都是独立的、自成体系的,计算结果前者恒小于等于后者。但统计加权调和平均数则与之不同,它是加权算术平均数的变形,附属于算术平均数,不能自成体系,且计算结果与加权算术平均数完全相等。具体公式如下:

调和平均数主要用来解决在无法掌握总体单位数(频数)的情况下,只有每组的变量值和相应的标志总量,而需要求得平均数的问题。

那么,什么时候可以用调和平均数进行计算呢?

其实,调和平均数不被熟知的一个重要原因是其应用的范围较小。在实际中,往往由于缺乏总体单位数的资料而不能直接计算算术平均数,这时就需要用调和平均法来求得平均数。

通常在遇到需要计算平均速度(一般指物理中速度、位移的解题)、平均利润率、平均成本等指标时可以使用调和平均数。不过,即便它和算术平均数关系紧密,二者也不能混用。调和平均数具有以下特征:● 调和平均数易受极端值的影响,且受极小值的影响比受极大值的

影响更大:上端值越大,平均数向上偏离集中趋势就越大;反之,

下端值越大,平均数向下偏离集中趋势越大。● 只要有一个标志值为0,就不能计算调和平均数(分母不能为

0)。● 当组距数列有开口组时,其组中值即使按相邻组距计算,假定性

也很大,这时的调和平均数的代表性很不可靠。

综上,不同的数值平均数有着不同的适用范围:算术平均数适用于简单且较直观地表现中心位置;当数据呈倍数关系或不对称分布时(增长率或生长率、动态发展速度),适合使用几何平均数;调和平均数适用于观测值是阶段性变异的资料。其数值大小排序为:调和平均数≤几何平均数≤算术平均数。2.1.2 位置平均数——关键的排序

如果非要用一个词来区分位置平均数和数值平均数的区别,则可以用“次序”一词。在计算数值平均数的时候,一般不会刻意地对数据进行从小到大的排序,而是直接将数值和权数一并放入算式中,计算得出一个平均数。但是位置平均数则完全不同,不同到有时只需从小到大排序,或者把每个数值出现的次数从少到多排序,无须计算就可以得到一个均值。下面来看看两个位置平均数的代表:中位数和众数。

1. 中位数

中位数是中间位置的数字。中位数将所有的观察值一分为二,一半的数字比它大,另一半的数字比它小。那么,现实问题中如何求得中位数?在需要求得中位数时,首先需要把所有的观察值从小到大进行排序。

举个例子:小时候,老师最喜欢在考完试后进行排名,这就是一个排序过程。如果该班级共有51名学生,那么考试成绩从最低分(或最高分)开始依次排序,直至最高分(或最低分),这样就会得到一组递增(或递减)的数据。51名学生正好第26名是中间者,我们就选他的考分作为考试成绩的中位数。但如果有52名学生呢?如果把人数一分为二,排名第26、27位的两名学生均处在中位,该怎么选?可见,求中位数有一个注意点,那就是观察值的个数是奇还是偶。如果观察值的个数是奇数,那么求适中的数值即可;如果观察值的个数是偶数,那么通常取最中间的两个数值的算术平均数作为中位数。用公式描述如下。

若有观察值x,x,…,x,若n为奇数,则中位数为12n

若n为偶数,则中位数为

公式很简单,理解也不难,但什么时候适合用中位数呢?若要回答这个问题,就要回到本章开头所提的那个问题:你是不是总觉得自己在各种数据面前有“被平均”之感?

举个例子:2014年全国平均工资为4.99万元,月平均工资为4000多元,这也就罢了;北京的平均工资达77 560元,月平均工资为6463元,这就很让人艳羡了;尤其是,全市城镇非私营单位就业人员年平均工资为102 268元,月均达8522元——对于大部分人而言,岂不是“拖后腿”、“被平均”?了解了算术平均数你会发现,公布的数据可能并没有问题,问题在于工资收入的分布是否适合使用算术平均数来表示均值?我们来看看工资的大致分布图,如图2.1所示。图2.1 工资收入均值分布图

从图2.1中可以看出,一般来说,一个人群中的工资收入分布,众数往往偏左,而平均数往往偏右。这说明低收入人群占多数,高收入人群占少数,工资收入呈偏态分布。而从报道中的数据可以推测,导致平均工资如此高的原因是那部分人数少但收入高的人群拉高了均值。

所以,一般情况下,对于收入、房价等数据,在公布算术平均数的同时需要公布中位数作为参考,这样的数据会更有实际意义。那么,既然知道中位数具有很强的参考辅助功能,收入为何不能公布一个中位数呢?这又回到了排序问题。如果我们所拥有的观察值是有限个数且容易操作点数排序的,那么一切都可以顺利进行。但是如果要得到一个收入的中位数,那就意味着需要对该城市(该国)所有工作者都进行调查(而事实是我们的工资收入都是以企业为单位进行统计的),工作量实在太大,排序就显得尤为困难。

而中国香港在收入统计方面不仅公布了平均数(一般指算术平均数),还公布了百分位数和中位数,如图2.2所示。图2.2 中国香港工资分位数分布图

由图2.2可以引入一个新的知识点——四分位数和五数概括法。

先来说说四分位数:四分位数中有一个分位数我们已经认识了,它就是中位数,在四分位数中排行第二,代表数值由小到大排列后第50%的数字;其余分别为第一四分位数(Q1),又称“较小四分位数”,等于观察值中所有数值由小到大排列后第25%的数字;第三四分位数(Q3),又称“较大四分位数”,等于观察值中所有数值由小到大排列后第75%的数字。所谓的四分位数,其实就是通过三个位置数将数据等量分割成四部分,其中,Q3到Q1之间的距离差又称为四分位距。四分位距越小,说明中间部分的数据越集中;四分位距越大,则意味着中间部分的数据越分散。

五数概括法与四分位数有着紧密关系,五数概括法所用的5个数分别为:最小值;第一四分位数(Q1);中位数(Q2);第三四分位数(Q3);最大值。具体的做法也很简单,与求中位数一样,先将数据从小到大排序,然后根据四等分原理获得四分位数,并得到最大值和最小值。

举个例子:有一个观测值样本,内容是12个月的月薪数据,按照递增顺序排列如下:

根据中位数的计算方法,观察值数据量为偶数,所以在计算四分位数时,需要将3、4位,6、7位和9、10位的数据相加除以2。另外,其中的最小值为4210,最大值为4825。因此,上述月薪数据以五数概括为:4210,4365,4405,4500,4825。为什么需要选择这5个数?因为通过这样的数据选取,可以对观察值的分布情况有个大致的了解。若这5个数之间的间隔比较均匀,那么这5个数据具有较好的总体归纳性;若这5个数之间的间隔不均匀,那么此时的数据往往不呈正态分布,无论是选择中位数还是算术平均数来描述数据,都有可能出现偏差。

这也就引出了以中位数为代表的位置平均数的一些特点:● 中位数是以它在所有观察值中所处的位置确定的全体单位的代表

值,不受分布数列的极大值或极小值影响,从而在一定程度上提

高了中位数对分布数列的代表性。● 有些离散型变量的单项式数列,当数据分布偏态时,中位数的代

表性会受到影响。

2. 众数

众数是位置平均数中的另一个重要代表,它将各观察值出现的次数记录下来,选择出现次数最高的观察值作为均值。但是,如果遇到不同的观察值出现同样的次数(且都是最高的)时,怎么办?解决方法是全部命名为众数。所以众数是三大平均数代表中仅有的不唯一取值代表。

比如,对某幅图进行评价,5位观众分别给出9分、7分、9分、8分、6分。如果用简单算术平均数来计算,则平均分为7.8分;若对其进行排序,则为6,7,8,9,9,中位数为8;如果通过观察值的出现次数来排序,则6、7、8分都出现1次,9分出现2次,则众数为9。可以看出,不同的方法计算出来的均值都不相同。

前面已经大致描述了各类数值平均数的适用范围,也提出了中位数的适用对象,众数也比较挑剔,它往往更适合一些对数值本身不敏感,但对该数值占比有要求的样本。比如,想要了解中国男士的脚码

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载