统计学(微课版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-06 13:45:08

点击下载

作者:谭英平

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

统计学(微课版)

统计学(微课版)试读:

前言

正如著名作家H.G.威尔斯(H.G. Wells)所说:“对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要。”经过数百年的发展,统计早已在人们不经意间悄悄地融入社会、经济和政治等各个领域,甚至改变了人们的思维方式。而计算机技术的发展和大数据时代的到来,更是让统计学成为广受关注的热门学科。

从久远而又浪漫的“女士品茶”实验到淘宝网的数据盛典,从“汽车与山羊”的趣味概率讨论到美国总统选举的民意调查,从真假莎士比亚的巧妙推断到巧克力和诺贝尔奖之间的神秘联系,统计学已成为人们解决很多现实问题的有力工具,没有什么学科或领域能够真正离开统计学而繁荣发展。因此,本书以培养读者的基本统计思维和分析技能为目标,系统地介绍了数据的收集方法、数据的描述统计量、推断统计的理论基础,以及分析变量关系的常用统计方法等。

本书以统计学的内涵为主线,按照人们解决现实问题的关键环节设计各章的相应内容,主要特色如下。(1)趣味性强。本书每章开篇的“生活中的统计”以有趣的案例导入本章的知识主题,改变统计学枯燥、复杂的“人设”,让统计学习与阅读侦探小说一样充满趣味性,也让读者能够直观地体会统计方法在现实生活中的应用价值。(2)逻辑清晰。本书以方法、原理的讲解为主旨,以应用为目标,避免传统统计教材中对数理推导的大篇幅论述,在系统介绍重要统计概念、基础知识的前提下,结合大量贴近生活的例题和数据,演示统计方法的分析过程,并给出Excel或SPSS软件的输出结果,帮助读者深入理解、规范使用统计术语和统计方法,正确解读数据分析结果。(3)实践性强。本书每章提供本章框架、重要概念以及软件应用,辅以适量习题,强化读者的统计分析逻辑,帮助读者熟悉专业的统计分析软件操作流程,培养其解决实际问题的统计技能。(4)形式新颖。本书采用二维码形式链接微课视频,读者通过扫描二维码即可学习书中重难点知识,有助于提高学习效率。

全书共9章内容,参考学时为36~54学时(18周),建议采用实验教学(知识讲授与计算机操作相结合)模式,具体学时分配可参考下表。学时分配表

本书的编写是在我尊敬的贾俊平老师的大力支持和鼓励下完成的。虽然时光荏苒,自己成为一名光荣的教师已经十余年,但对于书籍的撰写,我一直抱着敬畏的心态,衷心感谢贾老师给予的信任和肯定,并在繁忙的工作之余为本书进行审校。感谢朴实的家人对我莫大的包容和照顾,让我能够集中精力完成这项他们眼里高尚骄傲的工作。

尽管本书的编写过程对体力和脑力都是较大强度的考验,但这种全心全意的投入让自己似乎又回到了刚刚进入中国人民大学统计学院课堂的学生时代,感恩命运之手将我幻化成统计学海洋中的一粟。对外经济贸易大学谭英平2019年12月于北京朝阳第1章 统计、数据与计算机生活中的统计——第三次浪潮的华彩乐章(1)2017年“七夕节”,阿里巴巴数据分析显示,在淘宝普通会员中,单身人士占比高达60%;而在淘宝超级会员中,单身人士占比迅速下降到4%。原来脱单的秘籍就是成为淘宝超级会员?!(2)国家第六次人口普查数据显示,中国15周岁以下人口占总人口的比重仅为16%,远低于30%的世界平均水平(不含中国),东北地区这一比例更是低至10%,那么中国的孩子们都去哪儿啦?(3)经济合作与发展组织(Organization for Economic Cooperation and Development,OECD)对比其主要成员的平均吃饭时间与实际国内生产总值增长率,发现一国国民吃饭速度越快,国家经济增长速度就越快。“吃货们”准备好为国家经济增长做贡献了吗?(4)英国爱丁堡大学研究人员在美国《进化与人类行为》杂志上发表报告称,男性脸部的对称程度与其79~83岁之间的智商变化存在正向联系,脸型越对称的男性越不容易变成“老糊涂”?(5)澳大利亚研究人员发现,高龄父亲可能对子女认知能力造成负面影响,母亲相对高龄,子女的认知水平反而更高。原来这才是“姐弟恋”流行的真正原因?!

在数据像雪花一样充盈着我们生活空间的现代信息社会,当你看到上述结论时,是视而不见,一笑而过,还是若有所思?要想真正揭开这些数据的“神秘”面纱,让统计结论科学地服务于我们的决策行为,现在就踏上统计学这趟飞驰奔向未来的高速列车吧!你准备好出发了吗?1.1 统计及其应用领域1.1.1 什么是统计学

1980年,美国著名未来学家阿尔温·托夫勒(Alvin Toffler)在其所著的《第三次浪潮》中预言了人类社会发展的第三个阶段——信[1]息化阶段。托夫勒将“大数据”称颂为“第三次浪潮的华彩乐章”,并强烈主张人类应该在思想、政治、经济、家庭领域里来一场革命,以适应第三次浪潮文明。尽管关于大数据与统计二者的关系,尚存在不同的观点和争议,但不可否认的是,我们的行为和决策越来越多地依赖于数据。例如,我们关注每天的PM2.5空气质量指数与健康之间的关系;在投资股票时了解宏观经济数据和公司财务信息;基于销售数据合理布置超市的商品摆放位置;根据客户的个人特征实施“精准营销”;构建大气运动规律模型,预测气象变化,指导“理性救灾”等。

与此同时,各个领域都在爆炸式地创造数据。抖音短视频用户保有量过亿人,日活跃用户数过千万,日新增用户数近百万;沃尔玛超市每小时可收集100万名顾客的数据,每天可对1亿个关键字进行分析优化;Facebook(脸书)每天更新的照片量超过1 000万张,每天人们在该网络平台上的“点赞”或评论次数超过30亿次;2017年,天猫“双11”仅一天成交额就达1 682亿元,全天支付总笔数达14.8亿笔,全天物流订单达8.12亿个,交易覆盖全球225个国家和地区。显然,如果这些数据只是静静地躺在存储空间中,没有被分析和挖掘,它们就不会创造任何附加价值;如果面对这样令人瞠目结舌的数据增长趋势,没有掌握任何一点分析方法和技能,我们也终将沦为信息时代的“出局者”。

统计学(statistics),恰好提供的是一整套用于数据收集、整理、[2]分析并从数据中得出结论的方法和原则,是一门关于数据的科学。

不过,与物理学、化学、生物学、数学等其他学科相比较,统计学的确显得有些与众不同。它似乎没有固定的研究对象。它的产生和发展似乎一直都是“依附于”解决人们所面临的其他领域的各类问题。统计学家萨维奇(L.J. Savage)曾经说:“统计学基本上是寄生的,靠研究其他领域内的工作而生存。这不是对统计学表示轻视。这是因为对于很多寄主来说,如果没有寄生虫,它们就会死。对于有的动物来说,如果没有寄生虫,它们就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得[3]很弱。”这一阐述在形象说明统计学的独特性的同时,也恰好证明了统计学在支撑社会经济发展过程中的重要地位和作用。

我国著名统计学家陈希孺院士在其出版的《数理统计学简史》中写到:“统计学不止是一种方法或技术,还含有世界观的成分——它[4]是看待世界上万事千物的一种方法。”按照C.R.劳(C.R. Rao)的观点:“今天,统计学已发展成为一门媒介科学。它研究的对象是其他科学的逻辑和方法论——做出决策的逻辑和试验这些决策的逻[5]辑。”因此,在他看来,统计学是一门科学、一种工艺,也是一门艺术。

无论从何种角度理解统计学,给出怎样的定义,一个不争的事实是:近代以来,统计学已经成为一门极其活跃的、被广泛应用于各个领域的独特学科。1.1.2 统计的应用

统计思想的起源最早可以追溯到远古时期,原始人在树木上刻痕,以此计算家畜及其他财产。而从人类放弃个体游牧生活状态,开始有组织的社会生活时,收集数据、记录信息就成为一种必要。1660年,德国人康林(Hermann Conring)首次在印刷品上使用了“statistik”一词。该词是指政府部门记录人口出生和死亡信息的工作,[6]其成为今天统计学“statistics”这个英文单词的正式来源。经过三百多年的发展,统计仍然是当今世界各地政府机构保障正常工作运转的重要支柱。与此同时,统计学又被不断赋予新的内涵和责任,帮助人类寻找解决各个领域问题的有效方法和途径。

在商业中,统计方法被用来预测商品的未来需求量,制订生产计划和发展有效的管理技术以获得最大的利润。

在医学中,统计方法被用于药效的鉴定及临床检验,由大量生物化学提供的数据信息经过统计评估用于疾病的诊断和预测。

在犯罪学中,统计方法被用于探索犯罪原因,研究犯罪现象与种族、职业、经济状况、年龄、性别甚至气候条件之间的联系,进而探索犯罪规律和趋势。

在考古学中,统计方法被用于定量评估考察对象的相似性,提供确定古代工艺品年代顺序的科学方法。

在文学中,统计方法被用于分析不同作者的用词习惯,测定作家风格,从而在作者版权产生争议时提供证据。

诸如此类,不胜枚举。以至于有学者说:“举出一个统计没有用途的领域名称比举出一个统计作为其组成部分的领域名称要困难得[7]多。”今天,对统计学的研究和应用已经由最初的政府部门的政策制定,扩展到自然科学、社会科学、管理、经济、工程技术、艺术、文学等各个领域。在此,我们仅提供几个小的例子供读者窥见一斑。【例1.1】 利用正态分布识别欺诈行为。德国在某战争期间物资特别紧缺,于是对面包实行配给制:政府把面粉发给指定的面包房,面包师傅烤好了面包再发给居民。有一个统计学家怀疑他所在区域的面包师傅私扣面粉,于是就天天称自己的面包。几个月以后,他去找面包师傅,说:“政府规定配给的面包是400克,因为模具和其他因素,你做的面包可能是398克、399克,也可能是401克、402克,但是按照统计学的正态分布原理,这么多天的面包重量平均应该等于400克,可是你给我的面包平均重量是398克。我有理由怀疑是你使用较小的模具,私吞了面粉。”面包师傅承认确实私吞了面粉,并再三道歉保证马上更换正常的模具。又过了几个月,统计学家又去找这个面包师傅,说:“虽然这几个月你给我的面包都在400克以上,但是这可能是因为你没有私吞面粉,也可能是因为你从面包里特意挑大的给我。同样,根据正态分布原理,这么多天不可能没有低于400克的面包,所以我认为你只是特意给了我比较大的面包,而不是更换了正常的模具。我会立刻要求政府检查你的模具。”面包师傅只好当众认错道歉,接受处罚。【例1.2】 利用简单的统计量推测重要军事情报。第二次世界大战(简称“二战”)期间,出于战略考虑,盟军非常希望知道德军总共制造了多少辆坦克。盟军最初通过间谍、解码和逼供等传统手段收集信息,但得出的结论与事实都相去甚远。最终,盟军找到了一个关键线索。当时,德国人在制造坦克时是墨守成规的,他们把坦克从1开始连续编号。在战争中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。基于此,盟军中的统计学家创建了各种估计量的计算公式,其中一个最为简单的做法是,先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点,因此这个均值乘以2就是对德军生产的坦克总数的一个估计(当然,这是假设缴获的坦克代表了所有坦克的一个随机样本)。这种方法的各种变形被应用于第二次世界大战之中。从战后发现的德军记录来看,盟军的估计值非常接近德国所生产的坦克的真实值,在这点上,统计学家做得比间谍们更漂亮!【例1.3】 利用回归分析预见重要决策后果。1986年1月28日清晨,载有7名宇航员的美国“挑战者号”航天飞机进入发射状态。几分钟后,正当包括许多学生在内的大批美国民众观看电视新闻的直播报道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员全部遇难。事故调查结果发现,发射当日清晨的低温(-0.5摄氏度)是导致航天飞机右侧固体燃料火箭推进器密封圈失效的直接原因,而这一悲剧是有机会避免的。因为负责制造该固体燃料发动机的塞奥科(Thiokol)公司的工程师们曾通过23次飞行中发生腐蚀或泄漏事故的次数及火箭连接处的温度数据进行回归分析发现,二者之间是存在一定的统计相关性的,并在发射前一天晚上向公司董事会提交了研究报告,建议推迟发射。不幸的是,美国宇航局及塞奥科公司的高层们忽视了统计分析的客观结论,抱着投机和侥幸的心态做出最终的决策,从而造成了不可挽回的损失。1.2 统计学中的几个基本概念统计学中的几个基本概念1.2.1 随机性与概率

明天会下雨吗?这只股票的价格会上涨吗?公司今年的销售额可以达到多少?旅游途中会不会发生意外事故?我们每个人的寿命有多长?抛硬币时会得到正面还是反面?面对这些问题时,我们无法事先给出百分之百确定的答案,或者说,所有这些事件的结果无法百分之百准确地预测,这就是随机性(randomness)。

那么,我们又该如何进行决策、制订自己的行动计划呢?幸运的是,当我们把大量重复的个体随机事件放在一起时,往往会发现其中令人惊奇的规律。如果将同一枚硬币抛掷100次,会得到差不多50次正面朝上、50次反面朝上的结果;在过去10年时间里,中国每年因交通事故死亡的人数都在10万左右;2018年我国居民人均预期寿命为77岁。

显然,在现实世界中,个体的随机性无法彻底消除。统计学正是在接受随机性的前提下,通过发展出一套科学的原则和方法,巧妙地挖掘出大量随机事件中可能隐藏的规律和模式,并对其进行量化测度,从而帮助人类认识世界,做出合理决策。其中,统计学最重要的量化工具和理论基石,便是概率。

概率(probability)是一个在0到1之间取值的数,描述的是某个特定事件发生的机会有多大。

我们已经知道,抛掷一枚硬币,正面朝上和反面朝上的概率都是0.5;人们如果每天抽烟超过5支,75岁死于肺癌的概率为25%;如果30岁左右戒烟,死于肺癌的概率不到2%;如果50岁戒烟,死于肺癌[8]的概率不到6%。1.2.2 变量与数据

人们利用各种统计方法研究现实问题,无非是希望得出有关某一研究对象的决策结论。政府通过统计调查观察每年的人口总数、国内生产总值(Gross Domestic Product,GDP)、进出口总额,以便制定更为合理有效的宏观政策;企业通过观察每个月的生产量、成本、销售额,以便筹划最优的投入产出安排;投资者通过观察某只股票每日的成交量、开盘价格和收盘价格,以便决定未来的买入卖出计划。

在上述过程中,人们观察的是“一个国家”“一个企业”或“一只股票”,这些研究对象的某些方面的特征,并且每次(每年、每月或每日)观察的结果可能不尽相同。一个国家每年的人口总数、GDP、进出口总额都可能发生变化;一个企业每月的生产量、成本、销售额也可能有所波动;一只股票每天的成交量、开盘价格和收盘价格更不会恒定不变。因此,这里的“人口总数”“GDP”“进出口总额”“生产量”“成本支出”“销售额”“成交量”“开盘价”和“收盘价”等就是统计学中的另一个重要理论基石——变量。

依据上面的描述,变量(variable)是指某一特定研究对象可以取两个或更多个可能值的特征或属性。每次观察变量记录下来的结果,就形成了数据(data)。

如果变量每次的观察结果可以用数字来记录,那么这样的变量就称为定量变量(quantitative variable)或数值变量(metric variable),记录下来的数据也就相应地称为定量数据(quantitative data)或数值数据(metric data)。上面所提到的这些变量均属于定量变量,但有所不同的是,“人口总数”“生产量”“成交量”等变量只能取离散的数值,其取值可以一一列举,这是定量变量中的离散变量(discrete variable);而“GDP”“进出口总额”“成本支出”“销售额”“开盘价”和“收盘价”等变量可以在一个或多个区间内取任何可能的值,其取值是连续不断的,不能一一列举,这是定量变量中的连续变量(continuous variable)。

如果变量每次的观察结果记录的是文字或字符,代表的只是研究对象的某一类别或属性,那么这样的变量就称为定性变量(qualitative variable)或类别变量(categorical variable)。例如,医院观察每个出生婴儿的“性别”,记录“男”或“女”;网上购物平台观察每个消费者的购物地点,记录不同的省份城市;保险公司调查每个投保人的受教育程度,记录“本科以下”“本科”“研究生”等不同学历;政府调查每个公民对现行税收政策的满意程度,记录“不满意”“一般”“非常满意”等不同评价。这些定性变量的观察结果就是定性数据(qualitative data)或类别数据(categorical data)。进一步地,如果变量不同的类别或属性之间没有先后顺序,就是无序类别变量;反之,则称为有序类别变量。显然,“性别”和“购物地点”属于无序类别变量,而“学历”和“满意程度”则属于有序类别变量。值得一提的是,有时候为了方便,人们也可能用数字来代替文字或字符,以记录上述类别数据。例如,用1和2分别代表“男”和“女”;用1到3分别代表不同的满意程度等。但这些数字本身没有真正的数值含义,仍然只是对事物的一个简单分类,这也正是类别数据与数值数据的根本区别所在。

图1-1展示了变量的基本分类。图1-1 变量的基本分类1.2.3 总体与样本

在收集数据的过程中,我们希望研究的所有个体组成的集合就称为总体(population)。例如,国家制定社会经济政策时,需要了解全国所有居民的收入信息,那么全国所有居民就构成了一个总体;某公司计划推出一款新口味饮料时,需要预估消费者的市场反应,那么该产品的所有潜在消费者就构成了一个总体。

有的时候也许可以获得总体中每个个体的数据。例如,我国政府每隔一定时期进行的人口普查。但由于受资金、时间以及不断变化的环境条件等因素的影响,更多的情况下,研究者往往只能获取部分个体的数据。例如,某在校大学生设计了一套项目方案,想要分析全校学生在“双11”当日的网上购物支出情况,受条件限制,最终仅抽取了300个同学进行调查。显然,这300个被抽中的同学只是全校学生(即研究总体)中的一部分,我们把这部分个体组成的子集合就称为一个样本(sample),而抽中的个体的数量(300人)就是样本的大小,即样本量(sample size)。

总体中的每个个体也称为总体单位或单元(element)。它可以是一个人,一棵植物,一块土地或一个国家,取决于研究的目的和数据收集的适用性。数据收集的过程就是对总体单位某一特征(即变量)的度量。表1-1给出了一些变量、变量取值及总体单位的不同示例。表1-1 变量、变量取值及总体单位1.3 统计学与计算机

如前所述,统计思想远古即存,但作为一门学科,其历史并不很长。20世纪以前,统计学虽然经历了从创立到不同理论和学派的逐渐形成过程,但却并未真正进入社会大众的理解范畴,更多的似乎只是统计学家神秘而高深的“圈内游戏”。专业的统计术语、抽象的数学符号、复杂的公式推导,受计算能力的限制,统计学的价值实现与人们的实际生活始终显得游离疏远,应用领域也较为狭窄。

进入20世纪之后,人类社会的巨大变化推动了统计学的迅猛发展。一方面,人们对现实世界的认识和决策越来越多地依赖于数据信息,各个领域的数据不断积累和扩充,即使是简单的展示和描述,传统的纸和笔的功能显然已经捉襟见肘。另一方面,由于社会、经济、军事、政治等的客观发展需要,统计学不断被赋予新的责任和使命,除了提供传统的统计资料和数据,概括和展示数据的基本特征,人们还希望依据数据对未来进行预测、理解统计结果背后的逻辑、科学指导行为决策。统计学的应用范畴迅速向社会生活的一切领域渗透,而计算机和软件的发明无疑为其铺平了道路。

统计学的基础是数学,如何基于有限的样本数据推断总体的特征也牢牢建立于数学基础之上。然而,在数据量庞大的信息时代,脱离计算机的统计分析几乎是不可想象的。理解统计思想,掌握不同统计方法在计算机中的实现过程,正确解读软件输出结果,相较于深陷公式和计算细节的泥潭来说,似乎更有利于真正推动统计学在大众生活中的广泛应用。随着计算机的普及,统计知识变得“平易近人”,统计学能够处理和分析的数据量呈现飞跃式的增长。这时,人们即使不具备扎实的数学基础,也并不影响对统计方法的理解和掌握。当然,如果你是一名统计“发烧友”,熟悉每一个统计公式和定理的推导证明,不仅是一项不错的智力挑战游戏,也有助于加深你对各类统计方法的理解。

目前市面上比较常见的统计软件种类颇多,包括SAS、R、SPSS、S-Plus、Stata、EViews等,甚至我们最熟悉的Office操作软件Excel中也包含一些基本的统计分析功能。由于开发者的初衷不同,上述软件必然具有各自的特点,选择哪款软件并没有统一的标准。作为一个辅助的计算工具,只要能帮助应用者准确地、快捷地完成统计分析工作,就是一个好的选择。最为重要的是,人们只有正确理解了各类统计方法的思想,收集并输入高质量的数据,才能得到客观的、合理的输出结果,统计学与计算机也才能真正融合,为“第三次浪潮的革命”出谋献策。小结

统计学提供的是一套用于数据收集、整理、分析并从数据中得出结论的方法和原则,是一门关于数据的科学。今天,对统计学的研究和应用已经由最初的政府部门的政策制定,扩展到自然科学、社会科学、管理、经济、工程技术、艺术、文学等各个领域。人们用变量反映某一特定研究对象可以取两个或更多个可能值的特征或属性,每次观察变量记录下来的结果,就形成了数据。依据表现形式的不同,数据可分为定性数据(类别数据)和定量数据(数值数据)。在收集数据的过程中,我们希望研究的所有个体组成的集合称为总体。受实际条件的限制,我们往往只能从总体中抽取部分个体,这些个体组成的子集合即为样本。现代信息社会中,数据的快速积累和膨胀,对统计学的应用提出了越来越多的使命与挑战,计算机已成为不可或缺的重要辅助工具。市面上有很多统计软件可供我们选择,但在尽可能熟练掌握一门软件的同时,我们也要清醒地认识到,正确理解各类统计方法的基本思想和应用原理是至关重要且无法被计算机和软件所替代的。本书框架重要概念

• 统计学(statistics):一整套用于数据收集、整理、分析并从数据中得出结论的方法和原则,一门关于数据的科学。

• 随机性(randomness):事件的结果事先无法百分之百准确地预测。

• 概率(probability):一个在0到1之间取值的数,描述的是某个特定事件发生的机会有多大。

• 变量(variable):某一特定研究对象可以取两个或更多个可能值的特征或属性。

• 类别变量(categorical variable):每次的观察结果记录的是文字或字符,代表的只是研究对象的某一类别或属性,也称定性变量。

• 数值变量(metric variable):每次的观察结果可以用数字来记录,也称定量变量。

• 总体(population):希望研究的所有个体组成的集合。

• 样本(sample):从总体中抽中部分个体组成的子集合。

• 样本量(sample size):样本中个体的数量。

• 总体单位(element):总体中的每个个体,也称总体单元。软件应用※Excel【数据分析】工具的安装(2016版)

Excel拥有强大的统计图表制作和管理功能,并提供了一些常用的统计计算函数。此外,读者还可以通过以下步骤安装专门的【数据分析】工具,用于本书后续内容的多种统计方法的实现。

第1步:在Excel工作表界面中单击【文件】→【选项】。

第2步:在弹出的对话框中选择左侧的【加载项】,并在右侧对话框中单击下方的【转到】按钮,如图1-2所示。图1-2 加载数据分析工具库的路径

第3步:在弹出的对话框中勾选【分析工具库】,单击【确定】按钮,如图1-3所示。图1-3 加载数据分析工具库

安装完成后,在Excel工作表界面的【数据】菜单项下,将出现【数据分析】这一新的选项。习题

1.1 请举出你了解的统计学的应用领域。

1.2 你怎样理解统计学的研究对象?它与数学、物理、化学等学科的区别是什么?

1.3 举例说明什么是随机性?

1.4 找一篇包含统计信息的报纸、杂志或朋友圈里的文章,指出文章中提及了哪些变量?这些变量属于什么类型?

1.5 指出下面的变量类型。(1)年龄;(2)职业;(3)工资收入;(4)每个月网购的次数;(5)购买商品时的支付方式(现金、银行卡、支付宝、微信);(6)对房地产价格调控政策的评价(不满意、一般、满意)。

1.6 为了解2019届本科毕业生的就业情况,某咨询机构随机调查了2000个应届毕业生,记录了他们的就业去向(行业)、职位和入职工资。(1)这一研究的总体是什么?样本是什么?总体单位是什么?(2)就业去向(行业)、职位和入职工资分别是什么变量?

1.7 你使用过统计软件或其他软件中的统计功能吗?有什么经验和体会?

[1]在《第三次浪潮》中,托夫勒将人类发展史划分为第一次浪潮的“农业文明”,第二次浪潮的“工业文明”以及第三次浪潮的“信息社会”。

[2]Gudmund R. Iversen,Mary Gergen. 统计学——基本概念和方法. 吴喜之,等译. 北京:高等教育出版社,2000。

[3]C.R.劳. 统计与真理——怎样运用偶然性. 北京:科学出版社,2004。

[4]陈希孺. 数理统计学简史. 长沙:湖南教育出版社,2002。

[5]陈希孺. 数理统计学简史. 长沙:湖南教育出版社,2002。

[6]Gudmund R. Iversen,Marly Gergen. 统计学——基本概念和方法. 吴喜之,等译. 北京:高等教育出版社,2000。

[7]Robert Johnson,Patricia Kuby. 基础统计学. 北京:科学出版社,2003。

[8]2004年《英国癌症杂志》发表的经典论文数据。第2章 数据的收集生活中的统计——“打脸”民调的“逆袭”总统特朗普

2016年11月8日晚间,原本期待着一场庆功宴的美国总统候选人希拉里. 克林顿(Hillary Clinton)的支持者们在错愕中陆续掩面离开位于曼哈顿的选举大本营。此时,人们才不得不最终面对一个似乎超出多数人预料的事实:唐纳德. 特朗普(Donald Trump)击败了老练而专业的政治对手希拉里,成为美国第45任总统。在此之前,包括美国广播公司(American Broadcasting Corporation,ABC)和《华盛顿邮报》(The Washington Post)等在内的多家主流媒体组织实施的民意调查均预测希拉里将以较大优势胜出。特朗普的“逆袭”不仅使得美国各大民调机构颜面尽失,更引发了人们对于统计学在社会人文科学领域适用性的怀疑。

实际上,多年来,在美国,政治是运用统计学和定量分析方法非常普遍和成功的领域。统计的广泛应用让人们通过实际数据的收集进行科学的判断,从而预测公众舆论。但任何科学都不是严格意义下的“真理”,都可能并允许存在误差。有趣的是,2018年,美国广播公司和《华盛顿邮报》“越挫越勇”地再次发布一项民调结果,称近半民众赞成弹劾特朗普。而特朗普“孩子气”的回应也让人忍俊不禁:“ABC和《华盛顿邮报》2016年大选前的民调是最不准的!”“美国民意调查公司拉斯穆森(Rasmussen)刚刚出来的民调结果显示,有48%的民众支持我。比选举日那天的支持率要高,比奥巴马的支持率也要高。拉斯穆森的选举民调是最准的民调之一!”由此可见,统计并非真的不科学,如何合理设计数据收集方案,降低数据测量误差,提高样本数据的代表性,才是有效利用统计指导决策的前提和关键所在。2.1 数据收集的主要方法

我国全面实施一对夫妇可生育两个孩子政策后,人口出生规模有没有显著增长?中华人民共和国国务院(简称国务院)“大气十条”发布实施以来,各地区空气质量有没有改善?在国家发展战略和政策的鼓励下,大学生自主创业的比例是多少?创业存活率又如何?想要回答上述这些问题,就必须收集相关的数据资料。根据研究的目的和要求,采用科学的方法,有组织、有计划地收集数据信息资料的过程,被称为统计调查(statistical survey)。在实践中,数据来源通常有两个主要渠道:一是直接进行调查或实验,获得“一手数据”;二是通过他人调查或实验的结果整理得到“二手数据”。2.1.1 数据的直接收集

在社会经济领域,专门调查是直接获取数据的重要手段,包括了政府组织的各种普查、抽样调查、统计报表制度等,也包括了企业、机构、部门甚至个人为了特定目的而进行的各种市场调查、产品测试、民意调研等。调查数据一般是客观上已经存在的,但需要通过观察或询问的方式才能收集汇总得到。例如,一个国家年末的人口总数,一个企业一年的销售额,一个市民当下对某项政策的满意度等。显然,调查数据大多与时间有关,是特定时期或时点上的变量结果。因此,这类数据也会随着时间的变化而改变,理论上无法重复观察。此外,调查的对象通常以人为主体,即使调查对象是其他的客观事物(如一块土地),调查的结果(如产量)也往往与人的活动有关。这就使得要收集高质量的调查数据,必须将人为因素的干扰尽可能控制在最低限度,而这也恰恰是收集调查数据的难点所在。

科学实验则是收集自然科学数据的常用手段,例如,医疗机构通过动物实验和临床试验检测某种新药物的治疗效果,农业技术人员通过种植实验比较产量数据筛选水稻品种,工程师们通过航天环境模拟试验测试设备性能、观察航天员的辐射影响等。与调查数据不同,实验数据是在控制一个或多个因素的前提下,观察感兴趣的变量结果,实验的次数也可以是无限的,并且可以通过改变控制因素,观察变量结果的变化情况。

相较于专门调查,通过科学实验收集数据在一定程度上能更为有效地控制数据质量,但也更加专业,受到的技术甚至法律、道德等因素的制约更多(例如医学上某些药物的人体试验可能是违背社会道德标准甚至法律规范的),从而应用的领域不及专门调查广泛。现实生活中,无论是政府、企业、社会团体还是学术机构,都越来越多地通过调查收集“一手数据”,为制定政策、组织管理以及行为决策提供依据。

值得一提的是,随着计算机技术和电子商务的快速发展,很多数据被自动收集保存到特定的数据库当中,成为当今“大数据”的主要来源。例如,超市POS机、银行ATM机、网上购物平台的购物系统记录下的客户交易信息,使用打车软件乘坐出租车时记录下的乘客行程信息,旅游景点购票系统实时记录的游客信息等。可以说,信息时代的我们已经不自觉地被淹没在数据的“海洋”中。2.1.2 数据的间接收集

如果能够根据研究目的,“量身定制”调查方案或实验方案,直接收集“一手数据”,当然是最好的。但对于大多数使用者来说,受各方面因素的限制,设计、实施一项调查或实验往往是不太现实的,能够获得的数据量也较为有限。因此,人们更多的是通过收集整理他人调查或实验的结果来间接获取“二手数据”。

前面所提到的政府、企业、机构等公开出版或发布的数据,各类媒体公开报道的数据,都是十分重要的间接数据来源。例如,我国国家和地方的统计部门定期出版的《中国统计年鉴》《国民经济和社会发展统计公报》《中国人口统计年鉴》以及各省、市、地区的统计年鉴等,气象部门每日发布的空气质量数据,海关总署每月更新的进出口数据,世界经济论坛每年发布的《全球竞争力报告》,世界知名管理咨询公司麦肯锡、咨询公司(Mckinsey)发布的《中国消费者调查报告》《中国医院药品报告》《时尚报告》等。

对于使用者来说,“二手数据”的收集显然更加快捷、经济而便利,并且能够突破直接数据收集在时间上的约束,观察变量在较长一段时期内的变化趋势。但是,需要注意的是,由于“二手数据”是他人调查或实验的结果,并非根据使用者自身的研究目的设计、实施,很难完全吻合使用者的研究需要,因此,对于数据的筛选、检查、核实等预处理工作就显得尤为重要,避免误用或滥用。2.2 几种基本的抽样方法几种基本的抽样方法

在第1章我们已经学习了总体和样本的概念。收集数据的过程中(无论是直接来源还是间接来源),由于受资金、时间以及不断变化的环境条件等因素的影响,研究者往往只能获取总体中部分个体(单元)的数据,也就是抽样。但即使获得的只是样本,研究者最终的目的同样是希望得出有关总体的结论。因此,能否抽取一个“好”的样本,使依据这些样本数据得出的结论能够适用于该样本所属的整个总体,无疑成了一个关键问题。

如果在抽样的过程中,总体中的每个个体都有一个已知的机会(概率)被选中,那么依据这样的抽样方案得到的样本就是一个随机样本(random sample)。例如,若研究者想要调查大学生每个月订购“外卖”的数量和支出,可以在某城市的所有大学中,按照每个学校的学生人数,随机抽取相应比例的个体进行调查。这种按照一定的概率,依据随机原则从总体中抽取部分单元的抽样方法也就称为随机抽样(random sampling)或概率抽样(probability sampling)。

在随机抽样中,由于每个总体单元都是随机抽取的,而且能够计算出每个单元被抽中的概率,因此,研究者能够计算出数据收集过程中的抽样误差,从而得出样本估计结果的可靠程度。或者从另一方面讲,随机抽样可以依据研究者要求的抽样精确度,计算出必要的样本量。随机抽样也因此成为实践中最主要的一类抽样方法。随机样本是一个能够被推广应用于其所属总体的、合适的统计样本。下面我们介绍几种基本的随机抽样方法。2.2.1 简单随机抽样

假设总体一共有N个单元,从中随机地抽取n个单元组成最后的样本,并且总体中每个单元被抽中的概率是相等的,这就是简单随机抽样(simple random sampling)。现实生活中,简单随机抽样的例子比比皆是。例如,电视彩票派奖时,将印有数字的白色乒乓球在滚筒中充分搅拌后,随机产生的中奖号码;知识竞赛中,将印有不同考题编号的纸条放在纸箱中充分摇匀后,由参赛选手随机抓取的考题序号;质检部门抽检时,从企业的生产车间中随机抽取一定数量的产品等。

采用简单随机抽样时,如果每抽取一个单元记录下数据后,再把这个单元放回到原来的总体中参与下一次的抽选,称为有放回抽样或重复抽样(sampling with replacement);如果被抽中的单元不再放回到总体中,每次抽样都仅从剩余的单元中随机抽取,就称为无放回抽样或不重复抽样(sampling without replacement)。

简单随机抽样是一种最基本的概率抽样方法,也是其他抽样方法的基础。这种方法简单、直观,尤其在计算机技术发达的今天,研究者可以方便地利用计算机从总体中抽取简单随机样本(参见例2.1)。但是,简单随机抽样在实际应用时也存在一些局限性。

首先,要获得包含总体所有单元的名单可能是不现实的。

其次,如果总体单元某方面的特征(如性别)有可能对研究变量(如身高)产生影响,抽样时就需要借助这些辅助信息合理安排样本构成比例,提高估计的效率。

因此,根据研究问题和研究对象的不同,人们往往会将简单随机抽样与其他抽样方法结合起来使用。2.2.2 分层抽样

分层抽样(stratified sampling)是在抽样之前先将总体单元按照某种特征或某种规则划分成不同的层,然后从不同的层中独立、随机地抽取一定数量的单元组成样本。例如,研究大学生的生活费支出时,由于考虑到不同地区的家庭收入可能存在较大差异,为保证样本估计结果的精确度,研究者可先将学生按照籍贯所在地分类(即层),然后从不同地区的层中随机抽取一定数量的学生共同组成最后的样本。

显然,分层抽样可以借助总体单元的某些辅助信息,确保不同特征的总体单元都能以一定的数量被包含到样本中,避免了一次简单随机抽样可能抽中的具有相同特征的总体单元过于集中的偏差,使样本结构在一定程度上更加接近总体结构,提高估计的精度。此外,由于分层抽样不仅可以收集样本数据估计总体的目标变量,还可以提供不同层的估计结果,因此便于比较不同特征的总体单元之间的差异。分层抽样的这些优点使得其在实践中有着广泛的应用。2.2.3 整群抽样

整群抽样(cluster sampling)是在抽样之前先按照某种规则将总体单元划分为不同的群,然后随机抽取部分群,被抽中的群中所有的单元都入选到样本中,没有被抽中的群则不做调查。例如,要研究某城市的居民对城市医疗服务的满意程度,可以先按照居住的小区将城市的所有居民划分为不同的群,然后从小区名单中随机抽取若干个小区,对抽中的小区中的所有住户进行调查,获取样本数据。

整群抽样与分层抽样看似相近的地方是,在抽样之前都会按照某种规则将总体单元进行分类,但其实质作用则不尽相同。如前所述,分层抽样中对总体单元分层的目的是保障每个层内都有一定数量的单元被抽中,其假设前提是不同层的总体单元之间存在较大的差异,而同一层内的单元较为相似。而整群抽样主要是通过群的划分,大大简化编制总体所有单元名单的工作量(有的时候可能是无法获得的),并且群的划分规则往往是以地理位置邻近或隶属于同一系统为标准,从而组织实施调查会相对便利,节省了调查费用。因此,理论上而言,只有当不同群的总体单元之间较为相似(抽取若干群就足以代表所有群的总体特征),而被抽中的群内的不同单元之间又存在显著差异时,整群抽样的效果才会比较理想。2.2.4 系统抽样

系统抽样(systematic sampling)是将总体中的所有单元按照一定的顺序排列,在规定的范围内随机抽取一个单元作为起点,然后按照事先确定的规则依次抽取其他的单元,直至达到样本量的要求。例如,某企业为调查员工对公司制度的满意程度,将每个员工按照各自的工资号进行排序,并在前10位员工中随机抽取一名员工作为起点,然后每隔20人依次抽取下一个员工,直到抽取100名员工组成此次调查的样本。这种随机确定一个抽样起点,然后每隔相同间隔抽取剩余单元的抽样方法也称为等距抽样,是较为典型的系统抽样方法之一。

系统抽样操作简便,如果有辅助信息,则研究者就可以通过事先对总体单元进行合理的排列,有效地提高抽样的精确度。但是,如果总体单元排列的顺序(如按日期排列)可能导致研究变量(如销售额)存在某种内在的变化规律(如淡季、旺季的周期性),那么由于抽样起点和抽样间隔确定的随机性,就可能导致抽取的样本数据具有某些趋同的特征(如抽取的都是淡季或旺季数据),从而增加抽样误差。【例2.1】 表2-1是60家金融类上市公司股票代码和股票名称,抽取10家公司组成一个随机样本。表2-1 60家金融类上市公司股票代码和股票名称

解:首先将表2-1中的60家公司的序号、股票代码和股票名称分别录入Excel工作表中的三列单元格中(A2:A61;B2:B61;C2:C61),然后按照如下步骤进行随机抽样。

第1步:在Excel工作表界面中单击【数据】→【数据分析】。

第2步:在弹出的对话框中,选择【抽样】,单击【确定】按钮,如图2-1所示。图2-1 使用【数据分析】工具中的【抽样】功能

第3步:在弹出的对话框【输入区域】中输入60家上市公司的序号(非数值型数据不能直接参与抽样);【抽样方法】中选择【随机】,并在【样本数】后面输入需要抽取的样本量;在【输出选项】中选择抽样结果显示的方式(【输出区域】可在当前工作表中指定区域显示,也可以选择其他两个选项将结果保存为新工作表组或新工作簿);最后单击【确定】按钮,如图2-2所示。图2-2 【抽样】功能的实现

按照上述步骤得到的随机样本如表2-2所示。表2-2 利用Excel抽取得到的一个随机样本2.3 数据收集的误差

开篇案例中,美国主流媒体对希拉里和特朗普选举预测结果所出现的戏剧性“反转”引起了各路专家学者的广泛讨论,巨大偏差的来源到底是什么?实际上,在数据收集的过程中,即使条件允许能够对总体中每个单元进行统计调查(例如,我国定期开展的人口普查,或对本校选修统计学课程的所有同学进行问卷调查),记录下来的数据结果与真实的情况也不一定会百分之百地吻合,这就是数据收集的误差。导致数据收集产生误差的因素有很多,尤其是抽样调查过程中,抽样误差、未响应误差和响应误差是我们必须知道并尽力控制在研究可接受限度内的三个重要方面。2.3.1 抽样误差

在美国大选开票日,假设美国广播公司和《华盛顿邮报》按照完全相同的抽样方案,组织实施多次民意调查,每次得到的预测结果也可能不尽相同。因为统计调查的随机性决定了不同的样本会产生不同的数据,从而很难期望某一个特定的样本估计结果能够恰好与总体的真实情况完全一致,这就是抽样误差(sampling error)。显然,只要采用抽样调查,抽样误差就不可避免,它并不是一个“错误”的误差。

抽样误差的大小依赖于抽样的方式和样本量的大小。前文所介绍的随机抽样方法,首先从理论上保证了虽然无法消除抽样误差,但可以依据一定的公式推算出抽样误差的大小并对其加以控制。在其他条件相同的情况下,样本量越大,抽样误差越小。抽样误差与样本量的平方根大致呈反比关系,如图2-3所示。因此,人们可以通过改变样本量来控制一定抽样方案下的抽样误差。图2-3 抽样误差与样本量的关系

一个理想的抽样调查方案在公布任何一次抽样结果时都应计算并说明抽样误差的大小,以此告诉调查数据的使用者,此次调查样本的结果与总体的实际结果之间可能存在多大的差异。2.3.2 未响应误差

在实践中,即使按照合理的方法设计了统计调查方案,将抽样误差事先控制在可接受的范围内,但出于各种原因,仍然无法获得每一个被选入样本的总体单元的数据,而这部分数据的缺失所造成的样本估计结果与总体真实情况之间的偏差就是未响应误差(nonre-sponse error)。此类问题主要发生在调查对象是人的情况下。

通俗地讲,在任何一个对人进行调查访问的过程中,都或多或少地存在着受访者没有回答或拒绝回答问题的情况。例如,街头拦截式的随机调查,有些路人愿意配合回答问题,有些路人则可能因为时间紧张或其他原因拒绝接受访问;随机拨打号码的电话调查,可能因为拨打电话的时段户主经常不在家而造成无人接听的情况;网络购物平台通过电子邮件调查用户的消费体验,也可能被个别用户自动设置为垃圾邮件不予回应等。

近年来,随着各种统计调查的“泛滥”,尤其是频繁出现以调查作为伪装来推销产品或服务,导致拒绝参与任何形式调查的人群的比例呈现上升趋势。因此,如何尽量保证一个高的响应率是研究者们在收集数据的过程中必须考虑的另一个关键问题。而在获得数据之后,对于未响应误差的分析同样至关重要。

经验表明,如果在最初选中的抽样对象中,未响应者占到的比例并不高,例如,只有20%甚至更低,那么在大多数情况下,只要抽样方案合理,最终的样本量足够大,就可以在一定程度上假定未响应者和响应者并无太大差别,响应者的回答足以代表其他未响应者。但是,如果响应率很低,例如不超过50%,那么此时的未响应误差可能会较为显著,影响到样本的代表性,需要谨慎使用。有研究人员指出,美国总统选举调查中较低的响应率是加大预测偏差的重要因素之一,因为在拒绝回答问题的受访者之中,可能存在大量“隐形”的特朗普的支持者,这些人对宣称是特朗普的支持者感到羞耻,所以没有接受调查,最终导致严重的未响应误差。

显然,造成受访者未响应的原因有很多,包括由于对调查不感兴趣或对调查人员不够信任等主观原因造成的拒访,也包括由于时间冲突、身体状况不佳等客观原因造成的无法接受调查等。因此,一方面可以通过一些预防性的措施有针对性地提高响应率,例如,加强问卷设计的趣味性和奖励力度,挑选合适的调查人员和调查时间,条件允许下对未响应者进行再调查等;另一方面,分析未响应者的基本特征,尽可能降低随机因素之外的其他因素可能带来的响应者与未响应者之间的差别,将未响应误差控制在可接受的范围内;最后,必要时还应对存在未响应的数据进行调整,达到纠偏、校正的补救效果。2.3.3 响应误差

调查过程中回答了问题的受访者所提供的答案是人们最终进行决策的主要数据来源,因此,如果受访者的回答与真实情况并不吻合,就会直接导致样本数据估计结果与总体真实情况之间的偏差,这就是响应误差(response error)。引起响应误差的因素同样十分广泛。

1. 调查问卷设计不周可能带来的误差

例如,调查中问题的措辞是否容易引起人们的困惑,用词不准确、不恰当造成受访者的不理解甚至误解;问题设置的答案是否能够涵盖受访者所有可能的选择,是否会对本没有观点的受访者产生人为的引导作用;问题数量过多使得受访者厌烦,对设置靠后的问题不再认真回答等。

2. 受访者自身因素可能带来的误差

即使问卷设计科学合理,受访者本人也可能因为各种主客观原因没有提供真实的答案。这包括由于对调查内容记忆不清而造成的无意识误差,也包括对一些敏感问题往往存在倾向性回答而造成的有意识误差。例如,受访者被问到自己的学历、职务职称时可能有高报倾向,而被问及收入时则可能有低报倾向。

3. 调查人员自身因素可能带来的误差

在大多数情况下,调查都是人与人之间交流沟通的过程。调查人员的年龄、性别、身份、受教育程度等都可能对受访者的回答产生影响,如果在调查过程中,调查人员把自己的思想、观点、看法等与受访者进行交流,还可能对受访者的回答产生诱导作用。因此,针对调查内容和调查对象的不同,安排合适的调查人员,不仅可以在一定程度上提高响应率,还可以通过恰当的交流降低因为前两个方面的因素可能带来的响应误差。小结

在实践中,人们可以通过直接进行调查或实验收集“一手数据”,也可以利用他人调查或实验的结果整理得到“二手数据”。多数情况下,数据都是从总体当中抽取得到的样本数据。如果能够使总体中的每个个体都有一个已知的机会(概率)被选中,那么依据这样的抽样方法得到的样本就是一个随机样本。基于随机样本数据得到的统计分析结果是能够被推广应用于其所属总体的、有较好代表性的统计结果。简单随机抽样、分层抽样、整群抽样和系统抽样是获得随机样本的几种常见的概率抽样方法,有各自的优缺点和适用情形。收集数据时,抽样的随机性决定了抽样误差是不可避免的,但由于部分受访者没有回答问题所可能产生的未响应误差以及接受调查的受访者没有提供真实答案所可能造成的响应误差则是应该尽力控制和消除的。本章框架重要概念

• 统计调查(statistical survey):根据研究的目的和要求,采用科学的方法,有组织、有计划地收集数据信息资料的过程。

• 随机样本(random sample):按照总体中每个个体都有一个已知的机会(概率)被选中的原则抽取得到的样本。

• 简单随机抽样(simple random sampling):从包含N个单元的总体中随机地抽取n个单元组成最后的样本,并且总体中每个单元被抽中的概率是相等的。

• 分层抽样(stratified sampling):在抽样之前先将总体单元按照某种特征或某种规则划分成不同的层,然后从不同的层中独立、随机地抽取一定数量的单元组成样本。

• 整群抽样(cluster sampling):在抽样之前先按照某种规则将总体单元划分为不同的群,然后随机抽取部分群,被抽中的群中所有的单元都入选到样本中,没有被抽中的群则不做调查。

• 系统抽样(systematic sampling):将总体中的所有单元按照一定的顺序排列,在规定的范围内随机抽取一个单元作为起点,然后按照事先确定的规则依次抽取其他的单元,直至达到样本量的要求。

• 抽样误差(sampling error):统计调查的随机性决定的一个特定样本估计结果与总体的真实情况之间存在的偏差。

• 未响应误差(nonresponse error):统计调查过程中没有提供数据的个体所造成的样本估计结果与总体真实情况之间的偏差。

• 响应误差(response error):统计调查过程中受访者的回答与

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载