统计学原理(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-13 23:31:44

点击下载

作者:韩兆洲,熊剑

出版社:暨南大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

统计学原理

统计学原理试读:

前言

成人教育的对象是边工作边学习的在岗职工。他们一方面具有丰富的实践经验和较强的自学能力;另一方面苦于工作压力,时间有限,普遍存在着“工学”矛盾。为了解决成人教育教材“普教化”和成教学生工与学的矛盾,本着提高会计类成人教育教材质量的总目标,暨南大学会计学系、暨南大学教育学院、暨南大学出版社共同筹划编写了“暨南大学成人教育会计本科系列教材”。《统计学原理》是一本专门针对成人高等教育而编写的教材。该书根据成人教育的特点设计和编写,理论联系实际,具有通俗性、趣味性、实用性和前沿性等特点。该书由《统计学原理》教科书、《〈统计学原理〉学习指导》参考书和《统计学原理》PPT三部分组成,其中后两部分制成光盘,挂在暨南大学网站“统计学原理”精品课程中,网址为http://jpkc.jnu.edu.cn/tjx/ziyuan/zy.htm,供读者选择使用。《统计学原理》是一本适合成人高等教育会计本科使用的教材。该书根据成人高等教育专升本的要求而编写,设计独特,内容分上、中、下三编,学员可以根据不同要求重点选用。上编“基础统计”属于专科层次,可用于复习,温故而知新;中编“推断统计”属于专升本层次,是成人教育会计本科的学习重点;下编“应用统计”属于应用层次,教师可酌情选讲,学员可自学提高,以增强实际应用能力。

本书由韩兆洲教授、熊剑教授担任主编。全书共分13章,各章的执笔者分别是:韩兆洲(第一章、第六章、第八章、第十一章部分、第十二章部分、第十三章,其余各章的Excel部分)、陈光慧(第二章)、熊剑(第三章、第七章、第九章)、陈思玲(第四章)、伍业锋(第五章、第十章)、林少萍(第十一章部分)、黎中彦(第十一章部分、第十二章部分)。

本书在编写过程中参考了国内统计学诸多优秀教材,并吸纳了国外统计学最新研究成果。由于编者水平有限,本书不足之处在所难免,敬请同行专家和广大读者批评指正。编者2012年10月

总序

会计作为经济信息系统的重要组成部分和一种国际商业语言,将会计主体的财务信息真实、完整、及时地传递给外部财务信息使用者和内部财务信息使用者,并满足这些财务信息使用者决策的需要,其对政府、投资者、债权人、管理者来说是非常重要的。近年来,我国资本市场的诞生、规范和发展,彻底改变了我国企业传统的财务管理理念与方法,企业的投融资管理面临新的环境、方式和方法。财务与会计执业者所面临的各种外部环境(包括经济、政治、法律、文化环境等)发生了深刻变化,在经济全球化和管理信息复杂化的时代,会计人才不仅应具有较系统、完备的有关我国会计与公司理财等方面的知识和技能,而且还必须具备国际视野,全面掌握国际会计准则,懂得国外主要经济体的相关会计法规、国际资本市场运行规律和其他相关知识与技能。在这种背景下,为了满足会计人员不断学习、及时更新知识的需要,暨南大学会计学系、暨南大学教育学院、暨南大学出版社共同筹划了《暨南大学成人教育会计本科系列教材》,邀请暨南大学会计学系在各个学科具有丰富教学经验、有影响力的专家组成教材编写委员会,组织编写该系列教材,力求推出一套“理论与实务并重,本土化与国际化相融合,能够反映当前学科发展前沿水平,符合成人教育会计学本科特点的精品系列教材”。“理论与实务并重”就是要针对会计学是实务性很强的经济管理科学这一特点,研究各成教会计教材所涉及的相关理论、方法及其应用,分析每一本教材的特点、难易程度和导读规律,既要讲清楚理论概念,又要设计必要的实例,通过案例教学,培养学生的实操能力。“本土化与国际化相融合”就是要针对会计准则国际趋同化与财务管理国际市场化等趋势,在教材中充分借鉴国际标准、国外知名企业的先进管理理念和方法,并充分体现中国会计的特色和经验,力争做到本土化与国际化的有机结合。“能够反映当前学科发展前沿水平”是指本系列教材应该在继承现有教材的优点和特色的基础上,吸收当前相关理论和实务操作的最新研究成果和发展动态,补充和修改相关教材体系与内容,其目的是使教材能够更好地适应新的环境变化,满足学生获取更多知识、增强其专业技能的要求。

成人教育会计本科系列教材建设是一项长期且十分艰巨的任务,多年来我们为此作了不懈努力。我国经济发展与改革日新月异,环境变化多样且复杂,相关理论和实务操作的研究成果不断涌现,由于我们的水平有限,本系列教材不周之处在所难免,恳请读者批评指正。暨南大学成人教育会计本科系列教材编审委员会2011年3月

上编 基础统计

第一章 绪论

第一节 统计的含义、作用和任务

一、什么是统计

在我们的日常生活中经常会接触到“统计”这一术语,例如,要了解一个国家的社会经济情况,我们往往会问,这个国家面积多大?人口多少?人均GDP多少?要了解股市的涨跌情况,我们往往会问,每天涨跌的股票价格指数是如何编制的?单个股票的涨跌百分比是如何编制的?我们都看过电视节目,某个电视节目的收视率是如何统计的?这些都涉及统计方面的知识。

但是,“统计”这一术语在不同的场合有不同的用法。例如,企业每年产量和产值的“统计”,某个电视节目收视率的“统计”,股票价格指数的编制等,这是将其作为一项统计工作来看待;我们要了解一个国家或地区的面积、人口和人均GDP,这时就需要统计资料;而我们所说的“我们正在学习统计”,则是指一门学科,即统计科学。

所谓统计,是人们认识客观世界总体数量变动关系和变动规律的活动总称。它包含统计工作、统计资料和统计科学三个方面的含义。(一)统计工作

统计工作是指关于采集、整理、分析和预测社会经济现象和自然现象总体数量方面统计资料的活动过程。例如,企业统计产量和产值的工作过程。(二)统计资料

统计资料是指通过统计工作所获得的反映客观现象的各项数据资料以及与之相关的其他资料的总称。统计资料具体表现为各种统计图、统计表、统计公报、统计年鉴、统计手册以及统计分析报告等。(三)统计科学

统计科学是指采集、整理、分析社会经济现象和自然现象总体数量方面统计资料的方法论科学。简言之,它是指采集、整理、分析数据的科学。例如,我们手中的统计学教材。

统计工作、统计资料和统计科学三者之间是相辅相成、辩证统一的关系。统计资料是统计工作的成果,统计科学是统计工作的实践经验总结和理论概括,同时反过来指导统计工作的实践,为统计工作提供科学的理论和方法。因此,统计工作和统计资料之间是统计实践活动与统计成果的关系,统计科学和统计工作之间是理论与实践的关系。二、统计的特点和作用(一)统计的特点

统计作为人们认识客观世界总体数量变动关系和变动规律的活动的总称,具有如下特点:

1. 数量性

统计最基本的特点就是以数字为语言,用数字说话。具体地说,它是用规模、水平、速度、结构和比例关系去描述和分析客观事物的数量表现、数量关系和数量变化,揭示事物的本质,反映事物发展的规律,推断事物发展的前景。

2. 具体性

统计所研究的量不是抽象的量,而是与客观事物的具体内容相联系的量,是体现事物相互关系和发展变化的量,具有明显的时空和事物属性的特点。

3. 综合性

统计是通过对大量事物进行观察研究,或对一个事物的变化作多次观察研究,得出反映现象总体的数量特征,或反映出事物的必然性结论,具有综合性的特点。(二)统计的作用

1. 统计是认识世界的有力武器(1)人们通过统计研究事物的量及其变化,去认识事物的质和事物发展的规律。任何事物都是质与量的对立统一,任何量都依存于一定的质,离开质就无所谓量,也无从核算量。在社会经济和自然现象中,不与某种质相联系的量是毫无意义的,事实上也是不存在的。所以,人们通过统计研究事物的量及其变化,去认识事物的质和事物发展的规律,或者密切联系事物的质去研究事物的量。(2)统计最基本的特点是以数字为语言,用数字说话,即用数字反映事物在具体时间、地点条件下的数量表现、数量关系和数量变化,用数字反映事物的规模、水平、速度、结构和比例关系。

正因为客观事物是质和量的对立统一,而统计最基本的特点又是用数字说话,这就使得统计有可能通过研究事物的量去认识事物的质,掌握事物发展的规律,预测事物发展的前景,指导人们正确地进行各种实践活动,以期获得最佳的社会经济效益。所以,统计就成为人们认识世界的有力武器。

2. 统计是治国和管理的重要手段

人们认识世界的目的在于能动地改造世界。统计既然是人们认识世界的有力武器,必然成为人们治国、管理、改革社会的重要手段。从历史的角度考察,实际上统计也是随着人类社会经济活动的发展,以及治国和管理的需要而产生和发展起来的。现在大至国际政治经济形势的分析,国家的决策、施政和管理,小至企业的业务经营和班组核算,从宏观到微观,统计已是无处不在、须臾不可离的。

3. 统计是科学研究的有效工具

统计作为认识世界的有力武器,不仅是治国和管理的重要手段,而且必然成为科学研究的有效工具。任何科学研究都是一个认识过程。要在这个过程中有所发现、有所发明、有所创造、有所前进,使我们从某个必然王国走向自由王国,就必须运用一切可能运用的认识武器,统计正是这些认识武器中最有力的武器之一。通过它,我们可以反映事物的现状,揭示事物的内部构成,研究事物之间的相互关系,掌握事物运动的规律,比较事物的优劣,挖掘事物发展的潜力,预测事物发展的前景。因此,梁启超把统计誉为“百学之钥”。

著名学者马寅初先生曾精辟地概括了统计的作用,他认为:“人类社会,日臻繁复,耳目有所未周,则不能无赖于统计焉。盖个人动作,在与社会有关,倘于社会事实,未尽了了,则闭门造车,难期合辙。自然界现象,变化万端,亦非一二人力所能穷,则综合统计又为必要。是故学者不能离统计而研学,政治家不能离统计而施政,事业家不能离统计而执业也。”三、统计的基本任务《中华人民共和国统计法》(2010年1月1日起施行)第一章第二条规定:“统计的基本任务是对经济社会发展情况进行统计调查、统计分析,提供统计资料和统计咨询意见,实行统计监督。”这可概括为两个方面:通过统计调查和统计分析,提供统计资料,为各级领导从事决策、施政和管理服务;同时运用这些资料,对经济社会发展情况实行统计监督,及时揭露各种矛盾,以便采取措施解决这些矛盾,促进经营管理的改善,保证社会经济稳定协调发展。简言之,统计的基本任务就是统计服务和统计监督。

统计服务和统计监督是相辅相成、辩证统一的关系。过去有人只重视服务、强调服务,而忽视监督、反对监督,甚至为了一时一地的局部利益而要求统计机关和统计人员弄虚作假,或报喜不报忧,或报忧不报喜,数字以局部利益或领导者的个人利益为转移。这是十分荒谬、十分错误的违法行为。

关于统计监督之重要意义,1979年4月4日《人民日报》社论《充分发挥统计监督作用》作了精辟的论述:“在社会主义国家,监督的手段很多,财政、银行、工会、党的纪律检查委员会、人民检察院都是。但在所有这些监督的手段中,统计监督具有十分重要的意义。统计是用数字语言来表述事实的。统计所提供的准确的数字,成为各种监督手段的重要依据。如果说全部国民经济机构是一整架不断运转的大机器,那么,统计是起着‘仪表’的作用。这架大机器的运转是否正常,是否发生故障,可以从统计这个‘仪表’中全面地、准确地、及时地反映出来。”如果统计成了只能报喜不能报忧的“仪表”,它怎能为整个国民经济这架大机器的正常运转提供优质服务呢?一个不管机器是否发生故障和发生多大故障都只会发出“绿色信号”的“仪表”,除了最终导致“机毁人亡”的严重恶果之外,还能发挥什么样的作用呢?可见,监督是服务的必要条件,监督是为了更好地服务。

第二节 统计学的研究对象、方法和阶段

一、统计学的研究对象

统计学的研究对象是指统计研究所要认识的客体,它决定着统计科学的研究领域以及相应的研究方法。一般来说,统计学的研究对象是客观事物的总体数量特征和数量关系,以反映其发展过程及规律性。

上述以客观事物的总体数量特征和数量关系作为研究对象,这是针对统计工作来说的。任何一个部门的统计工作,都以与它相关的客观事物的数量方面作为自己的研究对象,通过调查、整理、分析,以数字为语言,用规模、水平、速度、结构和比例,去反映一定时间、地点条件下客观事物的数量表现、数量关系和数量变化,以达到认识事物的性质、掌握事物运动的规律和指导人们的社会实践的目的,发挥统计的整体功能。二、大数定理的方法论意义

统计学所研究的对象,无论是自然现象还是社会现象,它们的出现都要受到许多因素的影响,既有必然的因素,也有偶然的因素,这些因素对个别单位所起的作用,在程度大小、变化快慢、发展趋势上可能表现不同,这就使得同一现象在每个单位的数量表现上具有随机性。统计研究就是对这些随机现象通过大量观察法对总体中所有单位或足够多的单位进行调查,并运用综合指标法对各单位变量加以综合,所得到的平均结果可以消除偶然性,反映出现象的必然性。这就是大数定理使我们通过偶然性达到发现必然性,认识现象规律的表现形式。

所谓大数定理,是指大量随机变量的平均结果具有稳定性的一系列定理的总称,也称大数定律或大数法则。大数定理是统计学研究方法运用的数学依据。由于大数定理的作用,大量随机现象的总体作用必然导致某种不依赖于个别随机现象的结果,呈现出事物发展变化的规律性。大数定理对于认识现象规律性的方法论意义可以归纳如下:(1)大量性。现象的某种总体规律只有当具有这些现象的足够多数的单位汇总综合在一起的时候,才能显示出来。因此只有从大量现象的总体中,才能研究出这些现象的规律性。(2)代表性。现象的总体规律,通常是以平均数的形式表现出来。所研究现象总体包含的单位越多,平均数也就越能够正确地反映这些现象的规律性。(3)稳定性。各单位的共同倾向(这些表现为主要的、基本的因素)决定着平均数的水平,而单位对平均数的离差(这些表现为次要的、偶然的因素)则由于足够多的单位汇总综合的结果,其离差相互抵消,代表性趋于稳定。三、统计学的研究方法

统计学的基本研究方法有大量观察法、统计分组法、统计指标法、统计模型法、统计推断法等。(一)大量观察法

大量观察法是指统计研究客观现象和过程的规律,是从总体上加以考察,对总体中的全部或足够多的单位进行调查并进行综合分析的方法。大量观察法的理论依据是大数定理。个别事物的表现往往具有随机性,要反映总体的本质和规律,不能用个别事物、个别单位的特征和数量表现来说明,只能对总体中全部或足以表现现象总体特征的部分单位进行调查、观察,通过综合平均,个别事物的偶然因素的影响会互相抵消,呈现出事物的本质特征,进而认识其规律性。例如,仅抛一枚硬币,可能出现正面,也可能出现反面的结果;如果抛硬币24000次(参见皮尔逊试验),出现正面的频率将稳定在0.50。(二)统计分组法

统计分组法是指根据统计研究目的和研究对象的特点,将总体各单位按照某一标志划分为不同性质的类型或组别的研究方法。通过分组,可以将总体中性质相同的单位归并在一起,保持组内各单位的同质性;将性质不同的单位分开,显示组与组之间的差异性,从而研究总体中不同类型现象的性质以及它们的分布情况。例如,三次产业的分组等。

事物是相互联系的,不同的事物之间都会在一定的环境中以一定的条件相互关联,这种联系是构成各种各样的统计总体的前提。但不同的事物之间,在产生的原因、存在的条件、表现的形式、运动的规律、发展的前景等方面又是千差万别的。正是这些区别,使统计分组有了客观依据,并成为统计研究的科学基础和基本方法。没有科学的统计分组,便没有科学的统计。(三)统计指标法

统计指标法是指运用统计指标来描述和研究总体的数量状况,以得到事物数量特征的本质或规律性的认识方法,包括总量指标法、相对指标法、平均指标法、动态指标法、统计指数法等。统计指标法与统计分组法两者相互联系并贯穿于整个统计工作,通过统计分组而形成统计指标,反映总体内部的数量差异和数量关系,以及总体之间的联系和区别。例如,研究某地某年工业企业的生产经营状况,可以先将工业企业按所有制分组,然后运用统计指标法对各组工业企业人均产值、人均利润额、资金利用率等多个指标进行对比分析,在现象的相互联系中认识这些被研究事物的数量特征。(四)统计模型法

统计模型法是指根据一定的经济理论和假设条件,用数学方法去模拟现实客观现象之间相互关系的一种研究方法。利用这种方法可以对客观现象和过程中存在的关系在定性分析的基础上,定量地进行比较完整的近似描述,凸现所研究指标之间的数量关系。例如,回归分析法模拟变量之间的数量关系,所建立的回归方程就是统计数学模型。统计模型法除了用数学方程式反映指标之间的数量关系外,有时还可以根据统计指标之间的逻辑关系构建框架式的逻辑模型。例如,国民经济指标体系就是表达经济现象之间关系的统计逻辑模型。(五)统计推断法

统计推断法是指以一定的置信标准要求,根据随机抽取的样本数据来判断总体数量特征的归纳推理方法。其具体方法有参数估计法、假设检验法等。如要说明一批灯泡的平均使用寿命,就从该批灯泡中随机抽取一部分进行质量检验,以推断该批灯泡平均使用寿命的区间范围。四、统计学的研究阶段

统计研究是通过统计设计、统计调查、统计整理以及统计分析等几个阶段来完成的,每个阶段虽然有其各自的独立性,但它们又是相辅相成的统一过程。(一)统计设计

统计设计是指在正式进行具体统计工作之前,根据统计研究对象的性质和研究目的,对统计工作各个方面和环节的通盘规划和安排。统计设计的结果表现为各种设计方案。例如,统计调查方案、统计资料汇总或整理方案、统计分析提纲,以及统计指标体系设计等。统计设计是统计工作的第一阶段,它是整个统计工作协调、有序、顺利进行的必要条件,是保证统计工作质量的重要前提。(二)统计调查

统计调查又称统计数据的采集,是根据统计研究的任务和统计设计规定的调查方案的要求,运用科学的调查方法有组织、有计划地采集统计资料的过程。统计调查是认识事物的起点,这个阶段所采集的资料是否完整、准确、及时,直接影响到统计整理的好坏,影响到统计分析的结果正确与否,决定着统计工作的质量,因此,它是整个统计工作的基础。(三)统计整理

统计整理是指根据统计研究的目的,将统计调查所得的资料进行科学的分组、汇总、列表的加工处理过程。统计整理使分散的、不系统的原始资料条理化、系统化,从而说明现象总体的特征,为统计分析奠定基础。统计整理处于统计工作的中间环节,起着承前启后的作用。(四)统计分析

统计分析是根据统计研究的目的,综合运用各种分析方法和统计指标,对加工整理后的资料和具体情况进行定性和定量的分析,并对未来进行趋势预测。统计分析是统计工作的最后阶段,能揭示现象本质和得到发展变化规律的结论,是统计工作获取成果的阶段。

第三节 统计学的若干基本概念

在统计工作和统计科学中,我们常常会接触到一些基本概念。这些基本概念是我们从事统计工作和学习统计科学时必须掌握的基本知识。一、总体与总体单位(一)总体与总体单位的概念

总体是指在某种共性的基础上由许多个别事物结合起来的整体。构成总体的个别事物叫总体单位。总体和总体单位都是客观存在的事物,是统计研究的客体。例如,在工业普查中,“工业企业”就是一个总体,它是由所有从事工业生产活动的企业所组成的,其中的每一个工业企业就是一个总体单位,“从事工业生产活动”就是所有工业企业都具有的共性。

在统计工作中,确定总体是为了确定调查研究的对象和调查研究的范围,确定总体单位则是确定调查登记项目的承担者。在工业普查中,工业企业是总体,一切非工业企业就不属于我们调查研究的范围。工业企业的经济类型、行业性质、职工人数、资金总额、产值等等,都是工业普查中需要调查登记的项目,作为总体单位的每一个工业企业,就是这些调查登记项目的承担者。

总体和总体单位是根据统计研究的目的来确定的,随着统计研究目的的变化,总体和总体单位也会发生变化。例如,一个工厂、一所大学,既可以是某种调查研究中的总体单位,也可以是另一种调查研究中的总体。(二)总体的特征(1)同质性,即构成总体的各个单位必须具有某一方面的共性,这个共性是我们确定总体范围的标准。(2)大量性,即总体是由许多单位组成的,而不是只有个别单位。(3)差异性,即总体各单位之间,除必须在某一方面具有共性之外,在其他方面(如工业普查中,企业的经济类型、行业性质、职工人数、资金总额、工业增加值等)必然存在差异。这些差异是统计研究的基础,如果总体各单位之间不存在任何差异,统计研究就会成为多余的东西,即没有差异,就没有统计。(三)总体的分类

总体可分为有限总体和无限总体。凡总体单位数有限而可以计数的总体叫有限总体,对有限总体可以进行全面调查,也可以进行非全面调查。凡总体单位数无限而不可计数的总体叫无限总体,对无限总体只能进行非全面调查。二、标志、变异和变量(一)标志的概念

标志是指说明总体单位特征的名称。例如,作为总体单位,每个工业企业的经济类型、行业性质、职工人数、资金总额、产值、利润总额等,就是标志。(二)标志的分类(1)标志按数字和文字表示分类,可分为数量标志和品质标志。数量标志是指说明总体单位数量特征的标志。数量标志需要用数字来回答问题,例如,职工人数、资金总额、产值、利润总额等。品质标志是指说明总体单位属性特征的标志。品质标志只能用文字回答问题,例如企业的经济类型、行业性质等。(2)标志按其属性是否变动分类,可分为不变标志和可变标志。不变标志是指所有总体单位具有共同特征的标志。不变标志是构成总体的必要条件和确定总体范围的标准。例如,在工业企业普查中,工业企业就是不变标志。可变标志是指在总体各单位之间必然存在差异的标志。例如,工业企业的经济类型,有国有、集体、私营、合营等差异。(三)变异的概念

变异是指可变标志在总体各单位之间所表现出来的差异。例如,工业企业有经济类型的差异,有规模大小的差异等。同质是构成总体的条件,变异是统计研究的基础。(四)变量的概念

可变标志中既有品质标志也有数量标志,其中,可变的数量标志就叫变量。例如,工业普查中,工业企业的职工人数、资金总额、工业增加值、利润总额等,都是变量。变量的具体数值叫变量值。凡变量值只能以整数出现的变量,叫离散变量;凡变量值可作无限分割的变量,叫连续变量。例如,一个地区的人口数、工厂数、学校数,一个工厂的职工人数、机器台数等,都只能有整数而不可能带小数,这些就是离散变量。但人的年龄、身高、体重,工厂的产值、利润等却是可以带小数而且其数值是可以无限分割的,在两个数字之间还可以有连续不断变化的其他数字,这种变量就是连续变量。不过,在某些特殊场合,连续变量亦可作离散化处理。例如,人口按年龄所作的基础分组时,可分为0、1、2、3岁……但其含义是明确的:“0”表示不满1岁,“1”表示满1岁而不满2岁,其余类推。只要约定俗成,众所周知,或事先明确规定而不致发生错漏,连续变量离散化处理的方法,亦可在其他场合使用。三、统计指标和指标体系(一)统计指标

1. 统计指标的概念

统计指标是说明总体数量特征的概念。例如,在工业普查中,所有工业企业构成总体,工业企业总数、工业职工总数、工资总额、平均工资、固定资产总值、利润总额等,就是统计指标,它们都从不同的方面反映总体的数量特征。

2. 统计指标和标志的区别与联系(1)两者的区别。统计指标和标志是不同的,不能混为一谈。两者的区别有二:第一,统计指标说明总体的特征,而标志则说明总体单位的特征。第二,统计指标只反映总体的数量特征,所有统计指标都要用数字来回答问题,没有用文字回答问题的统计指标;而标志既有反映总体单位数量特征的,也有反映总体单位品质特征的,只有数量标志才用数字回答问题,品质标志则用文字回答问题。(2)两者的联系。统计指标和标志也存在着联系。主要表现为许多统计指标的数值都是由总体各单位的数量标志的标志值汇总而得到的。例如,工业职工总数由各工业企业的职工人数汇总而得,资金总额由各工业企业的资金占用额汇总而得。品质标志虽然本身不具有数值,但有些统计指标是按品质标志分组计算出来的。例如,工业企业总数中,国有、集体、私营和合营的各有多少;职工总数中男、女职工各有多少,等等。

此外,由于总体和总体单位可随统计研究的目的而易位,故统计指标和数量标志在一定的条件下亦可变动。例如,某市工业局评选先进企业,该市所有的工业企业是总体,每个工业企业是总体单位,相应地,该市所有的工业企业的工业总产值是统计指标,每个工业企业的工业总产值是数量标志。再如,某工业企业评选先进车间,该工业企业所有车间是总体,每个车间是总体单位,相应地,该工业企业的工业总产值是统计指标,每个车间的工业总产值是数量标志。(二)指标体系

1. 指标体系的概念

指标体系是指以共同的研究目的为纽带而相互联系的一系列统计指标。在统计研究中,任何一个统计指标都只能反映总体某一方面的数量特征。为了全面系统地认识一个总体,就需要同时使用许多指标。例如,为了全面反映外贸商品流转的情况,我们就需要出口商品的收购、出口、进口、库存等指标,进出口还要按贸易方式、商品类别、国别等标志分组,从而形成一系列统计指标,以全面系统地反映外贸商品流转的情况。

2. 指标体系的设计原则(1)能满足统计研究目的和要求。指标体系的设计必须从统计研究的需要出发,使各项指标能满足研究目的和要求。(2)要贯彻少而精的原则。指标体系的设计要贯彻少而精的原则,一切可要可不要的统计指标,都应当坚决不要。(3)把需要与可能结合起来。指标体系的设计,还应当把需要与可能结合起来,虽然需要但难于甚至不可能取得资料的指标,宁可不要。

思考题

1. 什么叫统计?统计有哪几种含义?

2. 统计有哪些特点?最基本的特点是什么?

3. 统计在社会生活中有何作用?为什么说统计是认识世界的有力武器?

4. 统计的基本任务是什么?怎样理解服务与监督的关系?

5. 统计学的研究对象是什么?

6. 什么是大数定理?其方法论意义有哪些?

7. 统计学研究的基本方法有哪些?

8. 统计学的研究阶段有哪些?

9. 什么叫总体和总体单位?总体有哪些特征?什么是有限总体?什么是无限总体?

10. 什么是标志?标志有哪些分类?

11. 什么是变异?什么是变量?

12. 什么是连续变量?什么是离散变量?两者有何区别?

13. 什么叫统计指标?统计指标和标志有什么区别和联系?

14. 什么叫指标体系?设计指标体系时应注意哪些问题?

第二章 统计数据的采集

统计学按研究阶段的不同,可以分为统计设计、统计调查、统计整理以及统计分析四个阶段。统计设计是指在正式进行具体统计工作之前,根据统计研究对象的性质和研究目的,对统计工作各个方面和环节的通盘规划和安排。每个阶段虽然有其各自的独立性,但它们又是相辅相成的统一过程。统计设计是统计工作的第一阶段,它是整个统计工作协调、有序、顺利进行的必要条件,是保证统计工作质量的重要前提。本书将统计设计的理念渗透到其余的三个阶段之中,为节省篇幅不作专章论述。本章主要论述统计调查。

第一节 统计调查的概述与种类

一、统计调查的概述

在21世纪,我们面对的是一个充满各种信息的社会。如何在纷繁复杂的社会活动中及时、准确地采集有用的信息是社会科学工作者面临的头等大事。统计调查又称统计数据的采集,是根据统计研究的任务和统计设计规定的调查方案的要求,运用科学的调查方法有组织、有计划地采集统计资料的过程。统计调查是认识事物的起点,这个阶段所采集的数据资料是否完整、准确、及时,直接影响到统计整理的好坏,影响到统计分析的结果正确与否,决定着统计工作的质量。因此,它是整个统计工作的基础。

统计调查的方法有多种,我国于1996年和2009年新修订的《统计法》都明确规定:“搜集、整理统计资料,应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料。”面对各类复杂的调查对象,统计调查已广泛应用于社会、经济、科技、自然等各个领域,成为采集统计数据的重要手段。近年来,随着我国社会主义市场经济体制的逐步确立,以及加入国际货币基金组织数据公布通用系统(GDDS),我国政府及国内外社会各界对各类统计调查数据质量的要求也在逐步提高。因此,研究各类统计调查方法,提高数据采集的效率和水平,改进统计调查数据质量已成为新时期统计专业领域受关注的焦点问题。二、统计调查的种类

1. 按调查对象包括的范围不同,可分为全面调查和非全面调查

全面调查是对总体中所有的总体单位逐一进行登记调查的一种调查方式。例如,为了研究某地区工业企业的生产经营情况,就要对该地区内工业企业总体中所包含的所有工业企业,即每一家工业企业逐一进行登记调查,这就是全面调查。普查、全面统计报表均属于全面调查。

非全面调查是对总体中的一部分总体单位进行登记调查的一种调查方式。重点调查、典型调查和随机抽样调查等都属于该类调查。

2. 按登记调查的时间是否连续,可分为一次性调查和经常性调查

一次性调查是间隔相当长一段时间(一般是一年以上)才对调查单位进行不连续的一次性登记调查,主要是搜集现象在一定时点上的数据资料,反映事物在一定时点上的状态。一次性调查可以是定期进行的,如我国每10年开展一次的人口普查,也可以是不定期进行或者是临时组织开展的,如现期猪肉价格上涨,国务院要求各地开展生猪供给情况的一次性调查,这便是临时组织开展,不定期进行的一次性调查。

经常性调查是根据调查对象的发展和变化,连续不断地进行登记调查的一种调查方式,调查间隔一般是一年以内,常见的是一个月或者一个季度开展一次。比如,我国对城镇住户、农村住户、规模以下工业企业等调查对象每月均开展调查,连续不断地进行经常性登记,掌握事物的系统变化规律,这些均属于经常性调查。

3. 按调查的组织方式不同,可分为统计报表和专门调查

统计报表是按照统计规定的表示要求,自上而下统一布置,自下而上逐级提供资料的调查方式。目前,我国很多调查项目都使用统计报表的调查方式,如农林牧渔业统计报表、工业统计报表、建筑业统计报表、运输邮电业统计报表、批发零售贸易和餐饮业统计报表等。另外,还对报表名称、报告单位、指标体系、统计目录、报送程序、报送时间和计算方法等事项均作出明确规定。

专门调查是为了研究某些专门问题而专门组织的调查。社会经济形势往往在不断变化,不断产生新的情况和新的问题,规范的统计报表制度往往很难及时包括这些新情况、新问题,这就需要国家及时开展有针对性的专门调查。专门调查灵活多样,适应性强,可采用普查、抽样调查、重点调查和典型调查等多种形式。

第二节 统计调查方案的设计

在开始一项统计调查之前,调查组织者必须设计一套完整的统计调查方案,这也是影响统计调查全局的重要阶段。统计调查方案是整个调查工作的指导纲领和总体思路,必须认真对待,精心设计。在调查方案中,必须明确调查的主题和目的、调查对象、调查单位、报告单位、调查项目和调查表、调查的时间和地点、调查的方式和方法,以及其他组织安排等问题,逐一加以明确规定,还需要对统计调查的各个方面进行统一协调和总体考虑。

一项完整的统计调查方案,主要包括如下几方面内容。一、统计调查的主题和目的

明确统计调查的主题和目的是设计调查方案的关键所在,是一项统计调查的灵魂,只有明确了主题,确定了目的,才能弄清楚要搜集哪些资料,要解决哪些问题,要达到什么要求,以及进一步确定调查的范围、内容和方法以满足统计分析研究的需要。

例如,我国城市住户调查对调查目的就规定得十分明确,即了解城市居民家庭人口、就业、收入、消费、储蓄和住房等的变化情况,为党和国家研究制定劳动就业、工资奖金、劳保福利等政策提供依据。再如,新中国成立后我国进行了六次人口普查,每次调查的目的都不一样,因而调查的内容也不一样。1953年第一次人口普查,目的是配合召开全国第一次人民代表大会,确定选民及人大代表名额的需要,并为国家制定发展国民经济的第一个五年计划提供翔实的人口数。考虑到当时的条件,调查只有四个项目:姓名、年龄、性别和民族。2010年第六次人口普查,目的是查清我国人口在数量、结构、分布和居住环境等方面的变化情况,为科学制定国民经济和社会发展规划,统筹安排人民的物质和文化生活,实现可持续发展战略,构建社会主义和谐社会,提供科学准确的统计信息支持。此时的调查内容包括性别、年龄、民族、受教育程度、行业、职业、迁移流动、社会保障、婚姻生育、死亡、住房情况等方方面面。

可见,确定调查主题和目的,就是明确在调查中要解决哪些问题,通过调查要取得什么样的资料,取得这些资料有什么用途等问题。衡量一套调查方案是否科学、合理,主要看方案的设计是否体现调查主题和目的的要求,是否符合客观实际情况。二、调查对象、调查单位和报告单位

调查对象即统计调查的总体,是根据调查目的所确定的研究事物的全体。调查单位也就是总体单位,它是调查对象的组成要素,即调查对象所包含的具体单位。例如,如果要全面了解广东省某一家大型工业企业职工的工资情况,那么,这家企业的所有职工所组成的总体就是调查对象,该企业的每一位职工就是调查单位。调查对象和调查单位的概念并不是固定不变的,而是随着调查目的的不同互相变换。再如,如果要调查广东省工业企业的生产情况,那么,广东省境内所有的工业企业所组成的总体就是调查对象,而每一家工业企业便成了调查单位。

报告单位也称填报单位,它是负责向上级提交调查资料的单位。报告单位和调查单位是两个不同的概念,调查单位是调查资料的直接承担者,可以是企事业组织、个人,也可以是各类物品等,报告单位是调查资料的提交者,一般只能是基层企事业组织和个人,二者有时一致,有时不一致。如在工业企业生产经营情况调查中,每一家工业企业既是调查单位,又是报告单位;而在工业企业职工收入状况调查中,每一位职工是调查单位,而报告单位则是每一家工业企业。再如,在工业企业生产设备调查中,每一台工业企业的生产设备是调查单位,而报告单位则只能是每一家工业企业。三、调查项目和调查表

调查项目就是调查中所要登记的调查单位的特征,这些特征在统计上又称为标志。确定调查项目所要解决的问题是:向调查单位调查什么?反映调查单位特征的标志是多种多样的,在调查中确定调查项目,应根据调查目的和调查单位的特点而定。比如,在人口调查中,调查项目一般包括性别、年龄、民族、受教育程度、行业、职业、迁移流动、社会保障、婚姻生育、死亡、住房情况等。表2-1 目录抽样企业基层表(单一表)

说明:①本表调查时期为1—11月。报送时间为2001年12月25日。报送方式为远程传输。

②本表由采用目录抽样方法被抽中的年产品销售收入500万元以下的非国有工业企业填报。

③本表由各省、自治区、直辖市企业调查队报送。

④价值量指标保留两位小数。

⑤企业法人代码由企业填报。

⑥企业登记注册类型代码按照《关于划分企业登记注册类型的规定》填写。

⑦主要业务活动(或主要产品)由企业填写,行业类别代码由企业调查队按《国民经济行业分类与代码》(GB/T4754—94)中类填写。表2-2 ××开发区服装类企业基本情况登记表(一览表)

说明:①本表由各省、自治区、直辖市调查总队核实转报。

②报表报送时间为月后5日前,报送方式为网络传输。

在统计调查中还必须设计调查表,所谓调查表就是根据调查目的所确定的具体调查项目,也就是统计调查所要研究分析的内容。调查表是统计调查方案的重要部分,必须紧紧围绕调查目的、现象之间的相互联系,从现象的过去、现在和发展等方面出发,提出所要调查的项目,拟定调查表。在政府统计调查中,统计部门会专门设计出各类规范的调查表,如表2-1和表2-2所示;在市场调查中,调查公司也会设计出符合自身需要的调查表,即调查问卷,具体参见本章第五节。

调查表的形式一般有两种:单一表和一览表。单一表:在一张表上只登记一个调查单位的调查资料,它可以容纳较多的调查项目,适于较详细的统计调查,可见表2-1中的范例。一览表:在一张表上登记若干个调查单位的调查资料,它的调查项目不宜过多,这种表较为节省人力、物力,而且一目了然,可见表2-2中的范例。使用单一表还是一览表应视调查内容的多寡和是否便于登记而定。当调查项目较多而调查单位又分散时,宜用单一表;若调查项目较少,调查单位又较集中时,则可使用一览表。

调查表一般由表头、表体和表脚组成。表头:用来表明调查表的名称以及填写调查单位的名称、性质、隶属关系等。表体:这是调查表的主要部分,包括统计调查所要说明的社会经济现象的项目和这些项目的具体表现(即数字、计算单位等)。表脚:包括调查者的签名和调查日期等,以便明确责任,若发现问题,便于查询。四、调查的时间和地点

调查时间一般包含调查标准时间和调查期限两种含义。调查标准时间是指调查资料所属的时间,如果调查的是时期现象,就要明确规定登记从何时起到何时止的资料。如果所调查的是时点现象,就要明确规定统一的标准调查时点。例如,第六次全国人口普查方案中规定:“普查的标准时间是2010年11月1日零时。”调查期限是指从调查工作开始到结束的时间。一般是指进行调查登记工作的整个工作时间。如我国第六次人口普查规定从2010年11月1日零时开始,要求在2010年11月10日以前完成普查登记工作,调查期限为10天。规定调查期限的目的是使调查工作能及时开展、按时完成,为了提高信息资料的时效性,在可能的情况下,调查期限应适当缩短。

调查地点是指确定登记资料的地点。调查地点有时与调查单位的所在地不一定一致。由于客观事物是复杂的,有些事物,诸如流动人口等都是经常变动的,因此设计这些现象的调查方案时,应对登记调查单位的所在地点予以明确规定,以免调查资料出现遗漏和重复。五、调查的方式、方法

调查的方式和方法是取得调查资料的重要手段,在设计调查方案时,要根据被调查事物的特点、调查资料要求的准确程度以及客观条件的可能性选择恰当的调查方式和方法。统计调查的方式主要有普查、重点调查、典型调查、抽样调查、统计报表制度等,具体参见本章第三节。调查方法,即搜集调查资料的具体方法,主要有直接观察法、访问法、实验调查法等,具体参见本章第四节。六、调查工作的其他组织实施问题

除了上述各项内容外,调查方案中还应当对其他一些组织实施问题作出具体、详细的安排,以保证调查工作的顺利、有效开展。这些问题主要包括调查的组织领导机构、经费来源与开支管理办法、宣传教育、人员培训、文件印刷、调查资料的报送程序与报送方式、调查分析结果公布时间与内容等事项。

第三节 统计调查的组织方式

在社会经济研究中,当我们需要利用统计数据进行分析时,一般有两条渠道可获得统计数据:一条是数据的间接来源,也就是通过查询统计年鉴、网络数据库等资料获取别人调查、整理的统计数据;另一条是数据的直接来源,即要求我们自己通过开展统计调查活动直接调查、搜集第一手的数据资料。间接来源的数据,说到底仍然是别人通过统计调查的方法搜集、整理而来的数据。我国1996年和2009年两次修订的《统计法》都明确规定:“搜集、整理统计资料,应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法。”因此,从统计数据的采集方法来说,最根本的还是要掌握各种统计调查的组织方式。一、普查

普查是指为了搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查。它是了解国情国力等基本情况的重要手段,主要用于一些重要项目的调查,如人口普查、经济普查和农业普查等。普查涉及面广,指标多,工作量大,花费高,时间性强,组织工作复杂。为了取得准确的统计资料,普查要求调查组织者必须能够做到集中领导和统一行动。

目前,我国已建立与社会主义市场经济体制相适应,且与国际接轨的周期性普查体系,在普查项目的设置、调查对象的确定、指标的选择以及计算口径、统计标准等方面不断加以规范,并尽量与国际统计惯例保持一致,从而最大限度地实现国际的数据资料可比,并发挥普查在国民经济发展和整个统计调查工作中的基础性作用。我国周期性的普查体系具体见表2-3。表2-3 我国周期性的普查体系注:国家决定逢3逢8每五年开展一次经济普查,如果2003年没有“非典”发生,第一次全国经济普查的时点应该是2003年12月31日,数据反映的应该是2003年的情况,由于这次突发事件,使得第一次经济普查时间延迟了一年。

我国的周期性普查制度确立于1994年,当时的普查项目包括人口普查、农业普查、工业普查、第三产业普查和基本单位普查等五项。2003年,我国对普查项目和周期安排进行了调整。调整后的普查项目仅包括人口普查、农业普查和经济普查三项。人口普查每10年开展一次,在逢0的年份实施;农业普查每10年开展一次,在逢6的年份实施;经济普查每10年开展两次,在逢3和8的年份实施。二、随机抽样调查

鉴于全面调查,比如普查需要花费巨大的人力、物力和财力,调查组织者在更多时候是采用非全面调查的方式,即抽样调查。从广义上说,抽样调查根据样本抽取方法的不同,可分为随机抽样和非随机抽样两类。

随机抽样又称为概率抽样,是指按随机原则从总体中抽取部分单位作为样本进行调查,并根据样本调查信息估计和推断总体特征的一种统计调查方法。从狭义上说,在很多文献资料中,抽样调查就直接等同于随机抽样调查。随机抽样调查是搜集社会经济信息的一种科学方法,它具有节省调查时间和调查经费、估计准确以及估计误差可以人为控制等优点。近30多年来,随机抽样调查的理论与实践在我国得到了迅速的发展,应用领域越来越广泛。目前,我国政府部门、研究机构和各类企事业单位都普遍采用随机抽样调查的方法来搜集各类数据,了解社会经济发展状况。新《统计法》早已明确规定将随机抽样调查作为主体地位的统计调查方式。本书将在第六章重点阐述该方法。三、非随机抽样调查不重复抽样是指从总体中随机抽选一个样本登

非随机抽样调查是指调查组织者按照自己的主观意志,有意识地或者从方便的角度出发,随意而非随机地从总体中抽取部分单位进行调查的统计方法。非随机抽样调查的样本不是由随机原则产生的,而是由调查者凭经验主观选定的,具有很大的主观性,所以有时难以准确反映总体的实际情况,而且不能事先计算和控制抽样误差,难以保证推断的准确性和可靠性,一般都不能用于推算总体指标。但是,在很多时候,由于各种客观条件的限制,只能采用非随机抽样,而且如果运用得当,非随机抽样也能在某些场合发挥其不可替代的作用。它主要包括以下几种方法:

1. 重点抽样

重点抽样是指在调查对象中,选择一部分重点单位作为样本进行调查。重点抽样主要适用于那些反映主要情况或基本趋势的调查。如国家统计局广东调查总队在对全省近百户亏损企业进行专项调查的基础上,选择其中亏损最大的10家企业进行重点调查,以了解亏损的原因。

重点单位,通常是指在调查总体中具有举足轻重的地位,能够代表总体的情况、特征和主要发展变化趋势的那些调查单位。这些单位可能数目不多,但有代表性,能够反映调查对象总体的基本情况。选取重点单位,应遵循两个原则:一是要根据调查任务的要求和调查对象的基本情况而确定选取的重点单位及数量。一般来讲,要求重点单位应尽可能少,而其标志值在总体中所占的比重应尽可能大,以保证有足够的代表性。二是要注意选取那些管理比较健全、业务力量较强、统计工作基础较好的单位作为重点单位。

重点抽样的主要特点是:投入少、调查速度快、所反映的主要情况或基本趋势比较准确。因此,重点抽样通常用于不定期的一次性调查,但有时也用于经常性的连续调查。

2. 典型抽样

典型抽样是根据调查的目的和要求,在对调查对象进行初步分析的基础上,有意识地选取少数具有代表性的典型单位进行深入细致的调查研究,借以认识同类事物的发展变化规律及本质的一种非全面调查。

例如,江苏省吴江县开展一次对县属镇中的“农民工”的典型调查,来认识“农民工”是否有利于城镇建设等问题。在对全县7个县属镇进行粗略分析的基础上,最后选定了震泽镇作为典型单位,因为震泽镇在7个镇中是发展较快的一个镇,而且该镇农民工占职工总数的20.4%,超过全县15%的比例。通过调查分析得出结论是推动该镇发展的,一个重要因素是该镇吸收了大量农民工。因此,通过典型分析,最后可以推论出农民工有利于城镇发展等结果。

典型抽样具有以下几个特征:

第一,典型抽样主要是定性调查,依靠调查者深入基层进行调查,对调查对象直接剖析,取得第一手资料,能够透过事物的现象发现事物的本质和发展规律。不过,这是一种定性研究,难以进行定量研究。

第二,典型抽样是根据调查者的主观判断,选择少数具有代表性的单位进行调查。因此,调查者对调查单位的了解情况、思想水平和判断能力对选择典型的代表性起着决定作用。

第三,典型抽样的调查方式一般是面对面的直接调查。它主要依靠调查者深入基层与调查对象直接接触与剖析,因此,对现象的内部机制和变化过程往往了解得比较清楚,资料比较全面、系统。

3. 随意抽样

随意抽样,也称任意抽样,指抽样组织者随意或者任意地(通常是遵循简便性原则)从总体中抽取样本。例如,实验人员从笼子里抓取最靠近笼门的小白鼠(而不是先对所有的小白鼠编号,然后随机抽取若干号码,再抓取相同编号的小白鼠)做试验;节目主持人从放在玻璃缸里的观众来信中信手抽取若干来信(而不是先对所有的观众来信编号,然后随机抽取若干号码,再挑出相同编号的来信)以选定获奖观众,等等,都属于随意抽样。利用已有的但不完整的名册或号簿确定调查单位,在街口向过往行人进行调查,样本由自愿参加调查的人组成等,也属于这类情况。这种抽样的优点是简便易行、成本较低,缺点是调查范围有时难以真正涵盖所有总体单位,样本的偏差有时会比较大,调查或推断的结论不具有一般意义。

4. 配额抽样

配额抽样,指抽样组织者先对总体按一定标志分类,并按比例分配每类应调查单位的数额,然后由组织者在每类中进行判断抽样。这种抽样最先由美国盖洛普咨询公司发明使用,目的是增进典型抽样的样本代表性。由于这种抽样有一定的科学性,因而在市场调查、民意测验等方面有较广泛的应用,但典型抽样存在的缺点也同样难以克服。

5. 流动总体抽样

流动总体抽样,也称“捕获—标记—再捕获”抽样,指抽样组织者先从总体(例如水库中的鱼)获取部分单位(例如300条鱼),加以标记后放回总体,过一段时间后再获取部分单位(例如1000条鱼),然后根据再获取单位中有标记单位的比例来推算总体的数量。这种抽样适用于事先对总体缺乏认识而调查单位又处于流动状态的研究对象。四、定期统计报表

定期统计报表是我国计划经济时代的一种主要的调查组织方式,它是按照国家有关规定,自上而下统一布置调查任务,然后自下而上逐级按照统一要求提供统计资料的一种报告制度。定期统计报表要求以一定的原始记录为依据,按照统一的指标、分组、报送时间和报送程序填报。

定期统计报表既可用于全面调查,也可用于非全面调查,而且相对于委派人员实地调查而言,所费较少。但它要求有较好的统计工作基础,故不能事事都依靠统计报表来收集资料,也不能滥发统计报表,否则基层人员只能疲于应付,最终影响到数据质量。

定期统计报表从不同的角度,有如下几种分类:(1)定期统计报表,按照填报周期不同,可以分为日报、周报、旬报、月报、半年报和年报。报表周期的长短与报表的指标内容详简有关。一般来说,周期短的报表,指标较少,资料内容更精练;周期长的报表,指标较多,资料的内容也较全面。年报是周期最长的,日报是周期最短的。对周期短的报表,在及时性上要求强些,在准确性上要求低些;对周期长的报表,在时间上要求宽松些,在准确性、全面性、系统性上要求严格些。(2)定期统计报表,还可按报告方式的不同分为电子报表和书面报表。电子报表是指通过电话、传真、互联网等电子媒介传送数据的调查方式,多用于周期较短且时效性强的项目或指标,如很多地区对规模以上工业企业的调查多采用网上直接填写、报送的方式搜集、汇总企业报表数据;书面报表是指报告单位填完书面报表,通过邮寄的形式上报资料的调查方式,多用于周期较长、指标较多和无须立即掌握的项目或指标。

在计划经济时代,定期统计报表为我国政府部门提供了大量的统计信息,成为最主要的调查方式。但是,在如今的市场经济时代,定期统计报表已暴露出很多缺陷和不足,比如在经济利益多元化的条件下,有些单位为了本单位的利益可能会出现虚报、漏报或瞒报数据的现象,影响了统计数据资料的质量;另外,如果上级机关向基层单位布置统计报表过多,会增加基层负担,使得基层单位疲于应付,这也会影响到统计数据质量。

第四节 统计数据采集的方法

在抽出调查样本之后,开展实地调查时,应根据调查单位的特点和调查内容的不同要求来确定恰当的统计数据采集方法。常用的方法有以下几种。一、直接观察法

直接观察法是指由调查员直接或通过仪器在现场观察被调查者的行为动态并加以记录而获取统计资料的一种方法。直接观察法分人工观察和非人工观察,在市场调研中应用较广。比如研究人员可以通过观察消费者的行为,真实、客观地了解消费者的购买行为特征,从而来测定品牌偏好和促销的效果。又如,观察商场在某段时间的客流量、顾客在各柜台的停留时间、各组的销售状况、顾客的基本特征、售货员的服务态度等。

随着现代科学技术的发展,人们设计了一些专门的仪器来观察被调查者的行为,如照相机、录音机、显微录像机等来辅助观察。又如,在广播收听率调查中,已开始应用广播收听测量仪来进行广播收听数据的采集,其内置自动记录收听行为数据功能的监测芯片,能够实现24小时不间断地对听众的收听行为进行以秒为单位的记录存储,同步记录广播收听时间、频点等信息。

但是,直接观察法也有其自身的缺点,通常只有行为和自然的物理过程等外部现象才能被观察到,而无法了解被调查者的动机、态度、想法和情感等内在因素,这也会在一定程度上影响到统计资料的代表性和真实性。二、采访法

采访法是指由调查人员向被调查者面对面地提问,根据被访者的答复来搜集统计资料的一种方法。采访法主要分为个别采访和集体采访(也称座谈会)两种方式。个别采访可采用入户调查访问和街头拦截访问等形式开展,集体采访是以调查组织者的名义邀请一定数量的被调查者一起座谈,搜集意见。

采访法的优点是调查人员和被调查者直接交谈,调查人员可向被调查者说明调查的目的和要求,打消被调查者不必要的顾虑,也可以当场解答被调查者的各种疑问。如果是集体采访,由访问人员或调研组织者作主持人引导讨论,可以相互启发和相互补充,以得到有用的资料。因此,采访法可以收集到比较准确的信息和丰富的资料,也有利于调查人员把搜集的统计资料和了解的有关情况结合起来。

采访的具体形式可通过口头询问搜集资料或者分发调查表格由被调查者自填而后收回等,但这些传统的形式都需要花费较多的人力、财力和时间。三、电话调查法

电话调查法是指调查者按照统一问卷,通过电话向被访者提问,笔录答案。这种调查方法在电话普及率很高的国家和地区很常用,在我国只适用于电话普及率高的人口总体。采用电话调查的优点是速度快、范围广、费用低,在电话中回答问题一般较坦率,适用于不习惯面谈的人;但是,其缺点是受电话设备的限制,而且电话调查时间短,不便询问比较复杂的问题,调查问卷最好是简洁明了,访问时间一般控制在3~5分钟为宜,难以深入,另外还要求通话记录迅速、完整。

鉴于电话调查的上述缺陷,目前,很多市场调查公司都逐渐采用电脑辅助电话调查(computer assisted telephone interview,CATI)的方式开展调查,这是电话调查法的一种特殊演变形式。CATI系统直接将电脑与电话联系起来,调查问卷输入到电脑中,调查员在电脑屏幕前操作,由电脑进行随机自动拨号,调查员在通话时直接将调查结果输入到电脑问卷中。通过该系统,调查人员可以以更短的时间,更少的费用,得到更加优质的访问数据,并在电脑上直接应用各种统计软件进行数据分析。四、邮寄调查法

邮寄调查法是指将事先设计好的调查表(或问卷)邮寄给调查对象,要求其填好后寄回的一种调查方法。这种调查方法的优势体现在:

第一,空间范围大。在一个地区可以邮寄到许多地方甚至是全国、国际市场进行调查。不受调查所在地区的限制,只要通邮的地方,都可选为调查样本。

第二,样本数目可以很多,而费用开支少。按随机原则选定的调查样本,可以达到一定数量,同时发放和回收问卷。

第三,被调查者有较充裕的时间来考虑回答问卷,并可避免面谈中受调查者倾向性意见,从而得到较为真实可靠的情况。

这种方法最大的问题是难以取得被调查者的配合,邮寄调查表的回收率一般较低,回收时间较迟缓。因此,应用邮寄调查法最好是以政府等权威机构的名义邮寄调查表,以提高回收率。五、网络调查法

网络调查法是将问卷在网上发布,被调查者通过互联网完成问卷的填写和传输,这是随着网络传输技术的发达而衍生出的一种新式的调查手段。网络调查一般有两种途径:一种是将问卷放置在WWW站点上,等待访问者访问时填写问卷,如CNNIC每半年进行一次的“中国互联网络发展状况调查”就是采用这种方式。为达到一定问卷数量,站点还必须进行适当宣传,以吸引大量访问者。这种方式具有时效性强、费用低、信息量大、调查范围广等优点,但是,主要的缺陷是填写者一般是自愿性的,调查样本难以做到随机抽取,且无法核对问卷填写者真实情况,容易造成调查资料的不真实。

另一种是通过E-mail方式将问卷发送给被调查者,被调查者完成后将结果通过E-mail返回。这种方式的好处是,可以有选择性地控制被调查者,提高样本的随机性,缺点是容易遭到被访问者的反感。因此,采用该方式时首先应争取被访问者的同意,或者估计被访问者不会反感,并向被访问者提供一定补偿作为回报,如有奖回答或赠送小礼物,以降低被访问者的敌意。六、实验调查法

实验调查法是指通过某种实践活动的验证去搜集有关资料的一种调查方法。此法起源于自然科学的实验求证,类似自然科学中通过实验来获取有关数据,得出正确结论,故名实验调查法。

实验调查法是以社会为“实验室”,以社会实践为基础的一种调查方法。例如,为了了解某种新产品的质量或者更好地提高产品质量,可免费将新产品赠送给用户或消费者个人试用,以便征求用户或消费者个人的意见;为了了解某种新产品的销路和顾客对产品质量与价格的意见,可举办新产品展销会;为了进行某种改革或推行某种新的政策,而先在小范围内进行试验,以了解这种改革或新政策的社会效应,然后再决定这种改革或新政策是否值得推广,是否需要进行调整或修改,等等。这些做法都是实验调查法。

由于实验调查法以社会实践为基础,可以取得较准确的信息和丰富的资料,便于人们作出正确的决策,避免不应有的损失,从而可提高社会经济活动的效益。当然,实验调查法也需要花费较多的人力、物力、财力和时间。

第五节 调查问卷设计

调查问卷,也叫调查表,它是一种以书面形式了解被调查者的反应和看法,并以此获得资料和信息的载体。调查问卷的设计是依据调查目的的需要,列出所需的调查项目,并以一定的格式,将其有序地排列、组合成调查表的过程。一、调查问卷的结构

一张规范的调查问卷一般包括三个部分,即说明语、正文和结束语。(1)说明语是指问卷开头的某种问候语,向被调查对象简要说明调查的宗旨、目的和对问题回答的要求等内容,引起被调查者的兴趣,同时解除他们回答问题的顾虑,并请求当事人予以协助调查。

例如:你好!我是广州×××市场调查公司所委托的调查员________。电视机是每个家庭必备的家用电器,它和我们的生活息息相关。针对广州市彩电市场的现状,我们想就这个话题咨询您的宝贵意见,以便将来彩电行业能够更好地为市民服务。请您客观的陈述您的观点,回答无所谓对错,我们将对您的回答严格保密,请您不必有任何顾虑。请您在百忙之中抽出一点时间,为答谢您的配合,我们将在访问结束时向您提供一件精美的小礼品。谢谢!(2)正文是一份问卷的主体部分,主要包括被调查者信息、调查项目、调查信息三部分。

被调查者信息,主要是了解被调查者的相关资料,以便对被调查者进行分类汇总和对比分析。一般包括被调查者的姓名、性别、年龄、职业、受教育程度等。这些内容可以了解不同年龄阶段、不同性别、不同文化程度的个体对待被调查事物的态度差异,在调查分析时能提供重要的参考作用,甚至能针对不同群体写出多篇有针对性的调查报告。出于隐私考虑,这部分信息最好能放在问卷的最后一部分。

调查项目是调查问卷的核心部分,是一项调查所要了解的主要内容,具体表现为一些问题和备选答案。

调查信息,是用来证明调查访问的执行、完成情况,并便于日后进行复查和修正。一般包括调查者姓名、电话,调查时间、地点,被调查者当时的合作情况等。

例如:访问地点:________区________街道________居委会

访问日期:2010年______月______日上/下午______点______分开始共计______分(调查员注意:以下三项请在调查结束后填写,以备复查时使用)

受访者姓名:__________________

受访者电话:__________________

受访者地址:__________________(3)结束语:在调查问卷最后,简短地向被调查者强调本次调查活动的重要性以及再次表达谢意。例如:为了保证调查结果的准确性,请您如实回答所有问题。您的回答对于我们得出正确的结论很重要,希望能得到您的配合和支持,谢谢!二、问卷项目设计

问卷项目是指用什么样的形式设置问题,一般可分为封闭式问题和开放式问题。封闭式问题包括两项选择题、单项选择题、多项选择题、程度性问题等。开放式问题一般有完全自由式、语句完成式等。

不同的题型都有各自的优缺点,在使用时应该做到扬长避短,选择恰当的提问方式来设计问卷项目。(1)两项选择题,是由被调查者在两个固定答案中选择其中一个,适用于“是”与“否”、“有”与“没有”等互相排斥的二择一式问题。

例如:您家有彩电吗?

A. 有 B. 没有

两项选择题容易发问,也容易回答,便于统计调查结果。但被调查人在回答时不能讲原因,也不能表达出意见的深度和广度,因此一般用于询问一些比较简单的问题,并且两项选择必须是客观存在的,不能是设计者凭空臆造的,需要注意其答案确实属于非A即B型,否则在分析研究时会导致主观偏差。(2)单项或多项选择题是对一个问题预先列出若干个答案,让被调查者从中选择一个或多个答案。

例如:决定您对应聘者取舍的重要因素是:

A. 仪表 B.谈吐 C.学历或职称 D.专业素质或工作经验

这类题型问题明确,便于资料的分类整理。但由于被调查者的意见并不一定包含在拟定的答案中,因此有可能没有反映其真实意思。对于这类问题,我们可以采用添加一个灵活选项,如“其他”来避免。

例如:您是通过什么渠道知道这个品牌的彩电的?(可多选)

A.电视/广播广告 B.报纸/杂志广告 C.交通广告 D.赞助广告 E.传单/宣传册 F.听亲戚/朋友说过

G.其他(请指明)________(3)程度性问题是根据被调查者的态度、意见、满意度等有关心理活动来表示程度的选项,并加以主观的判断和测定。

例如:您对这款轿车是否感到满意?

A.非常满意 B.比较满意 C.一般 D.不太满意 E.不满意

但是,不同的被调查者有可能对某一问题的理解程度不一致,导致回答结果难以直接比较。因此,有时可以采用评分的方式,如五分制、十分制和百分制等来度量。(4)集中排列题,如果有多个问题的备选答案在内容、数量、结构等方面相同,就可以将它们集中排列在一起,以使问卷显得紧凑,同时也便于回答和后续数据处理。

例:您在作出购买决策时,下表左侧各因素所起的作用如何?(请在您认为合适的格内打钩)(5)开放式问题是一种可以自由地用自己的语言来回答和解释有关想法的问题,问卷中没有可选择的答案,所提出的问题由被调查者自由回答,不加任何限制。

例如:您家中将由谁来决定是否购买彩电?

彩电的牌子将由谁来决定?

使用开放式问题,被调查者能够充分发表自己的意见,可以收集到一些设计者事先估计不到的资料和建议性的意见。但在分析整理资料时,由于被调查者的观点比较分散,有可能难以得出有规律性的信息,不便于进行规范的统计数据分析,并会导致被调查者的主观意识参与,使调查结果出现主观偏见。所以,在一份问卷中,开放式问题不应该太多,而且一般应放在问卷的最后位置。三、问卷设计的注意事项(1)调查问卷必须方便后续的统计整理和数据分析,而且其结果能满足调查目的的需要。(2)问卷问题在排列时需注意其内在的逻辑性。

①在顺序安排上应先易后难,容易回答的问题放前面,较难回答的问题放后面。一般应从一个能引起被调查者感兴趣的问题开始,再问一般性的问题、需要思考的问题,而将比较难回答的问题和涉及被调查者个人隐私的问题放在最后。

②封闭式问题放前面,开放式问题放后面。

③要注意问题的逻辑顺序,可以将问题按时间顺序、类别顺序进行列框,由一般至特殊,循序渐进,逐步启发被调查者,使得被调查者一目了然,符合被调查者的思维程序,在填写的时候自然就会愉快地进行配合。(3)在开展大型调查活动前,最好在小范围内进行一次预调查,其目的主要是为了发现问卷中存在歧义、解释不明确的地方,以及了解被调查者对调查问卷的反应情况,从而对调查问卷进行修改完善,以保证统计调查的目的顺利实现。

思考题

1. 什么叫统计调查?

2. 统计调查的种类主要有哪些?

3. 什么是统计调查方案?它包括哪些基本内容?

4. 什么是调查对象、调查单位和报告单位?报告单位和调查单位有什么联系和区别?请指出下列调查的调查对象、调查单位和报告单位:(1)广州市零售业企业调查。(2)广东省玩具业企业生产设备调查。

5. 什么是调查项目和调查表?调查表有哪几种类型?

6. 重点调查、典型调查和随机抽样调查都是非全面调查,三者有什么不同?

7. 搜集统计数据的方法有哪几种?各有什么特点?适用于什么条件或场合?

8. 什么是调查问卷?问卷设计时要注意哪些问题?

第三章 统计数据的整理与显示

第一节 统计整理的意义和程序

一、统计整理的意义

统计数据的整理简称统计整理,是指根据统计研究的目的要求,对统计调查所取得的各项资料进行科学的分组和汇总的工作过程。对已整理过的资料(包括历史资料)进行再加工也属于统计整理。

通过统计调查可以取得第一手资料,但这种资料只能反映总体各单位的具体情况,是分散、零碎、表面的。要说明总体情况,揭示出总体的内在特征,还需要对这些资料进行去粗取精、去伪存真、由此及彼、由表及里、由个体到总体的加工整理,使之系统化,以便通过综合指标对总体作出概括性的说明。

统计整理是整个统计工作和研究过程的中间环节,起着承前启后的作用。统计整理是统计调查的继续与深化,也是统计分析的基础。统计调查所搜集到的资料,只有通过科学的审核、分类、汇总等整理工作,才能使统计在认识社会的过程中,实现由个别到全体、由特殊到一般查所得的资料再丰富、再完备,其作用也发挥不出来,统计调查将徒劳无益,统计分析也将无法进行。

另外,统计整理还是积累历史资料的必要手段。统计研究中经常要用到动态分析,这就需要有长期累积的历史资料。而根据积累资料的要求,对已有的统计资料进行甄别与筛选,以及按现有的口径对历史的统计资料重新调整、分类和汇总等,都必须通过统计整理工作来完成。二、统计整理的程序

统计整理的全过程包括对统计资料的审核、分组、汇总、制表与绘图几个环节,需要按照一定

的步骤进行。(1)对搜集到的资料进行全面审核,以确保统计资料准确无误,符合统计研究的目的要求。(2)根据研究的目的和统计分析的需要,选择整理的指标,并进行划类分组。统计分

组是统计整理的重要内容和统计分析的基础,只有正确地分组才能整理出有科学价值的综合指标,并借助这些指标来揭示现象的本质与规律。(3)在分组的基础上,将各项资料进行汇总,得出反映各组和总体数量特征的各种指标

。(4)通过绘制统计图表,将整理出的资料简洁明了、系统有序、形象地表现出来。

第二节 统计数据审核

对调查资料进行审核是统计整理的第一步,包括以下内容。一、审查资料的完整性和及时性

审查资料的完整性,就是看调查单位和报告单位是否齐全,规定的项目是否都有答案,应报资料的份数是否符合规定。审查资料的及时性,是看报告单位是否按时报送了有关资料,如有不报、漏报或迟报的现象,就要及时查清。二、审查资料的正确性

审查资料的正确性,就是检查所填报的资料是否准确可靠。常用的审查方法有两种:第一种是逻辑检查,首先是从理论上或常识上检查资料是否有悖常理、有无不切实际或不符合逻辑的地方。比如,在一张调查表中,年龄是9岁,职业是教师,其中必有一个是错误的。又如,在某劳动密集型行业的报表中,企业规模为大型,而职工人数则是30人,这其中也必有一个是错误的。其次是检查各项目之间有无相互矛盾的地方。例如,企业的销售成本大于同期销售总值就是明显的逻辑错误。审查资料是否正确的第二种方法是计算检查,就是检查各项指标的计算口径、计量单位是否符合规定,并通过各种计算方法来检查各指标间的数字是否相互衔接。三、历史资料的审查

在利用历史资料(或其他间接资料)时,应审查资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。对不能满足现在要求、有缺漏或有疑问的资料,要进行有科学根据的推算、弥补和订正。四、资料审查后的订正

通过上述审查,如发现有缺报、缺份和缺项等情况,应及时催报、补报;如有不正确之处,则应根据不同情况作如下处理:(1)对于可以肯定的一般错误,应及时代为更正,并通知原报单位。(2)对于可疑之数或无法代为更正的错误,应要求原单位复查更正。(3)如果所发现的差错在其他单位也可能发生,那么应将错误情况通报所有单位,以免发

生类似错误。(4)对于严重的错误,应发还重新填报,并查明发生错误的原因,若属于违法行为,则应依法严肃处理。

第三节 统计数据分组

一、统计分组的概念

根据社会经济现象的特点和统计研究的目的要求,按照某种重要标志把总体分成若干部分的科学分类,称为统计分组。

事物是相互联系的,不同的事物之间都会在一定的环境中以一定的条件而相互关联,这种联系是构成各种各样的统计总体的前提。但不同的事物之间,在产生的原因、存在的条件、表现的形式、运动的规律、发展的前景等方面又是千差万别的。正是这些区别,使统计分组有了客观依据,并成为统计研究的科学基础和基本方法。没有科学的统计分组,便没有科学的统计。二、统计分组的作用

统计分组在统计研究中的重要作用可概括如下:(一)划分社会经济现象的不同类型

社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性质不同的类型,以便揭示不同社会经济现象的质的差异。例如,国民经济按产业分组,农业分成农、林、牧、渔业各组,社会商品零售额按商品用途分组,企业按经济类型分组,等等。这些分组也叫类型分组。表3-1是2008年广东省城镇居民家庭人均消费支出按商品类别分组的统计表。

表3-1将全部消费品分为八大类,尽管它们同属消费品,但在效用上却有“质”的差别。通过这种分类,可以反映我国居民和社会集团在商品消费中不同类别的商品所占的地位和作用,也为进一步研究我国消费品零售额的水平与结构提供了便利条件。表3-1 2008年广东省城镇居民家庭人均消费支出及构成资料来源:广东统计年鉴.北京:中国统计出版社,2009.(二)揭示社会现象的内部结构

从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变到质变的过程,帮助人们掌握经济发展水平和经济结构变化的。表3-2 我国出口商品构成资料来源:中国对外经济贸易年鉴.北京:中国统计出版社,1991.*表示2000年、2008年的数据经过了换算处理。(三)分析社会现象之间的依存关系

社会经济现象之间广泛地存在着相互依存的关系,如农作物的耕作深度与收成率之间、合理密植与农作物产量之间、家庭的工资收入与生活费支出之间、工人技术级别与产品质量之间、工人劳动生产率与产品成本之间、市场商品价格与其需求量之间等等,都在一定程度上存在相互依存的关系。所有这些依存关系,都可通过统计分组来查明影响因素与结果之间的变动规律。例如,流通费用率与商品流转的规模相关,其一般规律是流通费用率随商品流转规模的扩大而降低。例如,2010年某地百货行业的368个零售商店,按它们的销售额进行分组后,其流通费用率与商品流转规模之间的依存规律就一目了然了,具体的分组情况如表3-3所示。表3-3 2010年某地百货行业零售商店的销售额与费用率三、统计分组的种类(1)按分组的作用或目的不同可分为类型分组、结构分组和分析分组。(2)按分组标志的多少和分组的形式可分为简单分组、复合分组和并列分组。

简单分组就是对总体只按一个标志进行分组。例如,国民生产总值按产业分为第一产业、第二产业和第三产业三组;货运量按运输方式分为铁路运输、公路运输、水路运输、航空运输和管道运输等五组。

复合分组就是对总体按两个或两个以上的标志进行的重叠式分组,即在按某一标志分组的基础上再按另一标志进行进一步分组。例如,为了认识我国高校学生的构成,我们可以同时采用学科、本科或专科、性别等三个标志进行分组:理科     文科本科     本科男      男女      女专科     专科男      男女      女

这样分组的结果是形成几层重叠的组别,把高校学生的构成分析得更为深入、详细。复合分组的优点是,可以从对同一现象的层层分组和分组标志的联系中,更加深入全面地研究总体各个方面的内部结构。但是,采用复合分组时,组数会随着分组标志的增加而成倍增加,使每组包括的单位数相应减少,处理不好就会成为烦琐哲学,不利于分析问题。因此,不能滥用复合分组,也不宜对较小总体进行复合分组,尤其不宜采用过多的标志进行复合分组。

并列分组,就是同时用两个或两个以上的标志分别从不同的角度进行不重叠的多种分组。例如,职工先按性别分成两组,再按年龄分成若干组;进口总额先按贸易对象分成若干组,再按商品用途分成若干组。其特点是两种或多种分组之间相互独立而不重叠,既可从不同的方面反映事物的多种结构,又不致使分组过于烦琐,故被广泛采用。(3)按分组标志的性质分为品质分组和数量分组。

品质分组是按品质标志进行的分组,即按事物的某种属性分组。如企业按经济类型、行业分组,人口按性别、民族分组,大学生按专业分组等。这种分组可以反映总体的构成和不同属性事物在总体中的地位和作用。

数量分组是按数量标志进行的分组。如工业企业按生产能力、劳动生产率分组,商店按商品流转额、职工人数分组,人口按年龄、身高分组等。这种分组的目的在于通过事物在数量上的差异来反映事物在性质上的区别。

按品质标志分组和按数量标志分组是一对重要的统计分组,统计分组方法主要是围绕这两种分组来阐述的。四、分组标志的选择

分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作用。列宁曾经说过:“由于分类方法的不同,同一个材料竟得出完全相反的结论。”

这就是针对分组标志而言的。为了正确选择分组标志,必须遵循以下几条原则:(一)要符合统计研究的目的和要求

统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是为了分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志;当研究目的在于确定工业内部比例及平衡关系时,应该以行业为分组标志,将部门划分为重工业与轻工业或冶金、电力、化工、机械、纺织、煤炭等工业行业。(二)必须选择最重要的标志作为分组依据

社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组则应从中选择与统计研究的目的、与有关事物的性质或类型关系最密切的标志,即把最主要或最本质的标志作为统计分组的依据。例如,当根据统计调查资料来研究人民生活水平变动情况时,可供选择的分组标志有家庭人口数、每户就业人数、每一就业者负担人数、家庭总收入、平均每人每月生活费收入等。而其中最能反映人民生活水平变动的标志是平均每人每月生活费收入,故应选择这一标志作为分组标志。(三)要考虑到社会经济现象所处的具体历史条件

客观事物的特点和内部联系会随着条件的变化而变化,因此,当选择分组标志时,还应考虑到社会经济现象所处的具体历史条件。研究某种经济现象,采用某种标志进行分组,过去适用但现在不一定适用,此处适用但彼处不一定适用。所以要具体情况具体分析,根据事物的不同条件来选择分组标志。例如,同是划分企业规模,在劳动密集型的行业或地区,可采用职工人数作为分组标志;而在技术密集型的行业或地区,则应选择固定资产价值或生产能力作为分组标志。五、组数和组距

选定了分组标志,接着是确定组数,即确定将总体分为几组。这个问题与分组标志的性质密切相关,需分别阐述。(一)品质分组的组数

按品质标志分组时,其组数的确定主要取决于两个因素——统计研究的任务与事物的特点。对事物进行品质分组,其组数的多少首先取决于事物本身的特点。事物本身所具有的既定的属性,是我们确定组数的基本依据。在有些场合,事物的属性就已确定了总体的组数。例如,人口、职工和学生按性别分组,就只能分为两组;企业按经济类型分组,在我国现行经济体制下,也只有国有、集体、个体、合营和外资等几组。但是,有些事物构成比较复杂,组数可多可少,这时,到底将总体分为几组,就需要考虑统计研究任务的具体要求。例如,人口的分组、产品和商品的分组等是可粗可细的,组数则可多可少。到底分为几组,应根据统计研究的任务来确定,要求较细时,组数可多些;要求较粗时,组数则可少些。(二)数量分组的组数和组距

按数量标志分组的目的,是要通过事物数量上的差异来反映事物在性质上的区别。因此,按什么样的数量界限来分组,应根据统计研究的目的和事物分布的特点来确定。但就一般情况而言,组数的多少直接取决于两个因素:一个是总体的标志变异全距,另一个是组距。在等距分组的条件下,组数等于全距除以组距。

全距是总体中的最大标志值与最小标志值之差。组距则是各组的最大标志值(上限)与最小标志值(下限)之差。在组距既定的条件下,全距大则组数多,全距小则组数少;在全距既定的条件下,组距大则组数少,组距小则组数多。全距是客观存在的事实,不以人的意志为转移,所以,确定组数的关键是确定组距。

确定组距涉及两个问题:一是组距的大小,二是组距的形式(等距还是异距)。正确解决组距问题,不能只从形式上考虑,更不能随心所欲,必须遵循一定的原则。这些原则是:(1)要从统计研究的目的要求出发,使分组的结果能够满足统计工作的要求。例如,同样是人口按年龄分组,但是在劳动统计、国民教育统计和人口再生产统计中,分组的方法是不同的。(2)要注意决定事物质量的数量界限,尽可能地使各组的数量差异能够反映出事物在性质上的区别。因此,分组时要尽可能保证组内的同质性和组间的差异性,使组距的大小尽能与事物性质上的差异相吻合。例如,人口按年龄分组时,或者是反映出婴儿、幼儿、学前儿童、学龄儿童、青少年、中壮年和老年的质的区别,或者是反映出非劳力、辅助劳力、半劳力和全劳力的质的区别,而不应当作每3岁一组的毫无意义的分组。其他如事物的好坏,质量的优劣,规模的大、中、小,水平的高、中、低,管理的先进、一般、落后等,都可以用量上的差别来体现,分组时应当确定一个相对合理的数量界限,把它们区分开来。(3)要体现出事物分布的特点,反映事物分布的规律,便于人们对总体中的特殊部分进行单独的研究。事物的分布,有它自己的规律和表现形式,统计分组应当体现这个规律,使总体的各个部分都占有其应有的地位,并把总体中需要引起人们特别注意和认真研究的部分单独列出。

这些原则实际上告诉我们,对所掌握的统计资料进行统计分组时,确定组数的多少、组距的大小和形式,并无统一的规则,必须依据所研究问题的性质和研究者的知识经验来作判断。这里,介绍一种确定组数和组距的经验公式,即

式中,n为组数,N为总体单位数,d为组距,R为全距,即最大变量值X与最小变量值X之差。该公式是美国学者斯特杰斯maxmin(H.A.Sturges)创用的,称为斯特杰斯经验公式,在应用中它须满足两个条件:一是现象的分布接近正态;二是现象的特性适合作等距分组。根据这一公式,可以得到总体单位数与组数之间关系的参考标准(见表3-4):表3-4 摇总体单位数与组数之间关系的参考标准

上述公式及表中数据仅供参考,切不可生搬硬套。实际分组时采用的组数多少和组距大小应视所掌握资料的性质而定。六、组限和组中值

组限是指每组两端的数值,其中每组的起点数值(最小值)称为下限,终点数值(最大值)称为上限。组限是各组之间的数量界限,科学的组限要求使总体中任何一个单位都能够而且只能够归入某一组,各组之间既不交错,也不脱节,以防止分组和汇总中出现混乱。

组限的形式与变量的特点密切相关。如果分组标志是连续变量,组限一般用重合式;如果分组标志是离散变量,组限一般用不重合式。

所谓重合式,就是相邻两组中,前一组的上限与后一组的下限数值相重。如人口按年龄分为不满1岁、1~3岁、3~7岁、7~14岁、14~25岁……但所谓重合式只是形式上相重,实际上两组之间是没有重复的,一般按“含下限不含上限”或“上限不在组内”的原则处理。例如,“3~7岁”是指满3岁至不满7岁,“7~14岁”是指满7岁至不满14岁,其余类推。

所谓不重合式,是指前一组的上限与后一组的下限,两值紧密相连而又不相重复。例如,企业按职工人数分为99人以下、100~499人、500~999人、1000人及以上各组。这里,99与100、499与500、999与1000等,都是紧密相连的,当中不可能再有第三个数,因为不可能有99点几人或499点几人的企业。

以上是就一般规则而言的,实际工作中也有特例,即分组标志是连续变量,但组限却用不重合式。例如,人口按年龄分组的基础资料就分为0岁、1岁、2岁、3岁……(1岁1组),但其意义也是明确的,0岁指不满1岁、1岁指满1岁不满2岁、2岁指满2岁不满3岁,其余类推。组中值是各组组距的中点值,它代表组内各标志值的一般水平,具有平均数的性质(但它并不是平均数)。组中值因为适应统计分析的需要而被广泛采用,其计算方法因组限形式不同而不同。

当两组间的相邻组限重合时:

组距=本组上限-本组下限

组中值=(上限+下限)/2

或 =下限+组距/2

或 =上限-组距/2

当两组间的相邻组限不重合时:

组距=下组下限-本组下限

或 =本组上限-上组上限

组中值 =(本组下限+下组下限)/2

或 =本组下限+组距/2

或 =下组下限-组距/2

组距式分组中,常常会遇见首末两组“开口”的情况,即第一组用“多少以下”(有上限无下限),最后一组用“多少以上”(有下限无上限)来表示。此时,组中值是以相邻组的组距为依据的,按下式计算:

组中值 =上限-邻组组距/2

或 =下限+邻组组距/2

第四节 统计数据汇总

一、统计资料汇总的意义

在统计分组的基础上,将统计资料归并到各组中去,并计算各组和总体的合计数(包括总体总量和标志总量)的工作过程,称为统计资料汇总。通过统计资料汇总,将各个调查单位的情况汇总成总体情况,使我们能看到全体,进而揭示出总体在多方面的数量特征。由于统计调查往往是大规模的调查,汇总也就成为一项繁重的任务,只有采用一套科学的统计汇总技术,才能节约人力、财力、物力,保证汇总资料准确和迅速,并为统计分析打下良好的基础。二、统计资料汇总的组织形式

统计资料汇总有逐级汇总和集中汇总两种组织形式。

逐级汇总是按照一定的统计管理系统,由各级统计机构自下而上地逐级将调查资料汇总上报。我国的定期统计报表一般都属于逐级汇总,有些专门调查也采用这种汇总形式。逐级汇总便于就地审核和订正统计调查资料,在满足上级领导部门需要的同时,能及时为各级领导提供资料,并可发挥各级统计部门的作用。但逐级汇总层次较多,所需时间较长,从而产生汇总差错的可能性较大。

集中汇总是把统计调查资料集中在组织调查的最高机关或由它指定的机构进行汇总。它的特点是不经过中间环节,可以大大缩短汇总时间,便于贯彻统一的汇总纲要,并可使用现代化的汇总手段来提高汇总效率和质量。因此,对时效性强的快速普查和对汇总要求很高的一些重要调查,常常采用集中汇总形式。但集中汇总不能及时满足地方或基层领导的需要,审核和订正资料也较困难。

上述两种汇总形式各有利弊,因此在实际工作中常将两种组织形式结合使用,结合的形式有两种:(1)会审汇编,即把下级统计工作人员集中到上级机关,共同审核和汇总统计资料。如对工作量较大的年报,往往采用这种方式。会审汇编不仅比一般的逐级汇总快,而且可以随时纠正资料中的差错,交流经验,提高统计人员的业务水平。(2)综合汇总,即对各级都需要的基本资料实行逐级汇总,对调查所得的其他资料则实行集中汇总。如我国第三次人口普查,就是首先将地方急需的总户数和总人口以及按性别、民族和文化程度分组的人口资料进行逐级汇总的;然后将人口普查所得的其他资料交由省市和中央两级,利用电子计算机进行集中汇总。三、统计资料汇总的方法

统计资料汇总是一项技术性很强的工作,其汇总手段主要有两种:手工汇总和电子计算机汇总。

手工汇总指以算盘和小型计算器为手段,通过手工操作对统计资料进行汇总。现在,尽管在汇总资料较少或某些特定条件下,手工汇总仍有一定的方便性和优越性,但计算机汇总资料已是一项更普遍和快捷的整理工作。

运用电子计算机进行自动化汇总,快速准确、计算容量大且省时省力,并可以进行编审检同步、分组分析和数据存储,其汇总功能和汇总资料的再利用性都远远大于手工汇总。随着计算机硬件和软件技术的快速发展,管理手段或工具电算化将成为必然,这就预示着计算机汇总将完全取代手工汇总。当然,就技术而言,这更多地属于计算机应用和管理信息系统所研究的内容,这里不专作介绍,仅对计算机汇总的基本程序作如下归纳:(1)制表编序。根据汇总方案编制汇总表,再按汇总表的要求用某计算机语言编制程序。编好程序输入计算机,计算机则按此程序进行操作和打印,所以这是一项重要的技术工作,一般由懂软件编程的专业人员来完成。(2)输入数据。把需要汇总加工的数据按照算法语言输入计算机,并记载到存储介质上,以备计算机操作时调用。(3)逻辑检查。按照事先规定的一套逻辑检查规则对输入计算机的原始数据进行分析、比较、筛选和整理等,将误差超过允许范围的数据退回审改,允许误差范围以内的个别错误则由计算机按编辑规则自行改正。(4)打印结果。经过逻辑检查后,电子计算机将自动按照规定的汇总程序和汇总表式进行汇总和制表,并将结果打印出来。

第五节 分布数列

一、分布数列的意义

分布数列,是指反映总体单位在各组的分布状况的一系列数字。它是在统计分组的基础上,将总体的所有单位按组归类,并把所有的组及其单位数按一定顺序排列而成的。由于分布数列反映了总体单位数(次数)在各组的分布状况,因此也叫次数分布或次数分配。例如,将某玩具厂300名工人按每人日产量分组,统计出每组工人数,并按日产量从少到多排列,就形成一个分布数列,见表3-5。表3-5 工人日产量次数分布表

分布数列包括两个要素:一是组的名称,即按一定标志划分出来的各个组,其中按数量标志分组表现为各组的变量值(标志值),常用x表示;二是各组次数,即各组所对应的总体单位数。由于各组次数实际上表现了具有各组标志值的现象在总体中“频繁”出现的多少,因此也叫频数,常用F表示。次数的相对数形式即各组次数占总体单位总数的比重,称为频率,它说明具有某组标志值的现象在总体中频繁出现的程度,反映总体的构成。

分布数列,是统计整理的一种重要形式,也是统计描述和统计分析的一种重要方法。可以表明总体的分布特征和内部结构,并据以研究总体中某种标志的平均水平及其变动规律。二、分布数列的种类

社会经济现象多种多样,各具不同的特点,因而用来反映总体分布特征及内部结构的分布数列也有多种形式,我们可以从不同的角度将其分类。(一)按分组标志的不同分为品质数列和变量数列

品质数列,是指按品质标志分组所形成的分布数列,它由各组名称和各组单位数构成。例如,2008年年末广东省从业人员按经济类型分组的分布状况,见表3-6。表3-6 2008年年末广东省从业人员按经济类型分组的分布状况资料来源:广东统计年鉴.北京:中国统计出版社,2009.

就编制品质数列而言,如果分组标志选择得正确,统计研究的任务具体明了,则分组问题较易解决,事物分布的特征也比较容易通过数列正确地反映出来。

变量数列,是指按数量标志分组所形成的分布数列,由变量和次数两个要素组成。例如表3-3、表3-5都是常见的变量数列。相对来说,变量数列的编制比较困难,因为事物性质的差异在数量上往往表现得不甚明确,而且决定事物性质的数量界限也会因人的主观认识而异,所以,按同一数量标志分组也有可能出现多种分布数列。为了使变量数列能比较准确地反映总体的分布特征,编制数列时,既要遵循按数量标志分组的有关原则,又要掌握编制变量数列的方法。(二)按分组形式的不同可分为单项式数列和组距式数列

单项式数列,是指各组都由一个具体的变量值(单项)来表示的数列,例如表3-5。组距式数列,则是指各组都由两个变量值界定的变量区间(组距)来表示的数列,它又分为等距数列和不等距数列,例如表3-3就是不等距的组距式数列。(三)按次数分布的特征不同可分为钟形分布数列、U形分布数列和J形分布数列

钟形分布数列的特征是数列中愈靠近变量值中点分布次数愈多,愈远离变量值中点分布次数愈少,从而形成“中间大,两头小”的次数分布,将其绘成曲线图就像一口古钟,故得名。例如表3-5、表3-6都是钟形分布数列,我们将表3-5所反映的分布数列绘成曲线图,如图3-1所示。

从图3-1中可以看出,日产量为12件的工人最多,以此为中点,两边的人数逐渐减少。如果将原先的折线图用平滑的曲线略作修匀(见虚线图),就更显示出其钟形分布的特征。图3-1

在社会经济现象中,有许多钟形分布数列表现为对称分布,即以变量值中点(此时分布次数最多)的垂线为对称轴,两侧变量值分布的次数随着与中点值距离的增大而渐次减少,且减少的次数也基本对等,如图3-1所示,这种对称分布在统计学中称为正态分布。当然,也有非对称分布的现象,非对称分布的图形则有不同方向和程度的偏斜,故称为偏态分布。如图3-2所示,其中左边的图为向右偏斜,叫右偏分布;右边的图为向左偏斜,叫左偏分布。前面表3-3所表示的分布就是右偏分布。图3-2

U形分布数列则正好与钟形分布数列相反,表现出“两头大,中间小”的次数分布特征,其次数分布曲线图就像个U字,如图3-3所示。例如人口死亡现象按年龄分布便是如此,因为在人口总体中,婴幼儿和老年人死亡率最高,青少年死亡率最低,中年人死亡率也较低,图3-3从而死亡率按年龄分组则呈U形分布。另外,在社会经济现象中,也有一些统计分布数列的曲线图呈J形,其图形有两种情况:一种是次数随着变量值的增大而增多,如图3-4中的右图所示。例如,在市场经济条件下,商品供应量随市场价格上升而增加。另一种是次数随着变量值的增大而减少,呈倒J形分布,如图3-4中的左图所示。例如,弹性大的商品,其需求量随市场价格上升而减少。图3-4三、分布数列的编制

次数分布有简单次数分布和累计次数分布之分,它们的表现形式是次数分布表和次数分布图。(一)简单次数分布表的编制

这是编制分布数列的主要内容。由于品质数列和单项式变量数列的次数分布表相对比较简单,因此我们着重研究组距式数列次数分布表的编制方法和步骤。【例3-1】对某城市居民家庭的生活情况进行抽样调查,得到54户家庭月人均可支配收入(单位:元)资料如下:

乍一看,这些资料杂乱无章,很难看出有什么特征,需要进行整理。我们首先将这些数据从小到大进行排列,使其序列化:

经过初步整理,就可以看出该市居民家庭月人均可支配收入具有一定的规律性,大多数在1300~1800元,高于1800元或低于1300元的都很少,而且相对来说,低于1300元的略多于高于1800元的,这些特点都与现实生活比较吻合,我们在进行统计分组和编制变量数列时,就应该反映出这一总体的分布特征。

因为数据中最大的是2380元,最小的是810元,全距为1570元,且变量值个数较多,所以首先可以肯定对本资料不宜编制单项式数列,而要编制组距式数列。编制组距式数列就必须确定组距和组数,我们先采用组距为100元和150元,分别得到相应的分布数列,见表3-7。表3-7 某市居民家庭月人均可支配收入次数分布表

从表3-7可看出,组距为100元太小,组数太多,各组单位数分散,看不出分布规律;组距为150元时,总体单位在各组的分布规律开始表现出来,但特征仍不是很明显。若再将组距扩大为200元,此时组数可定为8组(组数=全距/组距=1570/200=7.8),通过进一步整理,得到分布数列,见表3-8。表3-8 某市居民家庭月人均可支配收入次数分布表

从表3-8可知,采用组距为200元来编制分布数列最适宜,不同月人均可支配收入水平的家庭的分布特征被明显地表现出来了。(二)简单次数分布图的绘制

分布数列所表示的次数分布状况,还可通过次数分布图来反映。次数分布图的绘制因单项式数列和组距式数列而有所不同,组距式数列又因等距数列和不等距数列而异。

单项式数列次数分布图的绘制比较简单,它是以变量为横轴,以次数为纵轴,在坐标上描出各组的变量值和相应的分配次数所对应的坐标点,并用折线连接各坐标点,即得布曲线(折线)图,如图3-1的实线部分所示。

组距式数列次数分布图则有直方图和曲线图两种,而且曲线图是在直方图的基础上绘制的。具体绘制步骤如下:(1)以横轴代表变量,并在上面标出各组组限值所在位置。这样,各位置之间的距离就是各组组距,在等距分组的条件下它们是相等的;以纵轴代表次数,并按需要标出各组次数所在位置。(2)以各组组距为宽,各组次数为高,绘出各组所对应的直方图。这样,各组直方图面积的大小就表示各组分配次数的多少,且各个直方图并在一起所形成的“图案”就表明了总体次数分布的特征。(3)将各直方图上端的中点(即各组组中值与各组次数的交点)连成一条折线,就形成次数分布曲线(折线)图。从面积的角度看,折线与横轴所包围的面积与直方图的面积是相等的,故它们所容纳的总体单位数是一样的。现绘制前例居民家庭月人均可支配收入的次数分布图,见图3-5。某市居民家庭月人均可支配收入的次数分布图

上面绘制的是等距数列的次数分布图,对不等距数列,其分布图的绘制稍微复杂些,不能直接按照不等距数列的资料绘制分布图,因为不等距数列的次数分布受变量值和组距两种因素的影响,不经过加工整理而直接绘制的图形,不能正确反映次数分布特征。为了使图形能更准确地反映总体次数的分布状况,就必须消除组距大小不等的影响,将不等组距的次数换算为统一的标准组距次数(标准组距通常是组距数列中的最小组距)。换算公式如下:

再以横轴代表各组变量值,以纵轴代表各组标准组距次数(或频数密度),就可绘出能正确反映总体次数分布状况的分布图。我们仍以图3-5的资料为例,将最后两组归为一组,就形成不等距数列,据此制出相应的标准组距次数分布表和分布图。见表3-9和图3-6。表3-9 某市居民家庭月人均可支配收入(不等距组)次数分布表图3-6 家庭月人均可支配收入(不等距组)次数分布图(三)累计次数分布的编制

简单次数分布数列可以表示每个变量组出现的次数,以及在整个数列中次数分布的规律。如果我们想知道分布数列中各组的次数以及总体单位数的分布特征,只从简单次数分布表中一眼就可以看出来。但是,如要知道截止到某一组变量值以下或以上所对应的分配次数是多少,以及事物发展进程等情况,则需要将有关组的分配次数进行累加后才能说明问题。所以,要全面深入地分析分布数列,还应编制累计次数分布。

编制累计次数分布需要计算累计次数和累计频率,它们又有两种计算方法:一种是以下累计,即从低组向高组累计,此时每组的累计次数或累计频率表示该组上限以下的次数或频率共有多少;另一种是以上累计,即从高组向低组累计,此时每组的累计次数或累计频率表示该组下限以上的次数或频率共有多少。如表3-10所示。表3-10 某市居民家庭月人均可支配收入累计次数分布表

根据累计次数分布表的资料,可以绘制累计次数分布图,如图3-7所示。图中由左下角至右上角的曲线为以下累计曲线,由左上角至右下角的曲线为以上累计曲线。图3-7 某市居民家庭月人均可支配收入累计次数分布图

值得注意的是,编制累计次数分布有其特殊的作用:(1)可表明各组变量在该组上限值以下或下限值以上的次数或频率共有多少。如本例中,家庭月人均可支配收入在1600元以下的有35户,占家庭总数的64.81%,同时说明只有35.19%的家庭月人均可支配收入在1600元以上;家庭月人均可支配收入在2000元以上的只有5户,仅占家庭总数的9.26%,同时说明90%以上的家庭月人均可支配收入都在2000元以下。(2)在图上可直观地看到中位数的近似值。如本例中,由向上累计和向下累计的两条曲线的交点所对应的坐标可知,中位数的位置是27,中位数是1490元左右(中位数的问题将在第五章介绍)。(3)借助各组标志总量占总体标志总量的比重累计数,还可以图示集中曲线,表示社会经济现象的集中水平。比如著名的洛伦茨曲线图,就是在累计次数分布的基础上绘制的,常用来研究财富、土地和收入的分配是否公平,以及劳动者和产值的集中状况。

鉴于洛伦茨曲线图是统计资料整理(累计次数分布)结果的直接应用,并被广泛运用于经济管理问题分析,所以专门对此作介绍。洛伦茨曲线图最早是由美国洛伦茨博士(Dr.M.O.Lorenz)提出来的。其绘制方法如下:(1)将分配的对象和接受分配者的数量均化成结构相对数并进行向上累计。(2)纵轴和横轴均为百分比尺度,纵轴自下而上,用以测定分配的对象(如一国的财富、土地或收入等);横轴由左向右,用以测定接受分配者(如一国的人口)。(3)根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点并使之平滑化,所得曲线即所要求的洛伦茨曲线。

例如,某国某年家庭收入资料如表3-11所示,利用这些资料绘制洛伦茨曲线。

先将人口、收入的数量[表3-11中的第(1)、(4)栏]计算成结构相对数[表3-11中的第(2)、(5)栏];

再求出累计百分比[表3-11中的第(3)、(6)栏];

然后以表3-11中的第(3)栏和第(6)栏成对的数据作为横坐标和纵坐标,在制好的比率曲线图格上标出坐标点,连接各坐标点即为分配曲线,具体见图3-8。表3-11 某国收入所得分配情况资料来源:黄良文.统计学.北京:中国统计出版社,2008.

图3-8中的曲线为实际收入分配曲线,对角线为绝对平等线。将实际收入分配线与绝对平等线或绝对不平等线进行对比,可衡量其不平等程度。离绝对平等线越远,分配越不平等;反之,越靠近绝对平等线,分配越平等。图3-8 洛伦茨曲线示意图

我们可以进一步考虑将洛伦茨曲线可拓广使用。洛伦茨曲线拓展运用于描述一般的社会经济现象,借以反映总体单位标志分布的集中状况——集中的存在、集中的程度,所以也称为集中曲线,或标志曲线。集中曲线用于研究现象总体各单位标志的变异状况——变量分布均匀性或分布的集中程度,例如,测定城市人口的地域集中状况、地区或部门工业企业中各种指标的构成与分布情况、电力系统的发电量和燃料消耗量是否集中于大型的发电站中、居民家庭的收入与金融资产的集中程度等方面,都可以考虑运用洛伦茨曲线原理绘制曲线,并进行分析。

以下通过一个实例来说明集中曲线的绘制步骤。

假定通过抽样调查,得到某城市64户居民家庭月人均可支配收入和家庭金融资产的资料(按月收入分组),如表3-12所示,据此资料绘制集中曲线图。表3-12 64户居民家庭月收入和金融资产资料表资料来源:黄良文.统计学.北京:中国统计出版社,2008.

以横轴表示累计频率,即居民家庭户数比重累计;以纵轴表示标志总量比重累计,即各组月收入、金融资产比重累计。

图3-9表明64户居民家庭月人均可支配收入和金融资产的构成分布情况和集中状况。

对角线表示各组的频率与各组的标志总量对比总体标志总量的比重是完全对应的,即现象总体标志(变量)呈线性均匀分布,不存在集中过程。若集中曲线离开了对角线,则说明集中存在。图3-9 64户居民家庭月人均可支配收入和金融资产洛伦茨曲线

绘制洛伦茨曲线,必须正确分辨给定的数据中哪一项是总体单位,哪一项是单位标志,并且明确前者放在横轴上,后者放在纵轴上。

第六节 统计数据显示

一、统计表(一)统计表的意义及其结构

统计表,是指集中而有序地显示统计资料的表格。它是表现统计资料和积累统计资料的基本手段。好的统计表不仅可以简明扼要地反映社会经济现象的状况,而且可以深刻地揭示社会经济现象的性质及其发展规律,可以避免冗长的文字和烦琐的叙述。因此,在统计工作和社会经济问题的分析中,统计表被广泛地采用。

统计表的结构,从组成因素看,是由标题、横行与纵栏、数字资料三部分组成的。标题分为两种,一是总标题,即表的名称,概括地说明表的内容,放在表的上端中央;二是标目,即横行与纵栏的标题,说明横行与纵栏的内容,通常它们分别写在表的左方(横标目)和上方(纵标目)。数字资料就是表中的各项具体指标值。

从统计表的内容上看,它由主词和宾词两部分构成。主词就是统计表所要说明的对象,也就是所要研究的总体及其各个组成部分,通常列在表的左端;宾词就是用来说明主词的各个统计指标,通常排在表的上方。当然,根据需要两者的位置有时亦可互换。下面是一个统计表式的例子,见表3-13。表3-13资料来源:中国统计年鉴.北京:中国统计出版社,1994.(二)统计表的种类

统计表从不同的角度可作不同的分类,主要有两种分类:

1. 按用途不同可分为调查表、汇总表和分析表(1)调查表,是指在统计调查阶段使用的、登记调查单位原始资料的统计表。严格地讲,调查表不应视为统计表,因为统计表是记载大量单位数量特征的综合结果。但从另一方面看,登记调查表确实也是统计过程的一部分,而且有些统计表就是许多调查表的汇总,因此,也可把调查表视为一种统计表。(2)汇总表,是标准的统计表。这种表用于统计资料的整理,记载统计整理的综合结果。它为社会提供系统的统计资料,也为进一步的统计分析提供资料。(3)分析表,是指统计分析过程中所使用的统计表。为了揭示事物在各方面的数量特征,反映事物之间的关系和事物运动的过程,分析表除了要列出一些基本指标外,常常需要计算多种分析指标,有时还要写出各指标间的计算关系,以反映事物的水平、速度、结构和比例关系,以便人们对事物作出正确的判断。

2. 按主词的分组情况不同分为简单表、分组表和复合表(1)简单表,是指对表的主词不作任何分组的统计表。它的主词可以按总体单位的名称、地区排列,如表3-14所示,或者是按时间顺序排列,如表3-15所示。表3-14 某公司所属企业成本计划完成情况表3-15 广东省工农业总产值统计表资料来源:广东统计年鉴.北京:中国统计出版社,2009.(2)分组表,是指表的主词作了简单分组和并列分组的统计表。它可以说明现象的类型,揭示现象的内部结构和分析现象之间的依存关系。表3-1、3-3、3-5都是分组表。(3)复合表,是指表的主词按两个或两个以上的标志进行复合分组的统计表。复合表可以揭示事物之间的多重关系和事物内部比较复杂的构成,如表3-16所示表3-16 社会消费品零售额统计表(三)宾词指标的设计

宾词是用来说明主词的统计指标,统计表中宾词的设计不同,主词的角度和深度也不同。宾词的设计分为平行设计和叠列设计两种。

平行设计的宾词又有两种,一种是对宾词不作任何分组,仅将各宾词指标顺序排列,如表3-13所示;另一种是尽管对宾词指标进行分组,但各种分组之间是相互独立、平行排列的,如表3-17所示。表3-17

叠列设计的宾词是指将宾词指标进行复合分组、层叠排列,即在对宾词指标进行某种分组的基础上,再按另一种(或多种)标志进行分组,如表3-18所示。叠列设计的宾词可以将多种指标结合起来运用,更深入具体地说明总体的数量特征。但如果叠列的层次太多,不仅使统计表的栏数成倍增加,统计表显得臃肿庞杂,而且会使数据分散,使人看了不得要领,反而不能清楚地说明问题。因此,不可滥用叠列设计的宾词(四)制表规则

为了使统计表能够清晰地反映事物的数量特征,便于比较分析,在编制统计表时,应遵守下列几项规则:(1)统计表的内容应力求简明扼要,主题突出,一目了然。(2)统计表的总标题要简单地概括表的基本内容和资料所属时间、地点,标目要反映出横行纵栏的含义,并注意计量单位。(3)表内分组和指标的排列顺序,要符合内容的逻辑关系。如果表上只列部分重要项目,合计栏应列在项目的最前面,下加“其中”后再列重要项目。(4)字迹要清楚规范,数字要排列整齐,同栏数据要有同等的精确度。表中不应有空格,无数字的地方用“—”表示,应有数字而不详的地方用“……”表示。(5)栏数较多的统计表,各栏应加编号。主词栏常用甲、乙、丙、丁等文字编号;宾词栏则用(1)、(2)、(3)等阿拉伯数字编号,必要时还要注明各栏的相互关系,以便比较和查对数字。(6)表的上、下两端画粗线或双线,左右两边不封口,纵栏之间要用细线分开,横行之间则不必画线。(7)必要时表下可加“注释”,说明表的资料来源、制表人或单位、制表日期以及个别需要说明的指标或数据。二、统计图

如果说统计表能够集中而有序地表现统计资料,统计图则能够将统计资料展示得更为生动而具体,便于人们直观而有趣地观察和接受统计资料,进而能够正确而深刻地理解和运用统计资料。随着计算机硬件和软件技术的快速发展,电脑的制图功能日益强大,统计图的制作更加方便、精准、快捷和有效。

统计图是具体显示统计资料的图形。由于统计资料是社会经济现象的数字反映,可能是千变万化、复杂多样的,因此统计图的式样也就非常多。就统计图的主体功能来看,主要可以归纳为两大类:分布图和形象图。(一)分布图

分布图主要用来展现统计资料所描述的次数分布和类型特征,常用的图形有直方图、折线图、曲线图和累计曲线图。这些图形的具体功能和绘制已在上一节中作了详细介绍,这里不再赘述。(二)形象图

形象图主要用来展现统计资料所描述的数量多少、速度快慢和结构特征等,常用的图形有物形图、饼形图、柱形图和标示图。

1. 物形图

顾名思义,物形图就是以所要反映事物的形象化图形来说明该事物的数量特征。如以小树来代表植树造林面积或绿化面积,以稻穗或麦穗来代表农作物产量,以熊猫来代表珍稀动物数量,以飞机来代表航空运输量或飞机架数等。当然,每个图案代表多少数量则要根据具体需要而定。下面就是一个以小汽车图案来反映某地连续三年小汽车销售情况的物形图,见图3-10。图3-10 2003—2005年某地小汽车的销售情况图

2. 饼形图

饼形图是以一个圆形图案(其立体图就像一个圆饼)来描绘统计资料所反映事物的结构性或比例性的数量特征。一般的做法是,以一个整圆代表总体数量,从圆心到圆周将整圆分成若干不同部分,各部分的大小代表数量的多少或比重的大小,以反映统计总体的内部构成或不同部分的比例状况。饼形图又有平面图和立体图两种:图3-11就是以平面图的形式来说明某饮料厂各季度营业利润的饼形图;图3-12则是以立体图的形式来说明某地区三类产业产值比重的饼形图。图3-11 某饮料厂各季度营业利润饼形图图3-12 某地区三类产业产值的比重图

3. 柱形图

柱形图是以各种直立或横置的长条图形来描绘统计资料的数量特征,长者表示数量多,短者表示数量少。这种图几乎可以表现统计现象的各种数量特征,而且直观易懂,绘制也相对简单,所以它是实际应用最广泛的形象图。柱形图也有平面图(亦称条形图)和立体图(亦称方柱图或圆柱图)两大类。例如,图3-13就是一种平面柱形图,反映某地“十一五”期间GDP数量变化及其产业构成;图3-14则是一种立体柱形图,反映某建筑集团所属的甲、乙、丙三家房屋建筑公司在某年各季度的房屋建筑竣工状况。图3-13 某地国内生产总值及其产业构成动态示意图图3-14 某建筑集团某年各季度的房屋竣工面积示意图

4. 标示图

它是对所要描绘的统计资料的数量特征进行特别标注的一种图示,可在揭示统计资料变动规律的同时显示着重点或主要影响因素等。比如图3-15就形象而具体地显示了我国汇改以来美元兑人民币汇率走势及其变动的关键时点和值点等。

又如,图3-16显示了21世纪以来我国与日本GDP的变动趋势与对比状况。图3-15资料来源:广州日报,2010-09-21.图3-16资料来源:广州日报,2010-08-18.

第七节 Excel频数分布表和直方图

【例3-2】对本章【例3-1】数据,用Excel作频数分布表和直方图。

解:(1)排序。将数据输入Excel表,按升序排列,出现由小到大的数据,如810,840,870,…,2380。(2)确定组距和组数。根据本例,全距=最大值-最小值=2380-810=1570,确定分成8组,组距200。如:1000以下,1000~1200,…,2200~2400。(3)确定上组限值。Excel汇总数据采用了“上组限在内原则”,刚好与我们教科书的原则相反,所以,我们先设置各组的上限减1,然后再调整过来。如图3-17所示。(4)选择:数据——数据分析——直方图——确定。如图3-17所示。(注:如果Excel中没有安装,要启动“Excel加载宏”予以安装。)

①输入。

输入区域:A1:A55

接收区域:B3:J3

标志:选择“√”,表示选用“人均收入”变量符号。

②输出选项。

输出区域:C22

图表输出:选择“√”,表示仅选择频数分布表和直方图。

③单击,Excel将计算出结果显示在中。图3-17(5)修饰频数分布表。参见图3-18。(6)修饰直方图。

①消除间隔:右击鼠标,选择“设置数据系列格式”,将分类间距调到无间距。

②边框颜色:选择“实线”,颜色选择“黑色”。

③填充:选择“无填充”。

④关闭。出现图3-18。图3-18

Excel具有强大的制表和制图功能,限于篇幅,本章不展开讲解,有兴趣的读者,可以专门参阅《Excel与数据分析》等参考书。

思考题

1. 解释下列统计整理中的基本概念:(1)统计分组与统计汇总。(2)次数分布与变量数列。(3)频数与频率。(4)全距与组距。(5)组限与组中值。(6)直方图与折线图。

2. 什么是统计整理?它分为哪几个步骤?

3. 统计分组有什么作用?如何正确选择分组标志?

4. 试述单项式分组和组距式分组的应用场合。

5. 什么是简单分组和复合分组?两者有何区别?复合分组是否优于简单分组?

6. 现象的分布特征有哪几种形式?

7. 怎样绘制简单次数分布图?

8. 为何要编制累计次数分布?它有哪几种?有何特殊作用?

9. 什么是统计表?试述统计表的结构及种类。

10. 统计图有何功能?如何绘制?

11. 有20个工人看管机器,台数资料如下:2、2、5、4、2、4、3、4、3、4、4、2、4、3、4、5、3、4、4、3,试根据资料编制分布数列。

12. 对某厂50个计件工人某月份工资进行登记,获得以下原始资料(单位:元):1465 1760 1985 2270 2980 1375 1735 1940 2220 2670

1405 1755 1965 2240 2820 1295 1645 1880 2110 2550

1355 1710 1910 2190 2600 1265 1625 1865 2095 2520

1225 1605 1845 2040 2430 1175 1595 1835 2030 2370

1000 1535 1810 2010 2290 1125 1575 1815 2030 2320

要求:(1)分别根据组距为100元、200元、300元编制分布数列,并比较按哪种组距分组的分布数列更为合适。(2)按你认为最合适的分布数列,计算相应的组中值、频率和累计次数,并绘制简单次数分布图。

13. 已知一组15名工人的资料如下表所示:

要求:(1)按性别和文化程度分别编制品质数列。(2)按技术级别编制单项式数列。(3)以10岁为组距编制组距式数列,20岁以下、60岁以上各为一组。

14. 根据某厂工人计件月工资和加工定额的资料(见下表),按完成加工定额(%),以组距为20%编制等距数列,计算各组工人数、工资总额和平均工资,分析工人完成加工定额和计件工资之间的相互关系。

15. 某机械局所属各拖拉机厂某月生产情况见下表。要求按产品类型和马力作复合分组,编制分布数列,分别计算履带式和轮胎式拖拉机的混合产量和标准实物量(以15匹马力为标准单位)。

第四章 总量指标与相对指标

第一节 总量指标

一、总量指标的概念及作用

总量指标是反映社会经济现象在一定时间、地点条件下所达到的总规模、总水平的综合指标,其表现形式是具有计量单位的绝对数,因此也称为绝对指标。如国内生产总值、工业企业实现利润额等。总量指标在社会经济研究和管理中具有如下重要的作用:(1)总量指标是反映一个国家或地区国民经济和社会发展状况的基本指标。如国内生产总值、进出口总额等总量指标,可以表明一个国家或地区的经济发展水平。(2)总量指标是计算相对指标和平均指标的基础指标。相对指标和平均指标一般都是由两个有联系的总量指标对比的结果,是总量指标的派生指标。总量指标的计算是否科学、合理,直接影响到相对指标和平均指标的准确性。(3)总量指标是宏观经济管理和企业经济核算的重要依据。二、总量指标的种类(一)总体总量和标志总量

总量指标按其反映的内容不同,分为总体总量和标志总量。(1)总体总量,即总体单位总数,它是由每个总体单位加总而得到的,说明总体本身规模的大小。(2)标志总量,是指总体各单位某一数量标志值的总和。

例如,研究某地区商业企业的情况,总体为该地区所有的商业企业,总体单位为该地区每一个商业企业,则该地区的商业企业总数为总体总量,而企业的总销售额、总人数、总利润,即为标志总量,它是由各企业的数量标志汇总而来的。总体总量用总体单位数的多少反映总体规模的大小,而标志总量则用总体单位某种特征的总数来反映总体的规模和水平。

一个总量指标究竟是总体总量还是标志总量,并不是固定不变的,它随着研究目的的变化而变化。研究目的变了,总体和总体单位、总体总量和标志总量也会随之而变。(二)时期指标和时点指标

总量指标按其时间状态的不同,分为时期指标和时点指标。(1)时期指标,也称为时期数,指反映社会经济现象在一段时期内所达到的总规模、总水平或工作总量,如产品的产值、商品销售额、工资总额等。时期指标有以下特点:

①时期指标可以累计相加。时期指标是连续登记的结果,在时间上可以累计相加且累加结果具有实际意义。如一个月的产品产量是该月日历天数产量的累计数,一年的产量是12个月产量的累计数。

②时期指标数值的大小与时期的长短密切相关。一般说来,时期越长,指标数值越大,时期越短,指标数值越小。如一年的产量大于一个月的产量。(2)时点指标,也称为时点数,指反映社会经济现象在某一时点(时刻))所达到的总规模或总水平,如年末人口数、月末商品库存额、季末银行存款余额、年末固定资产净值等。时点指标具有以下特点:

①各时点指标不能累计相加。时点指标的数值是间断计数的,在时间上不能累计相加,累加结果无实际意义。如商品库存量通常是在月初或月末一次性登记的结果,各月初或月末的商品库存量累计结果无意义。

②时点指标数值的大小与时期长短无直接的关系。如年末库存量不一定大于月末库存量。(三)实物指标、价值指标和劳动量指标

指标按计量单位的不同,分为实物指标、价值指标和劳动量指标。(1)实物指标,是指以实物单位计量的总量指标,即以事物的物理属性或自然属性作为计量单位的指标。它可以直接反映产品的使用价值或现象的具体内容,但综合能力较差,对不同产品或商品不易进行汇总。例如,自然单位:人口用人,汽车用辆等;度量衡单位:棉布用米,木材用立方米等;专用单位:电用度、热量用焦耳等;复合单位:发电机用台/千瓦,货物周转量用吨/千米等;标准实物单位:棉纱以20支纱为标准棉纱等。(2)价值指标,是指以货币为计量单位的总量指标,具有最广泛的综合性和概括性。如社会总产值、商品销售额、工资总额、利润额等就是以货币为计量单位的总量指标。(3)劳动量指标,是指以工时、工日等劳动量单位计量的总量指标。借助劳动量指标可以确定劳动的规模,并且可以作为评价劳动时间长度和计算劳动生产率的依据。三、总量指标运用原则(1)正确确定指标的含义。总量指标是社会经济统计的基础指标,运用总量指标对事物进行分析对比时,必须明确指标的科学含义,即指标的概念、范围、计算方法和计量单位等方面应该具有可比性。(2)总量指标与相对指标、平均指标结合运用。总量指标只能说明事物的规模、水平,不能反映事物数量的相对差异及平均水平。只有各种指标结合运用,才能对事物的发展变化作出客观的评价。

第二节 相对指标

一、相对指标的概念及表现形式(一)相对指标的概念

相对指标也称为相对数,是两个有联系的统计指标进行对比的比值,它反映社会经济现象之间的数量对比关系。根据统计研究的目的和任务的不同,相对指标可分为计划完成相对数、结构相对数、比例相对数、比较相对数、动态相对数和强度相对数六种。(二)相对指标的表现形式

相对指标一般有两种表现形式,即无名数和有名数。(1)无名数,是一种抽象化的数值,通常的表现形式是成数、系数、倍数、百分数、千分数等。相对指标在很多场合都用无名数表示,如经济增长速度、人口自然增长率等。(2)有名数,是指有具体内容的计量单位的数值,它有单名数和复名数之分。如商品流转速度指标用“次”或“天”等单名数表示,有些相对指标如强度相对数,则通常采用分子指标与分母指标的计量单位共同构成的复合单位,即复名数表示。如人口密度用“人/平方千米”、商业网密度用“人/个”或“个/千人”表示。二、相对指标的作用(1)说明社会现象之间的数量对比关系,为深入分析事物的性质提供依据。如一个地区第一、二、三产业的比例,可以说明该地区社会经济发展的程度;人均国内生产总值、人均钢铁产量等指标,可以反映一个国家或地区的国情国力,表明经济实力的相对水平。(2)把社会现象的绝对差异抽象化,使原来不能直接对比的统计指标可以进行比较。如不同企业的生产规模、条件不同,其总量指标不能直接对比。但通过计算各自的计划完成相对数、设备利用率、资金产值率等相对指标进行比较,便能合理评价企业生产经营的结果。三、相对指标的种类和计算方法(一)计划完成相对数

计划完成相对数,又称计划完成程度或计划完成百分比,是计划期内实际完成数与计划任务数对比的比值。一般用百分数(%)表示。

计划完成相对数表明某一时期内某种计划的完成程度,用以监督和检查计划的执行进度,评价计划执行的好坏。其计算公式如下:

注意:分子与分母的位置不能互换。

在实际应用中,由于计划任务时期的长短及任务数值的表现形式不同,计划完成相对数的计算方法也不尽相同。

1. 短期计划完成相对数的计算及计划执行进度的考核

短期计划一般指期限一年以内的计划,计划任务数可表现为总量指标、相对指标或平均指标,计算时要根据具体情况采用不同的方法。(1)计划任务数为总量指标或平均指标。

计划任务数为总量指标或平均指标时,计划完成相对数的计算直接使用式(4.1)。【例4-1】某企业A产品产值计划为500万元,实际产值为550万元,试计算该企业A产品产值的计划完成相对数。

解:

计算结果表明,该企业A产品产值超额完成计划10%,超额完成产值50万元。【例4-2】接上例,同年该企业计划A产品平均单位成本为每件250元,实际平均单位成本为225元,试计算A产品平均单位成本的计划完成相对数。

解:

计算结果表明,该企业A产品平均单位成本实际比计划降低10%。

上述两种计划完成相对数具有不同的经济意义。产值计划完成相对数若大于100%,表明超额完成计划;小于100%,说明没有完成计划。数值越大,表明计划完成得越好,这种指标称为正指标。正指标如产品产量、产值、销售额、劳动生产率等计划任务数是按最低限额规定的。平均单位成本计划完成相对数若大于100%,说明实际成本比计划提高,没有完成计划;小于100%,说明实际成本比计划降低,超额完成计划。数值越小,表明计划完成得越好,这种指标称为逆指标。逆指标如单位成本、商品流通费用等,计划任务数是按最高限额规定的。(2)计划任务数为相对指标。

计划任务数为相对指标时,计划完成相对数的计算公式如下:【例4-3】某企业某产品的产量计划要求比去年增长8%,单位成本计划降低6%,而实际产量增长了10%,实际单位成本下降了3%,试计算该企业产量和单位成本的计划完成相对数。

解:

计算结果表明,该企业某产品的产量计划超额完成1.85%,单位成本未能完成计划,实际单位成本超过计划成本的3.19%。

在实际工作中也有直接用实际增长(或降低)百分数与计划增长(或降低)百分数之差来表示计划完成程度的,这种相减的结果表明实际比计划多提高(或下降)的百分点。上例中,实际产量比计划多完成了2个百分点,实际单位成本比计划少完成了3个百分点。这种方法与前面所述方法,其含义是不同的,不应混为一谈。(3)短期计划执行进度的考核。

为保证顺利完成计划任务,有必要定期对计划执行进度进行考核。其计算公式如下:【例4-4】某公司某年计划完成商品销售额1500万元,1~9月累计实际完成1125万元,计算该公司前三季度的计划执行进度相对数。

解:

计算结果表明,该公司1~9月销售额累计完成年计划的75%,其计划执行进度与时间同步,只要四季度保持前三季度的平均水平或有所提高,年末就能完成或超额完成全年计划。

2. 中长期计划完成相对数的计算及计划执行进度考核

中长期计划是指期限一年以上的计划,其计划指标有的规定了全期应完成的累计总数,如固定资产投资计划、住宅建设计划等;有的规定计划期最后一年应达到的水平,如产量、产值计划等。因此,检查计划完成的方法也有两种不同的计算方法,即水平法和累计法。(1)水平法。

水平法是以长期计划期末水平(即最后一年水平)为对象考核的。在长期计划中,若只规定计划期末应达到的水平,则应采用水平法。其计算公式为:

用水平法检查中长期计划完成情况,计算提前完成计划的时间,应以计划期内连续一年(12个月,不论是否在同一个日历年度)达到计划规定的最末一年水平为标准。若连续累计12个月实际完成的水平达到计划规定的最末一年的水平,就算完成计划,剩余时间就是提前完成计划的时间。【例4-5】某企业五年计划规定,某产品产量在计划期最后一年应达到200万吨,实际执行结果如表4-1所示。试计算该企业产量计划完成相对数和提前完成计划时间。

解:

从第4年三季度至第5年二季度产量之和为:

42+49+53+58=202(万吨)

比计划数200万吨多2万吨,则提前完成计划时间为:(2)累计法。

累计法是把计划期内各年累计实际完成数与同期计划规定的累计数对比计算计划完成相对数的方法。它适用于检查整个计划期累计应达到的水平,如固定资产投资、住宅建设等计划完成情况。其计算公式为:

按累计法计算提前完成计划的时间,只要从期初往后连续考察,其实际累计数达到计划规定的累计数即为完成长期计划,剩余时间为提前完成计划时间。【例4-6】某市五年计划规定整个计划期间基建投资总额应达500亿元,实际执行结果如表4-2所示。试计算该市五年基建投资额计划完成相对数和提前完成计划时间。表4-2 某市五年计划各年基建投资额实际完成情况

解:

从第1年的一季度开始至第5年的三季度投资额之和为505亿元,比计划数500亿元多5亿元,则提前完成计划时间为:

计算表明,该市提前3个月零18天完成五年计划规定的基建投资额计划任务。(二)结构相对数

结构相对数是总体中某部分数值与该总体全部数值对比的比值,反映总体内部构成情况。一般用百分数“%”表示,且同一总体的结构相对数之和应为100%或1。其计算公式为:

注意:分子与分母位置不能互换。【例4-7】某地区某年国内生产总值为1800亿元,其中第一产业增加值为90亿元,第二产业增加值为720亿元,第三产业增加值为990亿元。试计算该地区第一、第二、第三产业增加值的结构相对数。

解:

计算结果表明,该地区第一、第二、第三产业增加值占国内生产总值的比重分别为5%、40%和55%,表明该地区经济发展水平较高。(三)比例相对数

比例相对数是将同一总体内某一部分数值与另一部分数值对比的比值,反映总体各部分之间的内在联系和比例关系。一般用比数如A:B表示。其计算公式为:

注意:比例相对数的分子分母同属一个总体,且分子与分母的位置可以互换。【例4-8】某地区某年工业总产值为2 110亿元,其中轻工业产值为1400亿元,重工业产值为710亿元,试计算轻重工业比例。

计算结果表明,轻重工业比例为1.97:1(以重工业为100)。(四)比较相对数

比较相对数是同一时间的同类指标在不同空间对比的比值,反映不同国家、不同地区或不同单位之间的差异程度,一般用百分数“%”或倍数表示。其计算公式为:

比较相对数与比例相对数的分子、分母都可以互换,两者的主要差别是比例相对数是同一总体的不同部分比较,而比较相对数是同类指标的不同空间比较。【例4-9】某省甲乙两市2010年人口数、国内生产总值与人均国内生产总值资料如表4-3所示。试计算甲乙两市相关指标的比较相对数。表4-3 某省甲乙两市2010年相关指标

解:

计算结果表明,乙市经济发展和人民生活水平较高。虽然甲市国内生产总值比乙市多45.83%,但由于其人口数比乙市多113.24%,所以甲市的人均国内生产总值比乙市少31.61%。(五)动态相对数

动态相对数是将总体不同时期的同一类指标对比的比值,反映事物发展变化的方向和程度,也称为发展速度。一般用百分数“%”表示。其计算公式为:

公式中报告期指要研究或计算的时期,基期指作为比较基础的时期。动态相对数分子与分母的位置一般不能互换。【例4-10】某地区国内生产总值2009年为2097.77亿元,2010年为2383.07亿元,求该地区2010年动态相对数(发展速度)。

解:

计算结果表明,2010年该地区国内生产总值是2009年的113.6%,国内生产总值增长了13.6%。(六)强度相对数

强度相对数是将两个有联系但性质不同的指标对比的比值,反映现象的强度、密度和普及程度,是一种特殊形式的相对数。一般以有名数表示,也有一些强度相对数采用百分数或千分数表示。其计算公式为:

有些强度相对数的分子和分母可以互换,形成正指标与逆指标两种计算方法。正指标比值的大小与其反映的强度、密度成正比,逆指标比值的大小与其反映的强度、密度成反比。【例4-11】某市2010年零售商业网点为5.000个,年平均人口为800万人,试计算该市零售商业网密度。

解:

正指标说明该地区2010年每万人有62.5个零售商店为他们服务,逆指标说明每个零售商店为160人服务。四、计算和应用相对指标的原则(一)可比性原则

相对指标是两个有联系的统计指标相对比的比值,运用相对指标对事物进行比较、评价时,必须注意指标的可比性。可比性包括用以对比指标的含义、统计范围、计算方法、计量单位等的可比。如果违反了可比性原则,计算的相对数就不能真实反映事物量的差异,不能作出客观的评价。(二)相对指标与总量指标结合运用

相对指标是用一个抽象化的比值说明事物数量的相对差异,掩盖了事物间绝对量的差别,比值相同的相对指标,其绝对量可能差异很大。因此,应用相对指标时应与总量指标相结合,才能说明事物的真实情况。(三)各种相对指标结合运用

各种相对指标作用不同,每种相对指标只能说明事物的某一方面,要正确认识事物,必须把各种相对指标结合起来运用。如分析企业经营管理状况,可将实际利润与计划利润进行对比,检查利润计划完成情况;本期实际利润与上期实际利润对比,观察利润动态变化情况;利润与销售额、成本、资金等对比,可以说明企业经济效益的高低等等。

思考题

1. 什么是总量指标?时期指标和时点指标有何异同?

2. 什么是相对指标?相对指标有何作用?

3. 常用的相对指标有哪几种?它们各有什么特点?

4. 如果计划完成相对数大于100%,则一定完成计划任务,这种表述是否正确?为什么?

5. 试指出下列指标是总量指标(时期指标或时点指标)还是相对指标(具体哪一种相对数)。(1)国内生产总值;(2)人均住房面积;(3)国民收入积累与消费比;(4)资金利润率;(5)旅游入境人数;(6)居民银行存款余额;(7)人口自然增长率;(8)每百户家庭电话拥有量;(9)商品库存额;(10)恩格尔系数。

6. 某厂计划产值比上年提高5%,实际提高7%,试计算该厂计划完成相对数。

7. 某厂产值计划为去年的103%,实际比去年增长5%,试问该厂计划完成相对数是多少?又知该厂的产品单位成本应在去年699元的水平上降低12元,今年实际单位成本为672元,试计算单位成本计划完成相对数。

8. 某公司所属三个分厂生产情况如下表所示:某公司所属三个分厂生产情况

要求:计算空格处指标数值。

9. 某企业“五年计划”规定,计划期最末一年产品产量应达到70万吨,实际生产情况如下表所示:某企业五年计划各年产量实际完成情况

试计算该企业产品产量五年计划完成程度和提前完成计划的时间。

第五章 平均指标与变异指标

任何统计数据的分布均具有两大特征:一是变量值的集中趋势;二是变量值的离中趋势。平均指标将变量值的差异抽象化,以反映现象的一般水平,即变量值的集中趋势。变异指标反映变量值之间的差异程度,即变量值的离中趋势。将两者有机结合起来,可以全面反映数据分布的特征。

第一节 平均指标

一、平均指标的概念、作用和种类(一)平均指标的概念

平均指标是指同质总体某一标志在一定时间、地点、条件下所达到的一般水平,是总体或样本集合的代表值。统计实践中研究总体或样本数据的分布特征,其中很重要的一点就是搞清楚这个集合中最具有代表性的数据值是什么,或者何种数值最能代表这个集合中大多数个体所具备的水平(或称为一般性水平)。如果把总体或样本的数据都在数轴上面描点,平均水平就是大多数点所在或靠近的位置,此时它就能代表总体或样本集合中的大多数取值,因而又称为代表性水平。所以,也可以理解为平均指标是反映总体或样本集合中个体标志取值最具有代表性的水平。(二)平均指标的作用

毫无疑问,平均指标是非常重要的指标,在统计理论和实践中占据非常重要的地位。在对单个总体或样本进行考察分析时,或对多个总体的集合特征进行比较时,往往无法单独罗列样本或总体中的每个个体的特征或直接对多个总体或样本中个体的特征进行一一比较。这时就必须找到各个总体或样本集合中的典型或代表性水平来概括反映其一般水平,据以完成对总体和样本集合整体性认识或整体性对比。所以,平均指标作为总体或样本集合的一般水平代表,方便人们从趋势上和一般水平上把握总体或样本的整体变化状态或趋势,避免局限在总体或样本所包含的个体差异当中。其作用具体表现在以下几个方面:(1)比较同类现象在不同单位、不同地区间的平均水平,表明现象之间的横向差异。(2)比较同类现象在不同时期的平均水平,说明现象的发展趋势或变动规律性。(3)可用于研究现象之间的依存关系。(4)利用平均数进行推算和预测。(三)平均指标的分类:位置平均指标和数值平均指标

在理论和实践过程中,寻找平均指标值的思路主要有两种:一种是将总体或样本中的所有数据按照大小顺序排列或分组,按照所处位置来选择代表性水平,称为位置平均指标。如选择处于中间位置的那个数值作为代表,俗称中位数,或者选择处于另外某些位置的数(分位数)作为代表,如四分位数等;又如,可以直接选择出现次数最多的那个位置上的数值作为代表(众数)。另一种是直接考虑集合中每个数据数值的大小及其出现的次数,将它们合并起来计算平均值(平均数,包括算术平均数、几何平均数和调和平均数),此种思路得到的平均指标称为数值平均指标。下面将具体介绍这些平均指标的计算方法。二、算术平均数

算术平均数是数值平均指标中最为常见最为重要的一种平均数。它的基本思路是将总体或样本中每个数据值相加后再除以数据的个数。按照所给资料的类型不同,具体算法不同,分为简单算术平均数和加权算术平均数。(一)简单算术平均数

如果一组数据未经分组以原始数据的形式给出来,如x,x,…,12x,则简单算术平均数的计算公式如下:n

式中,x为第i个数据,n为数据个数,为算术平均数。(5.1)i【例5-1】某班有9名同学,他们的身高分别是163、164、164、165、165、165、166、166、167(cm),求该班同学身高的算术平均值。

解:该班同学平均身高是:(二)加权算术平均数

若一组数据x,x,…,x中有k个不同的取值x,x,…,x,12n12k每个取值出现的次数分别为f,且有,此时算术平均数的计算公式i就不需要利用(5.1)式那种分子逐项相加的情形,而可以将数值与对应出现次数(这里称之为权数)相乘积的形式较快地获得分子总值,进而得到算术平均数。其公式如下:

式中,n为数据个数,为算术平均数。(5.2)

有时候,当获取的数据是组距分组数据时,就需要以各组组中值来代表各组的平均水平,以每组频数作为权数来近似计算全部数据的算术平均数,参考【例5-3】。(三)算术平均数的数学性质

在数学上容易证明算术平均数具有如下性质:(1)一组数据与该组数据的算术平均数离差之和等于零,即有:(2)一组数据到其算术平均数的离差平方和比到任何其他数的离差平方和都小,即【例5-2】根据例【5-1】的数据,利用加权算术平均法求该班同学的平均身高。

解:该班同学平均身高是:【例5-3】已知某班有100名同学,其身高取值如表5-1所示,试计算该班同学的平均身高。表5-1 某班100名同学身高分组汇总表三、几何平均数

几何平均数通常是用来计算动态相对数的平均值的一种平均指标,如计算平均发展速度、平均收益率等。根据所给数据的具体类型,有简单几何平均和加权几何平均两种形式。(一)简单几何平均数

简单几何平均数是n个数据x,x,…,x的连乘积的n次方根,12n其计算公式如下:【例5-4】某地区的地区生产总值2008年是1000亿元,2009年是1100亿元,2010年是1210亿元,2011年是1360亿元,问近三年该地区的生产总值平均增长速度是多少?

解:增长速度、发展速度都是动态相对指标,求其平均表现通常要用到几何平均数,其结果如下:(二)加权几何平均数

若一组数据x,x,…,x中有k个不同的取值x,x,…,x,12n12k每个取值出现的次数分别为f,且有,则几何平均数的计算公式为:i【例5-5】某地区近20年来的经济发展速度如表5-2所示,试计算该地区近20年来的经济发展平均速度。表5-2 摇某地区20 年来的经济发展速度

解:由于需要计算发展速度,根据所给数据资料的类型,可以选用加权几何平均法求平均发展速度为

该题可直接用Excel辅助计算,计算步骤参见本章第三节Excel描述统计。四、调和平均数

调和平均数是各个参与平均的数据的倒数的算术平均数的倒数,又称为倒数平均数,一般用于计算强度相对指标的平均数。根据所给数据资料的不同,分为简单调和平均数和加权调和平均数。(一)简单调和平均数

对一组数据x,x,…,x,简单调和平均数公式如下:12n【例5-6】轮船从甲地开往乙地,去时顺水行舟,船速为每小时100公里,返回时逆水行舟,船速为每小时80公里,求轮船来回航程的平均时速。

解:去时船速为100公里/小时,则行驶1公里需要1/100小时;返回时船速为80公里/小时,则行驶1公里需要1/80小时。由于来回航程相同,因此平均每公里需要行驶小时,轮船的来回平均时速为:

或者按照强度相对指标的具体含义来求解,直接就可以用到调和平均公式(设甲乙两地相距a公里):(二)加权调和平均数

若以m代表x,x,…,x中对应数据x的权数,则加权调和平均i12ni数的公式如下:【例5-7】某商人先后买入了三批鸡蛋,但花费和购买量均不相同,第一批购买单价为10元/公斤,共花费了1000元人民币;第二批购买单价为8元/公斤,共花费了1600元人民币;第三批购买单价为12元/公斤,共花费了1200元人民币。试问该商人三批鸡蛋的平均进货价格是多少?

解:此时要看价格这种强度相对指标的平均表现,由于所给条件并没有给出每批货品的购买数量,可以用加权调和平均的方法来计算平均价格:五、众数

众数,顾名思义,就是一组数据中出现次数最多的一个或几个数,通常以符号M表示。众数的使用是有条件的,当数据量较大,且数0据分布有明显的集中趋势时,可以使用众数。反之当数据量很少,且数据分布无明显的集中趋势时,就不适宜使用众数。

确定众数时,需要首先将资料分组,若按单个变量值进行分组,出现次数最多的那个变量值就是众数。众数可能存在,也可能不存在。而且,一组数据也有可能存在多个众数。

如果所给资料是组距式分组资料,则首先确定众数所在组,然后根据公式来计算众数值。具体公式分为下限公式和上限公式两种:

式中,L代表众数组的下限值,U代表众数组的上限值,Δ代表1众数组次数与前一组次数之差,Δ代表众数组次数与后一组次数之2差,i代表众数组的组距。【例5-8】一组数7.4、7.2、7.1、7.4、7.3、7.5、7.4,其众数就是出现次数最多的“7.4”。【例5-9】一组数7.1、7.2、7.3、7.4、7.5、7.6,就不存在众数。【例5-10】一组数7.1、7.2、7.2、7.2、7.3、7.4、7.5、7.5、7.5、7.6,有“7.2”和“7.5”两个众数,它们分别出现了3次。【例5-11】计算表5-3所给出的数据资料中100名学生的身高众数。表5-3 某班100名同学身高分组汇总表

解:根据资料,众数落在第三组,

则L=160,U=170,i=10

Δ=40-16=24,Δ=40-30=1012

所以这100名同学的身高众数是167.06cm。

注:这里为了方便学习,把上限公式和下限公式均演示了一遍,实际操作中只需用一个公式计算即可。六、中位数

对一组数据x,x,…,x,将其按照由大到小或者由小到大排12n列顺序,居于中间那个位置的数据就是该组数据的中位数,通常以符号M表示。显然,这组数据中总有一半数据的值不超过M,也有一ee半数据的值不小于M,且不受极端值的影响,因此中位数有着明确e的实际含义,在很多场合下都有使用。中位数的具体确定方法因所给的数据资料不同而有所差异。

1. 对于未分组的原始数据x,x,…,x或单变量值分组资料12n

首先将它们按照降序或升序排列,然后,

若n为奇数,寻找处于位置的数,即为所求的中位数。

若n为偶数,则寻找处于和两个位置的数,以这两个数的算术平均数为中位数。【例5-12】某班5名同学身高分别为165、163、164、167、166(cm),求中位数。

解:该班5名同学的身高经由矮到高排序为163、164、165、166、167(cm),中间位置为(5+1)/2=3,其中位数即为165cm。【例5-13】某班6名同学身高分别为165、163、164、167、166、168(cm),求中位数。

解:该班6名同学身高由矮到高排序为163、164、165、166、167、168(cm),中间位置为(6+1)/2=3.5,其中位数即为排在第3位的165cm和第4位的166cm的算术平均数,即为165.5cm。

2. 对于组距式分组资料

假设数据资料被分成k组,每组频数对应为f,且有。遵循以k下步骤:

首先确定中位数所在位置,然后确定位置所在组,该组即中位数所在的组。

中位数的计算公式也分为两个:

式中,L代表中位数组的下限值,U代表中位数组的上限值,fm代表中位数组的频数,i代表中位数组的组距,S为中位数组前面m-1各组的累计频数,S为中位数组后面各组的累计频数。m+1【例5-14】计算表5-1给出的100名同学身高的中位数。

解:根据资料,中位数位置为100/2=50,应该落在第三组,

则,L=160,U=170,i=10

S=4+16=20,S=30+10=40m-1m+1

所以这100名同学的身高中位数是167.5cm。

注:这里为了方便学习,把上限公式和下限公式均演示了一遍,实际操作中只需用一个公式计算即可。七、各种平均指标的适用场合

上面介绍了诸多平均指标,其目的都是为了反映总体或样本集合的代表性水平。显然,在不同的总体或经验分布的情形下,代表性强的平均指标应该优先采用。

当面临的总体的分布呈现出以算术平均值左右对称的正态分布时,此时总体的算术平均数、众数和中位数是相等的。在经验分布当中,只要分布直方图是左右对称,且是单峰分布,则三个平均指标的值都相等,此时用哪一个指标都合适。实践中,只要经验分布直方图大致呈现单峰正态、偏度不算太大的话,都可以使用平均数作为平均指标。

但是,如果总体是单峰偏态分布且偏斜程度很大,存在少数极大值(右偏分布),或存在少数极小值(左偏分布),此时算术平均数受极端值的影响,其代表性很低,就不宜采用,应该用众数或中位数作为平均水平。例如通常用中位数衡量一个国家或地区的居民平均收入水平。因为一般情况下各个国家和地区的居民收入水平均呈现右偏分布,即极少数人掌握绝大部分财富,此时用算术平均数来表示一般收入水平就会偏高,就不能代表大多数人的收入状况,大多数人会因此出现收入“被增长”的感觉。

第二节 变异指标

平均指标作为总体或样本集合的代表性值,有着“一般性”和“代表性”,但它不能表现或代表集合内部的个体之间的差异。实际上,两个平均水平相同的总体或样本的内部差异可能很大。为了反映总体或样本集合内部个体特征之间的差异,必须引入变异指标。一、变异指标的概念

变异指标,就是反映总体或样本内各总体单位特征差异程度大小的指标。变异指标在统计研究中具有重要意义。如果说平均指标可以反映数据分布的集中位置,那么通过变异指标就可以反映数据分布的离散程度。两种指标结合起来就可以更加全面地认识总体或样本数据的分布特征。二、变异指标的作用

变异指标在不同的场合有着不同的作用,这里只是简单介绍以下几种:

1. 变异指标是衡量平均指标代表性的重要尺度

平均指标作为总体或样本中各单位某一标志的代表性水平,其代表性的高低取决于各个单位在这一标志上表现的差异程度,差异程度越大(变异指标值越高),则平均指标的代表性越低;差异程度越小(变异指标值越低),则平均指标的代表性越高。

2. 变异指标可以衡量现象变动的稳定性和均衡程度

在质量管理中,通常用变异指标来衡量或测定生产线或产品质量特性的稳定性。一般来说,产品的某项质量指标的差异程度越小,则其质量特性越稳定,就越容易获得满足质量要求的产品。另外,反映收入分配差距的变异指标可以反映一个国家或地区的发展均衡程度。

3. 变异指标反映指标的波动程度,可以用来衡量风险的大小

用来衡量资产价格波动的变异指标,如反映股票价格波动和房地产价格波动的指标,在投资学中扮演衡量投资风险的重要角色。

4. 变异指标是计算抽样误差和样本量的重要依据

在抽样调查中,样本量的确定和代表性误差的计算都要用到变异指标中的标准差。将在后面内容中详细介绍。三、几种常用的变异指标

常用的变异指标有全距、平均差、方差、标准差、变异系数、偏度和峰度系数。

1. 全距(极差)

全距,是一组数据中最大值与最小值之差,反映了数据值在这组数据中的最大波动程度或范围。因为是这组数据中两个极端值之差,所以又称为极差,一般以R表示,其计算公式为:

R=x-x (5.13)maxmin

式中,x为该组数据中的最大值,x为该组数据中的最小maxmin值。

显然,全距只是受两个极端值的影响,无法反映数据组的内部差异,对数据变异程度的测定是相当粗略的。但是由于计算简便,可以用来快速分析数据的离散程度。【例5-15】某班5名同学身高分别是161、162、179、168、165(cm),则该班同学身高的全距是多少?

解:该组身高最大值是179cm,最小值是161cm,所以全距是179-161=18(cm)。

2. 平均差(平均绝对离差)

平均差,又称为平均绝对离差,是一组数据中各个数据到其算术平均数离差的绝对值的算术平均数。它综合反映了整组数据的变异程度,利用了全部的数据信息,因而比全距更能客观全面地反映数据的离散程度。平均差越大,则数据离散程度越大,反之则离散程度越小。其基本的计算公式如下:

虽然平均差比全距更能全面反映数据整体的离散程度,但由于在公式中加入了绝对值符号,在数学上处理起来不方便,在实践中并不常用。

3. 方差

方差是测度数据差异程度最为重要、最为常用的指标。由于平均差的绝对值符号不好处理,在数学上利用平方的方法去掉了绝对值符号,平均差也就变成了方差,即是各个数据到其算术平均数离差的平方的算术平均数。2

对总体而言,方差记为σ,其公式为:

式中,N是总体规模,μ是总体的均值。2

对样本数据x,x,…,x而言,样本方差记为s,计算公式12n为:

式中,n是样本容量,是样本均值。

这里成了一个限制条件。在同一抽样方式下取容量为n的样本,如果要保持样本均值为,n个样本点中只有n-1个可以自由取值,剩下的那个可以通过这些取值与的关系得到。因此n-1又称为抽样条件固定时的自由度。

对于组距式分组资料,方差的计算基本思路和公式(5.15)与(5.16)一样,只是此时需要用各组的频数作为权重来计算加权平均数。这里不再赘述。

4. 标准差

方差虽然避免了平均差的绝对值符号的问题,但是带来了一个新问题,即其结果将数据的计量单位变成了平方形式,缺乏实际意义。为了解决这个问题,就有了将方差取正的平方根的办法,即常用的标准差,此时其计量单位就变得和原始数据或平均值一样了。

对总体而言,标准差为:

对样本而言,标准差为:

5. 变异系数

上面介绍的各种变异指标,包括全距、平均差和标准差,都是用绝对数表示的指标,它们均与原始数据或平均值有着相同的计量单位,也可以称为数据的绝对差异程度指标。这些变异指标的值不仅与数据本身的变异程度有关,也受数据量纲和计量单位的影响。在统计实践中,如果要比较多组数据的离散程度的差异,若各组数据的计量单位和量纲不一样,平均水平也不一样,就不能直接采用上述绝对变异指标来衡量它们离散程度的差异,这时必须采用相对变异指标(即变异系数)来进行分析。

变异系数又称为离散系数,它是各种变异指标与同组数据的算术平均数对比得到的相对数,以反映该组数据的相对离散程度,通常用百分数表示。例如,平均差与算术平均数对比得到平均差系数,标准差与算术平均数对比得到标准差系数。最为常用的就是标准差系数。

对总体数据而言,标准差系数为

式中,σ是总体标准差;μ是总体均值。

对样本数据而言,标准差系数为

式中,s是样本标准差;是样本均值。【例5-16】某班有5名同学,其身高分别以米(m)和厘米(cm)为单位计量。试计算两种情形下的平均差、方差、标准差和变异系数,试比较两种计量单位情形下的离散程度:(1)以米(m)为单位:1.50、1.60、1.70、1.80、1.90;(2)以厘米(cm)为单位:150、160、170、180、190。

解:以第(1)组数据为例计算。

首先,5名同学的平均身高是

因此,平均差是

变异系数是:

类似地,可以计算得到第(2)组数据各项指标:

均值:

平均差:A.D.=12(cm)222

方差:s=250(cm)2

标准差:s=15.81(cm)2

变异系数:

从上述计算结果可以看到,对于同一组数据,仅仅因为计量单位不一样,其平均差和标准差的数值就相差100倍,而方差更是相差1.000倍。如果用这些绝对变异指标来比较不同计量单位的同一组数据的离散程度,就会得出差异程度也相差百倍或万倍的错误结论。而此时如果使用变异系数,就会发现变异系数已经消除了计量单位和量纲的影响,两种计量单位情形下变异系数取值完全一样,说明其离散程度本质是一样的。

以上标准差等几种变异指标是从指标数值的角度反映一组数据值的差异程度,但无法反映数据形成的次数分布(总体分布或经验分布)的形状特征,如偏斜程度和陡峭程度。下面引入偏度和峰度两个指标来进一步反映这两个方面的特征。

6. 偏度

一组数据的分布数列中,如果频数分布是完全对称的,则称为对称分布;如果不完全对称,则称为非对称分布或偏态分布。反映数据统计分布偏斜方向和程度的指标即为偏度。

偏态分布有左偏分布和右偏分布两种,这是相对于对称分布而言的。在三种分布类型中,它们的算术平均数、中位数M和众数Me0有着一定的关系。具体而言有以下几种情形,如图5-1所示。(1)对称分布时,有=M=M;e0(2)右偏分布时,有>M>M;e0(3)左偏分布时,有<M<M。e0图5-1 对称分布与偏态分布

偏度的测定有多种方法,这里只是简单介绍利用算术平均数与众数进行比较得到偏度的方法。

如上述,在非对称分布中,算术平均数、中位数和众数相互分离,中位数一般位于二者之间,此时算术平均数与众数的距离就可以用来测定偏度,即

偏度=算术平均数-众数=-M0

这是偏度的绝对量,若为正值,则为右偏分布;若为负值,则为左偏分布;若为零,则为正态分布。偏度绝对值越大,说明偏斜程度越大。但是不同的数据分布,其计量尺度不一样,若此时要比较偏斜程度,用绝对偏度并不恰当,需要偏度系数这个相对指标,即偏度除以数据的标准差,通常以SK表示。计算公式为:p

7. 峰度系数

峰度系数是用来衡量数据分布的集中程度或分布曲线的尖耸程度的指标。计算公式为:

式中,称为四阶中心动差,s是样本数据标准差。

衡量数据统计分布的集中程度或分布曲线的尖耸程度是以标准正态分布为参考的。标准正态分布曲线的峰叫正态峰,对应的峰度系数β=3,参考图5-2中的B分布曲线;若某分布计算出来的β>3,表示分布曲线的形状比标准正态分布要更陡峭、更集中,称之为尖顶峰,如图5-2中的A分布曲线;若某分布计算出来的β<3,表示分布曲线的形状比标准正态分布要更平缓、更分散,称之为平顶峰,如图5-2中的C分布曲线。

由于偏度和峰度的计算较复杂,本章建议掌握偏度和峰度的概念及计算公式,在实际运用中,用Excel软件辅助计算。图5-2 不同峰度的分布曲线

第三节 Excel描述统计

Excel在描述统计中使用十分普遍,现举实例加以说明。【例5-17】对第三章【例3-1】数据,用Excel作描述统计。

解:(1)将数据输入Excel表。(2)选择:数据—数据分析—描述统计—确定。如图5-3所示。(注:如果Excel中没有安装,要启动“Excel加载宏”予以安装)

①输入。

输入区域:A1:A55

分组方式:选择“逐列”。

标志位于第一行:选择“√”,表示选用“人均收入”变量符号。

②输出选项。

输出区域:C2

在汇总统计、平均数置信度、第K大值、第K小值上分别打“√”。

③单击,Excel将计算出的结果显示在中。图5-3 Excel描述统计

为了方便读者学习,现将Excel描述统计的公式表附录如下:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载