郝大海《社会调查研究方法》(第3版)笔记和课后习题详解(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-31 10:06:31

点击下载

作者:圣才电子书

出版社:圣才电子书

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

郝大海《社会调查研究方法》(第3版)笔记和课后习题详解

郝大海《社会调查研究方法》(第3版)笔记和课后习题详解试读:

第一章 导 论

1.1 复习笔记

【知识框架】【重点难点归纳】

一、调查研究概述

1.调查研究方法的界定

从所涉及的内容看,本书介绍的调查方法是一种量化的社会研究方法。具体说来,就是通过向被访者询问问题来搜集资料,然后对资料进行统计分析的社会研究方法;其中,询问既可以是由被访者自己填答问卷,也可以通过当面访问或电话访问进行。

对于调查方法的定义,可以从以下三点来理解:(1)询问作为调查研究的基本要素,是一个科学测量过程。(2)选取有代表性的被访者,是调查研究成功的关键。(3)资料的统计分析是完成调查研究的必要环节。

2.调查研究发展简史

按时间顺序,调查研究的发展大体可以划分为近代和现代两个阶段。近代调查研究主要包括行政统计和社会问题调查,而现代调查研究则主要包括民意测验、市场调查和研究性调查。虽然存在着多种调查形式,但从内在发展脉络看,无论是在近代还是现代,始终贯穿着实地观测和统计量化两条线索,因此,了解调查研究的发展过程,要始终把握住这两条线索。(1)近代调查研究

①发展过程

a.作为一种社会研究方法,调查研究肇始于近代的行政统计调查。

17世纪下半叶,一些学者和政府官员逐渐意识到,人口、土地和经济方面的统计数字,有助于了解基本国情和社会整体状况,于是出现了德国“国势学”和英国“政治算数”等不同学派的统计学。在随后的发展中,政治算数学派的统计学逐渐取得主导地位。进入18世纪后,欧洲各国纷纷开展行政统计调查,并逐渐制度化。

b.在行政统计调查得到广泛应用的同时,学者们对概率论和数理统计的研究,也进一步加深了人们对蕴涵于总体数量特征中的规律性的认识。

c.从18世纪后半叶直至20世纪初,社会调查开始被广泛用于社会事业,特别是用来记录工业化所带来的都市贫穷状况。

②评价

a.目的

这些社会调查的主要目的是希望通过记录早期工业化过程中都市的贫穷、犯罪和居民生活状况,促进社会改革运动。这些社会调查大多是针对某个特定地区所进行的详细经验研究,其目的是为了提供令人印象深刻的社区日常生活图像。

b.优点

在调查中,研究者大量采用参与观察、访谈和问卷调查等实地观测方法,搜集第一手经验资料,给调查研究打上了鲜明的经验性社会研究的烙印。

c.不足

这些调查大多没有明确的理论框架,因此调查结果很难形成一般的社会理论。另外,在获取调查对象时,这些调查也缺少科学的抽样方法。(2)现代调查研究

进入20世纪后,社会调查与社会理论的结合,导致研究性调查的出现。与此同时,随着小样本检验和抽样理论的建立,抽样调查方法日益完善。而社会统计调查模式和多变量分析方法的出现,标志着量化调查研究方法已成为一项成熟的经验社会研究方法。

①研究性调查模式的确立

a.确立过程

1897年出版的涂尔干的《自杀论》,首次成功地将经验研究与理论研究结合在一起,表明在社会研究中,也可以建立类似自然科学中的那种既可以解释经验资料,又要接受经验资料检验的实证科学理论。

早期研究性调查多由美国社会学家完成,这些经验调查研究一方面延续了布思的传统,但另一方面又接受了涂尔干的研究范式,进而将社会调查与社会理论研究相结合,使研究性调查不再仅仅是搜集经验资料,更重要的是服务于社会理论,检验或建立某种社会理论。

b.评价

上述调查研究虽然完成了经验资料与社会理论的结合,但研究对象的涉及范围相对较小,基本上都是个案调查或社区调查。如果将社会调查与工业发展作类比,那么这个阶段的社会调查还处于手工业阶段,调查研究的操作往往是由某个中心人物(老师傅),在一两名助手(徒弟)的帮助下完成的。调查研究方法经常带有一种秘传性质,虽然也很具体、周密,但通常缺少一套经过检验的标准化程序、技巧和工具。

②抽样方法的完善

a.完善过程

抽样调查方法的完善,在很大程度上得益于费希尔1928年建立的小样本检验的理论。抽样调查最早被应用于民意测验中,而非概率抽样方法的不足,也正是通过民意测验失败的例子被逐渐认识到的。

非概率抽样方法的失败刺激了概率抽样方法在调查研究中的应用。概率抽样是按照随机原则来选取对象,这样就能根据概率理论来计算抽样误差,从而对总体进行推论。

b.评价

以上理论虽然解决了抽样误差的计算问题,但解决得并不彻底,因为它是以大样本为前提的,现实生活中,并非所有的样本都是大样本,而且在有些情况下,大样本由于影响因素太多,反倒不容易反映总体情况。英国达布林啤酒公司的技师戈塞特,发明了小样本的t检验方法。这一结果后来经费希尔从数学上进行了严格证明,由此确立了抽样推断理论。此后,抽样调查逐渐成为社会调查的主要形式。

③问卷与多变量分析技术的提高

除抽样技术外,问卷测量和多变量分析方法也是最终促成当代调查方法形成的重要因素。现代调查研究中常用的多变量分析方法,则是由斯托弗与拉扎斯菲尔德引入的。第二次世界大战以后,社会调查研究的定量化趋势日趋明显,出现了越来越多适用于社会调查的抽样技术;问卷及其他社会测量方法、访谈程序都在逐渐精细和标准化;多变量统计分析模型也在不断丰富,并在更大的范围内得到应用。所有这些都使得日益成熟的调查研究方法成为现代社会中一种有效的研究手段。

3.调查研究的局限性(1)缺少弹性

调查研究通常是事先完成研究设计,并在研究中保持不变。这使得研究者无法察觉新的变量,有时即使察觉到了,也很难做出相应的处理。另外,标准化处理常会使实际访问削足适履。(2)无法了解被访者具体的生活情境

调查研究是用问卷来搜集被访者信息的,调查访问仅限于问卷设定的内容,而且调查的时间很短。因此,研究者很难进入到被访者的生活情境中,深入细致地把握被访者在真实生活情境中的行为和想法。(3)容易受到人为因素的影响

一般说来,被调查对象会比较准确地回答诸如年龄、职业和教育等有关人口统计指标的问题。但是,对于态度的调查就很难说十分可靠,因为人们的态度很容易受到他人的影响,而问卷访问时又很难发现。研究行为本身可能就会影响被访者的态度。

二、调查研究的分类

1.按调查对象的范围分类

按调查对象涉及的范围分类,可以将量化调查研究分为普查和抽样调查两种形式。(1)普查

普查指的是对构成总体的所有个体无一例外地逐个进行调查。最常见的普查是人口普查,它也是最早的量化调查,目前世界各国都定期进行人口普查。但是,人口普查的工作量十分巨大,调查周期特别长,需要投入大量的人力和物力,一般10年才能进行一次,而且包含的人口资料也比较有限,因此,其应用范围受到一定限制。(2)抽样调查

为了满足对数据资料的需求,调查方法在实际应用中,更多地是采用抽样调查的形式,即从所研究的总体中,按一定规则抽取部分元素进行调查,并根据调查结果,对总体情况进行推断。由于抽样调查只询问目标人群中的一部分对象,因此,工作量要比人口普查少得多,这意味着较少的人力、财力投入,调查周期也缩短了许多。

2.按调查目的分类

如果按调查目的分类,大部分教材都将调查分成探索、描述和解释三类。但在探索性调查中,基本不用问卷形式,最主要的原因是问卷调查太贵。问卷调查主要用于描述性和解释性调查。(1)描述性调查

描述性调查就是对总体特征的分布情况进行详细地描述,它关注的焦点集中在事情是如何发生的,有谁牵涉在里面。进行描述性调查,要求研究者对议题有一定程度的了解,而且一般会随机抽取一个较大的样本。人口普查是描述性调查最好的例子。(2)解释性调查

解释性调查就是希望找出事情发生的原因,它关注的是事情为什么会以现在这个样子呈现出来。这种想要知道“为什么”的欲望,正是解释性调查最鲜明的特征。解释性调查通常是与描述性调查结合进行的,一项大规模的调查,先是进行总的描述,然后再针对某些具体问题进行解释。

3.按执行方式分类

按执行方式,可以将调查研究划分为三种主要形式:自填问卷、当面访问和电话访问。(1)自填问卷

自填问卷方法是研究者将问卷直接交给被访者,或用邮寄的方式寄给被访者,由他们自己阅读问卷,然后根据填答说明,写下自己的答案。自填问卷也可以将多个被访者召集到同一地点,在研究者的指导下统一填答问卷。(2)当面访问

当面访问是研究者雇用一些访问员,由他们根据问卷内容,当面向被访者口头提问,同时逐一记录下被访者的回答。(3)电话访问

电话访问是当面访问的一种转化形式,访问员不再直接面对被访者,而是通过电话向被访者进行提问。

4.按时间维度分类

按进行调查的时间维度,量化调查研究可以分为两大类:单一时点的横剖调查和多重时点的纵贯调查。(1)横剖调查

横剖调查是大多数调查采用的形式,因为,纵贯调查花费很大,而且周期太长、很难控制样本。横剖调查是在某一个特定时间一次性抽样,然后对样本进行调查访问。它是在某个单一固定的时点上搜集有关信息,特别适合进行描述性调查。(2)纵贯调查

纵贯调查至少在两个以上时点进行抽样,然后对样本在不同时点上所展现的特性进行调查。由于在不同时点获取资料,纵贯调查比较适用于因果分析,尤其适用于探求社会变迁问题的解答。但与横剖调查相比,进行大规模的纵贯问卷调查是比较困难的,特别是跨时段的抽样,技术不太容易操作。按抽样的对象和目的,纵贯调查又可具体分为以下三种形式:

①趋势调查,是指研究者通过搜集总体在不同时期同一种类型的资料,来比较分析总体特性在一个较长时间段内的变化趋势。在趋势调查中,每个时点用来搜集资料的问卷应保持一致性,而且样本也应该从同一个总体中抽出,但入样的被访者可以是不同的。

②同期群调查,是指研究者在不同时点,对某个特定时段内共享相似生活经验的那些人的调查,这群人被称为同期群(又称“年轮”、“世代”等)。常见的同期群包括所有于同一年出生的人、所有在同一时间受雇的人、所有在某年或某两年内退休的人,以及所有在某年毕业的人等。同期群调查并不关心某个特殊的个人,它关注的是具有某种时间标识的一类人,把他们视为目标总体。每个时点被抽中的被访者只要具有共同的生活经验即可,并不一定需要完全相同。

③追踪调查,是指研究者在不同时点,调查完全相同的一群人、一个团体或一个组织。追踪调查也将趋势变化作为重点内容,所以使用的问卷也应保持内在的一致性。

比较上述三种纵贯调查形式,从样本看,除了追踪调查,趋势调查和同期群调查两次样本包括的都不是相同人选,但趋势调查关注的是两个不同时期的相同年龄组的比较,而同期群调查关注的是两组处于不同时期的具有共同特征的人群的比较。

5.按应用领域分类

除了人口调查,抽样调查方法还经常被应用于以下一些领域:(1)民意调查

民意调查即从一定范围内的社会民众中,抽取具有代表性的部分民众作为样本,直接询问他们对某些问题的看法,然后用这些民众的看法来推论全体民众的看法。(2)市场调查

广义的市场调查又称市场研究(市场调研或市场营销研究),它包含了从认识市场到制定营销决策的一切有关市场营销活动的分析和研究;狭义的市场调查则更偏重于搜集和分析市场信息。市场调查的对象主要是各式各样购买或使用商品的消费者,以及潜在的消费者;除此之外,还包括消费者以外的人群,如商家的生产、销售人员,媒体记者,政府官员等。(3)社会问题调查

社会问题调查是针对社会中存在的各种社会问题进行的系统调查,如青少年问题调查、离婚问题调查、社会保障问题调查等,这些调查的目的都是为了对问题现状加以描述,同时分析问题的形成机制,进而找到解决问题的办法。(4)居民家计调查

居民家计调查是一项基本国情调查,以居民家庭为调查对象,搜集整理有关居民家庭人口、就业状况、货币收入、消费构成,以及主要生活消费品实物量等方面的资料,从而反映出居民生活水平的变动情况,进而为一些影响居民生活的决策提供依据。(5)学术性专业调查

学术性专业调查是社会科学专业研究人员从事的调查,其目的并不是为了解决某个社会问题、了解某种社会状况,而是为了探索社会现象背后的社会规律。与其他调查类型不同,这种调查在设计以及资料分析上,始终是以满足某个专业学科自身理论发展需求为目标的,或者说,它是以学科理论建设为主要任务的。

三、调查研究的一般过程

调查研究是一种标准化程度较高的研究方法,其实施过程有一套相对固定的程序。

1.调查设计

调查设计主要包括三方面内容:调查工作的总体规划、抽样设计、资料搜集和处理方案。 (1)调查工作的总体规划

调查的总体规划应以书面形式,形成一份计划书,内容主要包括对调查目的、调查内容和范围、调查经费预算和进度安排的说明。为了能更有效地完成下一步的调查执行工作,最好能在调查设计阶段,形成一份比较详细的调查工作流程表,对调查访问过程中所需进行的工作加以分类,尽量完整列出每一类中的工作项目,并预设各工作项目的完成期限。(2)抽样设计

设计抽样方案的过程如下:

①界定总体的范围,明确调查对象是什么。在界定总体时,真正有操作意义的是确定抽样框,没有抽样框,实际抽样就无法进行。

②确定样本规模。

③确定是否需要分层次或者分阶段。

④确定在每一层或每一个阶段,使用何种概率抽样方法进行抽样,是否有辅助信息、辅助变量可以利用。

⑤确定参数与误差的估计方法,并推导出相应的估计公式。(3)资料搜集和处理方案

这里需要完成三项工作,具体包括:

①选择资料搜集方式,是用自填问卷,还是进行调查访问。

②设计调查问卷。在完成问卷初稿后,应对其进行相应的测试,包括实验室测试和实地的预调查,以有效保障问卷的效度与信度。

③设计资料处理方案,主要内容包括确定资料编码的格式,一般适宜用预编码的形式,与问卷设计结合在一起。

2.实地抽样

实地抽样是指根据抽样方案,实地抽取调查对象的过程。能否成功地完成实地抽样,关键在于能否正确地执行抽样程序。实地抽样通常包括以下具体步骤:(1)训练抽样人员。无论是自填问卷,还是调查访问,实际抽取调查对象的工作量都很大,而且具有一定的技术难度,因此需要对有关人员进行专门训练。(2)与抽样方案中各级抽样单位取得联系。(3)具体执行抽样工作。在进行正式抽样时,抽样员应携带由调查单位出具的各种身份证明文件或抽样员聘书,到各级抽样单位进行抽样。在实地抽样时,抽样员应使用统一印制的样本记录表,详细记录抽样中的各种相关信息。(4)检查样本的正确性。抽样员完成抽样工作后,督导人员应对样本的正确性进行检查。检查内容包括:抽样人员所记录之样本表中的资料的完整性,以及抽样方法运用的正确性。

除此之外,在电话访问中,抽样对象是电话号码而非个人,因此具体的抽样过程与以上内容略有不同。

3.资料搜集

确定了调查对象,设计好测量工具后,就可以进入调查现场搜集资料了。相比之下,这一阶段持续的时间较短。(1)调查访问

①招募访问员;

②培训已录用的访问员;

③与被访者取得联系;

④进行实地访问;

⑤对访问过程和问卷进行复查。(2)自填问卷

自填问卷采用通过邮局或派专人将问卷发送给被访者的形式来搜集资料的方法,所面临的最大挑战是回收率偏低。相比之下,邮寄问卷比专人发送的回收率更低。因此,采用邮寄问卷方法时,一般应保证有较大的样本量。同时,邮寄问卷时要特别注意为调查对象尽可能地提供方便,如提供返回问卷用的信封、不干胶封条等。在邮寄时,最好分批在不同邮局投递,以此来分散各邮局工作量,争取处理时效,同时也可降低信件丢失的风险。

4.资料处理

资料搜集完成后,还必须对资料进行处理,由于调查对象的数目巨大,因此资料处理都是通过计算机完成的。利用计算机处理问卷资料,先得给每个变量的每个相关类别一个独一无二的编码。然后用计算机软件录入数据,常用方法包括把数据录入诸如Excel、Lotus Notes等电子表格,或利用标准统计软件包如SPSS等建立数据,如果数据来自电话访问,数据在调查的同时就已被录入到计算机辅助数据输入系统中了。最后还要对录入完的数据进行清理,并处理缺失数据,才能最终形成可以进行分析的数据文件。资料处理中最重要的原则是确保每一个环节的正确性。

5.撰写报告

调查研究的最后一步是撰写调查报告。一种形式的调查报告是对调查数据的说明,包括对调查抽样、问卷、资料搜集过程、数据编码的说明,以及对数据信度和效度的分析结果、调查局限性分析。这主要是为数据使用者提供的,通常是公布在互联网上,供数据使用者查阅。另一种形式的报告是向调查委托方提交的有关调查问题的分析报告,包括对研究问题的界定、对相关文献的讨论、对概念和变量的定义说明,以及对数据分析结果的讨论等内容,通常是以论文的形式,发表在学术期刊上。

1.2 课后习题详解

1.如何理解抽样方法在现代调查研究方法形成中的关键作用?

答:抽样方法在现代调查研究方法中的关键作用体现在以下几个方面:(1)抽样调查是从所研究的总体中,按一定规则抽取部分元素进行调查,并根据调查结果,对总体情况进行推断。(2)抽样方法的出现和发展顺应了时代发展的要求,使得全面、精确地了解选民的意愿,了解快速变化的市场动态等成为可能,提升了现代调查研究方法在这些问题中的应用度。(3)抽样方法出现之后解决了以往调查形式不能处理大量调查对象需求且调查周期太长的缺陷,满足了调查此类议题的需求。(4)抽样方法相对于普查节省了人力、物力和时间,提高了现代调查研究的效率和专业化水平。(5)抽样调查使得现代调查研究方法的准确性提高。

2.调查研究方法主要存在哪些局限?

答:调查研究方法的局限有以下几个方面:(1)缺少弹性

通常调查研究总是事先完成研究设计,并在研究中保持不变。这使得研究者无法察觉新的变量,有时即使察觉到了,也很难做出相应的处理。这一点在很大程度上限制了研究者进一步深化研究。另外,利用标准化问卷进行测量,是调查研究的特色之一。但这种标准化处理常会使实际访问削足适履。(2)无法了解被访者具体的生活情境

调查研究是用问卷来搜集被访者信息的,调查访问仅限于问卷设定的内容,而且调查的时间很短。因此,研究者很难进入到被访者的生活情境中,深入细致地把握被访者在真实生活情境中的行为和想法。(3)容易受到人为因素的影响

一般说来,被调查对象会比较准确地回答诸如年龄、职业和教育等有关人口统计指标。但是,对于态度的调查就很难说有十分的把握,因为人们的态度很容易受到他人的影响,而问卷访问时又很难发现。

总的看来,作为一种测量过程,标准化测量和概率抽样使调查研究具有较高的信度,但标准化测量、情境缺失和人为因素的影响,却使其效度较低。克服调查研究局限性的一个有效方法,就是将它与其他研究方法结合使用,特别是与实地观察研究结合,这样就能取长补短,大大提升研究结果的效度。

3.纵贯调查包括哪几种具体形式?

答:纵贯调查至少在两个以上时点进行抽样,然后对样本在不同时点上所展现的特性进行调查。按抽样的对象和目的,纵贯调查又可具体分为趋势调查、同期群调查与追踪调查三种形式。(1)趋势调查(trend study)

趋势调查是指研究者通过搜集总体在不同时期同一种类型的资料,来比较分析总体特性在一个较长时间段内的变化趋势。趋势调查中,每个时点用来搜集资料的问卷应保持一致性,而且样本也应该从同一个总体中抽出,但入样的被访者可以是不同的。(2)同期群调查(cohort analysis)

同期群调查是指研究者在不同时点,对某个特定时段内共享相似生活经验的那些人的调查,这群人被称为同期群(也可翻译为“年轮”、“世代”等)。常见的同期群包括所有于同一年出生的人(birth cohort)、所有在同一时间受雇的人、所有在某年或某两年内退休的人,以及所有在某年毕业的人等。同期群调查并不关心某个特殊的个人,它关注的是具有某种时间标识的一类人,把他们视为目标总体。(3)追踪调查(panel study)

追踪调查是指研究者在不同时点,调查完全相同的一群人、一个团体或一个组织。追踪调查也将趋势变化作为重点内容,所以使用的问卷也应保持内在的一致性。

比较上述三种纵贯调查形式,从样本看,除了追踪调查,趋势调查和同期群调查两次样本包括的都不是相同人选,但趋势调查关注的是两个不同时期的相同年龄组的比较,而同期群调查关注的是两组处于不同时期的具有共同特征的人群的比较。

4.怎样完成实地抽样工作?

答:抽样工作包括以下几个部分的工作:(1)训练抽样人员。无论是自填问卷,还是调查访问,实际抽取调查对象的工作量都很大,而且具有一定的技术难度,因此需要对有关人员进行专门训练。(2)与抽样方案中各级抽样单位取得联系。(3)具体执行抽样工作。在进行正式抽样时,抽样员应携带由调查单位出具的各种身份证明文件或抽样员聘书,到各级抽样单位进行抽样。在实地抽样时,抽样员应使用统一印制的样本记录表,详细记录抽样中的各种相关信息。(4)检查样本的正确性。抽样员完成抽样工作后,督导人员应对样本的正确性进行检查。检查内容包括:抽样人员所记录之样本表中的资料的完整性,以及抽样方法运用的正确性。

除此之外,在电话访问中,抽样对象是电话号码而非个人,因此具体的抽样过程与以上内容略有不同。

5.实地访问中应注意哪些问题?

答:实地访问中应注意的问题包括:(1)进行实地访问是整个调查研究最关键的工作环节,因为只有访问员严格按照规定的内容和形式完成了访问,搜集到高质量数据资料,才真正达到了调查的预定目标。(2)虽然在实地访问期间,访问是以访问员与被访者为中心的,但当访问员独自在外进行访问时,也需要随时与督导人员或研究人员取得联系,以妥善处理那些访问员手册以外的情况。(3)访问员的仪表和谈话方式,对获准入户有很大影响,不难想象衣冠不整、言辞粗俗的访问员,一定会遭遇较高的拒访率。因此访问员要特别注意个人的仪表和谈话方式。(4)在找不到被访者或拒访的情况下,访问员如果随意更换样本,就很有可能使得实际调查样本偏离计划样本,影响样本的代表性。因此在抽样时,就应对拒访和样本遗失情况做出统一解决方案,如事先多抽取一些备用样本,并规定好更换样本的规则。(5)访问员应避免将个人偏见带入访问。在实际访问中,工作员应运用标准化访问涉及的三项技巧:询问、追问和记录。这些技巧能有效地防止调查员将个人偏见带入访问。(6)调查访问实践表明,许多被访者对自己是否真的在以匿名身份回答问题心存疑虑,这种疑虑会降低被访者的合作意愿,影响访问资料的信度和效度。因此在访问中,访问员要向被访者做出保密性承诺,并杜绝将被访者的名字和住址抄在问卷上。(7)在结束访问时,访问员一定要向被访者表示感谢,同时要记得将礼物赠送给被访者。

第二章 抽样设计

2.1 复习笔记

【知识框架】【重点难点归纳】

抽样设计包括以下几点内容:第一,定义总体和编制抽样框,即给目标总体下一个操作化定义。第二,根据不同的目标总体,选择合适的抽样方法。第三,对总体的变异性作出估计,即估计抽样误差。第四,确定样本所含个体数目,即样本规模的大小。

一、抽样概述

1.抽样的概念

抽样是指根据某种既定规则从一个总体中选取一组元素的过程,由此产生的元素集合称为样本。即每一个具体的研究对象被称为元素,全体研究对象被称为总体,样本则代表一部分研究对象。(1)抽样的原因

之所以要抽样,主要是考虑调查项目的可行性。

①在社会调查中,经费是一项硬约束,多增加一个调查对象,意味着多花一份钱。因此,如果总体太大,限于资源,无法逐一对每个总体元素进行调查。而无论社会调查涉及的总体有多大规模,只要抽样是按随机原则(random principle)实施的,则被抽出的少数元素的情况,就能够比较准确地代表总体的情况。

②即使有充足的调查经费,当总体太大时,也很难找到足够多训练有素的研究人员完成调查。(2)抽样方法的分类

①非概率抽样

非概率抽样即依据研究者的主观意愿、判断或是否方便等因素来选取对象。在非概率抽样中,研究者无法知道抽出的样本是否具有代表性,因为,非概率抽样的代表性只有将抽出的少数对象的情况与总体的情况比较后才能得知,但总体的情况又是不知道的。因此,非概率抽样无法估算出抽样误差。

②概率抽样

概率抽样即按照随机原则来选取对象,完全不带研究者的主观因素。概率抽样能够比较精确地估算出抽样误差。在概率抽样中,研究者根据抽样误差,便能够判断出样本的代表性,进而根据被抽出的少数对象的情况,对全体对象的情况进行推论。(3)应用概率抽样方法时的注意事项

①要注意被抽出的少数对象与全体对象是不同的,因此,无论怎样精致的抽样设计,抽样误差都是无法避免的,抽样得到的少数对象的情况很可能并不一定完全符合全体对象的情况。即根据抽样结果来推断全体对象的情况,可能是对的也可能出错。问题是推论中的对或错的可能性是多少。如果出错的机会很小,便可以接受推论;否则,就无法接受推论。

②在有些情况下,可能无法使用概率抽样方法。例如,对于类似非法使用毒品、行乞等特殊人群,是不可能得到抽取概率样本所需的人名清单的。这时唯一可行的是使用非概率抽样方法。

2.非概率抽样方法(1)非概率抽样的含义

非概率抽样,即放弃随机原则,依据研究者的主观意愿、判断或是否方便等因素来抽取样本。非概率抽样的成本比较低,操作也比较方便,但无法预先估计抽样误差,因此,很难对总体情况做出可靠的推断。(2)几种常见的非概率抽样方法

①方便抽样

方便抽样又称偶遇抽样,是指研究者使用对自己最为便利的方法来选取样本。这种方法很容易产生系统误差,样本代表性很差,因此,在使用时要特别小心,总体的情况越复杂,方便抽样的效果就越差。

②配额抽样

a.配额抽样首先要根据某些参数值,确定不同总体类别中的样本配额比例,然后按比例在各类别中进行方便抽样。

b.配额抽样的逻辑是通过样本配额,使样本结构尽可能与总体结构保持一致,对总体进行“克隆”。配额矩阵所依据的总体参数值越多,样本元素的分类也越细,样本与总体的结构也越接近。但随着参数值的增加,配额矩阵的分布会越来越复杂,抽取到符合条件的对象也就越来越困难。

c.配额抽样中经常采用的参数值包括性别、年龄、教育程度、婚姻状况、收入和职业类别等。

d.配额抽样的不足

第一,为了不偏离总体,配额矩阵中的数字必须十分准确,要做到这一点,就必须掌握总体的最新资料,但这并不容易做到。

第二,尽管配额方法是一种改进,但最后抽样仍由访问员根据方便原则执行,他们从某些特定的矩阵格子中选择样本时,有很大的随意性。

③判断抽样

判断抽样又称立意抽样,是指研究者根据研究目的或专家判断来选取样本。在这种抽样中,样本是否能满足研究目的的要求,是否能正确反映总体情况,很大程度上依赖于研究者的主观判断,因此,对研究者个人的研究素质有较高的要求。判断抽样经常被用于以下三种研究场景:

a.研究者用判断抽样来选择特别能提供信息的独特个案。

b.研究者用判断抽样来选取难以接近的特殊人群。

c.研究者用判断抽样来选取某种特殊个案类型,以便进行深入探究。这种研究是希望获得对这种类型的深入了解,它的作用在于发现问题,提出假设,而不在于对总体做出概括,因此,无需根据样本对总体进行推论。

④雪球抽样

a.雪球抽样又称网络抽样,是一种根据已有研究对象的介绍,不断辨识和找出其他研究对象的累积抽样方法。雪球抽样开始时,样本可能只有一个或少数几个人,但在随后的时段里,这几个人会凭借自己的社会关系,介绍新人加入,新人也有社会关系,于是,随着关系网络的不断扩大,样本也越滚越大,可见雪球抽样是一种多阶段的技术。

b.雪球抽样适合用来对成员难以找到的总体进行抽样,如城市中的散工、无家可归的流浪者和吸毒者等。另外,也可以用雪球抽样对具有一定网络联系的总体进行抽样。

c.雪球抽样理想的结果是“雪球”滚到了大于所需样本规模的人群,这时可在某个时点中止“雪球”的滚动。如果“雪球”滚到一定数量的对象后,样本无法再扩大,就需要找圈子以外的人,以他们为核心继续“雪球”的滚动,直至“雪球”达到样本规模为止。

3.概率抽样设计要点

抽样设计包含以下内容:编制抽样框,选择抽样方法,估计抽样误差,确定样本规模。(1)编制抽样框

研究者进行概率抽样,必须先找到一份近似涵盖所有总体元素的清单,然后从中抽取部分元素,这份元素清单被称为抽样框。不同的调查形式,会形成不同的抽样框。应最大限度保证抽样框的完整性,一旦抽样框出现总体元素缺失情况,便会产生非抽样误差,进而直接影响总体推论的精度。(2)选择抽样方法

①概率抽样是按照随机原则从总体中抽取部分元素构成样本来推断总体数量特征的方法。随机原则是指抽样时总体的每个元素都有一个已知的、非零的被抽取选择的概率。给每个总体元素以相等的抽取概率的抽样设计称作等概率抽样,如果总体中至少有一个元素的抽取概率与其他元素的抽取概率不相等,就是不等概率抽样。对于不等概率样本,通常需要利用加权技术对其数据进行修正。

②常见的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样、整群抽样和多级抽样等。

③在调查中究竟选择何种抽样方法则与抽样框的获得、目标总体的相关信息及地理分布、抽样效率和实地调查的执行方式等因素有关。在实际抽样设计中,经常综合采用几种抽样方法。(3)估计抽样误差

①抽样误差的含义

抽样调查的一个主要目的是通过由抽样获得的统计值来估计未知的总体参数值。统计值与参数值之间的差异被称为抽样误差,它是由抽样变异性,即由随机选择过程引起的样本统计值围绕总体参数值波动所致。

②抽样误差的决定因素

抽样误差的大小主要取决于总体的异质性程度和样本规模,总体异质性高或样本规模小,都可能产生较大的抽样变异性,反之,则产生较小的抽样变异性。

③可容忍的抽样误差和估计效应

在抽样设计中,考虑到抽样变异性的存在,必须事先确定可容忍的抽样误差和估计效应的大小。

a.可容忍误差取决于某一置信度下预期统计值的置信区间的大小,而置信度则代表了置信区间包含参数值的概率。

b.估计效应的大小是指自变量可能给因变量造成的变化。(4)确定样本规模

由于样本规模的大小直接影响到抽样变异性,因此抽样设计需要事先估计有效样本规模。用于有效样本规模计算的方法有两种:一种与可容忍误差有关,主要用于描述性研究。对于分析性研究而言,则可以使用另一种方法,即效力检验,来计算有效样本规模。它主要与估计效应有关,即确定某一特定的样本规模,能否使所关注的因变量的变化对自变量的影响具有足够的敏感性。增加样本规模能够减少标准误差,进而提高拒绝零假设的可能性。

有效样本规模还会受到抽样方案变动和子群体数量较小等因素的影响。所以,在考虑到多种因素之后,抽样设计中样本规模的确定通常是一个多次更改的迭代过程,设计之初未考虑到的后续影响因素,往往会改变前面做出的决定。

二、总体与抽样框

1.定义总体

编制抽样框工作的第一步是定义总体,只有对总体构成及边界有一个清晰的认识,才能最大限度地使抽样框与总体保持一致。(1)总体的分类

①目标总体,指理论上具有研究者所考察特征的全体总体元素的集合体。

②抽样总体。在实际抽样中,有些总体元素并不一定都能有机会被抽取到。由那些有机会被抽取到的总体元素构成的集合体,就是抽样总体或调查总体,它是排除了研究总体中的一些特例后的总体。(2)定义总体的步骤

①明确分析单位。

②定义总体边界,包括:

a.对总体涉及的地理或行政边界加以说明;

b.对被调查对象进行必要的说明,包括合格的被调查对象的年龄、居住类型等。

2.编制抽样框

对于抽样而言,真正有操作意义的是确定抽样框,没有抽样框实际抽样就无法进行。(1)抽样框的分类

①名单抽样框,即把抽样总体中所有能找到的调查对象名单排列起来。

②区域抽样框,由定义明确的区域组成,除少数由纯区域构成的区域抽样框外,在大多数情况下,区域都是由个体单位组成的。前者的抽样单位就是区域本身;而后者的抽样单位则是区域内的个体单位,这时可以有两种抽样方法:

a.抽出区域后对其中的所有单位进行调查,即整群抽样;

b.抽出区域后对区域内的单位再抽样,即多阶段抽样,经常用于抽样总体较大,编制全体抽样单位的名单很困难的情况。(2)抽样单位

抽样框中的总体元素又称抽样单位,有时抽样单位与分析单位是相同的。但在较大范围的多阶段抽样中,可能有多个层次的抽样单位。在各式各样的抽样框中,人口普查数据是比较完整、比较可信的抽样框。

三、概率抽样

基本抽样方法包括简单随机抽样、系统抽样、分层抽样、整群抽样、不等概率抽样和多阶段抽样等几种形式。

1.简单随机抽样(1)简单随机抽样的含义

简单随机抽样又称纯随机抽样,是严格按照随机化原则从含有N个单位的总体中抽取n个单位组成样本(N>n),在抽样过程中总体的每个单位都有同等的机会入选样本,而且每个单位的抽取都是相互独立的。(2)简单随机抽样的分类

根据被抽中的元素是否放回总体,又可分为放回简单随机抽样和不放回简单随机抽样,在实际抽样中大多采用不放回抽样。简单随机抽样是概率抽样的最基本形式,其他概率抽样方法都是在此基础上派生出来的。常用的简单随机抽样方法包括:抽签法和随机数法。(3)常用的简单随机抽样方法

①抽签法

当总体数目不大时,可以采用抽签法。具体操作方法是:

a.用均质材料做成N个签,给每个签编一个号码,将这N个签充分混合;

b.一次抽出n个签,或每次抽取一个但不放回,再抽另一个直至抽到n个签为止。这抽出的n个签上的号码就是入样的单位号码。

②随机数法

当总体单位很多时,通常采用随机数法。具体操作可以利用随机数表、随机数骰子、计算机产生的伪随机数等进行抽样。

a.随机数表

在几种操作方式中,最经常用到的是随机数表。随机数表是由范围在00001~99999内的5位数的随机数,按行和列排序构成的。用随机数表产生随机数,需要解决以下一系列问题:

第一,确定选出的随机数的位数;

第二,决定从5位数组中选择哪几位数字,这里关键是要预先约定好规则,然后一直按此规则行事;

第三,确定在表中选择数字的顺序,这里关键是要预先约定好规则,然后一直按此规则行事;

第四,确定开始选择的5位数组起点;

第五,处理大于总体规模或重复的随机数。

b.随机数骰子

除了随机数表,随机数骰子也是一种产生随机数的工具,它是由均匀材料制成的正20面体,每一面上分别标有0~9的数字各2个。使用时,可根据总体规模N的位数,决定使用几枚骰子,并同时规定好不同颜色骰子所代表的位数。将骰子放入盒内摇匀,然后打开盒盖,读取各枚骰子面朝上的数字,即可获得一个随机数。

c.计算机

由于许多统计软件都有产生随机数的程序,因此利用计算机产生随机数是一种方便、快捷的方法。但必须指出的是由统计软件产生的随机数是伪随机数,在通常情况下有循环周期,故一般无法保证其随机性。尽管有些统计软件产生的伪随机数有较长的循环周期,但为了保证抽样的随机性,在有条件的情况下,最好还是使用随机数表或随机数骰子来产生随机数。

2.系统抽样

系统抽样又称机械抽样,即将N个总体单位按一定顺序排列,然后先随机抽取一个单位作为起始单位,再按某种确定的规则抽取其他n-1个样本单位。系统抽样是独立于简单随机抽样的另一种随机抽样方法,其效果与简单随机抽样相近,但操作起来却容易得多。

在系统抽样中,等间距抽取是最常用的规则,故系统抽样经常被称为等距抽样。由于抽样使用的是抽样间距,而不是随机数,故等距抽样是一种准随机抽样方法。常用的等距抽样方法包括:直线等距抽样和循环等距抽样,二者的区别在于总体规模N是否为样本规模n的整数倍。(1)整数抽样间距

当N是n的整数倍,即抽样间距k=N/n是整数,可使用直线等距抽样。即在算出抽样间距后,先在1~k范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽出n个单位。抽中单位的号码分别为:r,r+k,…,r+(n-1)k。(2)非整数抽样间距

当N不是n的整数倍,即抽样间距k=N/n不是整数,若再利用直线等距抽样就无法保证每个总体单位以相等的概率入样。为了使样本均值为无偏估计,可以采用以下两种方法进行抽样:

①循环等距抽样方法

先将N个总体单位首尾相接排成一个封闭圆,抽样间距k取最接近N/n的整数,再从1~N中随机抽取一个随机起点作为起始单位,然后每隔k抽取一个单位,直到抽满n个单位为止。由于随机起点是1~N中的任意一个,因此每个总体单位入样的概率是相等的。

②调整直线等距抽样

a.将非整数的抽样间距k的小数点后移一位,使其成为整数(k*10),然后在10~(k*10)之间选定一个整数的随机起点(r*10)。

b.将(r*10)的小数点移回来,成为非整数的随机起点r。由r开始每隔k个单位抽出一个单位,直到抽出n个单位。抽中号码分别为:r,r+k,…,r+(n-1)k。

c.将上面号码的小数部分略去,得到相应地入样单位的号码。(3)总体单位的排列

简单随机抽样为基础的概率抽样,在抽取样本之前需要对总体单位编号,如果总体单位很多,则工作量较大。而使用系统抽样则无需对总体单位编号,所需要的只是将总体单位按顺序排列。不过并非所有排列顺序都能满足系统抽样的要求,与系统抽样有关的单位排列有以下几种情况:

①总体单位随机排列。总体单位按随机顺序排列的系统抽样称为无序系统抽样,其效果等价于简单随机抽样。

②总体单位线性趋势排列,即总体单位按某个辅助变量的大小顺序排列,而这个辅助变量与所研究的指标值线性相关。对线性趋势总体进行系统抽样称为有序系统抽样,其效果优于简单随机抽样。

③总体单位周期排列,即总体单位指标值按其顺序呈周期性变化。对于周期排列的总体,系统抽样的估计效果与抽样间距以及单位指标值的变化周期有关。

a.当抽样间距等于周期倍数时,抽到的任意一个样本单位都有相同的取值,相当于从总体中随机抽取了一个单位,这时样本的代表性最差。

b.当抽样间距等于半周期倍数时,大部分情况下,样本会依次重复地取两个高低不等值,系统抽样会得到无偏的均值估计,样本的代表性会有所改善。

c.抽样间距不等于周期倍数或半周期倍数,在掌握了总体周期结构的基础上,选择合适的抽样间距,可以抽到周期排列总体中的大部分指标值,得到代表性较好的样本。

3.分层抽样(1)分层抽样的含义

分层抽样又称类型抽样,是先将总体N个单位,按某种特征划分成若干个子总体,称为层,然后在每个层中分别独立地进行抽样,最后,将抽出的子样本合起来构成总体的样本。(2)分层抽样的逻辑

如果单位之间差异很大,那就对它们进行分组,使得各组内的差异变小,这样在各组内进行抽样会提高精度,增加样本的代表性。分层抽样并不是一种独立的抽样方法,它实际上是一种重新组织总体单位的方法,最终各层内的抽样仍要采用简单随机抽样或系统抽样进行。(3)分层抽样的优点

①降低总体异质性程度;

②便于对各层指标进行推算;

③有利于抽样工作的组织。(4)对总体进行分层需要考虑的问题

①样本规模在各层的分配

a.样本规模按比例分配,即各层的子样本单位在总样本中所占的比例,与各层单位在总体中所占的比例完全相同,按比例分配是自加权的,这时样本结构与总体结构完全一样。

b.样本规模非比例分配,非比例分配设计最常见的目的如下:

第一,对总体中规模太小的层进行比较研究。当某些层的单位在总体中的比例太小,如果按比例分配样本,则这些层的样本规模会很少,无法进行统计分析,这时可以加大该层的样本规模,即使用较大的抽样比,以便对这些层的子总体进行研究和比较。

第二,在费用一定的情况下,获得尽可能高的抽样精度,又称最优分配。当各层的单位调查费用相等时,最优分配的原则是:层内单位标准差越大的层,抽样比越高。这时抽样比与层内单位标准差成正比。当各层的单位调查费用差异较大时,最优分配的原则是:单位调查费用越低的层,抽样比越高。这时抽样比与层内单位平均调查费用的平方根成反比。

c.一般说来,如果各层均值有很大差异,则采用按比例分配较好;而如果各层标准差有很大差异,则最优分配较好。

②层的划分

a.分层变量

理论上,按调查目标变量进行分层是最好的,但在调查之前目标变量的值是不知道的,因此只能是根据与目标变量尽可能相关的辅助变量进行分层,常用的辅助变量包括性别、年龄、职业、教育程度、收入、地域、民族和宗教等。

b.层数

除非层的划分是按自然层或单位类型进行的,否则分层时层的数量越多越好,因为层越多就越容易形成层内个体的相似性。但在实际抽样中,层的数量受到以下限制:

第一,样本规模的限制。因为要考虑估计量方差的无偏估计,故每层至少要有两个样本单位,这样层数就不能超过n/2。

第二,调查经费的限制。一方面,增加层数势必会增加调查的管理费用,而当层数增加到一定的时候,在精度上的收益将非常小,这是收益递减现象;另一方面,在调查费用一定的情况下,增加层数必然导致降低样本规模,而每层的样本规模越小,对总体方差的估计值也就越不精确,这时就要考虑增加层数而降低样本规模在精度上是否合算。

③分层抽取样本的方法

在分层抽样中,有以下两种常见的样本抽取方法:

a.将所有总体元素按分层变量进行分层,并计算各层在总体中的比例。接着如果采用等比例分层抽样,则直接将总体比例视为样本比例;如果采用不等比例分层抽样,则需要对样本比例做一定的调整。最后,再按确定的样本比例,用简单随机或系统抽样的方法,抽出适量的样本元素。

b.先将所有总体元素按分层变量进行分层,然后将各层的总体元素一层一层连续排列,最后对连续排列的总体元素进行等距抽样。这种方法被称为分层等距抽样,适用于等比例分层抽样。

4.整群抽样(1)整群抽样的含义

整群抽样是先将总体划分成若干个群(视为初级单位),每个群包含若干个次级单位,然后以一定方式从总体中抽取一部分群,并由中选群中的所有次级单位构成总体的样本。通常情况下,整群抽样的抽样误差大于简单随机抽样。但进行简单随机抽样或分层抽样需要包括所有总体单位的抽样框,这在实际抽样中由于缺乏足够的信息资料,往往是难以实现的。而编制群的抽样框相对是比较容易的。而且在大范围调查中,抽取群也使得调查单位的分布相对集中。(2)群的性质

①从群的划分类型看,经常用到的是自然群,即由行政或地域区划形成的群,如学校、企业、省市或村镇。另一类群则是调查人员人为划定的。需要考虑如何划分群,使得调查费用一定时抽样误差最小。

②群的划分可以遵循以下原则:群内方差尽可能大,群间方差尽可能小。(3)规模不等的群

在社会调查中,总体中的群大多是规模不等的,这时不同的抽样可能会抽中不同的群,因此样本规模也不再是常数了。为了保证样本单位满足等概率原则,可以采取以下措施来控制样本规模的变动:

①按群的大小进行分层,然后对各个层使用相同的抽样比。这样可以保证抽样结果中总是分别包括一定数量规模不等的群,进而使得样本规模不至于有很大的变化。

②重新组合大小不等的自然群,形成一些新的规模相差不大的人工群,进而使得样本规模约等于常数。通常用在总体中大多数群相差不大,只有少数群较大或较小需要重新组合的情况下,如果有太多的群需要重新组合的话,则工作量太大,不合算。

5.不等概率抽样(1)不等概率抽样的含义

不等概率抽样是指在抽样过程中,总体每个抽样单位有一个被抽中的概率值,这些概率值可能不相等,即不同的总体抽样单位入样的可能性可以是大小不等的。之所以采用不等概率抽样方法,主要是因为当总体抽样单位之间差异较大时,等概率抽样可能会增大估计误差,降低估计精度,从而对抽样效果产生不良影响。放回类型中,样本规模固定,且每个抽样单位被抽中的概率与单位的大小或规模成比例(probability proportional to size,PPS)的不等概率抽样,简称PPS抽样。(2)不等概率抽样的实施方法

①代码法,比较适合于总体抽样单位的规模N不太大时。

②拉希里法。当总体抽样单位的规模N很大时可以使用拉希里法。*其方法是:设M=max(M)。每次从[1,N]中抽取一个随机数i,并i*在[1,M]中抽取一个随机数m,如果M≥m,则第i个抽样单位入样,i如果M<m,则依照上述步骤,重新抽取i,m。第i个抽样单位是否被i抽中与m有关,只有m≤M时它才能被抽中。i

6.多阶段抽样(1)多阶段抽样的必要性

前面介绍过的几种概率抽样方法,在总体规模或范围很大的情况下,会遇到两个很难解决的问题:

①在很多情况下,无法获得抽样所需要的总体元素名单(抽样框)。

②样本分布过于分散,实地调查的成本极其昂贵。在这种情况下,需要采用多阶段抽样方法。(2)多阶段抽样的含义

多阶段抽样是指按总体内的层级关系,把抽样分成几个阶段来进行。最初从总体中抽出的群被称为初级抽样单位(PSU),如果PSU的规模相等,用简单随机抽样或等距抽样方法,直接进行第二阶段的抽样,这时第二级单位是等概率入样的,而且样本规模是常数。如果群规模不等,则存在样本规模随机变动问题。多阶段抽样样本中规模随机变动问题,是由于要保持抽样的等概率条件,即保持总抽样比不变产生的。具体处理方法包括:分层多阶段等概率抽样和多阶段PPS抽样。(3)分层多阶段等概率抽样

①将总体中规模不等的群按规模(或重要性)分层;

②在不同阶段对不同的层使用不同的抽样比。(4)多阶段PPS抽样

多阶段PPS抽样关键是在第一阶段抽取PSU时,要先放弃等概率抽样条件,采用PPS抽样方法,即赋予规模不等的群与其规模(或辅助变量)成比例的入样概率,然后以一个固定的样本规模从抽中的PSU内抽取样本单位。需要说明的是,在用PPS方法进行多阶段抽样时,第一阶段以及中间各个阶段的抽样都是PPS抽样,只是最后阶段的抽样才抽取固定数量的抽样单位。(5)规模测量值

进行PPS抽样的一个前提条件是,要在具体抽样前知道各级抽样单位的规模。可是在抽样前一般无法确切知道抽样单位的实际规模,为了能使用PPS方法,只能代之以各级抽样单位规模的估计值M,称为规模测量值。估计值可以从离调查时点最近的一次普查资料或其他统计资料中查找到。

四、抽样误差与样本规模

实际抽样中影响样本代表性的有两类误差:抽样误差和非抽样误差。

抽样误差是一种随机误差,它是由于样本范围与总体范围的差异而引起的误差,无论怎样精致的抽样设计,都会产生抽样误差。不过在概率抽样中,抽样误差是可以估算出来的。

1.简单随机抽样的抽样误差(1)放回简单随机抽样

根据中心极限定理,在放回抽样条件下,如果样本规模为n,总体标准差为σ,则样本平均值M的抽样分布的标准差,即标准误差SE为:

在样本规模很大的情况下,通常可以用样本的标准差S作为总体标准差的近似值,于是有:

在实际抽样中,还经常用到样本比例P的标准误差。在放回抽样条件下,如果样本规模为n,总体比例为P,总体标准差为:

样本比例P的标准误差为:

当样本规模很大时,可以用样本比例p来代替总体比例P,于是有:(2)不放回简单随机抽样

在不放回抽样中,计算标准误差要在放回简单随机抽样基础上,引入一个不放回抽样校正因子:

这时样本均值和样本比例的标准误差分别为:

式中N为总体容量。

由于社会调查中N一般较大,N-1近似等于N,于是有:

式中n/N=f称为抽样比。

不放回抽样主要用于总体较小时,如果N较大(n/N<0.05),则校正因子可以忽略。另外,由于(1-n/N)<1,所以放回抽样的抽样误差总是大于不放回抽样的抽样误差。(3)标准误差的意义

由中心极限定理可知,如果样本规模很大,则抽样分布近似为正态分布,抽样分布的均值M就是总体的均值μ。由于抽样分布近似为正态分布,因此任意两个样本均值之间,样本均值频数所占的比例是可以知道的。假定总体均值为μ=M,可以推测,从该总体中抽出一个样本的均值落在M1.96SE范围的概率为95%,落在范围以外的概率为5%。在社会调查中进行统计推论经常会用到一些数值,具体见表2-1。表2-1 统计推论常用数值表

2.简单随机抽样的样本规模

样本规模又称样本容量,是指样本中所包含元素的数量。样本规模一方面会影响到样本的代表性,另一方面会直接影响到调查成本的大小。因此,在实际抽样中,选择合适的样本规模是非常重要的。(1)影响样本规模的因素

如果不考虑经费问题,那么样本规模主要取决于抽样精度和总体标准差。

①抽样精度是指抽样中希望达到的精确度,即能够容忍的抽样误差(e)。抽样误差是样本统计量与总体参数值之间的偏差,而偏差是由于样本与总体不一致造成的。样本越小,与总体差异就越大,因此,误差也越大。能够容忍的抽样误差越小,即要求的抽样精度越高,则样本规模也越大,反之亦然。但当总体规模达到一定程度时,如果总体规模继续增加,样本占总体比例与抽样精度之间,并不是一种正向的线性关系,样本增大并不会带来精度的线性增长。

②总体标准差σ是反映总体元素间异质性程度的指标,一般说来,在给定抽样精度后,总体异质性程度越小,所需样本规模也越小,反之,则越大。这是因为异质性越小,总体参数的分布越集中,波动性越小,大小相同的样本的代表性就越好。(2)样本规模的估算

假设研究目的是要求出某个变量(X)在总体中的均值μ=M。从一个随机样本(n)计算出来的均值()与总体均值(M)的差就是抽样误差e,即:     

又假定总体标准差为σ,则在置信度给定时,置信区间为:。

在放回抽样中,,样本规模为:。

在不放回抽样中,,样本规模为:。

估计总体比例或百分比p,只要相应地将σ2换成p(1-p)就行了。如果推测总体比例或百分比p有困难,可采用保守估计p=0.5,获得所需的最小样本数。这时在不放回抽样中有:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载