税收统计学(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-16 23:19:25

点击下载

作者:国家税务总局收入规划核算司

出版社:中国税务出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

税收统计学

税收统计学试读:

第一章 绪论

第一节 税收分析的意义

税收是财政收入的主要来源,组织税收收入是税务部门的核心工作。多年来,我国各级税务机关认真履行自己的职责,税收收入实现了持续快速增长,税收的职能作用得到了全面发挥,为我国深化经济体制改革、促进国民经济持续快速发展、推动各项社会事业全面进步做出了重大贡献。

以税收收入为研究对象,不断深化和拓展税收分析,把握税收收入发展变化的内在规律,是做好组织税收收入工作的重要前提。概括地讲,影响税收收入变化的因素主要有三个:一是经济因素,二是税收政策因素,三是税收征收管理因素。税收收入的变化,就是这三个因素共同作用的结果。要不断提高税收管理工作的质量和效率,增强统筹规划组织税收收入工作的主动性,提高税收调控国民经济和调节收入分配的自觉性,实现税收收入与经济、社会的协调增长,就必须研究税收收入与以上三个因素之间的关系,把握其内在规律。结合我国税收工作实际来观察,做好税收分析工作具有十分重要的意义:

第一,加强税收分析是贯彻组织收入原则的内在要求。国家税务总局强调在组织收入工作中要牢固坚持“依法征税,应收尽收,坚决不收过头税,坚决防止和制止越权减免税,坚决落实各项税收优惠政策”的组织税收收入原则,正确认识组织收入与支持经济发展的关系,切实处理好完成税收收入计划与坚持依法治税的关系,实现税收收入随着经济发展协调增长。要切实改变传统的按计划征税的做法,真正贯彻落实组织收入原则,首先必须准确地预测税收收入,科学地做好年度以及中长期税收收入规划;其次必须准确地判断一定时期的税收收入形势,密切监控和分析各税种月度税收运行状况,及时发现组织收入工作中存在的问题,从而掌握组织税收收入工作的主动权。

第二,加强税收分析是强化税收征收管理的重要内容。近年来,国家税务总局认真总结税收征收管理工作的历史经验,借鉴吸取市场经济发达国家税收征管的先进方法,提出进一步深化征管改革的总体要求,构建现代化征管体系。构建现代化征管体系要以风险管理为导向,把风险管理贯穿税收征管全过程,具体来讲就是要建立“统一分析、分类应对”的风险管理体系。这里的统一分析就是要借助信息技术平台,开展税收风险监控分析,为有针对性的分类应对提供指引,这里的风险分析既包括宏观层面的税收流失分析,也包括微观层面税收风险识别分析,因此税收风险分析水平的高低直接决定着构建现代化征管模式改革的成败。

第三,税收分析是深化和完善税制改革的必要工具。1994年以来,我国税制改革逐步展开,从内外资企业所得税统一,到增值税的全面转型,以及正在进行的营业税改征增值税试点,每一项改革的影响和意义都极其深远。按照党中央和国务院的部署,我国税制改革的任务还十分繁重,还将要进行个人所得税、房产税等多项改革。为了确保税制改革方案的科学性和可行性,在每一项税制改革之前,都要开展深入细致的方案论证工作,准确地分析和预测改革方案的实施对于经济发展、收入分配以及税收收入的影响。在新的税制实施以后,也要加强税制改革效应分析,以积极反映税制改革的成果,及时反馈政策执行中的问题,采取必要的调整措施。

第四,税收分析是发挥税收调控经济职能的重要前提。税收政策是国家宏观经济政策的重要组成部分。在很多情况下,税收政策成为国家调控国民经济运行的重要工具。要充分、有效地发挥税收在调控宏观经济和调节收入分配中的重要作用,就必须在深入分析经济发展与税收增长的内在关系,把握其一般规律的基础上,根据特定时期经济运行的特征和国内外经济形势的要求,制定有关税收政策方案,并运用有关政策分析工具,对实施相关政策方案的影响尽可能地进行定量分析,从而为各级政府和有关部门科学决策提供客观依据。

2008年,在国家税务总局实施机构改革、原来的计划统计司更名为收入规划核算司之后,总局召开了第一次全国税收收入规划核算工作会议,确定了规划核算工作的基本思路,即认真贯彻新时期税收工作指导思想,以税收分析为重点,以数据管理为基础,以制度建设为保障,以队伍建设为根本,全面发挥税收收入规划核算工作为组织收入服务、为加强征管服务、为税制改革服务、为宏观调控服务的职能作用,促进税收事业又好又快发展。以税收分析为重点,就是要把税收分析作为收入规划核算工作的重中之重,贯穿于收入规划核算工作的各个环节。这就从指导思想层面上正式确立了税收分析工作的重要地位。国家税务总局曾专门下发《税收分析工作制度》(国税发〔2007〕46号),全面、系统地对税收分析的主要内容、基本原则、工作职责、工作机制、工作流程、指标体系、分析方法、组织保障及考核等进行了明确规定,从制度层面上为规范、有序地开展税收分析工作,全面提升税收分析水平提供了有力保障。在2012年9月召开的全国税收收入规划核算工作会上,总局又进一步提出要深化税收分析,服务税收工作大局,把税收分析作为当前及今后一段时期要重点抓好的工作之一,其内容包括要深化预算执行情况分析、税收风险分析、政策效应分析和经济运行分析。

第二节 税收分析和统计学

一、税收分析工作现状

税收分析是根据税收统计资料,运用科学的理论与方法,对一定时期内税收与经济、税收政策、税收征管等相关影响因素的关系进行分析和推断,从而为更好地组织税收收入、加强税收征管、推进税制改革、完善税收调控提出科学的、有针对性的建议的一项综合性管理活动。近年来,各级税务部门不断拓宽税收分析思路,实现由税收收入进度、税收增减幅度等简单对比分析,向宏观税负、税收弹性、税收风险预警、税收收入能力估算等综合分析转变。当前,各级税务部门经常开展的税收分析工作主要有:

税收收入预测分析:包括分地区、分税种、分行业的税收收入预测,以及对税收收入影响较大的重点税源企业税收规模变动情况预测。税收收入预测的频率分为月度预测、年度预测以及中长期预测等。

税收收入监控分析:包括税收收入进度分析、税收收入结构分析、税收收入增减分析,以及与税收收入有关的税源情况监控分析等。

税收征管状况分析:狭义的税收征管状况分析指的是包括纳税人登记率、申报率、入库率等有关征管程序方面的指标在内的分析工作。

广义的税收征管状况分析则不仅包括上述征管程序方面的指标分析,而且包括税收会计核算分析(即包括应征、欠缴、缓征、减免、入库等不同税收资金形态的分析)、经济税源分析(如税收负担分析、税收弹性分析等)和税收风险分析[如税收流失(收入能力)估算,主体税种、主要行业及重点税源税收流失风险分析,等等]。

税收政策效应分析:包括税收政策实施之前的方案评估分析,也包括政策实施过程中,特别是实施一定时期之后的政策效果分析,以期把握税收政策预定目标是否实现,税收政策具体内容是否需要调整,并为完善税收政策提供有针对性的建议。如构建税收CGE模型,对营业税改征增值税政策的税收经济效应进行评估;构建处理效应模型,对营业税改征增值税政策实施之后的效应进行分析。

税收经济运行分析:利用税收数据,从税收视角客观反映宏观经济运行状况和经济结构调整状况,揭示税源发展中存在的问题,预测发展的趋势,提出促进地区经济发展的建议,

总体来说,税收分析工作已经越来越成为税务机关监控经济税源变化、把握税收收入形势、判断税收管理风险、指导组织收入工作和调控经济运行的一项不可缺少的重要工作。各级税务机关不断创新税收分析的内容和方法,在挖掘税收潜力,有针对性地提出完善税收政策、加强征管的措施和建议方面,取得了显著成效,为建立税收分析的长效机制、全面开展税收分析工作奠定了坚实的基础。特别是近年来,各地对税收分析工作的重视程度进一步加强,分析领域进一步拓展,分析方法进一步完善,分析水平进一步提高,为构建现代化征管体系、发挥税收职能作用注入了新的活力,同时也开拓了税收分析工作崭新的、广阔的空间。二、深化税收分析需要统计学

社会经济形势的发展和税收工作的变革,对各项税收工作都提出了新的要求和挑战,税收分析工作也不例外。特别是在逐步推进税收分析工作的进程中,我们越来越深刻地感受到现有的税收分析内容还不够全面,税收分析方法还不够丰富,税收分析工作的体系与制度还不够系统与完善。要想进一步拓展税收分析的深度和广度,深化税收分析工作,就必须在分析方法上寻求突破,在理论基础上找到支撑。

统计学是研究数据的收集、整理、分析和推断,从而为决策提供依据和参考的一门科学。对于从事税收分析工作的人员来讲,系统地掌握统计学理论,灵活地应用统计学方法,将有助于推进税收分析工作向纵深发展,以充分发挥收入规划核算工作的职能作用。

第一,应用统计学分析方法,有助于做好税收收入预测和规划,为组织收入服务。当前,我国税收收入预测和规划工作已经形成一套独特的、相对完整的方法。在统计学方法中,也有不少成熟的预测模型和方法已经应用于经济及其他相关领域。将统计学的这些方法引入到税收预测和规划工作中来,应用多种方法,互相验证、互相补充,有助于提高预测和规划工作的准确性和科学性。

第二,应用统计学分析方法,有助于找准征管的薄弱环节,为加强征管服务。税收信息化进程的推进积累了海量的数据,如何应用这些海量数据,进一步为加强征管服务已经成为一个亟须研究的课题。大量统计学方法可以用于挖掘海量数据中蕴涵的知识和信息,进而帮助分析税收征管状况,发现税收征管薄弱环节,提高税收征管的质量和效率。

第三,应用统计学分析方法,有助于加强税收政策效应分析,为税制改革服务。税收政策的出台和实施,要充分考虑多方面的因素,各个层次的利益。国外普遍应用的微观模拟模型,利用统计抽样技术,根据抽取的企业样本,可以对整个社会的税收经济运行状况进行模拟,进而分析新的税收政策对国家税收、对不同地区、对不同行业的企业,甚至是不同规模企业的影响。借鉴国外经验,建立适合我国实际的税收微观模拟模型,可以更好地为税制改革服务。

第四,应用统计学分析方法,有助于深入剖析税收和经济的数量关系,为宏观调控服务。税收和经济数量关系的问题,是一个经典的问题,但至今仍是一个有挑战性的问题,因为其数量关系会随着地域不同、时间不同、经济发展水平不同、经济税收政策不同而发生较大的变化。但无论如何,借助统计学理论建立数学模型,对税收经济学进行实证研究,是一个十分重要的研究方向。对相互联系、错综复杂的税收经济关系进行分析研究,离不开经济数学模型的帮助。

统计学作为应用数学的一个分支,虽然产生的时间较早,但直到20世纪初才迎来其迅速发展并达到成熟的时期。统计学最早作为政府管理的工具对国家统计数据进行处理和分析,目前被广泛应用于商业、自然科学、社会科学、人文科学等多个领域。统计学的发展之所以这么迅速,各个领域应用需求旺盛是其主要原因。鉴于税收分析对统计学方法的需要,把统计学与税收分析结合起来,研究税收领域的问题,已是税收分析工作发展的必然要求。

第三节 税收统计学的性质和特点

一、税收统计学的性质

数理统计学提供了许多数据处理和数据分析的一般方法,但要应用于税收工作,解决税收领域的问题,还必须紧密结合税收工作的实际,把握其内在规律,找准发挥作用的着力点。因此,税收统计学需要针对税收学的特点,研究如何根据税收数据,应用统计方法,解决税收工作中的实际问题。这样,税收统计学可以看作是研究在税收工作中如何收集、整理、分析税收及其相关数据,以及如何根据税收数据所蕴涵的信息做出科学推断的应用统计学分支。

与教育统计学、生物统计学、医学统计学等相似,税收统计学是数理统计学在税收领域的具体应用,在性质上属于社会经济统计学范畴。当然,随着税收理论及其税收工作实践的不断发展,必然会有更多的数理统计方法被引入税收统计学中来,而税收分析工作的方法需求同样也会促进税收统计学的发展。二、税收统计学的特点

本书是为税务部门从事税收分析工作的人员编写的一本工具书。编写本书的主要目标,就是把统计学思想与方法融入税收经济分析工作之中。本书具有两个特点:(一)完整、准确地阐述统计学的知识体系和基础内容。本书着重讲述税收统计分析方法,同时考虑基础知识体系的逻辑性和完整性,不能残缺,要把所涉及的每一种统计方法的基本思想都尽可能准确地阐述清楚。因为只有掌握了税收统计的基本思想,透彻理解了基本方法,才能去解决税收工作中的实际问题。但本书属于应用统计学范畴,没有大篇幅地讲述统计学原理,更不追求用数学的语言进行严格的证明及公式推导。通过阅读本书,税收分析人员可以了解税收分析工作中有哪些统计方法可供使用,如何使用,并且可以进一步领会统计理论的基本思想,掌握统计分析方法的基础思路和操作步骤。(二)突出运用统计方法和技术解决税收分析工作中的实际问题。统计分析工作中,只掌握统计方法还远远不够,因为从统计方法到实际应用还有一定的距离。对统计方法的把握、对税收政策的理解、对税收实际状况的认识都会深刻地影响着税收分析的结果。鉴于这种情况,本书不仅注意避免与一般统计学的简单重复,更注重结合税收分析工作的实例和实际情况。运用统计方法和技术解决税收分析工作中的实际问题是本书的特色。这样使得本书的读者能够了解到税收分析中有哪些问题需要解决,知道解决这些问题时需要什么数据,如何取得数据,如何处理数据,如何对结果进行分析,并做出客观的结论,进而全面提高运用统计方法解决税收实际问题的能力。

第四节 税收统计学的体系与主要内容

税收统计学的研究内容建立在统计学的基本原理和方法的基础之上,因此从其体系上,本书仍以统计学理论与方法为主线,没有突破传统统计学的框架结构。在内容上,作为一门应用学科,税收分析对统计学方法的选择也有所侧重,强调适应税收分析工作的需要和要求,以税收实际数据为基础,有经典的基础统计方法,也有最新的统计学研究成果。

对于各章的内容,我们也根据学科需要有所取舍,特别强调了要结合税收统计数据和工作实际,重点论述税收方面的案例和分析。每一种统计模型的基本思路、方法和步骤都力求用简短、通俗、易懂的语言去描述,省略了一些复杂的公式和理论推导,避免了学科之间不必要的重复。对统计学原理和推导有兴趣的同志,可以带着问题进一步查阅相关统计学书籍和资料。

本书共分四个部分,由基础知识到高级分析逐步展开。当然随着税收统计分析工作的开展和推进,税收统计学的内容和方法还会不断地丰富、完善和发展。本书主要内容如下:

第一部分税收统计概述,主要介绍税收统计学的基本概念和方法,税收数据的收集、整理,以及简单处理和描述等方面的内容(第一至四章)。这是税务系统目前税收统计工作的日常事项,是税收统计分析工作的基础。虽然其学术性并不强,方法也不复杂,但是十分重要。

第二部分税收统计推断,主要介绍参数估计和假设检验(第五、六章)。如果搜集的统计资料是样本资料,要求我们利用样本资料所提供的信息,进一步对总体的规律性作出科学的推断。这一部分有很多统计学的基本概念、思想和方法,是税收统计分析的基础知识。

第三部分回归税收分析,主要介绍税收分析中的回归方法和回归分析过程中遇到的常见问题,包括一元线性、多元线性和非线性回归分析(第七至十章)。回归分析可以用于定量研究各种税收经济变量之间因果关系。依据这些数量关系,可对税收经济现象进行预测和推断,在税收分析工作中较为常用。

第四部分高级税收分析,主要包括时间序列模型、面板数据模型、聚类分析,以及主成分和因子分析等内容(第十一至十四章)。这部分内容主要以税收分析工作实例,说明这些统计方法的综合应用,可以作为专题内容参考使用。

第二章 涉税数据

第一节 涉税数据的分类

一般认为,税收统计研究的数据对象主要有三类:一是税收数据,包括应征类指标、待征类指标、减免类指标、入库类指标和查补类指标等。即纳税登记、纳税申报数据,以及应征、待征、入库、减免等税收资金核算数据。税收数据反映已申报、已入库税款在各种企业和个人类型、行业、项目中的分布情况。二是税基数据,主要包括国内生产总值(GDP)、国民生产总值(GNP)、国民收入、社会消费品零售总额、全社会固定资产投资、价格指数、规模以上工业企业利润额、金融机构存贷款余额、货运周转量、客运周转量等经济指标或主营业务收入、利润总额等反映企业经营状况和个人收入状况的税源指标。三是由以上两类数据衍生的增量、增幅、弹性、税负等税收统计指标。涉税数据是税收分析、收入筹划、税收征管等组织收入工作的重要依据。

涉税数据按数据类型分为定性与定量数据两种。定性数据包括分类数据和顺序数据:分类数据是指归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为文字表述的类别。例如,纳税状况分为正常、非正常两类。顺序数据是只能归于某一有序类别的非数字型数据,如税收征管质量分为优、良、及格、不及格等。定量数据主要为数值型数据,是指按数字尺度测量的观测值,其结果为具体数值。如税收入库数、欠税数等。按时间和空间的不同维度,还可分为截面数据、时间序列数据和面板数据。截面数据指在同一时刻或几乎同一时点所收集到的数据,如多个企业或地区当年实缴税收、税负水平等。时间序列数据指在若干个时点内针对同一对象所收集到的数据,如2000~2008年每年全国税收收入等。面板数据是指将截面数据与时间序列综合起来的一种数据资源,如多年多个地区税收数据。

区分数据类型十分重要,因为对不同类型的数据常应用不同的统计方法来处理。比如,对分类数据我们通常计算出各组频数或频率,2计算其众数和异众比率,进行列联表分析和χ检验等;对于顺序数据可以计算其中位数和四分位差,计算等级相关系数;对于数值型数据可以用更多的统计方法进行分析,计算各种统计量、进行参数估计和检验等;对于横截面数据可以计算集中度和离散度、进行聚类和主成分分析,对于相关变量还可以进行相关分析,建立回归模型分析变量之间的影响程度等;对于时间序列数据可以计算时间趋势,建立预测模型进行预测等;对于面板数据可以在时间跨度有限的情况下,以数据的空间维度补充时间维度的不足,充分利用数据资源,进行具有共同协整关系的变量之间影响分析等。

第二节 涉税数据的采集

涉税数据按来源可分为直接来源与间接来源:直接来源是通过统计调查或征管数据系统、重点税源监控、专项专报等方式得到第一手或直接的统计数据。间接来源是通过查阅历年资料或由外部门得到的国民经济运行资料或企业财务报表数据。税收分析工作中常用的数据主要有以下几个来源:一、计会统报表

税收计会统报表是根据国家税务总局的统一规定,按统一的表格形式,统一的指标内容,统一的报送时间,每月自下而上逐级提供统计资料,具备统一性、时效性、全面性、可靠性的特点,用以满足各级管理层次的需要。包括税收资金平衡、应征税金、待征税金、减免税金、提退税金、入库税金明细等会计类报表;税收收入分企业类型统计月报总表、税收收入分产业分主要行业统计月报总表、营业税分企业类型统计月报表、减免税金明细月报表等统计类报表;还包括旬报、五日报、电月报等计划类报表。二、重点税源监控

2008年开始,总局将缴纳增值税、企业所得税500万元以上企业,消费税、营业税100万元以上企业,预计下一年度达到上述标准的企业纳入重点税源监控范围。监控户数达68672户,监控税收比重达50%以上。重点税源报表体系共包括6张报表:1张基本表、2张月报表(税收月报、产品月报)、3张季报表(财务季报、房地产季报、调查问卷季报),共计262项指标。指标内容涵盖企业生产、销售、产品、物耗、财务等税基数据和各项税收数据,成为目前税务系统中唯一一套掌握企业全部纳税数据的资料。目前已将房地产行业和部分大型企业集团纳入监控范围。三、征管信息系统

征管信息系统(国税局的CTAIS和地税局的各类征管信息系统)是遵循税收征管业务规程,按照管理层市局级的征管业务需求而发展起来的。功能分为两个层面:一是直接面向纳税人的基层(税务分局、税务所,县一级的局),功能包括管理服务、征收监控、税务稽查、法制、保全和强制执行等。二是管理层级,主要有基层业务延伸的日常业务操作模块,如管理和认定模块、分析监控模块、质量考核模块、查询统计模块和报表管理模块等。

征管信息系统设计理念与整个组织收入流程是一致的,能实现税源监控、税收统计、报表生成等功能。但由于目前各单位征管信息系统尚未统一,软件程序功能未全面利用,数据资料的数量和质量仍难以完全满足收入分析和税源管理的需要。近年来随着数据省级集中的稳步推进,新税收征管系统的全面铺开,征管信息系统在数据存储、数据处理和数据管理上日益发挥着重要作用。国家税务总局金税三期总体目标就是要建立“一个平台、两级处理、三个覆盖、四个系统”。一个平台指包含网络硬件和基础软件的统一的技术基础平台;两级处理指依托统一的技术基础平台,逐步实现数据信息在总局和省局集中处理;三个覆盖指应用内容逐步覆盖所有税种,覆盖所有工作环节,覆盖国地税局并与相关部门联网;四个系统指通过业务重组、优化和规范,逐步形成一个以征管业务系统为主,包括行政管理、外部信息和决策支持在内的四大应用系统软件。未来,税收征管信息系统在数据支持上将更加便利、全面、准确、安全。四、税收调查

税收调查是财政部、国家税务总局联合布置的一项重要的年度性基础涉税资料调查工作,是各级税务机关全面实现税收职能的一项重要基础工作,它为财政部和国家税务总局掌握全面客观信息,进行科学决策提供服务,同时也为各级税务机关从税收角度向地方党委政府进言献策,提高本地区税收管理的科学性、有效性提供了非常有价值的信息来源。税收调查范围由抽样调查企业、重点调查企业以及企业集团组成,抽样调查对象由财政部和国家税务总局从税收综合征管系统中按科学抽样方法确定;重点调查企业包括重点税源监控企业等,调查户数和调查规模必须达到一定比例;企业集团名单由财政部和国家税务总局确定。近年来,税收调查依托NTSS软件,指标体系不断完善,涵盖了企业财务、税收、产品、物耗等200多项指标,完整地反映了企业生产与税收的总体情况。调查范围日益扩展,2011年,全国共调查各类纳税人71.5万户,调查企业实际入库的各项税收占全国税收收入的近六成。五、外部数据资料交换

近年来随着税收调节资源配置、调控经济发展的职能逐步凸显,税收数据成为国民经济核算的重要参照。同样,国民经济数据对于剖析影响税收的经济因素,深化税收经济分析,把握经济发展动向,科学规划组织收入工作也有着重要参考价值。因此,根据税收分析工作的需要,建立外部数据定期交换机制十分必要。主要采集渠道包括统计部门的月报、年鉴;发改委等宏观经济决策部门的发展战略规划、宏观调控政策、国民经济运行指标预测、重点项目投资规划和进度;金融部门的信贷结构和企业信贷资金增减情况;经贸部门和海关的进出口商品结构和数量;行业主管部门与行业协会的行业运行情况等报告;工业部门的企业用电量、企业盈利情况、生产计划等;建设部门的房地产交易状况、土地开发状况;交通运输部门的车辆运行状况;国内和国际权威机构发布的与中国经济发展有关的资料,等等。

第三节 涉税数据的简单整理与处理

一、涉税数据的整理

税收调查收集到的只是大量分散的、个别的原始形态的数据资料。在此基础上应对收集到的数据进行整理,数据整理是指对得到的原始资料进行科学的分组和汇总形成综合涉税资料的工作过程,是对原始数据的系统化、条理化,是前期调查的继续和深入,是下一步开展税收分析的基础和条件。数据整理包括数据审核、数据优化、编制报表等。在数据整理的基础上,再对数据进行统计处理。(一)数据审核

数据质量是税收分析的基础。然而,在数据采集的过程中,由于种种原因,难免出现误差。因此,对数据进行审核,进而去伪存真,减少异常数据集对结果的干扰尤为重要。数据审核主要针对数据的完整性和准确性。完整性是指数据填列完备,重要数据无缺失;准确性是指数据符合逻辑,没有误报。

各级税务部门对税收基础数据的审核是指对税务登记、税种登记环节中的注册类型、行业、税种、征收品目、预算科目、预算级次等基础性信息进行审核。如企业注册类型是否按要求填列;行业类型是否按纳税人从事生产经营行业的主次顺序填写,并按要求填列至最明细项;税种、品目、预算科目、预算级次项目不能为空,且必须符合标准;税种与预算类级科目之间应满足当年政府收支科目中规定的对应关系等等。为提高报表数据的可用性和准确性,税务总局还经常进行检查与核实。主要有:一是坚持每年进行会统年报会审,以《税收会计、统计工作手册》等为依据,重点审核报表中各项数据的政策性以及各税种收入在项目填列、企业类型划分、行业归类等指标上的准确性。同时对本表平衡、报表之间相关数据的衔接,各种年报应报项目指标的完整,各项提退是否按政策执行,按规定上报的报表和软盘是否齐全、一致,打印报表有无反复涂改、漏项(如缺签章、日期)等情况进行全面审核。二是对重点税源监控数据质量进行检查。主要检查内容:检查各个报表数据的完整性,指标当年数以及上年同期数有无应报未报项;检查各项数据的准确性,上报数据是否真实、准确,有无金额单位错误等问题;检查监控户数情况,实际监控范围是否达到税务总局规定的监控标准要求。数据审核主要采用集中审核、交叉检查等方式。

目前,税收数据的编报主要依托计算机应用软件,已开发出的软件系统有:会统报表管理系统、重点税源监控管理系统、税收调查系统等。其主要功能有:报表设计、数据录入、数据审核、舍位平衡、数据上报、数据接收、数据汇总、查询与分析、数据接口、年终改表等。上述软件系统可以依据税收制度、数据运算等关系设定数据审核公式,对数据的准确性,表报之间的钩稽关系等进行审核。数据审核包括逻辑性审核和合理性审核,逻辑性审核主要检查报表数据是否满足一定的逻辑关系,如果出现逻辑审核没有通过,则用户必须根据审核信息修改报表数据;合理性审核主要是检查报表数据是否合理,若出现合理性审核没有通过,用户只需检查数据填报是否合理,如果填报的数据是合理的,则可以不必强求通过合理性审核。(二)数据优化

原始数据中可能出现部分数据点缺失或个别数据点异常波动的情况,为了便于统计分析,减少其对分析结果的干扰,需要对不完备数据集进行处理。常用的处理方法有:数据筛选,即当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选,如将异常数据删除等。数据补齐,即使用某些数据代替异常数据,如使用均值、众数代替异常值;或使用回归法,先基于完整的数据集建立回归方程模型,然后用模型的内推或外推预测,得到未知属性值。SPSS等统计软件提供了较为方便的数据缺失值处理技术。数据优化应注意核实数据异常,区分数据孤点和数据拐点,在处理上注意把握数据的特征,不能为了平滑数据集而掩盖了数据变化的趋势。(三)数据分组

得到较为完备的数据集后,需要对数据进行整理,以便于进一步统计处理。按一定顺序将数据排列,有助于通过浏览数据发现一些明显的特征或趋势,在此基础上可根据数据特征进一步归类或分组,使得零乱而庞杂的数据条理化。

所谓统计分组,就是根据税收分析研究的任务和社会经济现象的特点,按照一定的标志,将所研究的社会经济现象的总体划分出性质不同的部分或组。其基本任务是划分社会经济现象的类型、反映现象的内部结构、研究现象的依存关系。例如,要研究产业结构变化对税收收入的影响,可将数据按照产业结构分组,按层次逐步深入进行分析。

1. 分组标志的选择

选择缺乏科学依据的分组标志进行研究分析会歪曲社会现象的本来面目,即使是同一研究对象,由于研究分析的目的不同,需要采用的分组标志也会不同。例如,要研究工业环节各经济性质的税收状况,其目的是分析何种经济成分企业提供的税收占主导地位,那么分组标志则应选择经济性质;若是分析在工业部门中哪个部门所提供的税收占主导地位,则应以工业部门为分组标志。

分组标志按不同特征,可分为品质标志和数量标志两种。按品质标志分组就是按质量属性分组,如前面提到的按经济性质、按工业部门分组等。按数量标志分组就是按研究对象数量特征分组,一般有两种情况:一是变量值不多,变动范围不大,即总体单位的不同标志值较少,这种情况可采用单项式分组;二是变量值较多,变动范围大,也即总体单位的不同标志值较多,这种情况则应采取组距式分组。按数量标志进行分组常用来分析某种指标的变动情况,这时被研究的指标就是分组标志。例如全省(市)各市(县)按税收计划完成程度分组、大中型企业按实际税收负担率分组等。通过分组能够直接观察各组的差异程度。

2. 税收数据统计分组的主要种类

常见税收数据分组有以下几种:一是按税收收入来源企业性质的不同进行分组,研究税源的主要特征和发展规律;二是按税收收入来源产业部门的不同进行分组,研究国家宏观经济政策变化、产业结构调整对税收收入的影响;三是按税收收入品目不同进行分组,研究由于企业产品结构调整对税收收入产生的影响;四是按税收收入的财政分配体制进行分组,研究中央收入和地方收入之间的关系,省级收入和市、地、县级收入之间的关系等;五是按税收来源的不同地区分组,研究不同地区的不同税源结构;六是按税收收入的不同征收单位分组,研究不同征收单位组织收入贡献、不同征收单位的征收效率等。(四)编制数据报表

为了使收集来的数据更加直观,常将数据编制成统计报表。

税收会统报表是税收会计和统计核算结果的反映,根据国民经济核算和统计核算办法的要求,以及税收数据的特点,报表的设置应符合指标明确、规范的原则,各种分组标志、统计目录、分类代码、统计单位以及单位代码都要做到规范化、标准化。报表体系的设置应遵循以下三个原则:1. 完整性原则:税务机关征收的各项税收收入都要有完整的统计,

要求核算出全社会一定时期内实现的整体税收。2. 统一性原则:要执行统一的核算标准、核算方法和管理办法。3. 客观、灵活的原则:核算范围广、核算对象具体情况复杂决定了

设计报表体系时必须贯彻客观、灵活的原则,指标设置可根据客

观事实调整。例如,对纳税人所属行业,以标准行业分类为基础

进行适当归并。二、涉税数据的统计处理(一)描述统计方法

描述统计是指用图形、表格和数值方法来反映数据特征的分析方法。目的在于描述数据的统计特征,找出数据的基本规律。主要分为集中趋势分析、离中趋势分析和相关分析三大部分。集中趋势分析主要用平均数、中数、众数等统计指标来表示数据的集中趋势。离中趋势分析主要用全距、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系,如税收与区域经济增加值之间的关系,也包括多个数据之间的多重相关关系,如税收与多个经济变量间的关系。(二)统计推断方法

推断统计是以一定的置信标准,根据样本数据来判断总体数量特征的归纳推理方法。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本间、样本与样本、总体与总体的差距是否具有显著性差异。常用的包括假设检验和区间估计。假设检验是指在总体分布或参数未知情况下,提出某些关于总体分布或参数的假设,然后根据样本资料对所提出的假设进行检验,并作出判断。区间估计指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围。被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。

思考题1. 什么是涉税数据,不同的数据适用哪些统计分析方法?2. 涉税数据采集的途径有哪些,如何获得所需要的数据?3. 数据审核的方法有哪些,如何对数据进行优化?

应用题1. 以某一个区域行业税收结构状况为题,设计一套调查方案,并采

集所需的数据。2. 对本区域当年重点税源数据质量进行审核,对数据进行优化,并

选定指标分组。

第三章 税收数据的描述分析

在税收工作中,我们可以获得大量的原始数据,如我们可以得到某个地区某个年度重点纳税企业分户纳税情况的数据,我们希望通过使用一些图表,以便从企业年度纳税数据中,找出企业纳税额趋向的焦点、纳税额分布等等情况。这需要使用一定的方法(如一些简单的表格、图形和少数汇总数字来描述)对数据进行整理和综合,以便从中提炼所需的信息,使之可以提供概要信息并能反映研究对象的基本数量特征,便于人们理解和使用。这些描述的方法被称为描述统计,描述统计的主要作用在于展示和理解数据,对数据的机制进行探索,利用人的直觉来识别数据,以发现其内在的规律,此外它能帮助我们选择适当的处理和分析方法。本章将介绍如何使用表格和图形进行数据展示、如何分析数据的集中趋势和数据离散程度(即离中趋势)。

第一节 统计表

统计表和统计图是显示数据的两种方式,统计表把杂乱的数据有条理地组织在一张简明的表格内,统计图把数据形象地显示出来,显然看统计表和统计图要比看那些枯燥的数字更直观。当我们对实际问题进行研究时,也经常使用统计表和统计图。下面我们首先来介绍一下统计表的构成和基本制作技术,下一节将介绍统计图的制作方法。一、统计表的构成

统计表是用于显示统计数据的基本工具,在数据的搜集、整理、描述和分析过程中,我们都需要使用统计表。统计表的形式多种多样,根据使用者的要求和统计数据本身特点,我们可以绘制形式多样的统计表。表3-1就是一种比较常见的统计表。表3-1 2006~2007年全国主要税种税收收入情况表

从表3-1可以看出,统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,此外,必要时可以在统计表的下方加上表外附加。表头应该在表的上方,它所说明的是统计表的主要内容;行标题和列标题通常安排在统计表的第一行和第一列,它所表示的主要是所研究问题的类别名称和指标名称,如果是时间序列数据,标题和列标题也可以是时间,当数据较多时,时间通常放在行标题的位置。表的其余部分是具体的数字资料;表外附加通常放在统计表的下方,主要包括资料来源、指标的注释和必要的说明等内容。二、统计表的设计

由于使用者的目的以及统计数据的特点不同,统计表的设计在形式和结构上会有较大差异,但其设计上的基本要求则是一致的。尽管计算机的应用对统计表的形式要求越来越少,但“科学、实用、简练、美观”仍然是设计和使用统计表所要求的。一般来说,设计和使用统计表时要注意以下几点:

第一,要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。当然,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。

第二,表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简单确切地概括出统计表的内容,一般需要表明统计数据的时间、地点以及何种数据。如果表中的全部数据都是同一计量单位,可以放在表的右上角标明,若各指标的计量单位不同,则应放在每个指标后或单列出一列标明。

第三,表中的上下两条横线一般用粗线,中间的其他线条要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边是不封口的,列标题之间可以用竖线分开也可以不用竖线分开,行标题之间通常不必用横线隔开,总之表中尽量少用横线。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对没有数据的单元格,一般用“—”表示,一张填好的统计表不应出现空白单元格。

第四,在使用统计表时,必要时可在表的下方加上注释,特别要注明资料来源,以表示对他人劳动成果的尊重,备读者查阅使用。

第五,统计图表应自成一体。一般来说,统计图表应做到不需查阅正文读者即可完全看懂。因此,对有助于理解的内容如特殊符号标识的解释等,可以加入图表附注给予读者充分信息。三、常用税收统计表(一)简单统计表

在使用统计表时,往往根据需要对研究对象进行分类,对研究对象仅按一个标志进行分组的统计表就是简单统计表。如表3-1就是一个简单统计表,该统计表仅按照征收项目对税收进行了分类。(二)复合统计表

对研究对象用两个或两个以上标志进行分组的统计表就是复合统计表。如表3-2就是一个复合统计表,该统计表不仅按照征收项目对税收进行了分类,还对每个征收项目按照预算级次进行了分类统计。

复合统计表可以从不同的角度说明研究对象的特征,便于做深入细致的统计分析。但是如果分类的层次过多,统计表的栏目将成倍的增加,反而使统计表显得繁杂,不易观察总体的规律,因此,设计统计表时应该根据研究的目的和要求,结合具体情况综合考虑。表3-2 2007年全国税收收入分税种分级次统计表资料来源:《中国税务年鉴2008》(三)频数表

在实际应用中有许多种统计表格,其中在整理原始数据时应用得比较多的是频数分布表和相对频数分布表。频数分布表是指按变量(数据特征)的取值归类分组,按照既不重叠又不遗漏的原则,把总体的所有单位按组归并排列,其各个组别所包含的数据数目(频数)的表格汇总。频数分布表可以揭示资料分布类型和分布特征,以便选取适当的统计方法,进一步计算指标和统计处理,发现某些特大或特小的可疑值。

频数分布表包括两个要素,即总体按其标志所分的组和各组分布的单位数量。分布在各组的个体单位数称频数或次数,频率或相对频数就是指各组频数与总数量之比。任何一个频数表都必须满足以下两点:一是各组的频率大于0;二是各组的频率和等于1(或者100%)。

我们怎样才能获得频数分布呢?下面举一个例子说明构造频数分布的步骤,我们的目标是构造一张能迅速揭示数据分布形态的表格。

例3.1 假设我们知道某地区部分企业的纳税额信息见表3-3,可能还想知道典型的纳税额是多少?最高纳税额是多少?最低纳税额是多少?纳税额趋向于集中到哪个数值周围?表3-3 某地区部分企业的纳税额

我们把表3-3中未经整理的数据称作原始数据或未分组数据,通过直观查找我们可以找到最低纳税额(12546元)和最高纳税额(32925元),但要确定典型纳税额是困难的,要看出纳税额趋向于集中到哪里也是困难的。如果用频数分布表示出来,原始数据将更便于解释。我们结合本例介绍怎么样把数据组织为频数分布表,步骤如下:

第一步:确定组的个数。这一步的目标是用恰好足够的组来揭示数据分布的形状。太多或太少的组都不能揭示数据集的基本形状。

确定组数的一个有用法则是“2的k次方法则”,这个法则建议你k选择使2(也就是2的k次方)大于观察值个数(n)的最小值(k)作为组的个数。在本例中,收集了80个纳税额,即n=80。如果我们假6设k=6,即是意味着将分6组,那么2=64,比80稍微小一些,我们7令k=7,则2=128,大于80,所以推荐的组数是7。当然,这只是一个经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数。

第二步:确定组距或组宽。一般的,所有各组的组距或组宽都应该是相同的。所有组加起来必须覆盖从最小值到最大值的距离。把以上文字表示为公式是:

其中i是组距,H是最大观测值,L是最小观测值,k是组数。

在本例中,最小值是12546元,最大值是32925元,如果我们需分7组,组距至少应是(32925-12546)/7=2911(元)。在实际中,组距大小通常四舍五入到某个简便的数,比如10或100的倍数,在这个案例中我们将更乐于使用3000元作为组距。

第三步:确定各组的组限。设定清楚的组限使你可以把每个观察值只归入一个组,这意味着你必须避免重叠的或者不清楚的组限。

这个例子中我们可以选用的组如下:12000元~14999元15000元~17999元18000元~20999元21000元~23999元24000元~26999元27000元~29999元30000元~32999元

第四步:把纳税额记入各组中,数出每组中的项目个数。当所有对象都记入后,就可以得到频数分布表,为了显示每一组占观测值总数的比例,通常要求把每组频数转化成相对频数。表3-4就是我们利用表3-3的数据得到部分企业纳税情况的频数分布表。表3-4 某地区部分企业纳税额的相对频数分布

既然我们把数据整理成频数分布,我们就可以概括出该地区部分企业纳税额的如下分布情况:1. 纳税额的变化范围是12000元~32999元。2. 纳税额集中在15000元~23999元之间。总共58个企业纳税额处

于这个范围,占企业总数的72.5%。3. 最密集的组是15000元~17999元这一组。4. 2个纳税额在30000元以上,而8个纳税额低于15000元。

这样,我们描绘出了该地区部分企业纳税信息的一幅清晰图画,但是把纳税额信息整理成频数分布导致了一些详细信息的损失。也就是说,把数据整理成频数分布,我们就不能找出精确的纳税额,比如知道28197元或23372元,或者我们不能找出最低的实际纳税额是12546元,最高的实际纳税额是32925元,但第1组的下限和最后1组的上限实质上表达了同样的意思。我们可以知道最低纳税额大约是12000元,你可以做出和你知道精确最低纳税额是12546元基本一致的判断。

利用Excel表中的统计函数FREQUENCY可以方便地制作出频数分布表。图3-1以表3-3的数据为例介绍频数分布表的制作方法。图3-1 用ExceI制作频数分布表的截图(四)列联表

除了频数分布表之外,还有一些常见的表格,如列联表。列联表是由两个或两个以上变量进行交叉分类得到的频数分布表。列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数。二维列联表又称为交叉表,一个r行c列的列联表称为r×c列联表。列联表可以有很多维,维数多的叫作高维列联表。列联表的各个维的变量都是定性变量或定序变量。

2×2的二维列联表形式如下:

通过列联表还可以分析同一个观测对象的两个特性之间是否存在明显相关关系,可以分析两个特性分布的内部结构。如我们在税收工作中经常需要了解本地区登记的纳税人户数分布情况,我们可以对本地区纳税人按照企业类型和产业类型两个特性构造一个简单的二维列联表,见表3-5。表3-5 2007年某地区纳税人登记户数分产业分经济类型情况统计表

通过表3-5可以直观地看出本地税纳税登记户在产业、经济类型间的分布状况,可以计算内部比例结构,做深入细致的分析。统计表数据把原始数据做了简单的概括,容易查阅,但是汇总的数据肯定会失去原始数据的一些信息,如果需要了解具体详细的数据,我们则需要回到更详细的原始数据中去。

第二节 统计图

统计表虽然可以描述我们需要的税收数据,但往往不够直观形象,统计图可以更形象、直观、生动、简洁地反映数据的特征,正如人们所说“一张图胜似千言万语”。统计图所用的图形种类繁多,本节着重就税收工作中常用的统计图进行介绍。一、饼图

当要表示总体中各组成部分的个体数量在总体中所占比例时,经常使用饼图。饼图为一个由许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(类)的频数比例,即表示了不同组成部分的相对重要性。饼图比后面介绍的条形图简单,描述比例较直观,但是当变量较多时饼图就不那么好看了。

例3.2 利用我国2004~2007年主要税种税收收入情况表的数据(见表3-6),做出2007年分税种税收情况的饼图。表3-6 我国2004~2007年主要税种税收收入情况表

图3-2给出了数据反映了2007年我国主要税种税收所占比例的情况,从图中可以直观地看出2007年我国增值税占比最高,达到了44%,消费税占比最低,仅为5%。图3-2 我国2007年主要税种税收收入所占比例二、条形图

条形图可以描述那些分类项目的变化情况。一个坐标轴代表每个项目的各个取值,在每个项目位置的条长度代表该项目的水平和具体数值。当然,条形图有很多变种,如纵轴和横轴可能互换,这决定条形是垂直放置还是水平放置,如果条形是垂直的亦称柱形图。条形图(柱形图)最大的特点就是可以在一个图形中同时表示和比较多个时间序列数据各个时期的变化情况。

图3-3是根据表3-6的数据使用条形图表示我国2004~2007年主要税种税收收入的变化情况。图3-3 我国2004~2007年主要税种税收收入的变化情况

也可以使用“百分比堆积柱形图”表示时间序列各组成部分的比例变化情况,如图3-4所示。图3-4 我国2004~2007年主要税种税收收入构成比例的变化情况三、散点图

很多情况下,我们得到的税收数据包括多个变量,如果要研究两个变量之间的关系,则可以用散点图来描述。在散点图中,每一个点代表一个观测值,而它的横坐标和纵坐标则分别代表其相应于两个变量的取值。

散点图是一个简单但能很好地描述两个变量之间关系的工具,但必须记住它仅仅只是一个图形,基于观测数据建立的散点图来推断总体二元关系,这种结论的可靠性是无法度量的,只能作为定性描述,为我们定量研究变量之间关系提供参考。

例3.3 我国1994~2007年的税收收入与GDP的数据,包括的变量有年份、税收(TAX)与GDP,等等。图3-5为税收收入与GDP的散点图,从中可以看出,随着每年的GDP增长,税收收入也在增长。图3-5 我国1994~2007年的税收收入与GDP的散点图四、折线图

折线图经常用来描述时间序列数据,用以反映某些指标或变量随时间的变化趋势,所以有时候也称为时间序列图。例如,某公司每月需要缴纳的税收,公司股票每天的收盘价格,公司每周的销售量和季度利润,等等。

折线图事实上只不过是一个散点图,它以度量值为纵轴,以度量值发生的时间或者次序为横轴建立,通常会用直线将图中的点连接起来,以更容易地观察测量值随时间的变化和变动。折线图揭示了所观察的变量(如税收收入)的运动(趋势)和变化(变动)情况。

利用例3.3我国1994~2007年的税收数据,按照时间顺序绘制折线图结果如图3-6所示,从图中可以看出我国税收随时间变化是逐年增长的,近年来增长幅度有所加大。图3-6 我国1994~2007年的税收收入折线图五、直方图

直方图是定量变量最常用的图表示之一,它是柱形之间没有间距的柱形图,但是与柱形图的作用不同。直方图主要用以表示分组数据的频数分布特征,是分析总体数据分布特征最有用的工具之一,而柱形图则主要用以表示一个或多个时间序列数据随时间变化的情况。

直方图的做法是把横轴分成若干通常是等距的区间(区间可以不等距,但是只有等距分组的直方图才能直观反映数据的分布特征,因此通常采用等距分组方法绘制直方图),然后计算数据在各个区间上的频数,并在各区间上画出高度与数据在相应区间的频数成比例的矩形条。纵坐标当然也可能是比例而不一定是频数,但这并不改变图的形状,而仅仅造成纵坐标单位的不同。

读者可能注意到了,把横轴划分为若干区间有很多选择,比如区间较少时,则图形只有几个矩形,而当区间很多时(但相应于数据量还算小时),则可能会有参差不齐的许多矩形。确定区间划分的各种方法超出了本书范围,不过各种软件都有一个计算区间的缺省公式,如果没有把握,就按照软件的默认方法划分就可以了。

例3.4 利用例3.1某地区部分企业的纳税额数据绘制出直方图,如图3-7所示,从直方图可以看出这和前面得到的频数分布类似。图3-7 某地区部分企业纳税额的直方图

直方图的横坐标是纳税额区间,这里每三格代表5000元的范围(格子宽度因不同的数据性质或要求而定),而纵坐标为各种纳税额区间的数量(频数)。显然从直方图可以看出数据分布的疏密。直方图的纵坐标也可以是百分比,即把频数除以总数据量,显然用百分比得到的图形和用频数所得到的形状一样,只是量纲不同而已。六、盒型图

描述数量变量的另一个图为盒型图,又称为箱图、箱线图、盒子图等等,它是由一个盒子(box)和两边各一条线(whisker)组成。如果盒型图是竖直的(当然也可以水平放),那么矩形盒子上下两边分别代表上四分位数和下四分位数。上四分位数意味着有约四分之三(75%)的数据值小于它,而另有约四分之一的数据大于它,因而它又称为75%分位数。下四分位数意味着有约四分之一(25%)的数据值小于它,而另有约四分之三的数据大于它,因而它又称为25%分位数。显然,有约一半的中间大小的数据值落在盒子的范围内。在盒子中间有一条线,这是中位数,它相应于数据按大小居中的一个数(当数据量为奇数)或中间两数的平均(当数据量为偶数)。因此,约有一半的数小于它,约有一半的数大于它,它也称为50%分位数。盒子的高度等于上下四分位数之差,称为四分位间距或四分位极差。盒型图上下的两条线的高度则可以有不同的选择,以上面的线为例,一个通常的选择为:如果没有数据值大于上四分位数加上1.5倍的盒子高度,那么该线以数据最大值为端点,否则,线的上端点为上四分位数加上1.5倍的盒子高度,比该端点大的数值则分别在其上方按照其实际值点出,下面的线也类似。

正如上面所描述的,盒型图有很多关于数据的信息(上下四分位数,中位数,极值,数据分布的范围和形式,等等),实质上在第三节我们会看到这些信息就是数据的数字特征。由于上和下四分数不会受到数据集中的极值影响,使得我们可以使用盒型图来探测数据的异常值。超过内线的值是被认为是潜在的异常值,因为它们代表相对稀有事件发生的极值。除了检测异常值外,盒型图也会提供数据集变化的有用信息。

例3.5 利用例3.1某地区部分企业的纳税额数据在SPSS中画出盒型图,如图3-8所示。图3-8 某地区部分企业纳税额的盒型图

这个盒型图给出了很多关于数据的信息,包括上下四分位数,中位数,极值,数据分布的范围和形式,等等,我们在第三节将再次讨论这些指标。七、茎叶图

直方图和盒型图都对原始数据做了简化和汇总,因此从这两个图不能恢复原始数据。下面要介绍的茎叶图则在数据量不大时,既显示完全的原始数据,又显示数据分布的形状,它像一片带有长短不一的叶子的茎。我们还是用“某地区部分企业的纳税额”数据来说明如何制作茎叶图。

例3.6 利用例3.1某地区部分企业的纳税额数据绘制出茎叶图,图3-9给出了数据中某地区征收的税收额的茎叶图。这里短竖线左边的是茎,代表万位数,而短竖线右边的是叶子,这里代表千位数。例如,第一行共有三个数值;第二行有8个数值;最后一行为两个值,等等。图3-9 某地区部分企业的纳税额的茎叶图

这个茎叶图中茎的单位为10000元,而叶子单位为1000元。在第二行,茎为10000,因此叶子中的8个数字44444555代表8个纳税额。最后一行指出了2个极端值,即有2个纳税额大于或等于32851。可以看出,茎叶图既表示了原始数据,也有直方图显示数据分布的特点。显示了所有数据的茎叶图和图3-7的直方图有类似的形状,但是当数据量很大时,茎叶图就显然不方便了。八、面积图

面积图可以直观地反映时间序列各组成部分的变化情况。

例3.7 利用例3.2我国2004~2007年主要税种税收收入变化情况的数据,使用“面积图”中的“百分比堆积面积图”绘制的该地区各税收构成比例的变化情况,如图3-10所示。图3-10 我国2004~2007年主要税种税收收入构成比例的变化情况

前面介绍的几种图描述方法大部分都是只对一个变量进行描述,实际上我们经常面对多个变量,也有一些常见的多元图示方法,如面孔图、星图、泡泡图,但这些图形描述方法在税收业务中很少应用,在此不做逐一介绍,有兴趣可以参考相关书籍。

第三节 数据分布特征的描述

统计数据经过整理和显示后,对数据的分布形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。例如,我们说北京人的人均收入是多少,上海企业的户均纳税额是多少等等,这些“人均收入”“户均纳税额”的数字是“收入”“纳税额”的大量观测数据的概括。对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或集中的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布偏态和峰态,反映数据分布的形态。这三个方面分别反映了数据分布特征的不同侧面。本节将着重介绍数据集中趋势和离散程度的描述。一、集中趋势的描述

集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据水平的代表值或中心值。常用反映数据集中趋势的指标有均值、中位数、众数、几何平均数、分位数等。(一)均值

均值也称为算术平均数,它是全部数据的算术平均,反映数据的一般水平或平均水平。均值在统计学中具有重要的地位,是集中趋势的最重要测度值,它主要适用于数值型数据,而不适用分类数据和顺序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式,这里介绍最常用的简单均值和加权均值。

简单平均数是数据点的简单算术平均值,如果有一组数据为x,1x,…,x,那么简单平均数定义为:2n

其中,n是数据集中的数据个数,x是一组数据中的第i个数据。i

均值具有以下重要性质:1. 一组数据只有一个均值,均值具有唯一性。2. 均值是比较两个或者多个总体时一个非常有用的工具。例如,它

可以用于比较两个地区同一个行业的纳税的平均水平。3. 每一数值相对于均值的偏离之和总是为零,均值是唯一一个具有

此性质的集中趋势的度量方法。用公式表示为:

平均数在我们日常工作中应用非常广,比如重点企业的平均纳税额、行业的平均税负、地区的平均税收,这些都是反映研究对象的一般水平的,即数据的集中趋势的度量,平均数还可以用作预测。

例3.8 假设我们知道2005~2007年三年的全国的增值税收入分别为14867亿元、17756亿元、21595亿元,比上年度分别增长18.05%、19.43%、21.62%,我们需要预测2008年的增值税收入。

最简单的方法就是计算近几年的税收收入的平均增长速度,作为明年的税收增长速度,从而可以粗略估计明年的税收收入。2008年的增值税增长速度可以估计为:(18.05%+19.43%+21.62%)/3=19.7%,这样我们可以粗略估计明年的增值税收入大约为21595×(1+19.7%)=25849(亿元)。

我们将这三年增值税的增长速度简单平均作为下年的增速,是认为这三年对下年的影响相同,但一般情况下,离2008年更近的年份往往更能反映2008年的情况,如果我们要提高某一年份增速在平均数中的比重计算平均数,这样我们就需要用到加权平均数。

加权平均数是算术平均数的一种特殊形式。它应用在下面的情况中:如果数据已经分组得到了频数分布,一些观测可能具有相同的数值,此时一个较为简便的计算均值的方法是计算加权平均数。也就是说,我们将每个观察值与它出现的次数相乘。用来代表加权平均数。

一般的,用x,x,…,x表示的一组数据,它们相应的频数分12n别为w,w,…,w,则它们的加权平均数的计算公式为:12n

利用例3.8的数据,我们利用加权平均数来估计2008年增值税的增速,假设我们将2005~2007年三年增速的权重分别设定为20、30、50,估计的2008年的增值税收入增速应为:(18.05%×20+19.43%×30+21.62%×50)/100=20.25%,这样我们可以粗略估计2008年的增值税收入大约为21595×(1+20.25%)=25968(亿元)。(二)中位数

均值容易受到极大或极小值的影响,如果一组数据之中存在着一两个数值极端大或者极端小,均值就有可能不能恰当代表数据的一般水平。例如,假设5家企业的年纳税额分别为62.9万元、61.6万元、62.5万元、60.8万元和120万元,可得5户企业纳税均值为73.56万元。很明显,这一数值对该组数据并不具有代表性,一个企业纳税额(120万元)过度的影响了均值。我们可以通过其他指标来反映数据的一般水平。

我们将数据x按值由小到大排序后记为x,x,…,x之i(1)(2)(n)后,中位数就是位于中间的那个数(如果数据量为奇数)或中间两个数的平均(如果数据量为偶数),记为M,中位数主要适用于顺序数据。即数据个数n为奇数时,中位数为处于(n+1)/2位置上的数值;当数据个数n为偶数时,中位数为中间位置上的两个数据的平均值。

设一组从小到大排序的数据为x,x,…,x,则中位数为:12n

虽然均值用了所有数据点的信息,而中位数则用了很少的信息,但是中位数不像均值那样会受到一些极端值的影响。例如,在前面已经提及,假设5家企业的年纳税额分别为62.9万元、61.6万元、62.5万元、60.8万元和120万元。前面已讨论均值73.56万元不是一个很好的代表值,因为极大值120万元的出现使得均值可能会超过这一组数据中的大多数观测值(年纳税额),使得集中趋势的测度发生偏差。而中位数M=62.5万元则更能代表平均纳税额。中位数不易受极端值影响,另外中位数同均值一样具有唯一性,一组数据只有一个中位数。

值得注意的是,定性数据也可以计算中位数。举一个简单的例子,假设对一个新的税收分析方法,一个人认为很好、一个认为好、一个认为一般,则回答的中位数就是“好”。(三)众数

众数就是一组数据中出现次数最多的数。在观测值没有重复的时候,众数就没有意义了。对于离散定量变量(包括四舍五入的连续变量)和定性变量,众数常常会有意义,它能明确反映数据分布的集中趋势,特别是对于定性变量,哪一类(水平)出现的频数最大,它就是众数。比如在每年进行纳税排行榜中,按照企业类型分类,排名前500名的企业中内资企业频数最大,因此“内资企业”就是众数。

众数也具有不受极端大值或者极端小值影响的优点,在某些情况下,众数是一个较好的代表值。但是众数也存在着一些缺陷:首先并非所有数据集合都有众数,其次有些情况下也可能存在多个众数。因此,众数相对于均值和中位数来说,应用得较少。当所有的观察值都只出现一次时,众数是不存在的,而有些情况下一组数据会存在多个众数。如假设一组企业的年纳税数据(单位:万元)为:22,26,27,27,31,35,35,这组数据中27和35都是众数,这样的一组数据被称为双众数,这可能会导致人们质疑众数对这组数据的集中趋势的代表性。

选择哪种集中趋势度量将依赖于所分析数据集的性质和应用的要求。一般情况下,分类数据可以用众数来度量其一般水平,顺序数据可以用中位数和众数来测度其一般水平,数据型数据均值、中位数和众数都可以测度其一般水平。因此,了解均值、中位数和众数之间的关系是很重要的。

当数据具有对称的钟型分布时,均值、中位数和众数是相等的(见图3-11)。从直方图上看,如果数据的直方图基本对称,而且是单峰的(即只有一个明显的局部极大值),那么数据具有对称的钟型分布,此时中位数和均值的差别不会很大。图3-11 对称分布

当数据不对称或者分布的一个尾部比另一尾部具有更多的极端观测值,我们认为数据是偏态的。偏态分布可以根据直方图加以判断(见图3-12和图3-13)。

在右偏分布中,平均值是三者中最大的。为什么呢?因为比起中位数和众数,它受到少数极端大值的影响最大。中位数通常在右偏的分布中是第二大的度量值。众数在三者之中最小。如果分布的偏斜程度很高,均值将不能作为一个很好的度量。相对而言,中位数和众数的代表性更高。图3-12 右偏分布

相反的,在一个左偏分布中,均值在三者之中是最小的。显然,均值将受到极端小的观察值的影响。中位数比均值大,众数在三者之中最大。同样的,如果分布的偏斜程度很高,均值不应作为数据的代表使用。图3-13 左偏分布(四)几何平均数

几何平均数是n个变量值乘积的n次方根,其计算公式可以表示为:

几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当我们掌握的变量值本身是比率的形式,这时就应采用几何平均法计算平均比率。几何平均数主要用于计算社会经济现象的年平均发展速度和增长速度。

假设已知2005~2007年三年全国税收的发展速度分别为119.9%、121.9%和131.4%,计算2005~2007年全国税收的平均发展速度。

在实际应用中,往往是知道2004年税收收入为25723亿元,2007年税收收入为49452亿元,计算2005~2007年税收平均增长速度。可以先计算平均发展速度,再用平均发展速度减去1得到平均增长速度。2005~2007年平均增长速度=2004~2007年平均发展速度-1=24.3%

我们可以将计算一段时间内的平均增长速度的计算公式概括为:

几何均值不受较大的数值的影响,它总是小于或者等于(从不大于)算术平均数。此外,在计算几何平均数时所有的数值必须为正。(五)分位数

中位数是从中间点将全部数据分为两部分,与中位数类似的还有四分位数、十分位数和百分位数,等等。对于在[0,1]区间中的数α,α分位数定义为约有α比例的数据点小于它,或者百分之100α的数据点小于它。α分位数也称为100α百分位数。因此,上四分位数就是0.75分位数,或者75百分位数;下四分位数就是0.25分位数,或者25百分位数;而中位数就是0.50分位数,或者50百分位数。

这里只介绍一下四分位数的计算,其他分位数与之类似。四分位数也称四分位点,它是通过三个点将全部数据分位四部分。很显然,中间的四分位数就是中位数,因此通常所说的四分位数据是指第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在位置。

设下四分位数为Q,中间的四分位数为Q,上四分位数为Q,LMU对于未分组的原始数据,各四分位数的位置分别为:

对于分类数据,各四分位数的位置分别为:

显然Q=M。当四分位数的位置不在某一个数据上时,可根据Me四分位数的位置,按比例分摊四分位数位置两侧数据的差值。

我国对宏观经济周期分析和景气监测的研究成果,早在20世纪80年代中期开始用于我国的经济周期监测和分析中。近年来税务部门也开始运用景气指数理论分析税收景气状态,从税收角度反映宏观经济运行态势。税收景气指数分析的基本方法是:选择具有较高灵敏度的重要税收经济指标、构建税收景气分析指标体系;采用恰当的统计方法对指标资料进行处理;计算单个指标指数,然后合成指数;对计算结果进行分析,了解当前经济状况,预测未来经济波动。下面以单个指标为例简单介绍一下分位数税收景气指数编制方面运用的基本原理。

例3.9 分位数在税收景气指数中的应用。

已知某地区2001~2007年增值税税收收入月度数据,根据历史数据得到增值税税收收入月度同比增速,分析增值税税收景气情况。

我们将预警指标状态划分为几个区间,根据我国宏观经济景气分析的惯例,我们将判断区域分为“过热”“偏热”“正常”“偏冷”和“过冷”五个域,分别以“红灯”“黄灯”“绿灯”“浅蓝灯”“蓝灯”表示。“绿灯”区居中,代表常态区或稳定区,其落点概率应在50%,也就是上下四分位数之间的区域。“红灯”区和“蓝灯”区属于极端区,经济含义为“过热”和“过冷”,我们定“红灯”区和“蓝灯”区的区域落点概率各为10%,也就是90百分位数以上和10百分位数以下的区域。“黄灯”区和“浅蓝灯”区为相对稳定区,即为可控区域,表示“偏热”和“偏冷”,落点概率应比极端区为大,我们确定这个区域的落点概率分别为15%,“偏热”区域就是75百分位数和90百分位数之间的区域,“偏冷”就是10百分位数和25百分位数之间的区域。图3-14就是某地区增值税税收景气情况图。图3-14 某地区增值税景气情况

根据图3-14,当增值税增速处于红色区域时说明过高,当处于绿色区域时说明增值税发展正常平稳,当处于蓝色区域时说明增值税过低,我们可以根据历史情况对未来增值税发展进行景气预警。

当然上面这个例子只是说明分位数在景气分析中的应用,实际景气指数分析中要复杂得多,不但要对原始数据进行季节处理,还要把景气指标转化成标准得分,还要将单个景气指数合成综合景气指数。二、离散程度的描述

社会经济现象是复杂多样的,研究对象内部单位数据的变化客观上存在着各种各样的差异,反映现象一般水平的平均指标不能反映研究对象内部个体间的差异情况,反而把差异掩盖了。举个例子来说,假设有某个行业三个地区的5户企业某年的纳税数据(单位:万元)如下:

地区一:60  65 120 275 330

地区二:120 150 185 195 200

地区三:168 169 170 171 172

此三地区的5户纳税人的平均纳税额都是170万元,但各地区企业纳税额的差异与分布情形显然有很大差别。地区一,5户纳税人纳税额最高的为330万元,最低的只有60万元;地区二,5户纳税人的纳税额虽有差异,但差异较地区一要小很多;地区三,5户纳税人的纳税额基本都在170万元左右,差异很小。可见,平均数相同的资料,却可能由于差异情形的不同,而使得平均数的代表性不同,资料的分布状态也不同。因此了解一组数据的完整的特性,除了了解其集中趋势外,还要了解其离散程度或变异性。

变异指标就是用来表示数据离散程度特征的,数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。变异指标主要有:极差、四分位点内距、方差和标准差、标准误差和变异系数。(一)极差和四分位数间距

极差也称为全距,是一组数据的最大值和最小值的差,记为R。R=max(x)-min(x)ii

式中max(x)、min(x)分别是一组数据的最大值和最小值。ii

一组数据的差异越大,其极差也越大。极差是最简单的变异指标,也是最容易理解的变异指标。数据集的极差是很容易计算和理解的,但是极差有很大的局限性,它仅考虑了两个极端值的数据,没有利用其余数据的信息,因此是一种比较粗糙的变异指标。而且,当数据集很大时,它对数据变化的反应是相当不敏感的,这是因为两个数据集可以拥有相同的极差,但是在数据内部的变化上却可以非常不同。

除了极差之外,还有四分位数间距或四分位数极差,它定义为上下四分位数之差。四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数值越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,此外由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适用于分类数据。(二)方差和标准差

我们能否找到一种比极差更灵敏的描述数据变化的方法呢?考虑两组数据,每组数据有5个测量值(为方便,对这些数据进行了排序),数组1为1,2,3,4,5;数组2为2,2,3,4,4。注意到这两组数据的均值-x都是3,并且可以计算每个观测值与均值之间的距离和方向或者偏差,比如数组1中5和均值的差为5-3=2。这些偏差中包含了什么样的信息呢?如果它们在数量上趋于较大的,如数组1所示,那么数据就是向外分散的,或者说有较大的变异。如果偏差的大部分是较小的,如数组2所示,那么数据是集中在均值-x附近的,因此也不会表现出太大的可变性。

从上面的介绍,我们可以看到这些偏差提供了观测值变化的信息。我们需要将这些偏差的信息精简为一个变异程度的数字度量。将这些观测与-x的偏差取平均值是不可取的,因为负偏差与正偏差能相互抵消,因为偏差之和总是等于零。

这时,我们会很自然地想到有两种方法用于处理正负偏差相互抵消这一事实。第一种方法是,将所有的偏差值都视为正的,而忽视负偏差值的符号。平均差是各数据与其均值离差绝对值的算术平均数,通常记为A. D,其公式为:

平均差越大,反映数据间的差异越大。但由于使用了绝对值,其数学性质很差,因而很少使用。

第二种消除偏差的负号的方法是进行平方处理。经过偏差平方后计算的数值,将为我们提供对数据集可变性的有意义描述,同时在推断方面的分析难度也会降低。由第二种方法得到另一种常用的尺度统计量为方差。如果观测数据为x,…,x,那么方差定义为:1n

如果是分组数据,则,f为第i组的频数,M为第i组的组中ii值。

显然,方差越大,则数据的分散程度就越大。由于方差的量纲是原数据量纲的平方,因而为了保持量纲不变,人们常用方差的算术平方根作为基本等价的尺度统计量,方差的平方根称为标准差,记为σ。

方差或标准差是根据全部数据计算的,它反映了每个数据与平均值相比平均相差的数值,因此它能准确地反映出数据的离散程度。与平均差相比,方差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,方差和标准差是在实际中应用最广泛的离散程度测度值。

下面我们用一个例子来介绍这些反映离散程度度量的统计量。

例3.10 表3-7数据描述两个行业部分企业增值税缴纳记录,我们考察这两个行业的均值、方差和标准差等情况,假定两个记录均来自独立正态分布总体。表3-7 批发零售行业增值税缴纳情况

图3-15是两个行业的盒型图,批发行业的均值(14.99万元)要大于零售行业(12.32万元),按照图上的四分位数间距(即盒子高度)来说,批发行业(7.81万元)略小于零售行业(7.99万元),但图上也显示出,零售行业的盒型图两边线外的点比批发行业要多很多,这意味着两行业这些企业的增值税极差或方差的差别很大。实际上批发行业的极差为19.41万元,而零售行业为15.15万元,而批发行业的方差为34.93(标准差为5.91),而零售行业为26.843(标准差为5.18),这说明批发行业增值税纳税的方差(标准差)高于零售行业。图3-15 批发和零售行业增值税纳税额的盒型图(三)变异系数

标准差可以度量一个数据集的变异性,标准差越大,数据的变异越大。标准差越小,数据的变异性越小。但是,一方面标准差的大小取决于原始变量自身的水平高低,也就是说与变量的均值大小有关,变量绝对水平高,离散程度的测度值自然也越大,绝对水平低的离散程度的测度值自然小;另一方面,标准差与变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。从例3.10的分析可以看出,零售行业增值税的均值小于批发行业增值税的均值,但是零售行业增值税的标准差也小于批发行业增值税的标准差,我们应该如何在评价这两个行业的纳税额的变异状况呢?为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算变异系数。

变异系数是衡量数据中各观测值变异程度的另一个统计量。标准差与平均数的比值称为变异系数,记为C·V。

变异系数的主要作用是用于对比分析不同水平的变量数列之间标志值的变异程度,消除数列水平高低的影响,变异系数大的说明数据的离散程度就越大,离散系数小的说明数据的离散程度也就小。

基于例3.10,批发行业增值税纳税的方差(标准差)高于零售行业,是不是说明批发行业的离散程度就大于零售行业呢?答案是否定的,根据标准差和平均数,我们得到零售行业增值税的变异系数为0.42,批发行业增值税的变异系数为0.39,因此,批发行业增值税的变异程度小于零售行业增值税的变异程度。

例3.11 平均值、离散程度指标在同业税负预警中的应用。

同业税负模型在税收征管中得到了充分的应用,这一模型就是集中趋势与离散趋势度量的很好应用。税负预警就是针对异常税负事件予以警示报告,税负预警分析,就是通过与行业税负的一般水平进行比较,如果低于或者高于行业一般水平太多,我们就认为这户企业有问题,进行预警。这个一般水平就是税负预警的警戒线,那么这个预警线怎么确定呢?我们根据行业的平均税负以及行业个体的税负的离散程度来综合考虑。确定预警线,就是通过对同一行业个体税负离散状况的分析,总结个体税负与平均税负相关关系的规律特征,并参考这一规律特征查找异常税负事件的分析工作。离散度是建立税负预警机制的一个重要参考值,某一行业的个体离散状况在一定程度上反映该行业税收经济关系的复杂性和税收管理的现状,离散度越大,说明情况越复杂,要求设定的预警区间范围也相应较宽。本例利用某年度某地区3107户重点企业增值税纳税数据,计算行业平均税负水平,并根据行业个体税负离散程度,确定行业税负预警标准。为了使行业税负相对准确,纳入测算范围的行业要求个体数量在20个以上。行业的划分按照国家统计局[GB/T4754-2002]制定的标准执行。受条件限制,本次仅对重点企业的国内增值税行业税负情况进行了测算,具体步骤如下:

1. 计算行业平均税负水平为某个行业增值税平均税负,TB为该行业第i个企业增值税税i负,TAX该行业内第i个企业增值税税收,CR为该行业第i个企业计征ii增值税销售收入,行业平均税负为该行业每户企业税负的加权平均,也等于该行业所有企业的税收之和与销售之和的比值。

2. 测算行业税负离散度

A. 标准差

CR为计征增值税销售收入。

B. 离散系数(变异系数)

3. 行业税负预警线

以0.6作为参考值,预警线按照以下方法确定:

CR≤0.6 合理取值范围为 

CR>0.6 合理取值范围为 

根据上述方法可以得到各行业的行业平均税负,行业税负的标准差、离散系数以及行业税负预警下限,低于行业税负预警下限的企业应该重点关注,具体情况见表3-8。表3-8 某地区重点税源企业部分行业税负及预警下限情况表三、相对位置的描述:标准分数和标准化

在实际工作中我们经常会遇到这样的问题,例如,对地区间税源质量进行评价比较,我们知道反映税源质量的指标有很多方面,每个指标的单位、水平都不同,如何将这些指标综合起来比较判断地区间税源质量的排序,这里就要用到数据的标准化。有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,标准分数可以消除指标间单位不同、水平差异的影响,并可以用它来判断一组数据中某个数据的相对位置。在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理,标准化处理在多指标综合评价、多元统计分析等方面有着广泛的应用。

标准分数也称标准化值或Z分数,观察值x的标准得分定义为它i与均值的差除以标准差,即

标准得分的数值反映了测量值的相对位置。它描述了一个给定的测量值与均值之间的距离,该距离是以标准差来表示的。例如,如果某个数值的标准分数为-1.5,我们就知道该值低于均值1.5倍的标准差,如果一个标准得分是0或接近于0,这个测量值将位于或紧挨着均值。

如果已知观测值的(频数)分布是正态分布,那么可以给出下面关于标准得分的解释:(一)大约有68%的测量值的标准得分处于-1到1之间;(二)大约有95%的测量值的标准得分处于-2到2之间;(三)大约有99.7%的测量值的标准得分处于-3到3之间。

实际上,把任何一个数据转换成标准得分之后,它的均值都变成为0,而标准差都变成为1。转换成标准得分的变换只是标准化的一种,还有其他的标准化处理方法,在一些标准化中,观测值所减去的也可能是中位数,分母也可能是极差;也可能把所有的数变换到某些区间中,比如[-1,1],[0,1]等;有的标准化仅仅减去中心位置统计量,而不除以尺度统计量,这都根据需要而定,不能一概而论,这些方法在此就不做介绍了。

思考题1. 如何用表格表示数据?如何通过软件实现?2. 如何用图表描述数据?如何通过软件实现?3. 一组数据的分布特征可以从哪些方面进行测度?4. 平均数、中位数、众数、分位数的特点和应用场合?5. 方差、标准差、变异系数的用途?

应用题1. 利用本地区的税收数据,编制分税种、分地区、分行业等统计表。2. 制作本地区税收总量近年的直方图,分税种、分地区的饼图,本

地区税收收入与GDP的散点图。3. 计算某年本地区重点企业的增值税纳税额的平均数、中位数,选

取部分某行业的企业计算平均数、标准差、变异系数等,并进行

比较。

第四章 税收统计比率和税收指数

统计指数是构成统计学基础理论的重要组成部分之一,一般认为,统计指数是研究社会经济现象数量方面时间变动状况和空间对比关系的分析方法。

统计指数有广义和狭义之分,从广义来说,凡是用来反映研究社会经济现象时间变动和空间对比状况的相对数,如动态相对数、比较相对数和计划完成情况相对数,都可称为指数;从狭义来说,统计指数则是用来综合反映所研究社会经济现象复杂总体数量时间变动和空间对比状况的一种特殊相对数。

本章主要介绍与税收有关的常用指数,在结构设置上分两个层次,税收统计比率和税负、税收弹性,分别与税收指数研究中通常使用的两种基本统计方法相对应,即对比分析法和指数分析法,必须明确,指数分析法中的统计指数概念,是指狭义指数。

第一节 税收统计比率

请看下面这条新闻:2011年,税务部门认真贯彻党中央、国务院一系列重大决策部署,积极落实结构性减税政策,努力改进纳税服务,依法加强税收征管,全国税收收入完成95729亿元(扣除出口退税后为86524亿元,不包括关税、船舶吨税、耕地占用税和契税)。其中,税务部门组织税收收入82122亿元,比2010年增收15260亿元,增长22.8%,海关代征进口税收完成13607亿元,比2010年增收3079亿元,增长29.2%。税收收入增长随经济发展逐季趋缓。全国共办理出口退税9205亿元,比2010年增加1876亿元,增长25.6%。此外,地方税务机关还组织征收社保基金、教育费附加、文化事业建设费等其他收入15652亿元,增收4395亿元,增长39%。在税种方面,国内增值税、国内消费税、营业税分别增长13.6%、15.1%、22.6%,企业所得税增长34.7%。在区域分布上,东、中、西三个区域税收收入分别增长21.7%、27.9%和28.5%。

要分析税收情况,仅仅利用税收总量指标是远远不够的。如果要对税收做深入的了解,就需要对税收总体的组成和其各部分之间的数量关系进行时间和空间上的分析、比较,这就必须计算相对指标。在统计学的实际方法中,我们称之为对比分析法,在对比分析法中使用的指数实际上是一种相对指标(又称相对数),在税收中我们不妨统称之为税收统计比率。

对比分析法就是将两个有联系的统计指标进行对比,得出一个比值,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。对比分析法常用于事物的相对水平、发展过程、差异程度与内部结构的比较,以分析事物之间的联系。一、几种常见的税收统计比率

根据税收统计分析目的的不同,两个相互联系的税收指标数值对比,可以采取不同的比较标准(即对比的基础),而对比所起的作用也有所不同,从而形成不同的税收相对指标。税收分析中常用的统计比率有五种形式,即构成比、相对比、同比、环比和贡献率。(一)税收构成比

研究税收收入总体特征时,不仅要掌握其总量,而且要揭示税收总体内部的组成部分的表现,亦即要对税收总体内部的结构进行数量分析,这就需要计算税收构成比或称为结构相对指标。税收构成比就是在包括分税种、分地区、分级次、分经济性质等多种分类方法的基础上,以各分类的单位数与税收总量进行对比,借以反映税收总体内部结构以及该项指标在整体收入中所占的份额与地位的一种综合指标。一般用百分数、成数或系数表示,可以用公式表述如下:

简言之,税收构成比就是部分税收与全体税收对比得出的比重或比率。由于对比的基础是税收总体的总数值,所以各部分(或组)税收所占比重之和应当等于100%或1,某一构成部分税收收入的增减会影响其他部分税收构成比相应减少或增加。

例4.1 2011年全国税收收入共完成95729亿元,其中国内增值税、国内消费税、营业税、企业所得税、个人所得税和海关代征进口税收分别完成24551亿元、6989亿元、13680亿元、19603亿元、6054亿元和13607亿元,因此该年度全国税收收入中各主要税种的税收构成比分别为

以上计算结果表明,我国所得税收入比重较低,以国内增值税为主的货物与劳务税税收依旧占比最多,税种结构有待于进一步优化。(二)税收相对比

税收分析中,相对比主要有两种,一是税收计划完成程度相对指标,二是地区(单位或行业)税收比较相对指标。

税收计划完成程度相对指标是税收收入在某时期内实际完成数值与计划完成数值对比的结果,该指标可以通过对本期实际与计划数对比分析,得到税收计划完成程度的相对指标,一般用百分数来表示,基本计算公式为:

例4.2 2011年全国税收收入计划完成87462亿元,而当年实际税收收入完成95729亿元,因此该年度计划完成程度为

以上计算结果表明,2011年在经济增长速度超出预期水平,税制累进,税务部门不断加强税收征收管理水平,有效减少税收流失等因素的综合作用下,税收收入超计划完成,为国家各项宏观调控政策的实施提供了财力保证。

地区(单位或行业)税收比较相对指标就是将不同地区、单位或企业之间的税收收入做静态对比而得出的综合指标,表明税收收入在不同空间条件下的差异程度或相对状态。比较相对指标可以用百分数、倍数和系数表示,计算公式可以概括如下:

例4.3 2011年A省国内增值税收入完成938亿元,B省国内增值税收入完成965亿元,因此两省间增值税收入的地区比较相对指标为

以上计算结果表明,A省的国内增值税收入是B省的97.2%。(三)税收动态相对指标(税收同比和税收环比)

在税收分析中,通过对本期实际的某个税收指标与同口径的历史数据进行动态对比来产生动态相对指标,可以揭示某税收指标在时间上发展变动的程度。通常以百分数(%)或倍数表示,也称为发展速度。其计算公式如下:

在税收分析当中,我们经常要用到同比、环比等动态相对指标,比如在税收收入增长分析中,我们主要考察两个方面的内容:一是分析前后年份同一期税收增量的变化情况;二是分析税收前后期税收增量的变化情况。前者的比较通常称为同比,后者称为环比。

同比是与历史同时期比较,是当年某期某个关心的指标和上一年度某期指标的比较,例如,2011年9月份的税收收入与2010年9月份的税收收入相比就是同比。税收同比增长计算公式为:

对于税收变化同比,就是指当年某期税收和上一年同期税收变化情况的比较,是前后年度同一期税收差额与上年同期税收的百分比关系。

根据实际分析的需要,同比又分为两种情况:一是当月收入的同期比较,另一个情况是累计收入的同期比较。

当月收入的同期比较的计算公式为:

例4.4 2011年10月全国税收收入8731亿元,2010年10月的税收收入为7560亿元,因此2011年10月份全国税收收入同比增长为:

累计收入同期比较的计算公式为:

例4.5 2011年1~10月的全国累计税收收入83574亿元,2010年1~10月的累计税收收入66236亿元,因此2011年1~10月全国累计税收收入的同比增长为

如果要与上一期的统计指标相比较,例如,2011年10月份与2011年9月份相比较,则称这样的比较值为环比。对于税收增长环比,就是指当期税收和前期税收变化情况的比较,是前后两期税收差额与前期税收的百分比关系。

计算税收环比有税收环比增长速度和税收环比发展速度两种方法:

1. 税收环比增长速度反映本期税收比上期增长了多少,其计算公式为:

2. 税收环比发展速度反映本期比上期增长多少,其计算公式为:

例4.6 2011年10月份全国税收收入为8731亿元,9月份收入为6754亿元,因此2011年10月份的税收环比增长速度和发展速度分别为(四)税收贡献率和税收拉动

税收分析中,税收贡献率用于分析税收增长中各因素作用大小的程度。计算公式为:

上式实际上是指税收中某因素的增长量(程度)占总增长量(程度)的比重。

举例说明如下:

1. 成品油消费税的总税收贡献率:反映成品油消费税增长占总税收的比重,说明成品油消费税收入增长在某时期内对总体税收增长的贡献。

2. 各产业税收贡献率:第一、二、三产业税收增量与总税收增量之比,即为各产业的贡献率。

3. 各地区税收贡献率:各地区税收增量与总税收增量之比,即为各地区的贡献率。

税收分析中,常常会用到拉动这个概念,例如,某年某税种增收拉动税收增长几个百分点,计算方法如下:税收拉动=税收贡献率×税收总增长程度×100%二、税收统计比率的作用和运用原则(一)税收统计比率的作用1. 税收统计比率通过数量之间的对比,可以表明税收指标的相关程

度、发展程度,它可以弥补税收总量指标的不足,使人们清楚了

解税收收入的相对水平。例如,某省去年实现税收7237亿元,

今年实现9003亿元,则今年税收收入增长了24.4%,这是总量指

标不能说明的。2. 把各税收指标之间的绝对差异抽象化,使原来无法直接对比的指

标变为可比。不同的地区或行业由于经济基础不同,生产规模条

件不同,直接用总税收收入比较评价意义不大,但如果采用一些

相对指标进行比较,便可对该地区或该行业的税收状况做出合理

评价。3. 说明总体税收内在的结构特征,为深入分析税收收入的性质提供

依据。例如,计算一个地区不同经济类型的税收结构,可以反映

出该地区经济的性质;又如计算一个地区的第一、二、三产业税

收收入的比例,可以说明该地区税收和社会经济分布的科学程度

等。(二)税收统计比率的运用原则

上述五种税收统计比率从不同的角度出发,运用不同的对比方法,对两个同类税收指标数值进行静态的或动态的比较,对税收总体各部分之间的关系进行数量分析,对两个不同税收总体之间的联系程度和比例作比较,是税收统计中常用的基本数量分析方法之一。要使税收统计比率在统计分析中起到应有的作用,在计算和应用这些比率时应该遵循以下的原则:

1. 可比性原则

税收统计比率是两个有关的税收指标数值之比,对比结果的正确性,直接取决于两个税收指标数值的可比性。如果违反可比性这一基本原则计算税收统计比率,就会失去其实际意义,导致不正确的结论。

税收统计比率的可比性,是指对比的税收指标在含义、内容、范围、时间、空间和计算方法等口径方面是否协调一致,相互适应。如果各个时期的税收统计数字因行政区划、组织机构、隶属关系的变更,或因税收核算制度方法的改变不能直接对比的,就应以报告期的口径为准,调整基期的数字。

2. 定性分析与定量分析相结合的原则

计算税收统计比率的方法是简便易行的,但要正确地计算和运用这些比率,还要注重定性分析与定量分析相结合的原则。因为税收各指标之间的对比分析,必须是同类型的指标,只有通过统计分组,才能确定被研究现象的同质总体,便于同类税收指标之间的对比分析。即使是同一种税收相对指标在不同地区或不同时间进行比较时,也必须先对税收指标的性质进行分析,判断是否具有可比性。例如,将不纳个人所得税的人数与全部人口数对比来计算未纳个人所得税的比例,显然是不合理的,因为其中包括未达纳税资格的人数和还没有收入的学生人数在内。

3. 税收统计比率和总量指标结合运用的原则

绝大多数的税收统计比率都是两个有关的税收总量指标数值之比,用抽象化的比值来表明税收各指标之间对比关系的程度,而不能反映税收在绝对量方面的差别。因此在一般情况下,税收统计比率离开了据以形成对比关系的总量指标,就不能深入地说明问题。

4. 各种税收统计比率综合应用的原则

各种税收统计比率的具体作用不同,都是从不同的侧面来说明所研究的税收问题。为了全面而深入地说明现象及其发展过程的规律性,应该根据税收分析的目的,综合应用各种税收统计比率。例如,为了研究税收收入情况,既要利用税收计划的完成情况指标,又要计算税收情况的同比、环比增幅。又如,分析税收年度计划的执行情况,有必要全面分析分税种计划、分地区和分月份等完成情况。

第二节 税负与税收弹性指数

税负指数和税收弹性指数是税收分析中最常用的两种指标,近年来,我国税收收入与经济增长呈现了不一致的增长态势,如何分析这些问题成为社会关注的热点,本节从指数分析法入手,重点介绍两种指数的编制方法和操作使用。

指数分析法主要用于反映不能直接加总的多因素组成的复杂现象的综合变动。一般有三方面的作用:一是表明由不同度量单位所组成的经济现象的总动态;二是分离出现象总变动中各因素的影响程度;三是在平均数动态数列中,用于测定各组水平和总体结构的影响程度。一、税负指数

税收负担,简称税负,是指纳税人承受国家税收的状况或量度,反映一定时期内社会产品在国家与纳税人之间的税收分配数量关系。在考察税收负担水平时,我们可以从宏观与微观两个不同层次进行考察。从宏观方面看,就是把税收作为一个整体来考察,或者说考察整个国民经济的税收负担水平。这种反映一国总体税收负担水平的指标,我们把它称之为宏观税负。宏观税负的高低,表示政府在国民经济总量分配中集中程度的大小,同时也表示政府社会经济职能及财政功能的强弱。宏观税负的高低既是政府制定各项具体税收政策的重要依据,也是各项具体税收政策实施的综合体现。当前国际上通用的宏观税负指标或者说衡量一国总税负的公认指标是一国或一地区一定时期(通常为一年)税收收入总额与国内生产总值(GDP)的比值。(一)宏观税负、中观税负和微观税负

税收收入与GDP的比值就是宏观税负。税负的宏观分析可以用来衡量一个地区税收质量如何,主要是看税收占GDP的比重是多少,如果税负很低,相对来讲,税收的质量就差。税负是两个绝对数之比,是税收收入和经济指标的比较。税收是分子,既可以是税收总量,也可以是某个税种的分量。分母是经济量,可以是总的经济量,也可以是某一个产业的增加值(如工业增加值),两者相除得出相对数。宏观税负主要是反映税收跟GDP的关系、税收所占的比例、边际税负(即当年新产生的GDP里税收所占的比重)的多少。分析宏观税负的目的,其一要看税收占GDP的比重是否合适;其二是从分地区角度看,地区间不同的宏观税负反映出征管质量的差异。中观税负是指一定地域或国民经济某一部门的全体纳税人所缴纳的全部税款占同期该地域或部门经济产出的比重。中观税负其实是介于宏观税负与微观税负之间的一个指标,而微观税负是指某一纳税人在一定时期或某一经济事件过程中,所缴纳的全部税收占同期或该事件的经济收入的比例。

国家税务总局主要使用的考察微观税负的指标现有30种,这些指标或是直接测算各类税负,或是通过考察微观企业生产经营的主要状况来侧面反映税收负担的状况,均利用重点税源企业资料中的数据加工而成:1. 总体税负(营业收入)=应纳税额合计/营业收入2. 增值税销售额税负=增值税应纳税额/计征增值税的销售额3. 消费税销售额税负=消费税应纳税额/计征消费税的销售额4. 营业税营业额税负=营业税应纳税额/应税营业额5. 企业所得税税负(利润总额)=应纳企业所得税额/利润总额6. 所得税贡献率=应纳所得税额/营业收入7. 营业收入利润率=营业利润/营业收入8. 毛利率=(营业收入-营业成本)/营业收入9. 成本费用利润率=利润总额/(营业成本+销售费用+管理费用

+财务费用)10. 总资产报酬率=(利润总额+财务费用)/[(资产总计年初+

资产总计年末)/2]11. 净资产利润率=净利润/[(所有者权益合计年初+所有者权益

合计年末)/2]12. 总资产周转率=主营业务收入/[(资产总计年初+资产总计年

末)/2]13. 流动资产周转率=主营业务收入/[(流动资产合计年初+流动

资产合计年末)/2]14. 存货周转率=主营业务成本/[(存货年初+存货年末)/2]15. 应收账款周转率=主营业务收入/[(应收账款年初+应收账款

年末)/2]16. 资产负债率=负债总计期末/资产总计期末17. 流动比率=流动资产合计期末/流动负债合计18. 速动比率=(流动资产合计期末-存货期末)/流动负债合计期

末19. 已获利息倍数=(利润总额+财务费用)/财务费用20. 长期资产适合率=(长期借款+所有者权益合计期末)/(可出

售金融资产期末+长期股权投资期末+固定资产期末)21. 销售增长率=(营业收入本年-营业收入上年)/营业收入上年22. 资本积累率=(所有者权益合计期末-所有者权益合计年初)/

所有者权益合计年初23. 总资产增长率=(资产总计期末-资产总计年初)/资产总计年

初24. 成本增长率=(营业成本本年-营业成本上年)/营业成本上年25. 费用增长率=[(销售费用本年+管理费用本年+财务费用本

年)-(销售费用上年+管理费用上年+财务费用上年)]/(销售费用上年+管理费用上年+财务费用上年)26. 工业行业电耗(单位销售收入)=电力消费量/增值税销售额合

计,建筑业电耗(单位销售收入)=电力消费量/应税营业额27. 工业行业电耗(单位应纳增值税)=电力消费量/增值税应纳税

额合计28. 工业行业水耗(单位销售收入)=水资源消费量/增值税销售额

合计,建筑、住宿、餐饮业水耗(单位销售收入)=水资源消费

量/应税营业额29. 工业行业油耗(单位销售收入)=油消费量/增值税销售额合

计,交通运输业油耗(单位销售收入)=油消费量/应税营业额30. 工业企业煤耗(单位销售收入)=煤炭消费量/增值税销售额合

计(二)边际税负

边际税负就是税收收入增加额与GDP增加额之比,反映新增税收与新增GDP的税收负担大小。边际税负实际上说明了GDP每增长一个单位,税收收入在同时期内增长的情况。(三)理性看待宏观层面上税收与GDP之间的关系

宏观税负分析将GDP与税收进行比较,由此从宏观上判断纳税人所承担国家税收的状况或量度。但是,我们也要注意,GDP增长速度与税收增长速度不存在直接的、量的对应关系,两者不能简单地比较,影响税收的因素是多方面的,应作具体分析。

首先,GDP与税收的核算方法存在较大差异。我国现行GDP核算采用生产法与支出法并行,前者用总产出减中间投入计算,而税收是根据不同的税种所对应的计税依据和税率分别计算征收的。现行税制规定下,除增值税计税依据与工商业增加值对应外,其他各项计税依据均不对应,由于大部分税收的计税依据是销售收入、企业利润或销售数量而不是增加值,那么拿税收与GDP直接对比,缺少必要的基础。支出法是按照投资、消费、净出口来核算GDP,以2009~2010年为例,当外贸进出口大幅度下降和国内消费不振,GDP的增长更大程度上依赖投资拉动,而投资增长对税收的影响具有较长的滞后期;另外,净出口和跟出口相关的税收在核算方法上也存在较大差异,两者之间没有可比性。

其次,GDP的增长结构与税收的来源结构并非直接对应。GDP由第一、二、三产业增加值构成,而作为我国税收主体税种的流转税主要来源于第二和第三产业,来源于第一产业的税收比重较小,而且税收收入是由十几个税种组成的,不同税种有不同税源,分析税收增长以及高于GDP增长的原因,必须做税收结构分析。税收增减与其相关的经济税源增减基本上相协调,但与GDP增长无直接关联。

第三,税收政策调整会给税收收入带来直接影响。税收政策的调整、税种的开征、停征等,直接导致税率和税基的变化,会对税收产生直接影响。同时,税收征管能力的增强和征管水平的提高,可以在其他因素不变的前提下增加税收,从而提高税收的增长速度。但这种变化与GDP的增减变化同样没有任何关系。

此外,我国实行的是多环节多税种的复合税制,经济对税收的影响是叠加的,所以经济下行阶段这种叠加会体现为一种重复的减收影响。当然,还有一些影响税收的因素与GDP基本无关,例如,国民收入的分配格局的调整会影响企业和居民收入水平,从而对所得税产生影响;部分累进或累退制税种以及税收与GDP的统计口径差异,等等。(四)客观衡量中观和微观层面上的地区税负差异

地区间税负差异一直是我们所关注的重要问题之一,我们认为,这种差异是由于诸多原因造成的,在计算中观和微观税负的时候,我们应该秉承实事求是的客观精神,具体问题具体分析,不能一切都简单地拿税收跟GDP比较。

首先,以GDP作分母的宏观税负会受到几个因素的影响。一是产业结构。比如农业大省税负可能就低一点,工业大省税负就高一点。因为一产税收目前在总体税收中的比率是微乎其微的,而GDP里是包括农业增加值的。由于各省农业增加值的比重不一样,所以一个省若是农业大省,税负就会低一点。二是税种结构。比如消费税,当一个地区生产消费税品目产品多的时候它的税负会高一点。比较典型的是云南,消费税是云南的主体税种,税额很大,其产业结构决定了税负水平很高。再如证券交易印花税,上海、深圳这两个地区征收证券交易印花税,如果把证券交易印花税算进去,上海和深圳的税负是很高的。

其次,以GDP作为分母来衡量税负会受到GDP质量、GDP内部结构的影响。税收对GDP征税,不是平面而是立体征税。GDP的经济含量里面,有的部分要多处征税,如企业所得税的征收对象是企业盈余(企业利润),当某地区GDP中企业盈余所占比重较大,企业利润增幅高于GDP增幅的时候,税负就会提高。因此,地区税负会受到各地GDP质量的影响。比如大企业在北京市汇总缴纳的企业所得税较多,该地区税负相对就会很高。(五)计算税负指数时的一些技巧

1. 分解GDP。我们计算宏观税负的主要目的之一是为了进行地区之间的比较,地区之间会有很多不可比的因素,因此我们要把经济掰碎,最好不要拿GDP去比。这跟弹性系数的原理是一样的,用我们能找到的最小的宏观指标和对应的税收去比,才能找出差异来。比如用2010年工业增加值和工业增值税进行比较,较GDP比税收总量更有现实意义。

2. 用最接近的经济指标。有的税种是以增加值,而有的是以周转量、流转额作为分母来计算税负的。比如交通运输营业税,计算税负时用交通运输增加值比还不行,只能用周转量作分母来比,因为营业税是按周转量而并非按增加值征税。如果用增加值作分母就离得远一些。周转量与增加值一致,前提是增值率是一样的,因为周转量乘以增值率等于增加值。只有增值率一样,周转量的增长幅度才能和增加值的增长幅度保持一致,才能进行比较。事实上这两年的情况是交通运输周转量的增长和增加值的增长都不一样。与此同类的还有建筑安装业(征营业税),建筑安装增加值的增长和其营业税征收对象(建筑安装的总产值)的增长也不一样,所以分母选择要注意。我们刚才讲到了,工业增值税要和工业增加值比较,那商业增值税应该和谁比呢?是和商业增加值比还是和零售额去比?实际上,这两个数都不是商业增值税的征收对象,从统计角度来讲,不像工业增加值跟工业增值税那么贴近,有一些差距。相对来讲,零售额更接近商业增值税的税基。这个在实际应用中还可以继续探讨。

3. 跨地区经济量问题。税负指数是绝对量跟绝对量的比较,要考虑跨地区问题。如果是相对量跟相对量的比较,就不用考虑这个问题,因为基期和报告期都是跨地区的。但绝对量是要考虑的,因为企业在本地算产值,而在另一个地区汇总缴纳,本地没有税收,因此本地税负就低。在进行地区间比较的时候,要考虑跨地区问题,要将企业有产值无税收的情况剔除。二、弹性指数

一国税制收入的静态特征可以通过税收总收入或各税种收入占GDP的比重来表示,这就是前面提到的小口径税收负担。静态特征是税收收入特征的重要方面,但如果考察经济增长对税收收入的能动作用,就需要引入税收收入的动态特征指标。目前我国的理论研究主要是采用税收收入弹性系数来进行研究。国际学术界还有一种研究方法就是将动态指标区分为两个具体的指标:税收收入弹性系数和税收收入浮动率。这两个指标相互联系,又有一定的区别。(一)税收收入弹性系数

税收收入弹性(tax elasticity)是指税收收入对经济增长的反应程度,在给定税制不变的情况下,一般表示为税收收入的变化率和GDP变化率之比(当然分母部分用国民生产总值、国民收入也可)。用公式可表示为:

其中,E为税收弹性,T为税收收入总量,ΔT为税收收入的增量;tGDP为国内生产总值,ΔGDP为GDP的增量。

根据弹性理论,可得出以下结论:E=0时为税收无弹性,说明t税收收入对经济增长没有反应;E=1时为单一弹性,说明税收收入t与经济增长呈同一幅度变化;E=∞时为无穷弹性,说明经济增长的t一个微小变化就会引起税收收入的无穷变化;E>1为税收富于弹性,t说明税收收入变化的幅度大于经济增长的幅度,即经济的发展能带来税收更多的增加;E<1为税收缺乏弹性,说明税收收入的增长幅度t小于经济增长的幅度,表现为税收收入在GDP中的比重下降。在实践中,E无弹性和E无穷弹性的情况一般不会发生,E=1的情况也不tt常见,绝大多数时候E的数值总是表现为大于1或小于1。

引入税收弹性的概念具有十分重要的现实意义。随着我国市场经济的发展,市场作为资源配置的一种手段,在整个经济中的调节力度越来越大,经济开始呈现有规律的周期性变化;但另一方面,市场本身的缺陷仍然需要政府运用各种经济杠杆对其进行反周期的调节。积极的财政政策可以被看作是反周期调节手段的一种运用,很显然税收是这种反周期调节手段中的重要措施。这就要求在税收收入与经济发展两者间建立起某种联系,税收弹性恰好能较为清楚地表示税收收入与经济增长之间存在的关系。税收弹性的这种现实意义具体表现为:

首先有弹性的税收制度是市场经济条件下保障政府有效弥补市场资源配置不足的基本要求。税收的特征之一表现为稳定性,税收制度一旦确定,在短期内就不可能有大的经常性的变动。由于政府提供的公共产品和服务的需求通常是富有弹性的,也就是说经济发展情况下其需要增速更快,客观上需要税收制度富有一定的弹性以保障政府满足居民公共服务需求的财力。

其次有弹性的税收制度本身是财政政策的重要工具。西方经济学将税收看作政府实施宏观调控的一种重要的自动稳定器。在当前实施积极财政政策的过程中,有弹性的税收制度可以保证在经济增长时税收收入自动增加,从而减少企业和个人的可支配收入,防止固定资产投资和消费基金的膨胀;在经济滑坡时,税收收入自动减少,从而使企业和个人的支付增加,刺激经济回升。(二)税收收入浮动率

税收收入浮动率(tax buoyancy)是国外目前使用的另一种分析税收增长动态的指标,是指不区分税制内在原因和外在原因,笼统地以税收收入增长率与GDP增长率之比来表示税收收入随着经济增长而变化的特征。它表示税收的相对变化对于经济增长的相对变化反应程度,它是反映税收与经济相关程度的一个重要指标。税收收入浮动率的定义为

从定义上看,国内学者目前关于“税收收入弹性”的定义,实际上就是我们这里提到的“税收收入浮动率”。但是,我们应该注意到前面定义税收收入弹性时,特别提到了“给定税制不变情况下”这一条件,所以在国际通用的计算“税收收入弹性”方法中,需要采用一定的计量经济学方法,以税收为自变量,以GDP为因变量,同时设定一定数量的、相关的其他控制变量,比如税收征管因素(征管手段、征管机构、征管力度等)的变化、特定税收政策的变化等,由此而剔除影响某一年度或某一时期税收收入增长的特殊因素,从而保证计算出来的税收收入弹性能够反映一国基本税制所能体现的组织税收收入的内在特征,而根据这一定义和方法计算出来的税收收入弹性才能够更加深入地揭示税收收入随着经济增长而变化的内在轨迹。三、宏观税负和税收弹性的实例

2010年,全国税收收入(不包括关税、船舶吨税、耕地占用税和契税,未扣减出口退税,下同)完成77394亿元,比上年增长22.6%;GDP完成401512亿元,可比价增长10.4%,现价增长17.8%。宏观税负(税收收入与GDP之比)为19.28%,比2009年提高0.77个百分点,是2001年以来最高值;现价税收弹性(税收收入增长率与GDP现价增长率之比)为1.27。

在实际测算过程中,我们采取了两种方法,一是直接用实际税收收入和现价GDP测算,二是采用了调整后的税收收入和调整后的GDP来测算税负和弹性。同时,我们也测算了2010年工业增值税和商业增值税的税负和弹性。

我们得出了以下简单的结论,供读者参考。(一)三大区域宏观税负继续呈现东部高、中西低态势

2010年,东部地区宏观税负为21.54%,分别高于中部、西部地区9.65个和7.04个百分点,东部地区宏观税负明显偏高主要是由于北京、天津、上海汇总纳税较多;中部地区宏观税负最低。从动态变化情况来看,三大区域宏观税负比2009年均有所提高,东部、中部、西部地区分别提高了0.75个、0.27个和0.97个百分点,税收弹性分别为1.25、1.14和1.41。(二)地区间宏观税负变动差异较大

2010年全国国税系统征收税收的宏观税负(国税局组织税收收入与GDP之比)为12.94%,比2009年提高0.48个百分点,上升了3.9%;税收弹性为1.27,比2009年提高0.42。分地区看,24个地区国税局宏观税负提高,其中天津、江西、重庆和西藏国税局提高幅度在10%以上;北京、山西、黑龙江、河南、湖南、甘肃和青海等7个地区国税局宏观税负下降。全国地税系统征收税收的宏观税负(地税局组织税收收入与GDP之比)为6.51%,比2009年提高0.45个百分点,上升了7.4%;税收弹性为1.52,比2009年提高0.03。分地区看,30个地区地税局税负提高,其中内蒙古、安徽、山东、广西、海南、重庆、四川、云南、宁夏和新疆地税局提高幅度在10%以上;湖北、湖南和甘肃地税局宏观税负微增,上升不到0.2个百分点;山西地税局宏观税负下降。(三)工、商业增值税税负一降一升

2010年,全国工业增值税完成16705亿元,比上年增长11.5%;扣除免抵调库后工业增值税收入完成14909亿元,比上年增长18.1%。同期工业增加值完成160029亿元,现价增长18.3%,工业增值税税负为10.44%,比2009年回落0.64个百分点,主要是免抵调库收入减少和国家实行增值税转型翘尾减收所致;现价税收弹性为0.63。商业增值税完成4904亿元,比上年增长27.9%,同期批发和零售业增加值完成34363亿元,增长18.6%,商业增值税税负为14.27%,比2009年提高了1.05个百分点,商业增值税的弹性为1.51。

地区间工业、商业增值税税负变动情况不平衡。31个地区中,内蒙古、山东和海南工业增值税税负提高,其他28个地区全部下降,其中河北、山西、上海、浙江、安徽、福建、江西、河南、湖北、湖南、广西和青海下降幅度超过10%;北京等27个地区商业增值税税负提高,其中天津、河北、安徽、福建、江西、湖南、重庆、四川、云南、西藏和甘肃国税局提高幅度在10%以上,而山西、海南、贵州和陕西商业增值税税负下降。(四)经济税收调整后的税负情况

由于第一产业税负较低,而第一产业在地区间分布又很不平衡;海关代征税收入库集中在口岸地区;证券交易印花税入库集中在上海、深圳,这些因素对地区税负影响较大。为了增强地区间税负的可比性,我们将GDP和税收均做了一些调整,即GDP扣除第一产业增加值;税收收入扣除第一产业税收、海关代征进口税收和证券交易印花税,然后再进行地区间税负和弹性比较。调整后,2010年全国国税系统宏观税负为11.3%,比2009年提高0.12个百分点,上升了1.1%,其中河北、浙江、海南、云南国税局税收经济调整后的宏观税负出现下降;全国地税系统宏观税负为7.23%,比2009年提高0.49个百分点,上升7.3%,地区税负变化不大。

思考题1. 日常工作中有哪些常见的税收统计比率?什么是税负和税收弹性

指数?2. 对比分析法和指数分析法在税收分析中包含哪些主要内容?3. 如何看待税收与GDP之间的关系?4. 税收收入弹性系数和税收收入浮动率有何区别和联系?

应用题1. 查阅地区相关税收统计资料,试编制本地区税负指数和税收收入

弹性系数(分地区、分行业)。2. 利用本地区的税负指数和税收收入弹性系数,分析税收征管中可

能存在的问题。

第五章 总体参数估计

在日常工作中,我们有时需要估计某地区企业的平均税收负担,或比较某行业不同规模企业税负的波动性,又或评估某一项税收政策的支持力度。为了节约人力、物力,我们往往用重点税源企业、税收调查企业或临时调查部分企业的数据得到的结论来推断全部企业的结论。这种从一部分企业的结论出发来推断所有企业结论的过程就是统计推断。准确地说,从样本数据中提取与研究问题有关的信息,并利用它得到关于总体的结论的过程就叫做统计推断(statistical inference)。统计推断问题可大致分为两大类:总体参数估计和假设检验。

我们在本章讨论总体参数估计问题。通过本章的学习,我们希望读者能够掌握:(1)什么是总体、样本和统计量;(2)几类常用的重要抽样分布以及用途;(3)怎么得到点估计和区间估计;(4)应用统计学软件计算点估计和区间估计;(5)相应的统计分析结果的解读。

第一节 统计推断的基本概念

一、个体和总体

在一个统计问题中,研究对象的全体称为总体(population),其中每个成员称为个体(element,individual,unit)。例如,在研究分析某地区重点税源监控企业的税收情况时,该地区内所有重点税源监控企业就是一个总体,而每个重点税源监控企业就是个体,又如在分析全国县域税收发展情况时,全国所有县(县级市)就构成了一个总体,其中每个县(县级市)就是个体。当总体中个体的数目有限时,该总体称为有限总体,否则就称为无限总体。在统计推断中,人们关心的是所研究对象的某个指标,如重点税源监控企业的税收、县的税收收入等,它是一个随机变量,我们用X表示这个变量。对应总体中的不同个体,X的值是不同的,因而在统计推断中,总体是指某个随机变量X可取值的全体。这样一来,总体就可用一个随机变量及其分布来描述,对总体的研究就是对随机变量X的分布函数进行研究。二、样本

为了推断总体的分布及其各种特征,就需要从该总体中按照一定的法则抽取若干个个体进行试验或观察,以获得有关总体的信息。这一抽取过程称为“抽样”。所抽取的部分个体就称为样本(sample),样本中包含的个体数量称为样本容量(sample size)。例如,我们想要预测某地区全年的税收收入,从该地区所有企业中随机抽取500家,这就获得了一个容量为500的样本,调查这些企业的税收情况,就得到了500个样本税收数据。

抽样的目的是通过抽取的样本对总体分布中某些未知因素作出推断。为了使抽取的样本能很好地反映总体的信息,抽样要求满足下面两点:(一)代表性。通常总体中每一个体都应有同等机会被抽入样本,即使在进入机会不等的抽样下,统计估算和推断需要考虑这种进入样本概率的差异,使用相应的权重调整,以使样本能够代表总体。(二)独立性。绝大部分情况下,抽样要求样本中每个个体取什么值并不影响其他个体取什么值。当独立性受客观条件限制不能完全满足时,统计估算和推断需要对样本个体之间的关联进行技术模拟和矫正。

由于任何一种抽样方法都具有随机性,假定从一个总体X中抽取n个个体,相应的总体变量值(在未被观测前)通常记为X,X,…,12X,称X,X,…,X为总体X的一个样本,n为样本量。样本中每个n12n个体X也是随机变量,称为样本分量。当样本被实际观测到时,其观i测值就是一组实际的数据,通常记为x,x,…,x,称为样本观测值。

样本观测值往往是一堆“杂乱无章”的数据,不经过一定的整理、加工,就很难从样本中提取出有用的信息来考察总体的分布及其各种特征。常用的整理、加工数据的方法是构造各种统计量。三、统计量

总体代表我们所关心的那部分现实世界,样本虽然含有总体的信息,但是信息一般分散,不能直接用于统计推断。为了使统计推断成为可能,首先必须把分散在样本中的信息集中起来,用样本的某个函数来表示,这个函数就称为统计量。

设X,X,…,X为总体X的一个样本,g(X,X,…,X)为12n12n一样本函数,若g(X,X,…,X)中不含未知参数,则称g(X,12n1X,…,X)为一个统计量(statistic)。统计量是用样本构造的函数,2n它包含了样本中的信息,因而可以用统计量的值来推断总体分布及其各种特征,如均值、方差、比例等。

下面列举样本X,X,…,X的一些常用统计量,这些统计量是12n构造其他统计量的基础:

1. 样本均值:,它反映了总体期望的信息;

2. 样本方差(样本标准差):,它反映了总体方差(标准差)的信息;

修正的样本方差(样本标准差):;

3. 样本比例:;

4. 样本k阶(原点)矩:,注意:;

5. 样本k阶中心矩:,注意。四、抽样分布

我们希望利用样本,特别是通过作为样本函数的统计量来了解总体,对总体参数进行推断,而统计量对于不同的样本会取不同的值。也就是说,统计量作为随机样本的函数也是随机的,也有自己的分布。统计量的分布就称为抽样分布(sampling distribution)。在统计推断2中,应用最多的是正态分布以及χ分布、t分布和F分布,我们将在下一节中专门介绍。

第二节 几类重要的抽样分布

统计学中常用的分布有很多,本节只介绍一些重要的抽样分布:2正态分布及由此产生的χ分布、t分布和F分布。一、正态分布

正态分布(normal distribution)是统计学中应用最为广泛的一个分布。在实际生活中,近似地服从正态分布的现象很常见,如测量误差、商品的重量或尺寸、某年龄人群的身高和体重等。此外,在一定条件下,许多不是正态分布的样本在样本量很大时,其分布也可用正态分布来近似。高斯对正态分布的研究做出了很多贡献,故有时亦称正态分布为高斯分布。正态分布含有两个参数总体均值μ及总体标准2差σ,通常把这种分布记作N(μ,σ)。

正态分布的密度函数所对应的曲线是一条对称的钟型曲线(最高点在均值处)。图5-1就是两条正态分布的曲线,左边的是N(-2,0.5)分布,右边的是N(0,1)分布。图5-1 两条正态分布密度函数的曲线图

均值为0,标准差为1的正态分布N(0,1)称为标准正态分布2(standard normal distribution)。任何服从正态分布N(μ,σ)的随机变量X可以通过简单的变换(减去其均值μ,再除以标准差σ)转化成标准正态分布,即,Z=(X-μ)/σ,则随机变量Z服从标准正态分布N(0,1)。2

定理5.1 假定某个总体X的分布均值为μ,方差为σ,这两个总体参数通常是未知的,X,X,…,X为取自该总体的样本。根据样12n本,我们可以计算样本均值,在一些基本条件下,如独立同分布条件,样本均值作为随机变量有如下的性质(注意,这里并没有假定总体X属于哪种分布):

1. 样本均值分布的总体均值等于μ,总体标准差等于;2

2. 当样本量非常大时,的分布趋近于正态分布N(μ,σ/n)。

这就是所谓的中心极限定理(Central Limit Theorem,CLT)。中心极限定理是概率论中最出色的定理之一。为了直观地说明它的意义,我们从(0,1)均匀分布中对应四种样本量n=1、3、10、100分别取600个样本,对每个样本算出均值,这样对每一个样本都有600个均值,用这些均值画直方图(图5-2),从图5-2可以看出,样本量越大,均值的直方图越像正态变量的直方图,而且数据的分散程度也越小(越集中)。

正态分布中的均值和标准差都是总体参数,而这些总体参数在实际问题中是未知的,根据中心极限定理,可以用样本均值和样本标准差来估计总体均值和总体标准差。

下面我们介绍随机变量X分布的下侧分位数、上侧分位数以及相应的尾概率的概念。对于连续型随机变量X,其分布的α下侧分位数(又称为α分位数,α-quantile)定义为满足关系P(X≤x)=α的数x,αα这里的α称为下(左)侧尾概率(lower/left tail probability);而α上侧分位数(又称α上分位数,α-upper quantile)定义为满足关系P(X≥x)=α的数x,这里的α称为上(右)侧尾概率(upper/right tail ααprobability)。对于一般的分布,分位数的定义稍微复杂些。显然,对于连续型随机变量的分布,α上侧分位数等于(1-α)下侧分位数,而(1-α)下侧分位数等于α上侧分位数。图5-2 不同样本量的各600个均匀分布样本均值X的直方图

通常用z表示标准正态分布变量的α上侧分位数,若随机变量Z服α从标准正态分布,则有P(Z≥z)=α。图5-3表示了标准正态分布的αα上侧分位数z=z及相应的尾概率α=0.05。对应不同的α值都可以α0.05利用正态分布表求出对应的z,一般的统计书中都有该表,在实际解α题过程中,一般都利用统计软件自动算出z值。有些书用符号z而α1-α不是z,因此在看文献时要注意符号的定义。α图5-3 表示N(0,1)分布的右侧尾概率P(Z>z)=α的示意图α2二、χ分布2

χ分布(chi-square distribution,卡方分布)是统计推断中应用较多的一种抽样分布。

定义5.1 如果X,X,…,X互相独立,且都服从标准正态分12n2布N(0,1),则服从自由度为n的χ分布,记为(n)。这里的自由度n指包含的独立变量个数。22

更一般地,若干个独立的χ分布变量的和也是χ分布,其自由度22等于那些χ分布自由度之和。由于χ分布变量为正态变量的平方和,2它不会取负值。图5-4为三个不同自由度的χ分布密度函数的曲线图。2图5-4 对应自由度为2、3、5的χ分布密度函数的曲线图2

通常用χ(n)表示自由度为n的χ分布的α上侧分位数,即,随α222机变量χ服从χ(n)分布,则有P(χ≥χ(n))=α。对应不同的αα2值和自由度n都可以利用χ分布表求出对应的χ(n),在实际解题过α程中,一般都利用统计软件自动算出χ(n)值。α

在统计推断中,我们常用到如下的定理:

定理5.2 设X,X,…,X相互独立且均服从正态分布N(μ,12n2σ),设

则(1);2(2)与S相互独立。

这个定理可以应用在总体方差检验、拟合优度检验以及列联表分析中。三、t分布

我们已经知道,正态变量的样本均值也是正态变量,在统计推断中往往希望利用它减去总体均值再除以总体标准差来得到标准正态变量。在这个变换中,如果总体标准差未知,往往用样本标准差来代替,但得到的结果其分布就不再是标准正态分布了。新分布的密度函数曲线看上去有些像标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t分布(t-distribution,或学生分布,Student's t,之所以叫t分布是因为提出者Gosset用t来表示这个变量)。2

定义5.2 设X是N(0,1)变量,Y是χ(n)变量,且X和Y独立,那么的分布定义为有n个自由度的t分布,记为t~t(n)。

图5-5展示了标准正态分布N(0,1)和自由度为1的t(1)分布的密度函数曲线。显然,t分布和标准正态分布的密度曲线是关于纵坐标轴对称的,相比而言,t分布的最高点矮一点,但两边尾巴较长一点。但是当自由度无限增大时,t分布就逐渐趋近标准正态分布了,事实上,当自由度n>30时,它们的密度曲线就差不多相同了。因此,在大样本时,可以用标准正态分布来近似t分布。图5-5 标准正态分布和t(1)分布的密度函数曲线图

通常用t(n)表示自由度为n的t分布的α上侧分位数,即随机变α量t服从t(n),有P(t≥t(n))=α。图5-6表示了自由度为2的t分布α右边的尾概率α=0.05。在一般统计书中,对应不同的α值和自由度n都可以利用t分布表求出对应的t(n)。在实际解题过程中,一般都α利用统计软件自动算出t(n)值。α

在统计推断中,我们常用下面的两个定理来应用t分布进行均值或者两个总体均值之差的区间估计以及检验。

定理5.3 设X,X,…,X相互独立且均服从正态分布N(μ,12n2σ),且,则。图5-6 表示t(2)分布右侧尾概率P(t>t(2))=α的示意图α22

定理5.4 设X~N(μ,σ),Y~N(μ,σ)分别为相互独立12的两个总体,且(X,X,…,X)和(Y,Y,…,Y)分别为12n112n2从这两个总体中抽取的样本,样本均值和样本方差分别为

其中四、F分布22

定义5.3 设X~χ(m),Y~χ(n),且X和Y相互独立,则

的分布定义为具有自由度(m,n)的F分布,记为F~F(m,n)。

图5-7为自由度分别为(3,20)和(50,20)的两个F分布密度函数曲线图。可以看出,当第二个自由度相同时,第一个自由度越小,峰越靠近左边。而且F分布不以正态分布为其极限,总是一个正偏形分布。图5-7 对应自由度为(3,20)和(50,20)的F分布的密度函数曲线图

通常用F(k,k)表示自由度(k,k)的F分布相应的α上侧21212分位数,即对于服从F分布的变量F,有P(F≥F(k,k))=α。在212一般统计书中,对应不同的α值和自由度(k,k)都可以利用F分布12表求出对应的F(k,k)。在实际解题过程中,一般都利用统计软212件自动算出F(k,k)值。212

F分布有一个重要的性质:如果随机变量F服从F(n,n)分布,12那么服从F(n,n)分布。21

在统计推断中,我们常用下面的定理来应用F分布进行两个总体方差比值的区间估计、检验以及方差分析。22

定理5.5 设X~N(μ,σ),Y~N(μ,σ)分别为相互独立1112的两个总体,并且(X,X,…,X)和(Y,Y,…,Y)分别12n112n2为从这两个总体中抽取的样本,记

当两个正态总体方差相等,两个样本量分别为n和n时,两个样12本方差之比服从自由度为(n-1,n-1)的F分布,即。F12分布常用来检验两个正态总体的方差是否相等,并且在方差分析中应用。

第三节 点估计

总体代表我们所关心的那部分现实世界,而在利用样本信息对总体参数进行推断之前,人们往往对代表总体的变量假定了分布族,比如假定人们的身高服从正态分布。在假定了总体分布之后,就要根据样本信息对总体分布中的某些参数给出其真值的估计。由于总体分布是由参数确定的,比如正态分布,由参数总体均值μ和总体标准差σ完全确定。因此,如果能够估计出参数,就等于估计了总体分布,也就等于掌握了总体。

定义5.4 设θ为总体分布的未知参数(X,X,…,X)是来自12n总体X的样本,,为一统计量。如果用去估计θ的值,则就称为θ的一个点估计(point estimate)。当给定样本的值时,的值就称为θ的估计值。

从定义可以看出,对于一个未知的总体参数θ,人们可以构造很多个估计量去估计它,但是一个好的估计量却是按照一定的统计思想而产生的。下面介绍两种最常用的构造统计量的方法:矩估计法和极大似然估计法。

今后,估计量和估计值将不再强调它们的区别,在不至于引起混淆的场合将统称为估计。一、矩估计法

矩估计法是一种古老的统计方法,由英国统计学家K. Pearson于1894年提出,这一方法简单而且直观。矩估计法的统计思想是用样本各阶矩去估计总体各阶矩。

在实际中我们利用矩估计法去估计总体参数,往往利用统计软件完成,因此,我们这里不具体给出矩估计法的计算过程和例子。二、极大似然估计

极大似然估计法最早由高斯(C. F. Gauss)在1821年提出,后来由费歇(R. A. Fisher)于1922年重新提出,并证明了这一方法的性质。极大似然估计法在理论上有优良的性质,是目前在总体参数估计中应用最广泛的估计方法。其基本思想是:在一个随机试验有若干个可能结果A,B,C,…时,若再一次试验时结果A出现,则一般认为试验条件对A的出现有利,即使得A出现的概率最大。下面我们结合例子来详细介绍极大似然估计的思想和方法。

假设在一个罐中放着许多黑球和白球,并假定已知它们的数目之比为1∶3,但不知哪种颜色的球多,设,q=1-p,由假定知道p可能取¼或¾。如果我们有放回地从罐中抽取3个球,现在根据样本中的黑球数,来估计未知参数p,也就是说在¼和¾之间作一选择。对抽样的四种可能结果计算出相应的概率:表5-1 黑球在罐中的比例和其取对应个数时的概率统计表

从上表中可见,如果样本中的黑球数为0,那么具有X=0的样本来自p=¼的总体的可能性比来自p=¾的总体的可能性大,这时应当估计p为¼而不是¾。如果样本中黑球数为2,那么具有X=2的样本来自p=¾的总体的可能性比来自p=¼的总体的可能性大,这时应当估计p为¾而不是¼。从而可以选择估计量:

即根据样本的具体情况来选择估计量,使得出现该样本的可能性最大。

在实际中我们利用极大似然估计法去估计总体参数,往往利用统计软件来完成具体的计算过程,因此,我们这里不具体介绍极大似然估计法的计算过程。三、估计量的选择标准

用什么样的估计量来估计总体参数呢?实际上没有硬性限制,任何统计量,只要人们觉得合适就可以当成估计量。这就产生了一个问题,哪一个估计量用来估计总体参数是较好的呢?这涉及评价一个估计量好坏的标准问题。在经典估计理论中,用来评价一个估计量的好坏常有三个标准:无偏性、有效性和相合性。(一)无偏性

设θ为未知参数,是θ的估计,直观上讲,与θ越接近越好,但由于依赖于样本,它本身是随机变量,的观察值有时离θ近一点,有时远一点。因此为了度量与θ的接近程度,我们只能从平均意义上比较的距离远近。

定义5.5 设是未知参数θ的一个估计量,如果则称为θ的无偏估计(unbiasedness)。

从无偏性的定义可知,评价一个估计量是否合理,不能根据一次估计的好坏,而应该根据多次反复使用这个统计量的“平均”效果来评价。

我们不加证明地给出下面两个结论:

1. 样本均值是总体均值μ的无偏估计量;2

2. 样本方差是总体方差σ的无偏估计量。

无偏性对估计量而言是很基本的要求,它的直观意义是没有系统误差。对于一个未知参数,它的无偏估计可以不止一个。那么,怎么来进一步比较它们的好坏呢?我们很自然地想到,一个好的估计量应当对θ的平均偏差比较小。为此,我们引入第二个标准。(二)有效性

第二个标准就是无偏估计量中取方差最小的估计量,也称为最有效或者最好的估计量。换句话说,这就是当样本变化时,该统计量变化最小。方差小,说明由许多样本产生的各个估计量之间差别较小。

定义5.6 设和均为参数θ的无偏估计,如果的方差比的方差小,则称比有效。当是所有无偏估计中方差最小时,称为最小方差无偏估计。

从这个定义可以看出,在期望相等的条件下,方差越小的估计量越有效。(三)一致性

衡量估计量好环的第三个标准是一致性或相合性(consistency),它意味着样本量越大,估计量对总体参数的估计就越精确。这很容易理解,当样本容量n越大时,信息越多,当然估计就应该越准确。

第四节 区间估计

用点估计来估计总体的未知参数θ,一旦我们获得了样本观察值(x,x,…,x),将它代入,即可得到θ的12n一个估计值,这很直观,也很便于使用。例如,分析2008年某省冶金行业企业增值税的平均税负,可以利用矩估计法或极大似然估计法,得到该省冶金行业企业增值税的平均税负的点估计值。但这种判断的把握有多大,点估计本身并没有告诉我们,这是点估计的不足之处。统计学家为了弥补此种不足,提出了区间估计的概念,希望估计出一个总体真实参数所在的范围,并希望知道这个范围以多大的可靠性包含参数真值,这就是参数的区间估计问题。下面从定义出发来研究区间估计的有关问题。一、区间估计的概念

定义5.7 设(X,X,…,X)是来自总体X的样本,θ为总体12n分布的未知参数,和为两个统计量,且,则称随机区间()为参数θ的一个区间估计。

从定义上看,给出一个未知参数的区间估计并不难,例如,估计2008年某地区住宿餐饮企业缴纳的平均税收,我们可以说2008年该地区住宿餐饮企业缴纳的平均税收在(0.5万元,50万元)之间,当然还可以给出其他的区间估计。一般来说,一个参数的区间估计可以给出很多种。但一个好的区间既要区间范围小又要包含估计参数的可能性高。

在参数真值为θ时,我们希望随机区间()包含θ的概率P()越大越好,这是符合实际的一项要求。这个概率称为置信度或置信水平(confidence level)。

通常,我们希望对真值参数所在范围的估计尽可能准确,因此希望估计区间的长度越短越好。另外,我们希望区间估计的置信水平越高越好。但是很不幸,置信水平和区间长度是相互矛盾的,对于一定的样本量,如果要提高置信水平,通常要加宽区间,而如果要使区间变窄,就要牺牲置信水平。英国统计学家Neyman建议采取一种妥协的方案:在保证置信水平达到指定要求的前提下,找尽可能区间长度短的估计。在这建议下引出置信区间的概念。

定义5.8 设()为θ的一个区间估计,对给定的α(0<α<1),若

则称()为θ的置信水平为1-α的置信区间(confidence interval),称为置信下限,称为置信上限,α称为显著性水平。

在定义中,置信水平1-α通常取接近1的值,常用的值为90%、

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载