实证社会科学(第五卷)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-03 14:55:11

点击下载

作者:钟杨

出版社:上海交通大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

实证社会科学(第五卷)

实证社会科学(第五卷)试读:

版权信息书名:实证社会科学(第五卷)作者:钟杨排版:暮蝉出版社:上海交通大学出版社出版时间:2018-08-27ISBN:9787313199904本书由上海交通大学出版社有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —实证社会科学Social Science Research

主办单位:上海交通大学国际与公共事务学院

主  编:钟杨

副主编:吴建南 樊博

编委会成员:(按姓氏笔画排列)

边燕杰(西安交通大学)

李连江(香港中文大学)

杨开峰(中国人民大学)

肖唐镖(南京大学)

吴建南(上海交通大学)

何艳玲(中山大学)

陆 铭(上海交通大学)

陈映芳(上海交通大学)

陈 捷(上海交通大学)

邱泽奇(北京大学)

庞 珣(清华大学)

赵鼎新(University of Chicago)

钟 杨(上海交通大学)

唐文方(University of Iowa)

唐世平(复旦大学)

阎学通(清华大学)

敬乂嘉(复旦大学)

谢 宇(Princeton University)

蓝志勇(University of Arizona)

樊 博(上海交通大学)

编辑部成员:

钟杨 吴建南 樊博 陈映芳 刘帮成

陈永国 黄琪轩 陈慧荣 陈拯 魏英杰

杜江勤 韩广华 杨姗 邓玉玲—— 实证社会科学(第五卷)  ——专题研讨社会科学研究:实验、复制与中国学者的使命

吴建南

科学研究旨在发现规律并予以证明。尽管所发现的规律Y=F(X)并予以证明在自然界和人类社会有着不同的特点,但按照唯物主义的观点,如世界是物质的、物质是运动的、运动是有规律的、而规律是可以为人们所认识的,我们总可以不断努力发现特定规律并且证明,尽管这个过程在不同历史时期可能需要不同的时间、不同的方法、不同的数据来源等。既然要证明,那就意味着每个研究都需要考虑是否可以被复制。

改革开放40年来,中国社会科学得以迅猛发展。各个学科的国际顶级刊物也出现越来越多的中国学者的论文,国际学术会议也越来越多在中国举行。毫无疑问,国际社会科学研究的中国声音正在积极唱响!就国内发表而言,据不完全统计,代表中国社会科学研究较高水平的CSSCI来源文献数量在2009年已近百万,来源期刊数超过500本,涵盖社会学科的不同领域。然而,对于特定研究是否可以复制的关注却亟待提升。

近期的文献梳理表明,已有关注主要包括:①对科研成果出版物质量的担忧,指出现有期刊论文不可被重复验证的问题(吴小康,2014;胡传鹏等,2016;黄小茹,2017);②研究方法的探讨,比如对单一实验效度的质疑(杜晓新,2002),提出实验方法的复制性和可控性优势(周星、林清胜,2004;孙慧荣,2007);③少数几项复制实验(蔡建红,1999;任衍具等,2007;廖飞等,2010)。涉及学科以心理学为主,其余还包括经济学、社会学、管理学等。陈云松和吴晓刚(2012)以定量分析技术的视角,初次较为系统地倡导了社会科学中的“复制性研究”。

笔者本科和硕士期间从事的是电子工程学科的离子源研究,在导师指导下,那时我们做了一个又一个实验,总结出特定类型离子源的最佳参数并制造出来提交给用户。很明显,基于大量重复与非重复实验的研究使我们产品性能稳定,而我们的实验内容与结果也发表在美国物理学会的期刊上与同行分享(尽管某些关键参数作为技术诀窍我们并未分享)。1999年,笔者在Syracuse大学做博士后,所接触到的第一个研究就是实验研究,2008年,笔者和Richard Walker教授多次讨论公共管理领域的实验研究,2010年我们也尝试做了社会认同、公共服务动机与合作的实验,但在回应评阅人意见、修改论文的过程中,经历了若干波折,曾经一度考虑以真实的公务员为对象重做当时的实验。

2014年5月,Richard Walker教授成立了香港城市大学公共管理证据实验室(Public Management Evidence Lab),作为该实验室国际理事会理事,我参加其年会并参与其中的一些工作。得益于实验研究良好的“可被重复操作性”,以Richard Walker教授为代表的一批学者选择了实验研究作为复制的载体,并在复制实验研究中取得了重要进展,如Public Management Review期刊在2017年第9期上专门刊载了8篇复制实验研究,2017年开始组织香港、首尔、上海、哥本哈根等十余个城市的学者进行复制实验研究,并于2018年1月在首尔召开了研讨会,交流初步研究结果。

2018年是中国极为重要的一年,这一年中国的改革开放整整40年了!在我们回顾中国改革开放40年的同时,也得回顾中国哲学社会科学的40年研究。作为中国科学学与科技政策研究会青年工作委员会(简称“青工委”)的负责人,我和来自不同学科青工委的同事们将复制研究作为2018年的重要工作之一,特别是从较容易组织实施的翻译工作开始。通过梳理我们发现,即便是国际社会科学界,不同学科对于复制研究的认识也并不相同;而且,复制研究并不局限于实验研究,很多学科都关注研究的可复制性和复制研究。

本期第二篇文章是由中国人民大学公共管理学院马亮副教授与他的学生所作。他们对两项不同来源的公共服务满意度调查数据进行了横纵比较。基于A大学和B机构4年公众满意度评价的横向比较与各自每年评价情况的纵向比较,这篇文章探讨了第三方公共服务绩效评估研究的有效性,反映了同一研究者在不同时间以及不同研究者在相同时间所从事研究的可重复性。

第三篇是刘遥博士生和我翻译的发表在Public Administration Review上的一篇实验研究论文,探讨的是公共组织和私人组织感知绩效的问题,分析“公共性”(Publicness)对公众组织感知绩效评价的影响。该实验已在上海、香港、首尔、哥本哈根等十余个城市复制,目前正在分析数据、进行整体和局部的论文撰写,期待不远的将来与读者分享。

第四篇文章是谢恩教授翻译的Replication and theory development in organizational science:a critical realist pers pective一文,这篇文章以批判实在论的视角,探讨了组织科学中的可复制性问题以及可复制性检验对该领域理论发展的重要作用。论文首先从批判实在论的视角回应了社会科学不可复制的问题;其次给出了复制的六个类别,阐释了可复制性检验对理论发展具有拟合与预测、证实与证伪的重要作用;论文还通过复制性研究与创新性研究的对比指出,虽然创新性研究看上去比可重复性检验更具理论魅力,而后者对于理论发展也是不可或缺的;论文最后指出复制研究将有助于建立具有更牢固基础的长效知识积累机制。

第五篇文章是朱春奎教授与他的团队翻译的Replication standards for quantitative social science:Why not sociology?探讨了定量社会学研究中的复制标准。这篇文章始于对越来越复杂的定量研究可复制性的担忧,主张社会学在文章发表时,要建立在线数据库,公开尽可能多的数据信息,以便其他研究者能检验已发表成果的可复制性。文中还比较了经济学相对社会学论文发表时信息公开方面的优势,指出应当让社会学研究者意识到公开必要信息是优秀期刊发表其投稿的必要代价。

第六篇文章是阎波副教授和他的团队翻译的Replication, experiments and knowledge in public management research,探讨了公共管理领域中实验研究的复制问题。这篇文章梳理了近年来国际顶级公共管理期刊上发表的实验研究,采用测量与分析核查、数据再分析、精确型复制、概念型复制、经验一般化和推广扩展等六项分类对这些文章所进行的实验复制进行分析,指出不同类型复制具有不同研究目的,阐述了不同类型复制的方法和准则。

第七篇是孟凡蓉副教授及其学生翻译的Priming, replication, and the hardest science,主要探讨了心理学中启动效应的复制问题。论文指出心理学领域已越来越多地关注研究结果的可复制性和稳健性,并以启动效应为例来分析复制的本质以及它与心理科学的关系,指出复制的重要性不是体现在它自身,而在于它代表所产生的知识能被社会验证。论文也指出失败的复制研究可能是由多种因素导致的,对复制结果的过高期望是不合理的。

第八篇是孟天广副教授与其合作者翻译了Gary King在1995年发表的Replication, replication,探讨了经验政治科学中的复制问题。这篇论文首先指出复现的标准就是有足够的信息来理解、评估和信赖既有研究,以使第三方可以不借助任何来自作者的额外信息,即复现其结果。论文还强调复现标准应当同等地适用于定量和定性研究。然而,当前的学术规范却不鼓励复制研究,据此,文章最后对教师、学生、论文写作者、研究生、作者、评审人、资助机构以及期刊和书籍编辑们提出了一些建议。

复制(replication)对现有社会科学研究体系提出了一个重大挑战,以往实证分析中的纰漏都会一个个显现出来。但这也是一个大好时机,我们可以借此机会进一步规范实证研究,增强研究结果的信度和效度,并在复制的过程中发现新理论、新知识,共同推进中国社科研究的“科学化”进程!

对于中国学者而言,在改革开放40年之际,开始关注复制研究是一个重要的开始。这首先意味着中国学者应该直面中国社会发展存在的诸多问题,基于现实的观察、抽象,形成基于中国实践的概念、命题与假设,在中国的这个最具变化的时代,以现代科学技术的各种方法手段,对中国的Y=F(X)进行证明;在此过程中,要特别关注中国地域辽阔、差异较大的效应,在发现和验证中国理论的基础上,进一步考虑谋划超越国界的比较研究,探索中国研究成果的可复制性,形成中国特色社会科学理论!参考文献

蔡建红.中国人印象形成中核心品质研究方法初探[J].江西师范大学学报(哲学社会科学版),1999(1):43-47.

陈云松,吴晓刚.走向开源的社会学定量分析中的复制性研究[J].社会,2012,32(3):1-23.

杜晓新.单一被试实验研究中的效度问题[J].中国特殊教育,2002(3):21-24.

胡传鹏,王非,过继成思,等.心理学研究中的可重复性问题:从危机到契机[J].心理科学进展,2016,24(9):1504-1518.

黄小茹.科研成果不可验证性问题——发现机制的失效及可能的对策[J].科学学研究,2017,35(7):961-966.

廖飞,茅宁,刘文娟.不确定下的管理者期权思维:一个基于复制实验的探讨[J].现代管理科学,2010(1):90-93.

任衍具,禤宇明,傅小兰.编码时间对序列视觉信息整合的影响[J].心理科学,2007,30(5):1077-1080.

孙慧荣.实验经济学的研究方法与应用[J].商场现代化,2007(27):393-393.

吴小康.可复制性与经验研究的透明化[J].经济学动态,2014(10):121-129.周星,林清胜.交叉学科研究的典范:实验经济学和行为经济学[J].经济学家,2004(3):85-90.——广东省第三方公共服务绩效评估可靠吗? 的案例研究

马亮 杨媛 刘柳

摘 要:公民满意是政府绩效评估的核心问题之一,公共服务绩效则是政府绩效的重要组成部分。目前已有较多公共服务绩效评估项目增加了公民满意度调查,但是对这些调查结果的有效性却少有研究。本文以广东省为例,对A大学和B机构的公共服务满意度调查数据进行横向对比和纵向分析,试图揭示其评估的有效性。总体上看,两个机构的公民满意度调查结果有较大的相似性,并且二者逐年接近,说明公民满意度调查可以较为有效地反映公共服务绩效。研究发现,A大学评估结果的纵向稳定性较差,而B机构的纵向结果相对稳定。基于对两个项目有效性的探究,本文提出了改进公民满意度调查的政策建议。关键词:公民满意度;公共服务绩效评估;有效性;政府绩效一、引言

公共服务绩效是指公共服务提供的数量和质量,它是政府绩效的重要组成部分。政府的公共属性、目标的多元性、运作的非交易性导致绩效评估的复杂性,但是政府绩效评估的核心问题是指向“公民满意”和“实现政府责任”(郑方辉,2013)。因此,公民调查往往被视为公共服务绩效评估的重要一环。因为公民作为公共服务的接受者,对政府公共服务的供给情况有更加直观的感受(陈振明,刘祺,蔡辉明,2009),通过问卷调查获得的公民满意度,就成为衡量政府公共服务供给能力的重要标准之一。然而在现有研究中,学者大多从公民参与政府绩效评估的必要性和积极意义,以及完善政府绩效评估中公民参与机制的角度出发(郑方辉,雷比璐,2007;郑方辉,王琲,2008),而没有考虑公民评估是否能准确反映政府绩效这一理论预设(倪星,李佳源,2010)。已有的公共服务绩效评估框架,大多是将公民满意度和客观绩效指标结合起来进行测量(陈振明,刘祺,蔡辉明,2009)。基于简明实用和提高回答率的需要,公民调查问卷大多设计简单,一般通过李克特量表直接测量公民的满意度。这种过于空泛的满意度测量,并不能有效获取公民对城市公共服务的感知水平(Brown and Coulter, 1983)。加上街头拦访这一调查形式的抽样误差,使公民主观调查是否能够准确测量公共服务绩效,成为一个值得研究的问题。

尽管这个问题至关重要,但是我国学界对这个问题的回答寥寥无几。我们总结西方学者研究后发现,公民满意度这一主观绩效评估指标并不总是稳定地反映政府部门的实际工作成效。Brown和Coulter对美国警务服务公民满意度的研究发现,公民的主观评估结果会受到种族、年龄、政治观点、自身经历以及对警务服务的期望等因素影响,与警务工作的实际成效完全没有相关关系(Brown and Coulter, 1983)。Parks虽然对Brown及Stipak的研究结论表示质疑,但是在他新构建的模型中,仍然发现客观绩效指标和主观满意度之间没有直接的相关性(Parks, 1984)。

在公共服务满意度测评中,问卷的设计、样本的代表性、数据的处理方法等都会影响评估结果的准确性。为了检验公民主观测量的有效性,一种方法是将主观评估结果与客观测量绩效进行相关性分析。但是,这种方法会面临两个问题,一是通过客观指标测量的绩效并不一定准确,它会受到指标体系的影响,也会与客观数据来源关系密切。我国现行的城市公共服务绩效评估大多采用政府档案或统计年鉴中的数据,而这些数据本身的有效性就面临质疑。二是在进行数据分析时采用的模型也会影响分析结果,而通行的线性模型可能有误。有学者指出,随着公共服务质量的提高,其带给服务使用者的边际效率是递减的。因此,民众感知到的公共服务绩效和真实的公共服务水平并不一定呈现线性相关关系(倪星,李佳源,2010)。

不同于上一种方法,另一种方法是将多个机构实施的公民调查进行相关性分析,看同一城市同一项的公共服务测量是否一致。这种方法的优势在于,公民调查所测量的内容在维度和性质上一致,因此更具有可比性。本文就使用该方法对公共服务绩效测评的有效性进行研究,并以广东省为例开展实证分析。

改革开放以来,广东省一直是我国经济和政治改革的试验田,在政府绩效评价方面也走在全国前列。2007年A大学首创独立第三方评价政府模式,对广东省所有的市县进行政府绩效评价,成为中国“第一个吃螃蟹”的机构。其独特之处在于,每年都会实施大规模的公民调查,来测量广东省居民对公共服务的满意度。与此同时,2008年起B机构每年也会发布针对广东省市县的公共服务绩效评价结果,涵盖服务型政府建设、供电专项、环境专项等多项内容。这些评价结果已经被广泛应用在广东省政府的各项决策中(郑方辉,毕紫薇,2009;Gao, 2012),但对这些评估的有效性却缺少研究。基于此,我们选择A大学的“幸福广东”和B机构的服务型政府调查展开比较,考察对广东省各市的两项评价结果是否一致。在评价模式上,它们均属于公众主观评价模式;在评价对象上,它们都涉及广东省21个地级市和若干县;在评价内容上,它们都是调查了经济、社会、生态等各个方面的政府服务情况;在评价结果上,都是以公民满意度为输出。因此,两个评价具有可比性,可以对其加以比较。

在以下部分,我们首先介绍本文使用的数据和方法,其次报告本文的主要发现,最后对数据分析展现的结果进行分析和讨论,并评价广东两项公民调查的有效性。二、两个案例比较

A大学政府绩效评价中心和B机构省情调研中心分别于2007年和2008年开始对广东省下辖的地级市及部分县进行绩效评价,每年公开其评价结果。两项评价都包含了公共服务的公民满意度调查,但两个机构每年公布的评估结果却不尽相同。因此,有必要对两项评估的信度和效度进行检验。(一)A大学政府绩效评价

A大学自2007年开始每年对广东省21个市和121个县进行绩效评价,至今已持续10年。作为全国第一个独立的第三方政府绩效评估,A大学的政府整体绩效评价吸引了全国各级政府的关注。每年发布的红皮书不仅会报告广东各市县的绩效排名,还会推出“幸福广东”指数,衡量公民对政府公共服务提供的满意度情况。

在评价内容上,A大学关注政府的整体绩效。评价指标既包括来自统计年鉴或其他文件记录的政府绩效客观数据,也包括来自公民调查的主观满意度评价。在指标构建时,A大学采取层次分析法和德尔菲法确定指标的层级和数量。首先由专家依据已有文献建立评价维度,以及细化的二级领域内涵层和三级具体评价指标。随后,再向相关领域的专家发放量表,对每一层指标的重要性进行打分,课题组根据指标之间的相对重要程度为指标赋权重。这种方法一方面获得了各个指标的相对重要程度,另一方面大大简化了咨询调查问卷的内容及成本(郑方辉,张文方,李文彬,2007)。在客观指标的评分标准上,课题组也采用了类似的操作方法。他们认为每个指标的性质和贡献力不同,在评价时要兼顾存量和增量,存量和增量的权重分配依据专家咨询确定。

公民调查是A大学政府绩效评价的重要组成部分,公民满意度在政府绩效评价结果中占比20%。每年年初,课题组会委托一家咨询公司对上一年的政府绩效满意度进行调查。调查通过在被评市县街头定点抽样的方式进行,样本量控制在20 000~30 000之间,以保证样本可以较好地代表广东省的人口特征分布。问卷设计尽量遵循简洁实用的原则,问题数控制在10~15个之间,主要询问被访者对上一年度城市公共服务的满意度。

每年年末,A大学课题组会通过新闻发布会、红皮书等方式公布其调查结果,包括研究设计、理论框架、计算过程、原始数据等在内的一系列内容都得到详细描述,以使评价经得起社会检验。(二)B机构广东省地方服务型政府建设调研“广东省地方服务型政府建设”项目是由B机构自2008年开始的一项民意调研活动,至今已进行9年。调研以公众满意度为导向,主要测量公民对各个公共服务领域的主观感知情况。调研内容包括“广东省地方政府公共服务公众评价”和“广东省政务窗口服务满意度评价”两项调查。前者是通过对街头拦访的方式,获取公民对政府各个领域服务的总体满意度;后者是通过在政务服务窗口拦截的方式,调查公民对各个政府部门政务环境的满意度。两项调查样本总数控制在13 000~25 000人之间,与A大学相近。总体来说,两种抽样方式都是分层抽样和随机拦访的结合,优点在于分层多阶段的抽样可以确保样本的人口统计特征较大程度上符合总体特征,但是街头或窗口随机拦访的形式会导致收集的数据存在抽样误差,对总体的代表性不强。

调研中心每年会通过调研报告或官方网站公布调研结果,但是只有部分年份的地级市排名可以通过网络搜索获得,样本构成、原始数据及县级的评价结果等则没有公布。对一项评价的信度和效度进行衡量,评价的理论基础、指标设置、权重分配等都是重要指标(Yu and Ma, 2015),对评价原始数据的反复验证也有助于识别评价的信度和效度。但是,B机构对上述数据的公布均不完整,可能会影响本文之后的分析结果。表1 两项公共服务调查主要项目比较注:空白表示内容缺失。三、数据与方法

本文主要关注两项调查的公民主观评价部分,数据选取为两项调查的市级结果。A大学的公民调查只有一个总体的公众满意度指标。为了与客观指标相互印证和补充以及简便易行,公民调查问卷只设计了10~15个问题,询问公民对某一项具体服务的满意度评分,将公民打分乘以各项指标的权重后(权重基本一致)可以得出总体满意度。B机构的公民调查包含公共服务和政务环境满意度两个维度。这两项指标都是通过拦访完成,区别仅在于拦访的地点不同:公共服务调查是在街头拦访居民,政务环境调查则是通过在政务服务窗口拦截完成。

从指标设置来看,两项调查对城市公共服务的定义有些差别。A大学的公共服务测量维度基本和政府整体绩效评价维度一致,包括促进经济发展、维护社会公正、保护环境以及和政府服务四个方面,其中涉及政府服务态度和服务效率的指标在公民评价结果中占比13%左右。B机构将城市公共服务和政务环境的评价分开进行。城市公共服务包括公共事业、公共教育、市政规划、公共文化体育、公共交通、市场服务、公共卫生、环境保护、社会保障、公共安全十个领域,每个领域下又划分若干项具体公共服务内容。公民对每项服务内容进行打分,然后平均得出各领域以及总体公共服务满意度。政务环境满意度被单独作为一个评价维度,其调查对象是在拦访地点接受政务窗口服务的公民,测评内容包括服务质量、营业环境及配套措施、服务态度、咨询工作、办事程序、政务公开、服务承诺、办事效率八项。对应A大学公民调查中对政府服务相关的评价,只有服务态度、服务效率、政务公开三项指标约20%比重的内容测量与B机构一致,此外它还包含了公共政策稳定性、政府人员廉洁、执法公正性等测量指标。所以,总体上来看,在城市的基本公共服务方面,B机构测量指标比A大学更为细化,问题的设计也更利于提高被调查者回答的准确性,在政务环境方面,B机构偏重测量政务服务,A大学不仅涉及政府对外服务,还涉及政府管理的多个方面。

在比较时,本文分别将B机构的两项服务调查与A大学的满意度调查进行比较,作为城市公共服务横截面上的信度检验。除此之外,还会对B机构和A大学的调查结果分布进行纵向比较,用于跨时间的信度检验。此外,本文还将分别对每项指标年份之间的评价结果进行相关性分析,看同一项指标测量在纵向变化上是否稳定。

在数据获取上,所有数据均来源于公开的网页、图书、报刊等。A大学自2007年开始每年都会以红皮书的方式详细公布其评价的方法、数据和理论基础,因此数据十分全面。B机构的数据会部分地公布在广东省情调研网上,但只能搜索到2010~2016(除2012评价结果和2014年政务服务结果)的评价结果,而且只有每个年份两项评价的得分和排名,原始数据和详细的评价方法则没有公布。因此,横向上两机构只有2014/2013/2011/2010四年可以进行比较;纵向上,A大学和B机构分别有9年和5年的数据可以进行分析。四、数据分析结果(一)B机构两项满意度比较

在横向比较之前,我们首先对B机构的两项满意度评价——公共服务满意度和政务环境满意度的结果进行比较,看二者测量的内容是否具有相似性。分析结果发现,公共服务满意度和政务环境满意度之间具有极高的相关关系。除了2011年以外,其他年份的相关性都达到高度相关,且在95%的置信水平上显著,说明两个指标测量的内容具有高度一致性。表2 B机构两项满意度相关性分析结果注:*表示在95%的置信水平上显著;2012和2014年数据缺失。

造成这种结果的原因可能是,首先B机构测量的公共服务满意度和政务环境满意度同属于城市公共服务的内容,而一个城市的公共服务水平在各个领域的质量是相对一致的。其次,公民对政府公共服务的感知会受多种因素的影响。比如,相比于服务结果,公民可能更关注服务过程的感受(Brown and Coulter, 1983),尤其是近期接受公共服务的经历会极大影响其对城市公共服务的评价(Parks, 1984)。因此公民对某项具体公共服务的打分,可能更多取决于该领域工作人员的响应时间、服务态度等,政务环境满意度会正向影响到公民对公共服务的满意度,因此对各领域的打分结果相差不大。

这项分析结果表明,在B机构的评价中没有必要将公共服务和政务环境的满意度评价分开进行,因为两项指标相互关联,且评价结果区分度不大,都可以代表公民对城市公共服务的满意度水平,分开进行反而增加了调查成本。造成这一结果的原因也可能是B机构在问卷设置上直接要求被调研者回答对某项公共服务的满意度,导致问题过于空泛,不利于搜集有效的信息。(二)两项公共服务满意度调查的横向比较

由第二部分的分析可知,A大学和B机构的公民调查内容都是城市公共服务满意度,但A大学将满意度归纳为一个指标,B机构则将城市基本公共服务和政务服务分开报告。尽管分析发现B机构的两项指标之间区分度不大,我们还是分别将A大学的公民满意度调查结果A1与B机构的城市公共服务满意度B1、政务服务满意度B2进行横向比较,看两个关系的变化规律是否一致。表3 两项调查结果的相关性分析注:*表示在95%的置信水平上具有显著性;2012及2014年部分数据缺失。

表3报告了两项调查的相关性分析结果。如表所示,A1和B1在总体上达到中度相关(r=0.579,ρ=0.457,p<0.05),其中2013年(r=0.698,ρ=0.762,p<0.05)和2014年(r=0.635,p<0.05)达到高度相关,2011年(r=0.442,ρ=0.517,p<0.05)中度相关。这说明在大部分年份,两项评价的结果具有较好的一致性。但在2010年A1和B1显示无相关关系,说明在2010年两项调查公布的城市排名差异巨大。

从表3同时也可以看出,在总体趋势上,A1和B1的相关性是逐渐增强的。随着调查实施时间的增长,两项调查结果是趋于一致的。这印证了我们在理论部分的假设:同样作为对城市公共服务的满意度评价,两项调查可能存在学习效应,包括机构之间的学习和自我方法论的完善。

对A1和B2,总体来看两者具有一定的相关关系(r=0.44,ρ=0.31,p<0.05),两项调查的结果比较一致,并且在2013年达到高度相关(r=0.72,ρ=0.652,p<0.05)。不过,在2010年和2011年两项指标的相关性并不显著,说明这两年的评价结果没有相关关系。由于数据缺失较多,我们无法看出相关性变化的趋势,但从总体上看,A1和B2的分析结果与A1和B1的分析结果较为一致,这也印证了上述对B1和B2关系的分析,说明两项指标测量的内容是比较一致的。

为了更直观地展现两项评价之间的差异,分别作了2010年和2013年A1和B1在两项调查中得分的散点图并画出线性拟合曲线。城市分布的离线性拟合曲线的距离越远,说明两项排名之间的差距越大,反之亦然。阴影部分表示95%的置信区间,如果城市点分布在阴影区间内,说明在95%的置信水平下,没有理由认为两者的评估结果存在差距。

图1展示了2010年两项调查城市排名的分布情况,可以看出各个城市分布松散,没有形成规律性变化,线性拟合曲线几乎趋平,说明两项调查的排名之间没有线性相关关系。经过计算可知,2010年两项调查的排名评价相差六名左右。尤其是在汕尾、阳江、佛山、江门等城市,排名相差10名以上。2010年汕尾在A大学排名第1,却被B机构排在倒数第一;阳江在B机构排名最后,在A大学的排行榜上却位居前三;佛山和江门在B机构上排名靠前,在A大学却被排在靠后的位置,排名相差10名。

同样,图2展示了2013年两项调查城市排名的分布情况。可以看出,2013年各城市分布相对集中,呈现出从左下至右上的规律性变化,超过一半的城市分布在了阴影区间内,所有城市的排名差距平均为三名左右。其中佛山、广州、珠海、中山、江门、阳江、潮州、汕尾等城市排名只相差一或两名,可以认为这些城市的公民评价结果是可靠的。图1 两项公共服务满意度2010年排名的线性拟合曲线图2 两项公共服务满意度2013年排名的线性拟合曲线

上述分析表明,从总体趋势看,两项调查的结果逐年趋近,各城市的排名越来越一致。但是在某些年份,某些城市的两项排名还是存在较大差异。这可能源于两项调查在指标设计、抽样调查等方面存在的差异,也可能因为满意度作为主观指标,在不同的调查中变化较大。

具体来看,首先,A大学和B机构评价理念的不一致,可能对相关性分析结果产生影响。A大学的调查定位为政府整体绩效,在问卷指标设计时与客观指标相呼应,涉及经济发展、社会公正、环境保护、政府服务等多个领域。在评价时不会具体细分到哪项服务领域或者哪个部门,而是针对市政府在某领域的整体绩效。B机构的评价则完全不同,它的问卷设计是让公众直接对某项具体的公共服务(如供电)或某个具体部门的满意度进行打分,再由具体公共服务项的打分汇总得到各服务领域的评价情况。众所周知,公众虽然是政府的“顾客”,但未必会直接接受政府的各项服务,从而难以对每项公共服务的质量做出准确评价。

其次,不管是A大学的领域型指标还是B机构的具体服务项指标,都是对城市公共服务的测量。通过满意度体现的公共服务测量,只能是公众对政府绩效的概念和印象评价。如果具体到某个公共服务项目,则评价结果会受到评价者个人经历或极端情况的影响。

最后,A1和B1、B2的评价内容并非完全一致,B1、B2的测量内容都包含在A1的测量范围之内。由于不知道B1、B2的权重,比较时只能分别将A1和B1、B2进行相关分析,可能会影响比较的结果。(三)两项公共服务满意度调查的纵向比较

为了检验两项调查纵向上的稳定性,本文分别对A1、B1、B2三项指标各年份之间的结果进行相关性分析。一般来说,由于公共服务的提供具有滞后性(马亮,于文轩,2013),同一城市在相邻年份的公共服务质量应该不具有明显的差异,因而评估结果也不应有较大区别;随着相距年份加长,公共服务的质量发生了明显的改变,评估结果的相关性也会越来越低。

1.对A大学公共服务满意度调查的稳定性检验

表4展示了A大学公共服务满意度调查结果各年份之间的相关关系。以2011年为分界线,2011年之前相邻年份之间的调查结果基本无显著相关关系,只有2006年和2007年达到中度相关(r=0.512,ρ=0.474,p<0.05),2009年和2010年达到显著负相关(r=-0.496,p<0.05)。随着相隔时间的加长,年份之间的相关性也没有呈现出规律性变化,2006年与2011年的相关性(r=0.542,ρ=0.594,p<0.05)反而超过了其他所有相距更近的年份。这说明A大学满意度调查的纵向稳定性很差,各城市的排名在每年都会发生较大的变化。

2011年之后,相邻年份之间的调查结果都达到高度相关(r1,2 =0.612,r2,3=613,r3,4 =898,p<0.05)。从2011~2014年,随着相隔年份的加长,调查结果的相关性也在逐步降低,如2011年和2012年、2013年、2014年的相关性分别为0.612、0.61、0.583(p<0.05)。说明在2011年之后A大学评价的纵向稳定性得到改善,评价结果具有较好的可信度。表4 A大学公共服务满意度各年份相关性分析注:*表示在95%的置信水平上显著;上半部分为斯皮尔曼顺序相关系数,下半部分为皮尔逊简单相关系数。表5、表6同。

为什么A大学的评价结果会在2011年出现巨大转折呢?我们认为这可能与A大学的指标设置有关。在对政府进行绩效评价的同时,A大学每年也对评价指标进行调适。导致从2007年开始实施评价后,每一年的领域内涵层和指标个数都不一样,在公民满意度调查问卷上的问题个数也不一样。但是从2012年(对2011年的绩效进行评价)开始,A大学的评价指标及问卷调查内容基本没有变化,问卷都包含15个有效问题,有效问卷数在25 000份左右。加之已经实施了多次公民调查,对公民的抽样方法及访问技巧掌握熟练,提高了调查的信度,保证了调查结果的纵向稳定性。

在2011年之前,由于评价指标设置还在不断调整,每年测量的公共服务内容其实并不完全一致,通过问卷调查获得的满意度可能并不能代表整个城市公共服务的满意度情况,从而引起评价结果的信度和效度问题。此外,由于采用了定点拦访的抽样方式而不是完全随机抽样,每年的抽样都可能存在误差,导致样本不能很好地代表总体,调查的结果不能准确反映一个城市真实的满意度情况。最后,公民满意度并不能准确地衡量公共服务或政府绩效的客观情况,公民评价可能存在的随意性导致满意度测量结果不能和客观的公共服务绩效呈现出规律性变化。

2.对B机构两项满意度调查的稳定性检验

相比之下,B机构的公共服务满意度调查在纵向上的表现相当稳定(见表5):所有相邻年份之间的相关性都达到高度或极高相关(r0,1 =0.702,r3,4 =0.828,r4,5 =0.786,r5,6 =0.753,p<0.05);随着相隔时间的增长,各年份之间的相关性总体上在降低。以2011年为例,2011年与相邻年份2010年的调查结果达到高度相关(r0,1 =0.702,p<0.05),与2013、2014、2015等相隔较远的年份降低为中度相关(r1,3 =0.523,r1,4 =0.449,r1,5 =0.465,p<0.05),与2016年则不再有显著的相关关系(r1,6 =0.289,p>0.05)。这一变化符合我们所说的公共服务滞后性原理,说明B机构每年进行的公民调查结果较好地反映城市整体的公共服务水平,具有较高的信度。但是也有部分年份不满足这一变化规律,比如2010年和2014年的结果达到高度相关(r=0.606,p<0.05),而2011年和2014年的相关性反而降低为中度相关(r=0.449,p<0.05)。我们猜测,这有可能是抽样误差导致了这一变化。表5 B机构公共服务满意度各年份相关性分析

对于B机构的政务环境调查,我们同样做了纵向稳定性检验(见表6)。结果显示,政务环境的调查结果在不同年份波动较大,各年份之间的相关关系强度没有随着相隔时间的增长呈现规律性降低。比如,2010年和2011年的调查结果之间没有显著的相关关系(r0,1 =0.419,p>0.05),和相距更远的2013年、2015年和2016年反而达到中度相关(r0,3 =0.576,r0,5 =0.449,r0,6=0.595,p<0.05)。

对于这一结果可能的解释是政务环境调查采取的是政务窗口拦截的便利抽样,其抽样方法本身就存在较大缺陷。便利抽样简便易行,成本低,但是只有在总体异质性低的情况下才适合采用。由于公民对政务服务的评价很大程度会受政务窗口工作人员服务态度和服务能力的影响,便利抽样测量的只是调查当日窗口工作人员的服务水平,而不能代表整个部门的情况。这说明通过便利抽样进行的窗口拦截调查样本可能存在较大的偏差,没有足够的代表性,评价结果可能存在较大的信度失真和效度缺失。当然,由于中间部分年份(2012年、2014年)的数据缺失,可能会导致分析结果存在偏差。B机构调研数据和方法未完全公开,也会直接影响本文的分析结果和结论。表6 B机构政务环境满意度各年份相关性分析

值得注意的是,高信度并不代表高效度。本文认为,A和B两项公共服务满意度评价以同样的方式进行拦访调查,纵向稳定性检验之所以呈现出如此大的差异,应该归结于其满意度指标及问卷问题的设置。B机构在进行公共服务调查时,将问题具体到某项公共服务,也就是将公共服务这种抽象的产品具体化成了公民看得见、能享受到的实物,如供水、供电。因此,公民在评价时可以根据生活体验给出更加客观的、理性的答案。在短期内,诸如供水、供电等一些城市基础设施的改变也不会带给公民个人太大的感受,测量结果会相对平稳。而A大学在问题设置上,直接询问公民对于某个领域如“自然环境”“执法公正”的满意度,公民可能会根据自己对该领域的概念和印象,基于感知和见闻给出评分,甚至还会受到被访者个人的政治立场、价值观念或被访当天的经历、被访时的心情、被访者的社会地位等事件的影响,从而影响评价结果的准确性,使评价结果在时间上呈现出很大的波动。(四)绩效评估结果的使用

本质而言,政府绩效信息使用是政府绩效管理的关键所在(Moynihan and Pandey, 2010)。如果政府绩效评估产生的大量信息无法得到公共管理者和公民等利益相关者的有效利用,那么绩效评估的效果将大打折扣(马亮,2014)。因此,本文对两项公民满意度调查项目的结果使用情况进行考察,并比较二者的差别。

新闻媒体是政府绩效信息利益相关者之一,它对两项评估的报道情况,可以在一定程度上反映社会组织及民众对绩效信息的关注和使用情况。考虑到大众媒体在塑造公众观点和影响政策议程中的重要作用,公众的注意力可以用媒体的报道次数进行衡量(高洪贵,2015)。为了获得对两项评估的报道次数,我们在中国知网中文报纸数据库通过关键词进行检索。以“A大学政府绩效评价中心”为关键词,可以检索到39条相关报道;以“B机构”和“广东省地方服务型政府建设”为关键词,可以检索到15条报道。其中,A大学的报道集中在2013~2015年,B机构的报道则较为分散。由此可见,新闻媒体对两个绩效评估的报道次数均较少,但是A大学比B机构的报道次数多。这可能是因为学术机构的专业性较高,能力较强且独立性较高(郑方辉,张文方,李文彬,2007),因此引起较多的媒体关注。但是总体看来,政府绩效评价都没有得到社会和民众较多的关注,绩效评估结果没有起到应有的作用。五、讨论(一)A 大学和B机构公共服务绩效评估有效性

由数据分析可知,A大学和B机构的公共服务满意度调查结果具有较高的相关性,且相关度逐年增加。这说明A大学和B机构的公民主观调查在一定程度上反映了广东省地级市政府的公共服务绩效,具有一定的有效性。但是,两者结果之间也存在部分不同之处,且各自的纵向稳定性也有所不同。因此,公民主观满意度的测量仍然存在一定的改进空间。

评估结果的不同在很大程度上可以归结于A大学和B机构对公民满意度的抽样调查采用了不同的方法,并且各有优点和缺陷。A大学作为学术机构,具备理论基础和文献支持,并可以证明其评估方案的设计和测量是科学的;除了信度外,其他维度获得了极高的评估,且受到了社会公众较多的关注。A大学的数据透明度较好,抽样方法较为科学。但是,A大学存在的问题是其公民调查部分问题设置较为抽象,不能获得有效的信息,结果导致纵向稳定性不好。A大学用公民满意度来反映幸福感,并关注公民的真实感受。与此同时,A大学将公民满意度作为整体政府绩效的五分之一,说明其看到了公民主观满意度在评估政府绩效或公共服务绩效时存在的局限性。B机构则恰恰相反,问卷问题设置很详细,针对具体的公共服务,可以获取较多的信息和较准确的评估。因此,B机构的评估结果在纵向稳定性方面保持很好。但是,B机构的数据不透明,理论支持和指标设置方法尚不可知,抽样和加权方法也没有公布。此外,B机构的窗口拦截访问方式属于便利抽样,有损样本的代表性。

总体效度的差异主要是由统计方法和加权方法两个维度的差异导致的(郑方辉,张文方,李文彬,2007),而这两个子维度也是中国政府绩效外部评估在整体有效性方面最弱的两个领域。于文轩和马亮选取中国11个政府绩效外部评估项目进行分析,结果表明11个项目中只有3个(27%)项目采用了高级统计方法,有7个(64%)项目没有使用加权方法。与此同时,信度的缺失也是中国政府绩效外部评估存在的严重问题,在11个项目中有4个(36%)没有公布全部排名和评估结果,大多数项目没有公布原始数据以便公众进行重复和验证(郑方辉,张文方,李文彬,2007)。这说明我国政府外部绩效评估必须改进统计方法和加权方法,并努力提高评估的效度和信度。(二)政府绩效评估中公民满意度的测量

公民满意度测量是政府绩效评估的重点和难点,也是该领域的研究值得关注的关键问题。那么,怎么测量公民满意度比较科学呢?目前我国对政府绩效评估中公民满意度的研究,主要从注重公民和政府的作用的角度,提出要增强公民参与公共服务绩效评估的意识和能力、构建沟通体系、完善参与制度等方面(高洪贵,2015),比较缺少从测量方法上进行改进的研究。但是从上文的分析可见,公民满意度测量中的统计方法,会对信度和效度产生重要影响。据此,我们可以从问卷设计、抽样方法和数据处理这三个方面来提升公民满意度测量的效度和信度(马亮,杨媛,2017;马亮,2018)。

首先,在进行公民满意度问卷设计时,为了获取公民对政府公共服务的准确感受和评估,要将问卷设计具体化,与此同时要顾及问卷调查的可行性。其次,采用更为科学的抽样方法,使样本能够具有更高的代表性,特别是不能忽视城市公共服务的特殊用户,如残疾人、老年人等的体验。最后,在数据处理上要采用合理的加权方法,避免顾此失彼或过度偏颇。

此外,应尝试构建公共服务满意度指数模型,更为客观地量化公民的主观态度和感知。世界上许多国家均已开发了顾客满意度指数模型,并将之运用于评估公共部门绩效。我国还尚未构建公民满意度指数模型,而这是未来值得努力的方向。(三)研究不足与展望

本研究对广东省两个公民满意度调查项目的有效性进行了分析,但是仍然有一些不足之处,值得未来研究加以完善。

首先,本文选取两个代表性的公民满意度测量项目进行对比分析,但是目前广东省政府绩效评估中有公民参与的项目很多,这两个项目虽然表现出一定的有效性,但对于整体的情况的代表性仍有待考究。

其次,B机构公布的数据不全,这可能会在一定程度上影响到数据分析的结果。与此同时,从县级层面进行研究,可以扩大样本量并进行更加深入的分析。

再次,本文对公共服务满意度调查的有效性进行分析,得出公民满意度在一定程度上反映了公共服务绩效。但是,对于公民评估是否能准确反映政府绩效,这一理论预设还缺少进一步的分析。公民对公共服务的评估高是否意味着高的政府绩效?对此仍不清楚,未来研究可以从这个角度,深化理解公民参与在政府绩效评估中的价值和作用。参考文献

Brown, K., and P. B. Coulter. 1983. Subjective and objective measures of police service delivery. Public Administration Review43 (1): 50-58.

Gao, J. 2012. How Does Chinese Local Government Respond to Citizen Satisfaction Surveys? A Case Study of Foshan City. Australian Journal of Public Administration71 (2): 136-147.

Moynihan, D. P. and S. K. Pandey. 2010. The Big Question for Performance Management: Why Do Managers Use Performance Information? Journal of Public Administration Research& Theory20 (4): 849-866.

Parks, R. B. 1984. Linking objective and subjective measures of performance. Public Administration Review44 (2): 118-127.

Yu, W, and L. Ma. 2015. External Government Performance Evaluation in China: Evaluating the Evaluations. Public Performance & Management Review39 (1): 144-171.

陈振明,刘祺,蔡辉明.公共服务绩效评价的指标体系建构与应用分析——基于厦门市的实证研究[J].理论探讨,2009(5):130-134.

高洪贵.公民参与地方政府公共服务绩效评估:价值、困境及路径[J].广西社会科学,2015(09):145-148.

马亮,于文轩.第三方公共服务绩效评价的评价:一项比较案例研究[J].南京社会科学,2013(5):55-63.

马亮.政府绩效信息使用:理论整合、文献述评与研究展望[J].电子科技大学学报(社会科学版),2014(5):1-11.

马亮,杨媛.城市公共服务绩效的外部评价:两个案例的比较研究[J].行政论坛,2017(4):94-101.

马亮.第三方评估提升政府绩效的理论框架与研究展望[J].江苏师范大学学报,2018(2).

倪星,李佳源.政府绩效的公众主观评价模式:有效,抑或无效?——关于公众主观评价效度争议的述评[J].中国人民大学学报,2010(4):108-116.郑方辉,张文方,李文彬.中国地方政府整体绩效评价:理论方法与“广东试验”[M].北京:中国经济出版社,2007.

郑方辉,雷比璐.基于公众满意度导向的地方政府绩效评价[J].中国特色社会主义研究,2007,3(4):7-52.

郑方辉,王琲.地方政府整体绩效评价中的公众满意度研究——以2007年广东21个地级以上市为例[J].广东社会科学,2008(1):44-50.

郑方辉,毕紫薇.第三方绩效评价与服务型政府建设[J].华南理工大学学报(社会科学版),2009,11(4):33-38.

郑方辉.中国政府绩效评价红皮书[M].北京:新华出版社,2013.

附录报道检索结果,“广东省地方服务型政府建设”

Are Public Service Performance Evaluations Reliable?Evidence from Guangdong Province

Ma Liang Yang Yuan Liu Liu

Abstract:Citizen satisfaction is a core issue of modern government performance evaluations,and public service performance is an important part of government performance.Citizen satisfaction surveys have been added in many public service performance evaluations projects in China,but the validity of the results is neglected.In this paper,we use horizontal comparison and longitudinal analysis of the survey data of UniversityA and InstitutionB in Guangdong Province to reveal their validity.The results of the two agencies have many similarities and are close to each other year by year,which suggestthat citizen satisfaction surveys can reflect public service performance.The longitudinal stability of InstitutionB is much better than UniversityA,suggesting its survey results are relatively stable.Based on the investigation of the validity of the two projects,we discuss the promising ways to improve the measurement of citizen satisfaction.

Key words:citizen satisfaction,public serviceperformance evaluations,validity,government performance公共和私人组织绩效感知:来自调查实验的证据

Ulrik Hvidman Simon Calmar Andersen

刘遥 吴建南[译]

摘 要:媒体、政治家和改革支持者断言,公共部门组织效率低下且行政程序冗杂。公众对公共部门的绩效感知中是否暗含这种消极成见? 因为研究方法的局限性,分析公共属性对绩效感知影响时,往往受到其他公共组织相关因素的干扰,公共组织是否确实具有负面刻板印象仍然没有定论。本文采用调查实验的方法分离出了公共属性对医院绩效感知的影响。结果表明,公共部门组织在生产性绩效上具有负面形象,而在规范性绩效上不存在。随机实验的使用为公共属性和绩效感知之间的因果关系提供了强有力的证据。最后,讨论了对研究者和公共管理者的启示。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载