CDA数据分析考试大纲(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-29 17:20:19

点击下载

作者:中国商业联合会数据分析专业委员会

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

CDA数据分析考试大纲

CDA数据分析考试大纲试读:

前言

随着大数据概念的推广与普及,数据正在像石油、钢铁一样成为重要的原材料,以数据为重要驱动力的数据革命正在到来。相应人才能力的培养重点也在变革,尤其是整合企业数据的能力、探索数据背后价值和制定精确行动纲领的能力、进行精确快速实时行动的能力。

在数据化时代,人们将以各种数据为工作对象,将数据与传统产业结合起来,为帮助读者快速具备科学的数据分析思维,提升数据分析能力,本书在内容设计上满足了广大数据分析初学者渴望全面学习数据分析的要求。我们编写本套丛书,希望能够让学习者掌握数据分析思维能力,将技能运用到企业需要的岗位中,将能力转化为真正的价值。

本套丛书是在中国商业联合会数据分析专业委员会考试专家的指导下编写完成。在编写过程中根据数据分析初学者的学习习惯,采用由浅入深、由易到难的方式讲解,读者还可以通过随书赠送的多媒体视频教学课程学习。本套丛书结构清晰,内容丰富,主要包括以下三册。

◆《CDA数据分析考试大纲》

本大纲是全国数据分析员职业技能水平考试的标准和命题依据,是专业技术人员能力测评和指导专业学习的依据。本大纲包括《CDA数据分析——零基础入门》、《CDA数据分析实务》两科考试的内容和范围,即数据分析思维能力考核,基础数据分析技术,数据采集、清洗、加工整理和图标展示等技术展现,是理论性、技术性和实践性很好的结合。

◆《CDA数据分析——零基础入门》

本书从理论层面解读大数据思维能力的培养,详解大数据基础能力培养的步骤,透过案例讲知识。教材中,概念、原理及理论叙述准确、精炼,知识点突出,难点分散,算法过程严谨,具有代表性和启发性,适应普通高等学校层次教学的需要。

◆《CDA数据分析实务》

本书侧重在企业实际经营过程中数据价值的发挥,针对企业中不同业务部门的活动、不同业务决策所需要的数据分析,提供了各种模型和算法的运用。

三本书是一个相对完整的体系,各有侧重。总结起来,本套丛书主要有以下特点。

1.将数据分析方法和实务操作相结合,突出该学科的方法论作用。

2.针对数据分析业务活动的实用性和操作性的特点,理论、操作和实务相结合,有利于读者全面掌握理论和应用。

3.本书提供了丰富的全真案例。在实践部分提供的真实资料基础上,本书精选若干典型案例,为读者提供了比较全面的数据分析经验。

本套丛书为全国数据分析员专业技术考试指定教材,也可作为财政、金融、投资咨询等行业的企业经营分析、管理人员的数据分析方法学习用书或工作中的参考书。

本套丛书由中国商业联合会数据分析专业委员会(CDAC)主持编写,中国工信出版集团电子工业出版社负责出版。除主要编写人员外,还有很多专家也为本套丛书的编写和出版工作提供了宝贵的建议和意见,在此对他们的辛勤工作表示衷心的感谢!在本套丛书的编写工作中得到了工业和信息化部教育与考试中心的大力支持和帮助,在此表示特别的感谢!我们还要感谢中国工信出版集团电子工业出版社的编辑,正是他们的认真工作才使本书顺利出版。

由于书中概念和术语数目繁多,书中有不当之处,恳请读者批评指正。我们的电子邮箱:services@chinacpda.org。中国商业联合会数据分析专业委员会教材编写专家组2016年3月第一部分数据分析基础考试大纲第1章 数据分析概述1.1 数据分析行业发展1.1.1 大数据行业背景和发展趋势一、大数据与大数据分析

1.数据分析

数据分析(Analysis of Data)是用包括检查、清洗、转换和建模等方法对数据进行处理。其目的是探索有用的信息、给出有建设性的意见,从而辅助制定决策。数据分析包含很多方面和方法,涉及的领域也遍布经济、科学、社会福利等行业。

数据挖掘是一个特别的数据分析技术,与传统的以纯描述为目的的技术相比,它专注于预测模型和对潜在知识的挖掘。所有的这些都是数据分析。数据分析虽然没有数据科学那样先进,可以创造新的数据结构,但是他们的目的是一样的——探索数据可以用来怎样回答问题和解决问题的。

2.大数据1.0到大数据2.0的发展

由维克托·迈尔-舍恩伯格编写的《大数据时代》里指出大数据是指采用所有数据进行分析,而不是抽样调查。大数据有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据1.0时代的特征是解决数据效率问题,大数据时代4个V中的前3个V都被有效地诠释了。但是最后一个V没有表现其作用。

大数据1.0时代逐一地解决了速度、容量等问题。在1.0时代积累的大数据将会在2.0时代得到其在价值上面的发挥。

从2015年起,大数据进入2.0时代。大数据2.0时代要求以数据本身的价值为目标,从企业本身业务需求产生的大量数据中通过深入挖掘,分析得出数据本身的价值。1.0停留在数据认知上面,2.0则要求如何通过这些数据去解决问题。二、大数据分析国际背景

在全球500强企业中,90%以上的重要投资与经营决策都取决于充分的数据分析支持。在欧盟、美国、日本等发达地区,数据分析普遍被作为运营决策的前提要素,为社会经济的高速发展做出了巨大贡献。可以说,数据分析技术是一把让企业通向成功之门的金钥匙。

数据分析行业在2012年美国职业调查评选中被评为最性感的行业,当下越来越多的人开始关注这个行业。数据分析已经在各种各样的公司里占据了主要地位。伴随着计算科学的发展,从小型创业公司,到专业的数据分析公司,数据分析行业都获得了巨大的发展。三、大数据分析国内发展

从2003年年底信息产业部电子行业职业技能鉴定指导中心(现为“工信部教育与考试中心”)正式设立“数据分析师”培训项目,并制定出数据分析师培训、考试及管理办法。到2014年,中国的数据分析行业已经走过了11个年头。这期间中国的数据分析师、数据分析师事务所、行业协会从无到有,发展越来越快,业务领域也从最初的投资数据分析逐步转向经营数据分析。目前国家将大数据视为国家战略,并且在实施上,也已经进入企业战略层面。四、大数据未来的发展趋势(1)大数据在经济预警方面发挥重要作用。(2)大数据分析成为市场营销的重要手段。(3)大数据在临床诊断、远程监控、药品研发等领域发挥重要作用。(4)大数据为金融领域的客户管理、营销管理及风险管理提供重要支撑。1.1.2 数据分析隐藏的风险和困境一、用户隐私

详见教材。二、管理困难

详见教材。三、数据交易

详见教材。四、大数据人才缺乏

详见教材。1.2 数据分析人才的培养1.2.1 大数据时代最需要的人才

详见教材。1.2.2 数据分析人才从事的工作和需要具备的能力一、获取大数据的能力

详见教材。二、分析大数据的能力

详见教材。三、商业分析能力

详见教材。1.2.3 数据分析人才必备的素质一、严谨负责,尊重数据真实性

详见教材。二、敏感性强,善于提出问题

详见教材。三、思路清晰,具有强烈的逻辑分析思维

详见教材。

四、擅长模仿,又要有创新

详见教材。1.3 数据分析基础流程1.3.1 基于小数据分析的步骤一、早期的数据分析

详见教材。二、数据收集

详见教材。三、数据分析

详见教材。1.3.2 数据分析的两种重要的分析导向一、决策导向型

决策导向是从企业决策入手,进而研究分析方法,分析模型及算法,研究关键字段,找数据,是从客户导向出发的研究思路。二、探索性研究型

通过大量无序数据提取重要关键信息进行分析,是数据驱动型研究,是未来的趋势,更有价值。第2章 数据收集与导入2.1 数据及数据处理工具介绍2.1.1 理解数据

按照存储形式可以将数据划分为结构化数据、非结构化数据和半结构化数据。

结构化数据,能够用数据或统一的结构加以表示,简单来说就是数据库。比如企业ERP、财务系统、医疗HIS(信息管理系统)数据库、教育一卡通、政府行政审批、其他核心数据库等。

非结构化数据,无法用数据或统一的结构加以表示,如视频、音频、图片、图像、文档、文本等形式。像医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用。

半结构化数据,包括邮件、HTML、报表、资源库等,如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等。2.1.2 数据处理工具——SPSS介绍一、SPSS公司与SPSS统计软件包

详见教材。二、SPSS Statistics

详见教材。三、SPSS Modeler

详见教材。四、SPSS常用操作

SPSS的操作环境由4个窗口组成:数据编辑窗口(SPSS Data Editor)、结果输出窗口(SPSS Viewer)、程序编辑窗口(SPSS Syntax Editor)和脚本编辑窗口(Script)。作为一般的用户必须掌握前两种窗口的操作。

1.数据编辑窗口

数据编辑窗口负责输入和管理待进行统计分析的数据,由窗口主菜单、工具栏、数据编辑区和系统状态显示区等组成(图2-3),数据编辑窗口是 SPSS for Windows 中最基本的界面。

2.结果输出窗口

结果输出窗口负责接收和管理统计分析的结果,也称为结果视图或结果浏览器。结果输出窗口中还包括结果编辑窗口,负责编辑在结果输出窗口给出的各种图和表。SPSS统计分析的所有输出结果都显示在结果输出窗口中。

3.语法编辑窗口

使用SPSS的大部分用户是通过数据编辑窗口的菜单完成对数据的统计分析工作,而语法编辑窗口的菜单提供语法编程方式,是专门供统计分析人员编写和运行SPSS程序的窗口,除了能完成窗口操作所能完成的所有任务外,还可以完成窗口操作所不能完成的任务,计算机自动按着编写的SPSS命令程序逐句执行并最终给出统计分析结果。用户通过编写Syntax语句,获得想要的数据分析过程,还可以随时调整统计分析方法,要比通过菜单一个一个地操作方便、快捷得多。每次输出结果窗口显示统计结果时,第一部分就是用Syntax编制的“日志”。

4.脚本编辑窗口

脚本编辑窗口是用户通过Sax Basic语言来编写自己所需要的程序,定制各种输出特征,可以使SPSS内部操作自动化、可以只定义结果格式、可以连接VB和VBA应用程序。

5.对话框

在SPSS中,对应于每个菜单都配备了多个对话框,也就是说,要完成对样本数据的任何一项统计分析,都离不开对对话框的操作。在SPSS中,对话框可以分为两类。

第一类是“文件操作”对话框,如对文件的保存、打开和打印等操作。

第二类是“统计分析”对话框,这类对话框主要涉及对数据的处理(如排序、选择子集等)和完成各种统计分析(如对变量进行频数分析、两个总体的差异比较等)。通常每个对话框中都设有5个通用按钮:(1)确定(OK);(2)粘贴(Paste);(3)重置(Reset);(4)取消(Cancel);(5)帮助(Help)。2.2 数据收集2.2.1 机器收集数据一、机器收集数据的描述

1.网址采集

2.内容采集

3.数据自动处理

4.采集监控二、机器收集的优势

详见教材。2.2.2 人工收集数据一、人工调查法

人工调查法是指调查人员通过询问的方式向被调查者了解、收集信息资料的调查方法。调查法是市场调查中应用最普遍的方法。访问既可以通过口头语言访问,也可以采用书面访问。不论哪种形式的访问,都可以向被调查者收集大量第一手的市场信息资料。

与其他市场调查方法比较,访问调查有以下特点:(1)调查是调查者与被调查者相互作用、相互影响的过程,也是人际沟通过程;(2)调查效果,不仅取决于调查者的素质,而且也取决于被调查者的素质和合作态度。二、访问调查法

1.面谈访问

2.街头访问

3.邮寄访问

4.电话访问

5.网上调查

面谈访问、电话访问、邮寄访问都是非常有效的收集一手资料的方法,我们只要了解了这几种方法的好处和缺陷,就可以凭主观判断做出选择了。2.3 数据输入与导入一、文本数据导入

详见教材。二、网站数据导入

详见教材。第3章 数据的清洗与预处理3.1 数据清洗3.1.1 重复数据处理

重复数据处理在数据分析中是非常普遍的,解决的方法有很多。一、用COUNTIF函数来识别重复数据

详见教材。二、用菜单操作来筛选重复数据

详见教材。三、用条件格式标识重复数据

详见教材。四、删除重复数据

1.通过菜单操作删除重复项

2.通过排序删除重复项

3.通过筛选删除重复项3.1.2 缺失数据处理一、定位输入

1.处理缺失数据的方法

2.“Ctrl+Enter”快捷键二、查找替换

1.常用的查找与替换方式

2.用通配符模糊查找

3.利用查找替换实现更多功能3.1.3 检查数据逻辑错误一、利用IF函数检查错误

详见教材。二、利用条件格式标记错误

详见教材。三、在公式中查错

详见教材。3.1.4 检查不合理的关联题

详见教材。3.2 数据整理与加工3.2.1 数据抽取一、字段分列

1.菜单法

2.函数法二、字段合并

详见教材。三、字段匹配

详见教材。3.2.2 数据排序

详见教材。3.2.3 数据分组一、确定分组元素

1.确定组数

分组的组数没有严格的规定,主要取决于研究数据有多少。如果研究数据有很多,那么分组的组数也应该相应地多一些。另外还与数据分布的形态有关。如果数据的集中程度较高,那么分组的组数可以少一些。很多情况下组数是凭经验或者是反复试分组来确定的。

2.确定组距

组距为上限与下限之差。根据各组的组距是否都相等,组距数列又可分为等距数列和异距数列,一般情况下是编制等距数列。而当数据的分布很不均匀或者是为了把现象的类型更好地划分出来时,就需要编制异距数列。

3.确定组限

组限的确定为了不重复和不遗漏,对离散型数据分组时,最好用两个相邻的整数分别表示较小的一组的上限和比它大的那组的下限。二、利用函数对数据进行分组

在Excel中对于数据分组最常用的函数是VLOOKUP,以销售额为例来介绍利用函数对数据分组。三、数据频数分布

详见教材。3.2.4 数据转换

数据转换是将数据从一种表示形式变为另一种表示形式的过程。随着数据量的不断增加,由于原来数据构架的不合理、不能满足各方面的要求或者不便于分析,此时就需要数据本身进行转换。这里主要介绍两个内容:数据表的行列转换及多选题录入数据方式之间的转换。一、数据表的行列转换

在Excel中经常需要对数据表行列进行互换,一般利用选择性粘贴来实现。二、多选题录入数据方式之间的转换

1.利用HLOOKUP函数对数据进行转换

2.利用SEARCH函数对数据进行转换三、数据计算

1.简单计算

2.函数计算

3.日期和时间的计算(1)日期的计算。(2)利用DATEDIF函数计算日期。第4章 数据可视化呈现4.1 理解图表一、图表的作用(1)数据图表能使表达形象化;(2)数据图表便于突出重点;(3)数据图表更能体现专业化。二、常见图表类型介绍

详见教材。三、图表的选择

我们一般根据数据间的关系来选择相应的图表。大部分数据间的关系可以归纳为五种:成分、排序、时间序列、相关和多重数据比较。

1.成分关系图表选择

2.排序关系图表选择

3.时间序列关系图表选择

4.相关关系图表选择

5.多重数据比较关系图表选择四、图表的制作步骤

明确了图表类型的选择方式,我们来看一下如何制作一张图表:(1)确定所要表达的主题或目的;(2)确定图表类型;(3)选择数据制作图表;(4)确定图表是否真实有效地展示了数据;(5)确定图表是否表达了数据分析的观点。4.2 数据表的制作及呈现

数据表是数据图表展现中最基础也是最重要的一项内容,数据表是数据图的基础,有广泛的应用领域。大部分人在数据分析时和呈现分析结果时都使用图形,但是当需要呈现的数据在3个系列以上,尤其是数据间的量纲不同的时候,用表格呈现数据的效果相对较好。4.2.1 数据表的制作

数据表一般分为两种,一种是数据明细表,一种是分类汇总表。前者需要用正确的方法来做,后者不用做,只要用技巧就可以变出来。

数据明细表,也可以称为是源数据表,一般是一维数据表,要做到简洁、规范,以便分类汇总时易操作易实现。

分类汇总表可以由源数据表变化而来,操作方法就是用数据透视表,数据透视表的使用方法我们在之前已经介绍过了,这里不再做赘述。4.2.2 数据表的特殊功能一、数据选取

详见教材。二、数据比较

详见教材。三、数据标记

详见教材。四、迷你图

详见教材。4.3 数据图的制作及呈现4.3.1 常见数据图的制作

详见教材。4.3.2 其他数据图的制作一、平均线图

详见教材。二、双坐标图

详见教材。三、瀑布图

详见教材。四、矩阵图

详见教材。五、气泡图

详见教材。六、旋风图

详见教材。七、漏斗图

详见教材。4.4 数据图的制作要点

图表对于数据分析研究起到辅助作用,但也要做到专业,对于数据图表制作的要求概括起来就是:严谨、简约和美观。(1)严谨;(2)简约;(3)美观。第5章 基础数据分析5.1 对比分析

任何事物都既有共性特征,又有个性特征。只有通过对比,才能分辨出事物的性质、变化、发展、与别的事物的异同等个性特征,从而更深刻地认识事物的本质和规律。

企业在运营、管理、决策的过程中存在着很多不确定性,因此,在利用数据分析进行生产决策,项目风险评估等时,需通过汇总和对比,数据才有意义。

对比分析通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。一、按发展速度采用基期的不同分类

1.同比

同比(“相同时期相比”的简称)主要是为了消除季节变动的影响,用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。

在实际工作中,经常使用这个指标,如某年、某季、某月与上年同期对比计算的发展速度,就是同比。

同比计算公式=本期发展水平/去年同期发展水平×100%

同比增长率=(本期发展水平-去年同期发展水平)/去年同期发展水平×100%

在有些数据中会用到周同比,一般是比较上月同周的情况。

2.环比

环比分为日环比、周环比、月环比和年环比。

环比是以报告期水平与其前一期水平对比(相邻期间的比较)所得到的动态相对数。表明现象逐期的发展变动程度。如计算一年内各月与前一个月对比,即2月比1月,3月比2月,4月比3月,……,12月比11月,说明逐月的发展程度。

环比计算公式=本期数据/上期数据×100%

环比增长率=(本期数据-上期数据)/上期数据×100%

3.定基比

定基比也叫做总速度,是报告期水平与某一固定时期水平之比,表明这种现象在较长时期内总的发展速度。

4.三者区别

与历史同时期比较,如2009年11月份与2008年11月份相比,叫同比。

与上一个统计周期比较,如2009年11月份与2009年10月份相比较,称为环比。

同比和环比,这两者所反映的虽然都是变化速度,但由于采用基期的不同,其反映的内涵是完全不同的。一般来说,环比可以与环比相比较,而不能拿同比与环比相比较。而对于同一个地方,考虑时间纵向上发展趋势的反映,则往往要把同比与环比放在一起进行对照。

定基比,一般是指报告期水平与某一固定时期水平之比,表明这种现象在较长时期内总的发展速度。同比,一般是指本期发展水平与上年同期发展水平对比,而达到的相对发展速度。环比,一般是指报告期水平与前一时期水平之比,表明现象逐期的发展速度。二、按分析对象的不同分类

单一指标对比分析,即简单评价,如盈亏平衡分析。盈亏平衡分析主要是通过对盈亏平衡点高低的分析,对项目风险高低做出的初步判断。多指标对比分析,即综合评价,如线性规划、概率分析。线性规划是通过对多个约束条件的综合评价,进而得到最优的目标值;概率分析是通过对主要的效益指标概率分布进行对比分析,然后对项目整体风险做出评价。5.2 线性规划

线性规划是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支,它是辅助人们进行科学管理的一种数学方法。在经济管理、交通运输、工农业生产等经济活动中,提高经济效益是人们不可缺少的要求,而合理安排人力、物力资源则是提高经济效益的方法之一。

线性规划研究在一定约束条件下,如何合理安排人力、物力等资源,使经济效益达到最好。在进行生产决策时,线性规划方法是常用的决策模型。一般地,求线性目标函数在线性约束条件下的最大值或最小值的问题,统称为线性规划问题。5.2.1 线性规划模型的基本形式5.2.2 线性规划模型的基本概念

可行解:满足线性约束条件的解。

可行域:由所有可行解组成的集合。

三要素:决策变量、约束条件、目标函数。5.2.3 线性规划的模型【例5.1】(生产计划问题)【例5.2】(配料问题)【例5.3】(投资问题)

上述各例具有下列共同特征:(1)存在一组变量x,x,…,x,称为决策变量,表示某一方案的12n变量。通常在实际情况中,这些变量的取值是非负的。(2)存在若干个约束条件,可以用一组线性等式或线性不等式来描述。(3)存在一个线性目标函数,按实际问题求最大值或最小值。

根据以上特征,可以将线性规划问题抽象为一般的数学表达式,即线性规划问题数学模型(简称线性规划模型)的一般形式为:

为了书写方便,上式也可以写成:

式中max表示求最大值,min表示求最小值,c, b, a是由实际问jiij题所确定的常数。c(j = 1,2,…,n)为利润系数或成本系数;b(i = ji1,2,…,m)称为限定系数或常数项;a(i = 1,2,…,m;j = 1,2,…,n)称为ij结构系数或消耗系数;x(j=1,2,…,n)为决策变量;每个约束条件只j有一种符号(≤或=或≥)。5.2.4 整数规划

在一个规划问题中,决策变量可能是整数、分数或者无理数。要求部分或者全部决策变量是整数,则这个规划称为整数规划,如例5.1中,产品的产量应是整数,即为整数规划。在实际生活中,机器的台数、工作的人数或装货的车数都属于整数等。要求全部变量为整数时,称为纯整数规划(Pure Integer Programming,PIP);要求部分变量取整数值时,称为混合整数规划(Mixed Integer Programming, MIP);要求变量取整数值的线性规划称为整数线性规划(Inter Linear Programming,ILP)。下面介绍一种特殊的整数规划。

0-1规划是整数规划的一种特殊形式,它的决策变量仅限于0或1。0-1规划在整数规划中占有重要地位,一方面因为许多实际问题,如指派问题、选地问题、送货问题都可归结为此类规划;另一方面任何有界变量的整数规划都与0-1规划等价,用0-1规划方法还可以把多种非线性规划问题表示成整数规划问题,所以不少人致力于这个方向的研究。

0-1规划主要用于求解互斥的计划问题、约束条件互斥问题、固定费用问题和分派问题等方面。投资数据分析中项目比选问题就要用到0-1规划。5.3 概率分析

概率分析又称风险分析,是通过研究各种不确定性因素发生不同变动幅度的概率分布及其对项目经济效益指标的影响,对项目可行性和风险性及方案优劣做出判断的一种不确定性分析法。概率分析常用于对大中型若干重要项目的评估和决策。

概率分析,通过计算项目目标值(如净现值)的期望值及目标值大于或等于零的累积概率来测定项目风险大小,为投资者决策提供依据。5.3.1 基本原理

假设各不确定因素(风险变量)是服从某种概率分布的随机变量,经济效益指标是风险因素的函数,则经济效益指标必然也是随机变量。通过对各种风险因素,如产品的销售量、销售收入、产品成本、投资额等因素可能出现的概率分布及标准差等进行定量分析,来估计项目经济效益指标,从而判断项目可行的风险大小,并运用风险决策方法对多个投资方案或项目进行评估优选。

在这种定义下进行风险概率分析,需要用到概率论与统计学的一些知识。在这里,我们首先介绍几个相关的概念。一、随机变量与概率分布

在统计学中,随机变量是指某一过程可能发生的结果。随机变量可能是离散的,也可能是连续的。离散型随机变量的可能值为有限个数,而连续型随机变量的取值范围为一个区间。

1.离散型随机变量与概率分布

2.常用的连续型随机变量的概率分布(1)正态分布:这是一种最常用的概率分布,大量客观现象和经济现象服从或近似地服从正态分布,它适用于描述一般经济变量的概率分布,如销售量、售价、产品成本等。正态分布的几何形状如同一口古钟,它以随机变量的期望值为纵对称轴,并在此处曲线达到最大值,而以横坐标轴为其渐近线。对于正态分布而言,其期望值决定了正态分布密度曲线的位置,而标准差决定了图形的形状,标准差越大曲线越平缓,标准差越小曲线越陡峭。(2)三角分布:它的特点是概率分布由悲观值、最可能值及乐观值构成对称或不对称的三角形。它适用于描述工期、投资等不对称分布的风险变量,也适用于描述产量、成本等对称分布的风险变量。(3)阶梯分布:其特点是在不同的数值区域内,风险变量具有不同的概率,但在风险变量的变化界限内,变量为连续型随机变量。二、期望值、方差、标准差及变异系数

期望值是用来测度随机变量次数分配的集中趋势的统计量。它是随机变量所有可能取值的加权平均值。权重就是各种可能取值出现的概率。用公式表示为:

式中,E(X)——随机变量的期望值;

X——随机变量第j种可能性对应的值;j

P——X值发生时对应的概率。jj

在统计学中,对观察到的随机变量的结果偏离均值的程度是用随机变量概率分布的方差或标准差来描述的,它们都是用来测度随机变2量离散程度的统计量。我们用σ表示方差,计算公式如下:5.3.2 概率分析方法

概率分析主要分为期望值法、效用函数法和模拟分析法等。一、期望值法

期望值法在项目评估中应用最为普遍,是通过计算项目净现值的期望值和净现值大于或等于零时的累计概率,来比较方案优劣、确定项目可行性和风险程度的方法。如概率数分析法、决策树法。其中,决策树法作为一种决策技术,已被广泛地应用于企业的投资决策之中,它是随机决策模型中最常见、最普及的一种决策模式和方法,此方法有效地控制了决策带来的风险。

所谓决策树法,就是运用树状图表示各决策的期望值,通过计算,最终优选出效益最大、成本最小的决策方法。决策树法属于风险型决策方法,不同于确定型决策方法,二者适用的条件也不同。应用决策树决策方法必须具备以下条件:(1)具有决策者期望达到的明确目标;(2)存在决策者可以选择的两个以上的可行备选方案;(3)存在着决策者无法控制的两种以上的自然状态(如气候变化、市场行情、经济发展动向等);(4)不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来;(5)决策者能估计出不同的自然状态发生概率。二、效用函数法

所谓效用,是对总目标的效能价值或贡献大小的一种测度。在风险决策的情况下,可用效用来量化决策者对待风险的态度。通过效用这一指标,可将某些难以量化、有质的差别的事物(事件)给予量化,将要考虑的因素折合为效用值,得出各方案的综合效用值,再进行决策。

效用函数反映决策者对待风险的态度。不同的决策者在不同的情况下,其效用函数是不同的。三、模拟分析法

模拟分析法就是利用计算机模拟技术,对项目的不确定因素进行模拟,通过抽取服从项目不确定因素分布的随机数,计算和分析项目经济效益评价指标,从而得出项目经济效益评价指标的概率分布,以提供项目不确定因素对项目经济指标影响的全面情况。如蒙特卡洛分析法。5.3.3 概率分析步骤(1)列出各种待考虑的不确定因素。

注意:所选取的几个不确定因素应是互相独立的。(2)设想各个不确定因素可能发生的情况,即其数值发生变化的几种情况。(3)分别确定各种可能发生情况产生的可能性,即概率。

注意:各不确定因素的各种可能发生情况出现的概率之和必须等于1。(4)计算目标值的期望值。(5)求出目标值大于或等于零的累计概率。5.4 交叉分析

交叉分析法又称立体分析法,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。这种方法虽然复杂,但它弥补了“各自为政”分析方法所带来的偏差。5.5 分类分析

在实际问题中,经常会遇到分类问题,如某城市大气污染的轻重分成几类区域;某年级学生按各科的学习成绩分为几种类型;学生在中学期间学习的科目按培养运算能力、培养推理能力、培养记忆能力等分成几组;人体测量的几十个部位的尺寸按反映人体高矮、人体胖瘦及人体畸形的部位分几类;在经济学中根据国民收入、人均工农业产值、人均消费水平等多种指标对世界上所有国家的经济发展状况进行分类等。随着生产技术和科学发展,在许多领域都将遇到分类问题。

分类的问题可以分为两种。一种是事先不知道研究的问题应该分为几类,更不知道观测到的个体具体分类情况。我们的目的是需要对观测数据进行分析处理,选定一种度量个体接近程度的统计量,再确定分类数目、建立一种分类的方法,并按接近程度对观测对象给出合理的分类。这是聚类分析要解决的问题,这类问题在现实生活中大量存在。另一种是对当前所研究的问题已知它的类别数目及各类的特征,我们的目的是将一些未知类别的个体正确地归属其中某一类,这是判别分析所要解决的问题。下面将分别介绍聚类分析和判别分析。5.5.1 聚类分析一、聚类分析定义

聚类分析,又称群分析,即建立一种分类方法:将一批样品或者指标(变量),按照它们在性质上的亲疏、相似程度进行分类。所谓类,即是相似元素的集合。

1.按其聚类的方法分类(1)系统聚类分析:开始每个对象自成一类,然后将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性程度。这一过程一直继续下去,直到所有的对象归为一类为止。(2)调优法(动态聚类法):首先对n个对象进行初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。(3)最优分割法(有序样品聚类法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需要的K类为止。这种分类方法适用于有序样品的分类问题,故也称为有序样品聚类。(4)模糊聚类法:利用模糊集理论来处理分类问题,它将对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。(5)图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法。(6)聚类预报法:可以用来做预报的分析方法很多,如回归分析和判别分析,但对一些异常数据,如气象中的灾难性天气使用回归分析和判别分析效果都不是很好,而聚类预报弥补了这一不足。

2.按分类对象的不同:分为R型和Q型两类(1)R型是对变量(指标)进行分类。通过R型聚类分析,我们可以了解变量及变量组合之间的亲疏关系;对变量进行分类,也可以根据分类结果及他们之间的关系,在每类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算。(2)Q型是对样品进行分类。分类的结果是直观的,且比传统分类方法更细致、全面、合理。二、系统聚类分析方法

在聚类分析方法中,系统聚类分析方法应用最为广泛,我们主要讨论系统聚类分析方法。

系统聚类分析方法的基本思想是:首先定义样品间的距离和类与类之间的距离;初始将n个样品看成n类(每类包含一个样品),这时类间的距离和样品间的距离是等价的;然后将距离最近的两类合并为新类,并计算新类与其他类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都并成一类为止。

1.样本间的距离

样本若有k个变量,则可以将样本看成一个k维空间的点,要测量样本之间的距离就是k维空间点与点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的样本属于一个类,距离远的样本属于不同的类。下面,我们只介绍几种常用的样本间的距离。(1)欧氏距离,两个样品X和Y之间的欧氏距离是样本各变量值之差的平方和的平方根,其计算公式如下:

在上式中,k表示每个样本有k个变量;x表示样本X在第i个变量i上的取值;y表示Y样本在第i个变量上的取值。i(2)Chebychev距离,是指各样本所有变量值之差绝对值的最大值,其计算公式如下:(3)Block距离,是指各样本所有变量值之差绝对值的总和,其计算公式如下:CHEBYCHEV = max| x -y | (5.2)ii

2.类间的距离(1)最短距离法:类与类之间的距离定义为两类中距离最近的样本之间的距离。(2)最长距离法:类与类之间的距离定义为两类中距离最远的样本之间的距离。(3)中间距离法:既不采用两类之间的最近距离,也不采用最远的距离,而是采用介于这两者之间的距离,这种方法称为中间距离法。(4)重心法:将两小类间的距离定义为两个类之间重心的距离。每类的重心就是该类中所有样本在各个变量上均值的代表点。(5)类间平均链锁法:两类之间的距离为两类内所有样本间的平均距离。(6)类内平均链锁法:是指对两类内所有的样本对的距离求平均值。(7)离差平方和法:是小类和并的方法,指在聚类过程中,使小类内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。三、SPSS应用实例

案例处理汇总;

近似矩阵;

平均联结(组之间)聚类表。5.5.2 判别分析一、判别分析定义

判别分析是判别样品所属类型的一种分析方法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。例如:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤,还是肺癌。在这里,由肺结核病人、良性肿瘤病人、肺癌病人三类总体构成病人群体,病人属于这三个总体之一,通过测得病人的指标(阴影的大小、边缘是否光滑、体温的高低……),利用判别分析就可以判断他是属于哪一个总体的。

其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,从而确定某一样本属于何类。二、判别分析分类(1)根据判别中的组数分为:两组判别分析和多组判别分析。(2)根据判别函数的形式分为:线性判别和非线性判别。(3)根据判别式处理变量方法的不同分为:逐步判别、序贯判别等。(4)根据判别标准不同分为:距离判别、Bayes判别、Fisher判别等。

基于以上4种分类方法,我们下面简要介绍3种常用的判别分析思想。(1)距离判别。

基本思想:距离判别也称为直观判别,是计算样品到第i类总体平均数的距离,哪个距离最小就将它判归哪个总体。因此,我们首先考虑是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。(2)Bayes判别。

基本思想:假设对研究对象的总体已有一定的认识,常用先验概率分布来描述这种认识;然后抽取一个样本,用样本来修正已有认识(先验概率的分布),得到后验概率分布。各种统计判断都是通过后验概率分布来进行的。(3)Fisher判别。

基本思想:就是投影,针对P维空间中的某点寻找一个能使它降为一维数值的线性函数。三、SPSS中判别分析的假设及原则

判别分析先根据已知类别的事物性质建立函数式,然后再对未知类别的新事物进行判断以将之归入已知的类别中。(1)在判别分析中有如下假设:

①预测变量服从正态分布;

②测变量之间没有显著的相关性;

③观测变量的平均值和方差不相关;

④预测变量之间的相关性在不同类中是一样的。(2)在分析的各个阶段应该掌握如下原则:

①事前组别的分类标准要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果;

②所分析的自变量是因变量的重要影响因素,应该挑选既有重要性又有区别能力的变量,达到以最少变量而有高效辨别能力的目标;

③初始分析的数目不能太少。四、SPSS案例分析

详见教材。5.6 相关分析

相关分析是指研究变量之间相互关系的一类分析方法。按是否明确依存关系分为两类:一类是明确自变量和因变量之间的关系,进而研究他们之间关系的分析方法,如回归分析,时间序列分析;另一类是不确定因果关系,只研究变量之间是否相关、相关的方向和密切程度的分析方法,如因子分析。本节主要来介绍前面提到过的几种分析方法。5.6.1 回归分析

回归分析(Regression Analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。它的应用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。一、一元线性回归模型

一元线性回归分析法是研究因变量随一个自变量变化而变化的规律,并通过回归分析方法建立两个变量之间因果关系的数学模型,描述他们之间的变化规律。

1.一元线性回归定义

如果我们定义X是自变量(Independent Variable)或回归因子,Y是因变量(Dependent Variable),变量X和Y之间存在线性关系,那么对于每个X都对应于一个Y,因此,如果知道每个X的值,那么根据下面总体回归函数将能预测到因变量Y的值。

一元线性回归理论模型的一般形式为:Y = β+β X+ε (5.4)i01ii

式中,β+βX是总体回归线函数(Population Regression 01iFunction),也称为总体回归线(Population Regression Line)。截距(Intercept)β和斜率(Slope)β是总体回归线的系数01(Coefficients),也称为总体回归线的参数(Parameters)。ε是误差i项(Error Term)。对一个具体的观测值而言,误差项包含了除X以外的决定Y值变化的所有其他因素,在图形上表现为假设的观测值没有准确地落在总体回归线上。

这里,我们介绍的理论回归模型是建立在总体的范畴内的。然而,在实际情况中,由于总体数值不能完全获取,总体回归线的截距和斜率是未知的。我们只能按照随机性原则要求,从统计总体中抽取出来的一部分数据,即样本(Sample)数据进行模型估计。我们把按照样本数据估计出来的数学模型称为一元线性回归理论模型的样本估计方程,表示为:

式中,、为其真实值β和β的估计值,为理论线性模型因01变量Y的样本估计值。i

在上述理论回归模型中不知道总体回归线的斜率和截距的值,但我们可以通过样本回归模型中斜率和截距的估计来反映总体回归模型的特征。

这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y与X的散点图来初步确认。

2.确定回归系数(应用最小二乘法)

在样本的容量为n的情况下,我们可以得到n对观察值为(x, y)。ii现在我们要利用这n对观察值来估计参数、。显然,y的估计值为:

在上式中、为待估计的参数。估计这两个参数的方法有极大似然法和最小二乘法。其中最小二乘法是求经验公式时最常用的一种方法,也最简单。现在就采用这种方法。

当我们做出这一对变量观察值的散点图后,可以看出,所要求的回归直线,实际上是这样的一条直线,即使所求的直线能够最好地拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此,所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线,所以应用求可导函数求极值的方法得到:

式中,、就是参数β、β的无偏估计。此外,所谓最小二乘01估计,实际上就是使误差的平方和最小的估计。

3.一元线性回归方程的参数检验

一元线性回归方程是否能客观反映变量X与变量Y之间存在的联系,必须对方程进行检验。对回归方程的检验包括了对一元线性回归方程的显著性检验、拟合优度检验及D-W检验。(1)t检验——单个回归系数的显著性检验。

由于和抽样分布与正态分布近似,因此,我们就能够只使用样本数据对总体回归系数的真实值β和β进行检验,研究样本估计01值是否反映总体系数。对回归系数的检验包括对截距和斜率的检验。我们主要对斜率进行假设检验,有时也涉及截距的假设检验,对截距的假设检验通常在其具有现实的经济意义时进行。

斜率是决定X与Y变量依存关系形式的重要参数。如果总体回归系数β= 0,说明X与Y不存在线性关系。因此检验总体回归系数β=011的零假设就是检验总体X与Y的变量没有线性关系的假设。它是对样本的回归系数是否显著的检验,我们也称为t检验。t检验的主要步骤如下。

①提出假设:H:β = 001H:β ≠011

②构造并计算统计量:

式中,,0为零假设,其值为零。

③查t分布临界值表,得临界值,其中α为预先设定的显著性水平,(n-k-1)为自由度(其中n为样本数量,K为自变量X的个数)。

④比较:

若,接受H;0

若,拒绝H。1(2)F检验——对回归方程的整体显著性的检验。

F检验是对回归方程整体显著性的检验,其实质是考察所有回归参数均为零的显著性。对一元线性回归方程采用t检验和F检验,结论是一致的。在一元线性回归分析中,二者取其一即可。关于F检验具体模型我们将在多元回归线性分析中介绍。(3)D-W(Durbin-Watson)检验——对残差项是否自相关的检验。

如果残差项ε,即不互相独立,即存在自相关关系,则不i能表明回归模型中的变量Y与X之间存在真实的线性变动关系。线性回归模型中的一个基本假设就是随机项必须互相独立,否则,就会夸大t检验及F检验的显著性,使得t检验及F检验不再有效。D-W检验是残差序列的自相关的检验,是考虑对不存在序列相关(ρ =0)的原假设的检验。只有能够证明残差序列不存在自相关关系,才能说明前面t检验及F检验的结论是可靠的。

D-W检验首先要计算D-W统计量:

根据给定的显著性水平α(通常α =0.05),自变量的个数k和样本数据的个数n,查D-W统计量表,得到下限值d和上限值d,如果dluu< D-W < 4 -d,说明随机项之间不存在自相关关系,相互独立,检u验通过。否则说明,残差项之间存在着自相关关系,或者无法判定,D-W检验无法通过。2(4)R(可决系数)检验——对拟合优度的测定。2

R检验是用来评价OLS回归线对各观测值的拟合程度的(或称拟合优度),测度Y的方差中由X的变化所解释(或预测)的部分,如ii图5.1所示。从图形上表现为OLS回归线与各观测散点结合的紧密程度。图5.1 一元线性图2

我们通过图5.1计算 R值,图中观测变量 Y与其均值的离差 iTSS(Total Sum of Squares)为。这一离差可以分解成两部

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载