大数据时代的人力资源管理(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-21 23:10:09

点击下载

作者:蔡治,刘志彬,张伟

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据时代的人力资源管理

大数据时代的人力资源管理试读:

前言

笔者一直想将概率统计、数据挖掘等数据分析的高级方法应用到人力资源管理领域。在当前的信息化、数据化时代,人力资源管理对数据的依赖性相当强,从招聘中的能力和素质测评,到培训评估、绩效管理、岗位分析、劳动用工、效能分析、薪酬管理等各方面都需要进行数据分析。但人力资源的数据分析大多是描述性统计分析,较少用到高级数据分析技术,如回归分析、聚类分析、因子分析、判别分析、文本挖掘等,对数据的利用率不高,更缺乏对数据的有效和深入挖掘。

笔者一直苦于没有找到合适的工具,直到接触R语言。随着了解不断深入,笔者发现R语言有很多优点:它摆脱了SPSS这类软件的禁锢,即摆脱那种严格的环境和刻板的分析;函数式的编程风格很接近Excel函数用法,复杂的模型通常一两个函数就能解决,容易学习和上手;拥有大量的统计算法,可以任意研究和使用;可以绘制出生动美观的数据图形。而且R语言完全免费,这对人力资源管理专业人员来说非常重要,因为企业几乎不太可能为人力资源部门专门配备商业统计软件。

于是本书做了一次大胆尝试,即以R语言为基础,将概率统计、机器学习、文本挖掘等大数据时代流行的数据分析技术,和人力资源管理实践结合在一起,看看有何化学反应。在此之前,鲜见人力资源管理专业人员涉足这个领域,在此之后,你会发现原来人力资源管理也可以运用大数据分析技术,也可以通过数据挖掘来发现数据价值,也能用机器学习的算法预测未来可能发生的事件,还能对文字内容进行数据分析,而这一切在R语言的驱动下变得容易实现。

本书的每个案例都以人力资源管理中的现实情景为基础,通过人物对话的方式来讲述。书中虚拟的谦多顺公司在人力资源管理方面出现了一些问题,比如员工需求数量不准确、员工薪酬满意度不高、学员对培训师的意见比较大、新员工离职率比较高、员工能力评价不够客观、离职沟通出现问题,等等。人力资源部经理Miss陈面对这些问题,采用数据分析的方法,帮助部门同事逐个解决问题。在这个过程中,你可以了解概率统计的基本知识、数据挖掘的经典算法,以及文本挖掘中的情感分析,并领略R语言的魅力。

本书由于涉及统计学领域的知识,还涉及R语言编程,对人力资源管理专业人员来说有一定难度。为此笔者对书中内容做了一些特别设计,比如必须讲的统计知识尽量详细并且图文并茂,所有案例都提供R源代码以方便练习,等等。如果潜心阅读,并辅以实践演练,相信会有莫大收获。

希望本书的出版,能够让越来越多的人力资源管理专业人士认识R语言,运用高级数据分析技术来有效解决企业中的管理问题,更好地发挥人力资源数据的价值。为什么编写本书

人力资源管理源于数据分析。20世纪初古典管理学家弗雷德里克·温斯洛·泰勒通过实验研究如何提高工人的劳动生产率,并提出了迄今仍在使用的计件工资制、计时工资制,可算作人力资源数据分析的先驱。后来闵斯特伯格、梅奥两位学者将心理学方法引入工业领域,通过大量实验,研究如何提高工人效率,其核心依然是对数据的测量和分析。所以,人力资源管理从发展之初就与数据分析结下不解之缘。一百多年后的今天,世界进入了信息化、数据化时代,但我国人力资源管理却在数据分析领域原地踏步,在大数据门外驻足不前,仍然在汇总、平均、同比、环比,仍然在依赖Excel,几乎没有将数据挖掘等高级技术应用到管理实践中,去更充分地挖掘数据的价值。这不能不说是一种遗憾!

人力资源管理领域未及时享用数据分析技术发展带来的福利,像那些重要且经典的算法如判别分析、机器学习、聚类分析、因子分析、时间序列分析、文本挖掘等早已进入零售、金融、通信、电子商务以及社交媒体行业,并且表现出令人惊讶的作用,但始终把人力资源管理挡在门外。

然而,人力资源管理专业人员学习数据分析的意愿并不十分强烈。根据弗鲁姆的理论,人力资源管理专业人员研究数据分析的动机强弱,取决于数据分析能够为工作带来的价值大小、学习的难度大小,以及学习的工具和环境的适宜程度。可想而知,在看不到数据分析带来的价值,对数据分析知识心存畏难,且没有称手的分析工具时,人力资源管理专业人员又怎能迈入数据分析的世界呢?

所以,本书尝试将数据分析的高级技术引入人力资源管理领域,提升人力资源管理专业人员学习数据分析的动机水平。首先,用人力资源管理专业人员熟悉的情景编写案例,让大家了解数据分析技术在人力资源管理过程中的作用和价值;其次,穿插普及数据分析的基础知识和算法,重点介绍当前数据分析领域表现优异的统计工具——R语言,并附送源代码。希望能够唤起看到本书的人力资源管理同行对高级数据分析的兴趣。

当然,本书只是抛砖引玉。鉴于笔者视野狭窄,狭隘地认为我国人力资源管理领域并未真正涉足数据分析,并未有“大牛”出现,实际上这可能是错误的。不排除有“牛人”早已进行深入的研究,程度之深,应用范围之广,超出笔者的想象。若能发现同行在做同样的事情,希望能够交流、学习,共同促进和提升。

也希望通过本书能够进一步推广R语言。笔者用过不少统计软件,但从未有一款如R语言那样让笔者着迷,它几乎能满足笔者对数据分析的所有需求,分析过程简单快速,各种算法随手拈来,图形绘制变化万千。这么好的统计工具,还是免费的,实在没有理由拒绝,也希望更多的人能够知道这个工具,早早用上。本书特点(1)创新性强,内容为人力资源管理、数据分析和R语言的交叉知识领域。国内首次以R语言为工具,将数据挖掘、文本挖掘等数据分析技术引入人力资源管理领域。(2)深入浅出、通俗易懂。全书以人力资源管理人员(简称HR)的视角为基础,采取人物对话方式,结合案例讲解数据分析技术在人力资源管理实践中的应用。(3)对HR来说熟悉度高,代入感强,认同感强。书中案例均以人力资源管理中的常见情景为基础,涉及招聘、培训、薪酬、员工关系管理等模块,对HR来说接受程度高。(4)阅读难度较低。全书避开讲解复杂的统计学概念、算法,避开讲解R语言的数据结构、语法等内容,重点介绍统计方法的应用案例及其效果,降低阅读难度。(5)提供完整源代码和数据。源代码重复使用性高,可直接运行并显示效果,易于操练,方便解读,源代码经小量修改后即可用于各类企业。本书人物关系图和公司设定1.人物关系图2.公司设定

公司名称:谦多顺集团股份有限公司

公司规模:下属20家子公司,员工3万余人

公司性质:民营企业

主营业务:房地产、软件开发、物业服务、通信产品生产与销售等业务。本书内容

全书共分8章,各章内容如下。

第1章:人力资源数据分析的意义。介绍人力资源数据分析的特点、难点以及人力资源数据分析和大数据的关系。

第2章:数据分析前的准备工作。包括如何选用数据分析的工具,数据收集的工具和方法,以及如何整理数据。

第3章:员工年度需求预测。主要介绍了需求预测所采用的方法并分析整个过程。

第4章:培训师评估。介绍如何建立企业内部培训讲师授课评分数据库,在此基础上通过计算机标准分建立常模,绘制正态分布图,用定量化的方法选择讲师,并进行培训评估。

第5章:薪酬公平性分析。讲解如何运用薪资结构图、基尼系数、Compa指标、薪酬公平感计量模型来分析员工薪酬公平性。

第6章:员工综合能力评估。讲解通过综合评价法评估员工综合能力。

第7章:员工离职倾向分析。介绍了如何用Boosting、随机森林等机器学习算法预测员工未来一年内的离职概率。

第8章:员工辞职报告的情感分析。介绍用文本挖掘中的情感分析技术分析员工辞职报告。关于作者

蔡治:西南师范大学心理学硕士、高级经济师、高级人力资源管理师、高级企业培训师、SPSS数据分析师,R语言爱好者,长期从事人力资源管理工作,现任某国有通信企业人力资源部经理。哪些人会对本书有阅读兴趣

•人力资源管理工作中需要进行数据分析的人士。

•R语言爱好者,对R语言在各行业中的应用感兴趣的人士。

•经常阅读分析报告,关注各职能板块研究报告的各级管理人员。

•从事咨询、研究、分析等工作的专业人士。

•人力资源管理专业的本科生和研究生。致谢

感谢广东省通信产业服务有限公司陈洪先生、钟永健先生、冯丽芳女士和张晓军女士,将数据分析的任务交给我,为我提供了在工作中研究和应用数据分析的机会,促成我去接触和学习R语言。感谢李延华、张宝、张静,我们经常在一起沟通、讨论,产生了不少想法。感谢夫人陈丽君女士的默默支持和鼓励,让我得以完成本书的写作。

尽管我对书稿校正多次,但仍然不可避免有疏漏和不足之处,请读者批评指正。我会在适当的时间进行修正,以满足大家的需要。与作者联系

博客:http://blog.sina.com.cn/editcai

邮箱:cizimail@qq.com作 者2016年8月第1章人力资源数据分析的意义

导语:对人力资源管理专业人员来说,数据分析是一门新技能,而学习这种新技能需要投入成本,包括时间成本、资金成本等。既然要投入成本,自然希望获得回报,并且明白获得回报的难度。按照弗洛姆的期望理论,这两个因素结合在一起才能产生学习动机。本章围绕这两个因素,阐述人力资源管理专业人员为什么需要学习数据分析,学习获得的回报是什么,学习的难度又如何。1.1人力资源管理为何需要数据分析

老梁:经理,您常说人力资源管理要重视数据分析,可我觉得人力资源管理在实际工作中并不缺少数据分析啊。您看我们做薪酬、管绩效、建档案、搞培训都是在和数据打交道,每月、每季、每年都会出分析报表,这些不就是数据分析吗?咱们已经在做了,为什么您还强调数据分析呢?

Miss陈:你说的这些工作自然是在和数据打交道,也是数据分析,但主要是对人力资源各个管理模块产生的数据进行简单的分析运算,如汇总、计算均值、总和等,再通过横向对比、纵向对比等方法从不同维度进行比较分析,然后形成报表,做成报告。实际上,这些工作属于数据分析的较浅层次。

老梁:较浅层次?您的意思是人力资源管理数据分析还分层次吗?

Miss陈:是的,数据分析的层次和我们人力资源管理的发展阶段有关系,你知道人力资源管理发展的三个阶段吗?

老梁:知道,人力资源管理历经了三个阶段,分别是人事管理阶段、单向人力资源管理阶段和战略人力资源管理阶段。

Miss陈:其实不同管理阶段对数据分析的需求不同,人力资源管理发展的三个阶段分别对应了三个层次的数据分析需求,具体来说有以下三点。(1)人事管理阶段:这个阶段需要对基本数据进行整理、统计,比如计算薪酬、记录考勤、统计加班信息、分类统计人员信息、编制薪资报表等,基本上就是对原始数据进行普通预算,这属于数据粗加工。(2)单向人力资源管理阶段:这个阶段在对数据粗加工的基础上,需要统计更为复杂的指标,用于分析和反映人力资源管理的水平,诊断管理的健康程度。这些指标涉及人力资源各个模块,比如招聘成功率、员工流动率、培训百分比、工作负荷率、企业年轻化程度、劳动生产率,等等。经过几十年的发展,人们总结了不少指标,从类别上划分,大致可以分为人力资源效率指标、人力资源发展指标、人力资源描述指标、人力资源健康指标四类,还形成了人力资源统计学、人力资源会计学等学科。这个阶段开始对数据进行精加工,主要是研究和提炼管理指标,通过计算各种指标来进行数据分析。(3)战略人力资源管理阶段:这个阶段将人力资源效能与公司发展战略结合起来,形成人力资源发展战略,进入战略管理阶段。这个阶段需要分析人力资本的投入和回报、人力资源在企业的影响力、人力资源如何促进公司战略目标的实现等更高层次的命题。这个层次需要更为复杂的统计指标和分析技术,在分析指标上重点研究人力资本在企业中发挥的作用,并能够根据需要建立管理分析模型,在分析技术上需要采用更为高级的概率统计分析方法。

老梁:原来不同的发展阶段对人力资源数据分析的需求是不同的,看来我对数据分析的理解还不够啊!

Miss陈:所以我们也要与时俱进,结合当前人力资源管理的发展趋势,加强对数据分析知识、技能、工具的学习,提高数据分析水平,将数据分析的知识和技术应用到人力资源管理实践中去,提升我们的管理水平,促进公司战略目标的实现。

老梁:经理,您说得对,不过关于数据分析对人力资源管理工作的必要性,您能讲得再详细点吗?咱也想加深对数据分析的认识和理解。

Miss陈:好的,下面我就详细讲一下人力资源数据分析的意义。1.1.1 数据分析是人力资源管理发展的趋势

Miss陈:老梁,请问你现在的工作可以不用电脑吗?

老梁:经理,根本离不开电脑啊。不仅是我,几乎每个部门每个员工的工作都离不开电脑。上个月初公司停了一天电,结果各个部门的工作都停滞了,台式电脑开不了机,内部服务器瘫痪,笔记本电脑即使能用也打不开OA(办公自动化)。于是大家休息了一天,啥工作都没干成。

Miss陈:这说明我们的工作对电脑的依赖性很强,超过了以往任何时候。我们已经习惯了通过办公软件和各种管理系统来开展工作。比如,在人力资源管理方面,我们就启用了若干信息化系统来辅助管理,包括员工档案管理系统、培训管理系统、在线培训系统、员工素质测评系统、绩效考核系统等。我们对这些管理系统产生了依赖性,而这种依赖性实际上也成为了当前人力资源管理的特征,照目前的趋势来看,这些管理系统还会逐步向移动终端发展。

计算机管理系统每天都会产生大量数据,如何充分利用这些数据来提升人力资源管理水平,已成为人力资源管理的重要课题。这些数据就像是原材料,我们现在只是进行了粗加工,实际上可以进行精加工,可以更加有效地利用这些数据来为我们所用,给我们提供更有价值的信息。

现代计算机技术的发展、大数据技术的发展、数据挖掘技术的发展,以及数据分析工具的普及,都为高级数据分析技术在人力资源管理领域的应用提供了良好的土壤,也对人力资源管理工作提出了更高的要求。那些看上去复杂、神秘的数据分析技术和昂贵的数据分析软件曾经阻碍了数据分析技术在管理领域的广泛应用,但是现在形势已经发生变化,数据分析的技术和工具不再是高高在上遥不可攀。现代人力资源管理领域应在实际工作中充分利用这些技术和工具,创新管理手段,提升管理水平。所以,可以说数据分析是人力资源管理发展的趋势。1.1.2 数据分析体现人力资源从业人员的技术刚性

老梁:经理,要达到您说的更高层次的数据分析水平,可能需要学习很多计算机和统计学知识,我担心这会阻碍人力资源管理人员去应用数据分析技术。

Miss陈:对人力资源管理人员来说,要额外学习计算机和统计学知识确实有难度,但对于这些知识其实只需要学习基础内容就可以了,而基础内容的难度并不大。比如学习R语言,只需要掌握语法和数据结构等基础知识,就可以开始应用了。R基本上是采用函数编程,很多算法模型往往就是那几个函数,设置一下参数就可以建模。用了之后你会发现和Excel的函数用法差不多,上手应该会比较快。统计学方面的学习也不用去研究算法原理,可以把算法当作黑匣子,只需要学习算法的输入、输出和适用条件等基础内容就足够了,这样其实比较简单。

老梁:学习基础知识恐怕也要花不少时间呢!

Miss陈:学习当然需要付出时间和精力,不过一旦迈入数据分析的世界,你会发现人力资源管理迈上了一个新的层次,人力资源的管理水平和技术水平将显著提高,人力资源管理人员的技术刚性也将显著提高。到时你就会明白这种付出是非常值得的。

老梁:经理,您说的技术刚性是什么意思?

Miss陈:刚性本来指物理属性,是物体承受外来压力但性质不发生改变的属性。这里说的技术刚性,指技术能力达到一定高度而不受外部变化影响的能力,也就是说技术能力达到了某种境界而表现出不可替代性。

老梁:明白了,您的意思是数据分析能够提高人力资源管理人员的技术能力,提高人力资源管理岗位的不可替代性。

Miss陈:是的。你在公司时间也不短了吧,应该看到这几年常有人员调到人力资源管理岗位工作,这些人员的专业出身五花八门,市场、财务、经营管理、综合、技术的都有,给人的感觉是什么人都能搞人力资源管理工作,这是什么原因造成的呢?

老梁:咱人力资源管理的工作给别人的感觉是技术门槛低,谁都可以来做。这和财务工作的对比最明显,不懂财务知识根本没法开展工作,但不懂人力资源管理知识也可以开展工作。

Miss陈:这就是人们对人力资源管理的刻板印象,认为人力资源管理专业门槛低,入门容易,人人都可以做。但实际上我们都知道,人力资源管理涉及的知识范围非常广,能力要求也非常高。你看咱部门的本科、研究生占比,是全公司所有部门中最高的,这在某种程度上也说明了人力资源管理对人的能力要求很高。

要改变人们的刻板印象是相当难的,数据分析恰好可以成为改变印象的重要元素。这是因为数据分析代表了较高的知识和技术含量,具备技术刚性,一旦将人力资源管理与数据分析技术结合起来,某种程度上也提高了人力资源管理本身的技术刚性。

老梁:嗯,明白了,看来学习数据分析对人力资源管理人员来说是非常必要的。1.1.3 数据分析能够为人力资源管理者提供强有力的决策支持

Miss陈:当然,人力资源的数据分析最重要的作用还是给企业管理层提供决策依据。

老梁:就是说将分析结果提供给公司领导去做决策吗?

Miss陈:是的,这点非常重要。如果数据分析只用于人力资源管理本身,只用于提高人力资源管理的水平,则显得狭隘了。若数据分析能给管理层提供有用的信息,能够影响和帮助公司做出正确的经营决策,才真正体现了数据分析的价值。

比如,我们分析各个分公司的人力资源管理效能,分析分公司在人力资源管理投入和产出上的差异,再结合行业对标数据,对下一年的人员配置、工资分配提出相应的优化方案,将分析和方案提供给管理层,那么管理层就可以根据这些信息决定是否调整公司的经营指标和预算,更合理地给分公司下达经营任务等。这其中数据分析的内容就成为了重要的决策依据。

老梁:嗯,如果能引起管理层的重视,能够给管理层提供有效的信息,那也不枉咱们花时间去学习这些知识啊。1.1.4 数据分析是人力资源管理的刚性需求

老梁:其实咱们天天都在接触数据,基本上各种总结、报告都会用到数据分析,虽然目前数据分析的层次还有待提高,但感觉数据分析已经是工作的一部分了。

Miss陈:的确是这样,实际上我们的工作根本离不开数据。人力资源管理六大模块中,人力资源规划、招聘与配置、培训与开发、绩效管理、薪酬福利管理等模块都要以数据为基础,这些模块每天都会产生大量数据,加上各种管理系统及其存储的数据,可以说人力资源管理人员就是围绕数据在干活。

老梁:是啊,我们跟您汇报工作时如果没有数据来支撑内容,都不好意思拿出手,没有数据分析的报告也没有多少说服力。您看每个季度公司的经营分析会,都有人力资源分析,其中包含大量的数据分析,如人工成本、工资总额、人员流动情况等,都需要用数据来说话。

Miss陈:所以进行数据分析并且不断提升数据分析水平是人力资源管理的刚性需求,是我们必须要做的工作。1.2人力资源数据分析有什么特点1.2.1 数据分散性

Miss陈:不过咱们人力资源管理用到的数据,可不是轻易就能得到的。

老梁:啊?!咱们的数据不都是现成的吗,您看像薪酬、培训、绩效这些数据都在人力资源管理系统中,要什么数据都可以导出来,应该说还是比较容易得到的吧。

Miss陈:这些数据自然可以轻松得到,因为这是我们的业务数据,但是进行人力资源的数据分析需要的不只是这些数据。比如,我们要做人力资源效能分析,就需要公司经营方面的数据,才能计算劳动生产率、人工成本创利、人工成本创收等指标;如果要做薪酬公平性分析,就需要了解外部行业薪酬数据;如果要进行人员流动性分析,就需要知道行业或岗位流动率对标数据。这些数据可不是那么轻松就能得到的,因为它们分散在各个地方。

老梁:噢,这么说来的确是这样。经营数据要到财务部、市场部去收集,外部数据要在网络上搜索,或者向咨询公司购买。这么说来人力资源分析所需要的数据是挺分散的。

Miss陈:不仅如此,即便是在咱们部门内部,数据也是分散的。例如,招聘时应聘者的素质测评分数得找小肖,人工成本、工资总额、工资使用进度等数据得找小姚,培训记录、绩效考核的数据得找小曾。虽然咱们有人力资源管理系统,但培训、招聘等系统是独立的,薪酬数据由于需要保密也只能由专人管理,所以我们部门内部的数据也是分散的。

老梁:是啊,每次做经验分析我都得找小肖、小姚、小曾拿数据,要花不少时间才能集齐数据。

Miss陈:人力资源数据分析的特点之一就是数据分散性。我们需要的数据都分散在相关人员、相关部门或者外部网络、机构中,在分析时需要花不少力气来收集、整理。特别是经营数据,涉及市场、财务等部门,这些部门可能会出于某些原因拒绝提供数据,所以数据收集的难度不小,即使收集了也不一定能获得理想的效果,给我们进行数据分析带来了一定的难度。1.2.2 数据相关性

Miss陈:人力资源数据分析的另一个特点是数据相关性。

老梁:相关性是不是指数据之间的关联性呢?

Miss陈:是的,这种相关性体现在业务数据内部相关、与经营数据相关、与外部数据相关等方面。

比如,人力资源的业务数据中,培训、薪酬、绩效数据都是基于员工关联的,是员工产生的数据,彼此是相互联系的。

人力资源数据也受到经营数据的影响,比如公司经营效益好时,员工薪酬会上升,培训费用会增加,可能会多招聘员工;而经营效益不好时,则员工薪酬、培训费用下降的可能性较大,还可能会裁员,这说明人力资源数据和经营数据是也是相关性的。

老梁:明白了,经理,我来说说外部数据的相关性吧。我想到一点,我们的薪酬水平、人工成本等数据和政府发布的社平工资、最低工资、工资指导线等外部数据是相关的,比如社平工资上升,那么员工的社保、公积金的基数就会调整,会直接影响到公司的人工成本,这点就体现了人力资源数据与外部数据之间的相关性。

Miss陈:说得很好。1.2.3 非标准化数据

Miss陈:人力资源数据分析还有个特点,这个特点会让我们特别头疼。

老梁:是什么特点呢?

Miss陈:人力资源数据缺乏统一表征,从统计指标、统计口径到计算公式都缺少统一的标准。这个特点和财务数据形成了鲜明对比。财务数据标准化程度相当高,比如常见的资产负债表、利润表、现金流量表这三张报表的统计指标、口径、计算公式都是有统一标准的,每家企业都按照相同标准来计算和分析。对比起来,人力资源的数据就显得寒碜了不少。

老梁:咱们的劳动生产率、人均创利、百元人工成本创利、百元人工成本创收等指标都是标准口径的数据啊。

Miss陈:不然。说起来人力资源统计指标挺多的,除了你说的这些,还有人工成本投入产出比、企业劳动分配率、人事费用率等,算下来也有百十来个指标,涉及人力资源的各个模块。但是这些指标并没有形成统一标准,其统计口径、计算方式在不同的企业或多或少有些差异。

首先是统计指标没有标准。比如,分析人工成本投入和产出,既可以用百元人工成本创利、百元人工成本创收,也可以用劳动分配律、人事费用率、人工成本占总成本费用比等指标,具体用哪些指标需要企业自己选择,所以不同企业可能有不同算法。

其次是统计口径没有标准。比如,最常见的劳动生产率,有些企业的统计口径是以与公司签订了劳动合同的员工来计算,有些企业则会将派遣员工合并计算,还有些企业可能会将外包业务的员工也统计进来。

老梁:咱们人力资源的数据确实存在这种问题,统计指标倒是多,但选用哪些指标,用什么口径来统计,每个企业的做法可能都不同,这的确是一个让人头疼的问题。1.3大数据和人力资源管理的关系1.3.1 人力资源数据是大数据吗

老梁:经理,现在不是已经进入大数据时代了吗,那么人力资源的数据分析属于大数据吗,能应用大数据的分析方法吗?

Miss陈:人力资源的数据还算不上大数据,至少在咱们公司还没达到这个量级。大数据的特点是数据量大,达到TB甚至PB级别。1TB的理论值等于1024GB,你想想咱们公司的人力资源数据有这么大的体量吗?大数据要用专门的工具来管理和分析,比如用Hadoop(分布式系统架构)来管理,而我们的数据更多是用Excel来管理,从这点上看我们公司的人力资源数据也不是大数据。

老梁:哦,看来咱们没跟上大数据的趋势啊!

Miss陈:虽然咱们的数据量级算不上大数据,但也可以跟上大数据的步伐,咱们做不到形似,但可以做到神似。1.3.2 大数据技术可以用在人力资源管理上吗

老梁:您不是说咱们的数据算不上大数据吗,那怎么能做到神似呢?

Miss陈:这和大数据的特点有关系,我们先来看看大数据的特点吧。大数据包括五个基本方面的内容。(1)数据挖掘算法:大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正是因为使用这些被全世界统计学家所公认的各种统计方法,才能深入数据内部,挖掘出数据的价值;也正是因为有这些数据挖掘的算法,才能更快速地处理大数据。如果一个算法要花上好几年才能得出结论,那大数据的价值也就无从说起了。(2)预测分析能力:大数据分析最重要的应用领域之一就是预测性分析,从大数据中挖掘出数据的特点,建立科学的模型,之后便可以通过模型带入新的数据,从而对可能发生的事情进行预测。(3)可视化分析:大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观地呈现大数据的特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。(4)数据质量和数据管理:大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实性和有价值。(5)语义引擎:大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词或其他输入语义,分析、判断用户需求,从而实现更好的用户体验和广告匹配。

明白了吗?数据挖掘算法、预测分析能力、可视化分析这三项其实是大数据的精髓,是反映数据价值的关键。通过数据挖掘、预测和呈现,才能充分发挥数据的价值。而这三项其实和数据的大小没有太大关系,即便是咱们公司的小数据,也可以进行数据挖掘、预测分析和可视化。

老梁:哦,这是用了大数据的思想。

Miss陈:是的。咱们再从技术上看一下吧,大数据用到的技术包括以下几个方面。(1)数据采集:将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。(2)数据存取:存取数据的工具包括关系数据库、NOSQL(泛指非关系型数据库)等。(3)基础架构:云存储、分布式文件存储等。(4)数据处理:通过自然语言处理让计算机“理解”自然语言。(5)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、Bootstrap技术,等等。(6)数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)。(7)模型预测:预测模型、机器学习、建模仿真。(8)结果呈现:云计算、标签云、关系图等。

以上大数据所用到的技术中,数据处理、统计分析、数据挖掘、模型预测、结果呈现都可以用在小数据上,也就是说可以用于人力资源数据分析中。

老梁:这么看来,虽然大数据的特点是数据量巨大,但是数据处理、统计分析、数据挖掘、模型预测、结果呈现等技术并不是大数据专用。明白了,咱们的确可以借鉴大数据的思想和技术,用于人力资源的数据分析,实际上还是赶上了大数据的潮流啊。

Miss陈:是的。1.4人力资源数据分析的难点1.4.1 取数难

Miss陈:人力资源的数据分析还存在一些难点,这些难点会对我们的数据分析工作造成障碍。

老梁:是什么难点呢?

Miss陈:首先是收集数据存在一定难度。之前说了人力资源数据具有分散性,这种分散性导致了收集数据存在困难。比如,我们进行人力资源效能分析的时候,需要收集公司的经营数据,包括合同量、工作量、收入、利润等数据,如果要做预测分析还需要历史经营数据,这需要向市场部和财务部取数,需要这两个部门的配合和支持,而且这些数据并不是现成的,需要花一些时间来统计,往往不能及时拿到,或不能拿到准确的数据。

老梁:还好,咱们公司的市场部和财务部挺配合咱们的工作,只要是出于工作原因,需要的数据基本都可以取到。当然有时候不能立即得到数据,因为有些数据他们也需要时间来统计,不过已经足够好了。

Miss陈:是的,我们公司还好。不过听说有一些企业的经营数据可不是那么容易获取的,这和部门之间的沟通、协作程度有关系,协作程度不高的部门取数是比较麻烦的事情。

再比如我们进行薪酬公平性分析时,需要取外部的薪酬数据来对标,而这类薪酬数据没有现成的,在互联网上也很难搜索到,即使搜索到了也不敢轻易使用,因为不能保证数据的真实性。所以,薪酬数据一般需要向咨询公司购买。比较麻烦的是不同咨询公司的薪酬数据也不一定相同,这是由咨询公司薪酬调查的方法、取样范围和区域不同等因素造成的。所以对于咨询公司出卖的薪酬数据,我们还需要明确数据的调查对象、调查范围和区域、调查方法等,以此才能决定是否能购买访该数据。

老梁:听上去的确比较麻烦。

Miss陈:此外,获取人力资源的历史数据也有一定难度。人力资源管理往往重视数据的时效性,对当期数据比较敏感,很多分析是基于当期或同比数据,对更早的历史数据往往忽视,以致保存不周。在需要历史数据的时候难以短时间内获得,经常东拼西凑地寻找,花费了不少时间。

老梁:历史数据很重要吗?

Miss陈:当然重要,数据挖掘中的很多算法都需要历史数据,比如回归分析,就需要大量的历史数据才能建立回归模型,进行分析和预测。

老梁:哦,真没意识到,看来咱们得定期整理历史数据,妥善保存,说不定哪天就能派上用场。1.4.2 缺技能

Miss陈:进行人力资源数据分析还有一个很大的障碍,就是人力资源管理人员本身的数据分析能力还不够高。

老梁:惭愧,俺也做了十多年人力资源管理工作,的确还不太会进行数据分析。不过也有客观原因,我在大学里没有学过数据分析,没有学过统计学,工作后也没有参加过相关培训,无从学起啊。

Miss陈:是的,这不是你一个人的问题,大多数人力资源管理人员都存在这个问题,正是这些客观原因造成了人力资源管理人员中掌握数据分析技能的人很少。随着计算机技术的发展,统计技术和工具的普及,以及大数据时代的到来,人力资源管理人员也要顺应当前发展趋势,主动学习和掌握一定的数据分析知识和技能,并将其应用到人力资源管理的实践中来,创造出人力资源管理领域的新天地,提升人力资源管理的水平,帮助企业更好地运作,实现经营目标。

老梁:经理,我和同事们一定会加强数据分析知识、工具的学习,提升我们的数据分析水平,提升我们的人力资源管理水平。

Miss陈:好的,我们一起努力吧!第2章数据分析前的准备工作

导语:工欲善其事,必先利其器,选择合适的分析工具将让数据分析工作事半功倍。有了工具,还需要有材料,如何收集和清洗数据就显得至关重要,这也是整个数据分析过程中最消耗时间的工作。本章介绍各种数据分析工具,并通过对比分析重点介绍R语言这个数据分析的利器;然后介绍数据收集的工具和数据清洗的知识,这些都是进行数据分析前的准备工作。2.1如何选择数据分析工具2.1.1 常用的数据分析软件

老梁:经理,俗话说“工欲善其事,必先利其器”。我们人力资源管理人员该如何选择一款合适的数据分析软件呢?

Miss陈:数据分析的软件有很多,最常见的是我们熟悉的Excel,除此之外还有许多专业的统计软件,带数据统计模块的计算机编程语言,带数据分析函数的数据库,等等。这些工具在其相关领域或行业中的知名度都很高,被广泛地应用在科研、商业等环境,比较著名且常见的数据分析软件有R、SPSS、SAS、Matlab、Mathematica、Stata、Python、Eviews等,如图2-1所示。图2-1 常见的数据分析软件

这些都是国内比较常见的数据分析软件。除了这些,其实还有很多数据分析软件,根据最新统计,数据分析软件有93款之多,涉及大数据、数据库、图表等方面,咱这里就不一一列举了。

老梁:您提到的这些软件,有些我听说过,比如SPSS、SAS,但很多都没听说过。经理,这些数据分析的软件有什么特点呢?

Miss陈:简单介绍一下刚刚提到的这些数据分析软件的特点吧。(1)R:全称是R language,即R语言。这是一种计算机语言,是专门用于统计分析、绘图的语言和操作环境。R是一个免费、源代码开放的、跨平台的软件,是一个用于统计计算和统计制图的优秀工具。其功能包括数据存储和处理系统、数组运算(其向量、矩阵运算方面的功能尤其强大)、完整连贯的统计分析、优秀的统计制图功能、简便而强大的编程语言(可操纵数据的输入和输出),可实现分支、循环,用户可自定义功能。从某种角度来说,R语言的统计功能是所有统计软件中最强大的,因为除了传统的统计算法之外,目前最新的统计算法和研究技术都能在R语言中找到相关的函数包,几乎涵盖了人们在统计学领域的所有知识成果,而且算法更新速度极快,这点让商业领域的明星软件SAS和SPSS都望尘莫及。(2)Excel:Microsoft Office System中的电子表格程序,是我们经常使用的办公软件之一,使用频率非常高。它可以完成表格输入、统计、分析等工作,可生成精美直观的表格、图表,是我们日常工作中处理各种表格的首选工具。随着Excel的升级,现在还可以使用它跟踪数据,生成数据分析模型,编写公式以对数据进行计算,以多种方式透视数据,并以各种具有专业外观的图表来显示数据。由于Excel也有统计模块,所以可以说Excel也是数据分析软件。(3)SPSS:全称Statistical Product and Service Solutions,即“统计产品与服务解决方案”,IBM公司的统计软件,可用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务。IBM还有基于SPSS的衍生软件SPSS Modeler,专门用于数据挖掘领域,提供了不少主流的数据挖掘算法(包括文本分析、实体分析、决策管理与优化)。SPSS在生物、医疗、心理学等科研领域用得较多。(4)SAS:全称Statistical Analysis System,即“统计分析系统”,是由美国NORTH CAROLINA州立大学于1966年开发的统计分析软件,总部位于美国北卡罗来纳州的凯瑞,是全球最大的私有软件公司。SAS系统在国际上已被誉为统计分析的标准软件,是全球商业智能和分析软件与服务领袖,全球50000多家企业都在通过SAS软件对数据进行深入挖掘,在各个领域得到广泛应用。另外,SAS可能是最贵的统计软件。(5)Matlab:Matrix laboratory的缩写,是一款由美国The MathWorks公司出品的商业数学软件,是一种用于算法开发、数据可视化、数据分析,以及数值计算的高级技术计算语言和交互式环境。Matlab还可以用来创建用户界面及与调用其他语言(包括C、C++和Fortran)编写的程序。Matlab主要用于数值运算,但利用为数众多的附加工具箱(Toolbox)它也适合不同领域的应用,例如控制系统设计与分析、图像处理、信号处理与通信、金融建模和分析等。另外还有一个配套软件包Simulink,提供了一个可视化开发环境,常用于系统模拟、动态/嵌入式系统开发等方面。数学专业的同学们基本上都会学习这个软件。(6)Mathematica:由美国科学家斯蒂芬·沃尔夫勒姆领导的沃尔夫勒姆研究公司(位于美国伊利诺伊州香槟市)开发的一款被广泛使用的计算软件。它拥有强大的数值计算和符号运算能力,是目前为止使用最广泛的数学软件之一。软件名字“Mathematica”还是由苹果创办人乔布斯向沃尔夫勒姆公司创立者提议命名的。Mathematica和Matlab都是数学领域的主流软件。(7)Stata:数据分析、数据管理以及绘制专业图表的整合性统计软件。Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归,负二项回归及广义的负二项回归,随机效应模型等。(8)Python:一种面向对象、解释型的计算机程序设计语言,与C++、Pascal等计算机编程语言类似。它的主要特点是语法简洁而清晰、具有丰富和强大的类库、免费且开源、代码可移植性强,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。Python有专门的数据分析库,比如数据分析三件套Matplotlib、Nunpy、Scipy,可以进行科学运算、数据分析和统计绘图。(9)Eviews:Econometrics Views的缩写,通常称为计量经济学软件包。软件本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“观察”,也是专门从事数据分析、回归分析和预测的工具。使用Eviews可以迅速地从数据中寻找出统计关系,并用得到的关系去预测数据的未来值,其应用范围包括科学实验数据分析与评估、金融分析、宏观经济预测、仿真、销售预测和成本分析等。2.1.2 选择数据分析工具的策略

老梁:经理,这么多数据分析软件让我眼花缭乱啊,好像个个都不错呢,该如何选择呢?

Miss陈:不同的使用者应该考虑不同的选择策略,根据实际需求来选择合适的数据分析工具。我们是人力资源管理从业人员,那么就先分析一下我们在数据分析方面的需求和特点吧。(1)人力资源需要分析的数据量级不大,远未达到大数据量级。大数据是指数据的体量很大,达到或超过1TB规模的数据,显然人力资源的数据没有达到这个级别,只是小数据。(2)人力资源需要分析的数据种类较多,涉及人力资源管理的各个模块。比如招聘、培训、绩效、薪酬等管理模块都会产生数据。由于我们全面启用了人力资源管理系统,这些数据多数都存储在数据库中,格式比较规范,并且容易收集。(3)人力资源的数据统计方法相对比较基础和传统,一般用计数、汇总、百分比、平均数等方法,从不同维度进行统计,通过同比、环比、横向对比、对标等方式进行分析。(4)人力资源管理的从业人员在数据分析方面所知所学不多,很多人在工作后才学习使用各种软件并接触数据分析。

老梁:经理,您说得对啊。

Miss陈:所以,作为人力资源管理从业人员在选择数据分析软件的时候,应该根据我们的需求特点,从功能性、易用性、经济性三个维度,去衡量如何选择合适的数据分析软件。

老梁:您是说应该选择功能强大、简单易学并且成本又不会太高的分析软件?

Miss陈:是的,其实就是选择性价比。在Excel、R、SPSS、SAS、Matlab、Mathematica、Stata、Python、Eviews等软件中选择的话,那么Excel在易用性方面比较突出,也有一定的统计分析功能,可以作为初、中级用户的选择;R在功能性、经济性方面比较突出,可以作为中、高级用户的选择,如图2-2所示。

老梁:经理,您前面提到Python也是免费的,从功能性、易用性、经济性三个维度来看也有优势,为什么不选它呢?

Miss陈:Python虽然简单、强大、标准、免费,但它是一门计算机编程语言,它能做的事情太多,而数据分析只是它众多功能模块中的一个小模块,不是其专长,我认为Python更适合计算机编程专业人士使用。相对而言,R虽然也是一门编程语言,但R是专门用于数据分析的语言,其所有的功能都为数据分析而设计。所谓术业有专攻,在数据分析领域,R语言更具优势,更适合我们去使用。图2-2 不同级别用户数据分析工具的选择2.1.3 关于Excel

老梁:经理,既然Excel在功能性和易用性上有优势,那么我们是不是用Excel进行数据分析就可以了啊?毕竟我们对Excel的熟悉程度高,上手容易,学习成本也较低。

Miss陈:很遗憾,Excel不能完全满足我们的分析需求。不过既然提到Excel,那么我们就谈一谈它,因为对绝大多数人力资源管理人员来说,Excel几乎是数据统计分析的唯一选择,日常工作中的数据分析基本都靠Excel来完成。

老梁:是啊,我们每天都在用Excel进行数据统计和报表制作。

Miss陈:所以Excel是我们最常使用的办公软件之一,使用频率非常高,甚至可以说是office办公软件中使用频率最高的软件。而且不仅是咱们人力资源部,公司的各个部门都会用到它,比如市场部做经营分析、财务部做财务分析等,都会使用Excel。

从功能上来讲,Excel可完成表格输入、统计、分析等工作,可生成精美直观的表格、图表,是我们日常工作中处理各式各样表格的优秀工具。并且随着Excel的升级,新的版本还可以跟踪数据,生成数据分析模型,编写公式以对数据进行计算,以多种方式透视数据,以各种具有专业外观的图表来显示数据,数据还可以存储到云中保存。

在数据分析方面,Excel提供了一套分析工具库和用于数据分析的VBA函数库,可以比较方便地进行一些高级的统计分析,比如常见的回归分析、t检验、F检验、方差分析、计算相关系数等,都可以在Excel的数据分析库中找到,如图2-3所示。但是Excel提供的这些数据功能相比专业的统计分析软件来说,具有种类不多、计算结果简单、图形粗糙等缺点,不过据说用Excel提供的VBA函数也能实现很多数据分析算法,但需要编写大量代码,会很耗时间。图2-3 Excel中的数据分析工具

老梁:经理,虽然如此,但关键是别的软件咱也不会啊,Excel的功能如此强大,又容易上手,所以自然就想到Excel了。您说Excel还可以进行回归分析之类的统计分析,感觉很不错呢。

Miss陈:是的,Excel老少咸宜。打个比方,Excel就像一把菜刀,人人都可以用来切菜,但是不同的人有不同的用法,会产生不同的效果。普通的人仅仅用来切菜,厉害的人可以用菜刀杀猪宰羊,各样操作游刃有余。类似的,Excel用到高深之处,一切和数据相关的工作都可以胜任,甚至还可以用它来编写游戏。

老梁:看来我的Excel运用还处于初级阶段,只会用来进行简单的数据统计和做报表,从来没碰过数据分析工具、VBA这些东西,哈哈。

Miss陈:虽然Excel有许多优点,但也有不足的地方。(1)Excel的高级数据分析功能比较简单。虽然Excel提供了分析工具库,但功能却比较简单。比如回归分析,若要进一步进行自变量多重共线性的检验,就做不了,也不能做逻辑回归分析。Excel提供的分析算法也不多,诸如分类、降维、非参数检验等算法都没有,更别说当前大数据时代流行的机器学习算法。虽然有Excel的VBA可以编写代码,但难度是非常大的。(2)Excel的绘图功能还不够强。大家可能都对Excel默认的图表功能抱怨过,特别是2003年版及以前的版本,实在缺乏美感。虽然新版本的Excel图表好看了很多,还加入了应用商店,可以绘制一些流行的图形,但我认为Excel的绘图还是不够强大,绘制复杂图形时需要进行烦琐的设置,并且绘制多张复杂图表时操作显得更加烦琐。Excel的绘图功能跟它的统计功能类似,基本的功能都有,很容易就可以绘制基本图形,但是复杂图形就需要研究很久、设置很多参数。(3)Excel是微软Office办公套件的一部分,价格不菲。虽然家庭版、学生版比较便宜,但很多功能都被阉割了。比如Power View功能在家庭版和学生版上就找不到,必须得用专业版,可是专业版的价格就很高。现在微软的收费方式又有变化,采取月费或年费的方式,每年都得花钱,算起来开支不小。单就软件收费而说无可厚非,但成本费用一定是影响我们选择软件的重要因素。

老梁:是啊,咱们公司当年买Office办公软件可花了不少钱,不过随着时间推移,以前的版本都过时了,还没升级呢。看别人新版本的Excel界面很酷,功能很多,可惜咱们没得用啊。如果要用得花不少钱呢,大家都在等着公司升级Office版本,可是不知道啥时候才会升级到新版本。

Miss陈:呵呵,公司如果升级Office,那将会是一笔不菲的开支。现在版本的Office还能用,而且也不影响公司正常的经营生产,升级的必要性不大,所以公司多半会继续使用现在的版本。2.1.4 关于R语言1.R语言的江湖地位

老梁:经理,俗话说,天下没有免费的午餐,像R语言这样免费的数据分析软件会不会有缺陷,如功能不全、性能不强,又或者有某些功能要收费呢?

Miss陈:人们对免费的东西持有怀疑态度是一种常见的思维定式,就像超市里面免费品尝的东西实际上是在引诱你买货架上的产品,培训机构请你免费听课无非是进行广告宣传吸引你去参加收费的培训,旅游公司的免费旅游实际上会让你在购物点度过大部分时间。

但是在互联网领域、科学界,分享是一种价值观。在这种价值观的引导下诞生了一些高质量的免费软件,R语言就是其中的佼佼者。R语言是上帝给我们的珍贵礼物,你可以用R语言做一切数据统计分析方面的事情,尽情享用几百年来人类在数据统计方面的研究成果,各种算法应有尽有。最新的统计方法发表出来后通常会在R语言中率先实现应用,这让其他所有统计软件黯然失色。R语言在数据分析、数据挖掘领域的功能之强大,胜过前面提到的任何一款统计软件,并且使用这一软件不需要花一分钱。

国外著名的数据分析和挖掘社区KDnuggets每年都会做一次关于数据分析、大数据、数据挖掘、数据科学使用软件工具的调查,根据2015年的调查结果,R语言在参与评选的93款相关软件中排名第一,使用率达到了46.9%,江湖老大的地位俨然确立。排名前10的数据分析软件如图2-4所示。图2-4 排名前10的数据分析软件(KDnuggets,2015)

老梁:真没想到,一个名称看上去如此简单、普通的软件,在数据分析领域的地位竟如此之高。

Miss陈:其实R语言诞生得很早,之前一直在科研、专业领域传播和应用,随着大数据的流行才真正进入大众的视线。2.R语言的前世今生

老梁:经理,我很好奇R语言的来历。

Miss陈:那给你讲讲R语言的故事吧。

R语言源于S语言,S语言也是一种用于统计分析的计算机语言。S语言非常厉害,1998年美国计算机协会(ACM)给S语言的设计者发了一个奖:软件系统奖,用来表彰S语言取得的成就。这个奖很牛,因为得奖的都是系统级别的软件,比如Unix、TeX、TCP/IP、Word-Wide-Web、Java等,个个大有来头。在所有获得软件系统奖的软件中,S语言是唯一一个统计软件,可见其厉害之处。不过S语言是商业软件,跟SPSS、SAS一样,需要花钱购买。

1993年,新西兰奥克兰大学的两位统计学家,一位叫Ross Ihaka,另一位叫Robert Gentleman。他们两位志趣相投、心意相通,利用业余时间对S语言进行了改进,创造出了一种新的统计语言。由于两位统计学家的名字都是以R开头,这个新的统计语言也就顺理成章被命名为R。

当年这两位大牛将刚诞生不久的R语言放到了卡耐基·梅隆大学的计算机服务器上,供大家下载研究。这时用R语言的人极少,但也有不少人进行了下载研究,其中来自苏黎世理工学院的一位学者在用了R语言之后,大力劝说两位作者公开源代码,让R语言成为自由软件。两年后,即1995年,两位教授本着分享、协作的精神,将R语言源代码正式发布到自由软件协会的FTP服务器上,自此R语言正式以自由软件的身份面向全世界。

随后的20年,R语言充分体现了互联网时代国际化协作发展的特点:诞生于新西兰,邮件列表维护在瑞士,服务器架设在奥地利,Windows版本主程序维护在加拿大,附加包维护在德国,Mac OS版本维护在美国,全球近20个国家有镜像网站。核心开发团队有20人,成员来自世界各地的大学,如牛津大学、加拿大西安大略大学等,也有来自企业的成员,比如AT&T实验室的Simon Urbanek等。

就是这样一种组织、维护形式松散的计算机语言,依靠着志愿者坚持不懈的贡献,在不断发展和升级。现在世界各地大量的优秀统计学家、各个领域的统计学爱好者、计算机程序员都在为R语言贡献自己的力量,将大量统计方法以附加包(package)的形式发布出来,使其他不擅长编程的用户能以最快的速度用上最新的统计方法。

2012年,R语言可以下载的package达到3200个,用了17年;2015年,R语言可以下载的package翻倍达到6800个,仅用了3年。那些封闭源代码的商业统计软件很难有这样的发展速度,只能望尘莫及。R语言像滚雪球一样,依靠开源、分享、协作的方式,从开始不温不火,蓄积能量,到后来逐渐显示出威力,再到大数据时代彻底爆发,成就了R语言的今天。

老梁:大开眼界了,没想到还有这样的软件,它就是由跨国界、跨种族的精英共同创造的智慧结晶啊,不仅免费,还集全世界各领域

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载