企业经营数据分析-思路、方法、应用与工具(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-04 00:37:32

点击下载

作者:赵兴峰

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

企业经营数据分析-思路、方法、应用与工具

企业经营数据分析-思路、方法、应用与工具试读:

前言

随着大数据技术逐步在企业端应用,越来越多的企业在利用数据技术提升管理效率和决策的科学性。企业对数据分析人才的需求也越来越旺盛,对管理者的数据分析能力也提出了新的要求。但是目前关于各种企业经营数据分析的培训不多,图书也比较少,社会上的职业教育机构与大专院校虽然开始培养该方向的人才,但远远未能满足企业的需求。

笔者撰写本书的目的是为从事企业经营数据分析工作的人员以及企业中的高层管理者提供数据分析的思路和方法。这些思路和方法是笔者在长期工作中以及在为企业提供数据化管理咨询服务项目中总结和提炼出来的,并结合企业实际应用场景进行介绍,具有实用性和适用性。

本书具有以下3个特点。

●启发性

本书重点强调的是思路和方法,“授人以渔”的理念贯穿始终。举一个例子,波士顿(BCG)矩阵或者麦肯锡-GE矩阵是用来评价产品和业务以及规划业务线或者产品线的,它是一个工具,其背后就是矩阵的思维方法,即从两个维度对一类事物进行评价。通过这个分析方法,我们可以对产品、客户、区域市场、业务团队进行评价;在维度选择上,我们可以选择不同的衡量指标,例如规模指标、速度指标、效率指标、效益指标、竞争力综合指标等。本书介绍了大量类似的分析数据思路,这也是本书最大的特色之一。

●实用性

本书内容来自笔者长期从业经验的总结,所有内容都是从企业的实际应用出发,并且涵盖了多个行业,其中包括生产制造业、零售服务业、电商行业等,读者可以将其中的思路和方法轻松地应用到实践工作中。

●延展性

本书不是简单地演示一个案例的具体操作,也不是描述一个方法的细节,而是通过思路和方法的理论性总结,让读者学会数据分析的思路和方法,从而能够将一个场景下的分析方法延伸到更多的场景下。例如,基于人事矩阵的策略不仅能用在企业与客户纠纷处理中,还可以用在社会关系处理、家庭关系处理等场景下,这种延展性大大增加了本书的适用范围。

通过阅读本书,企业的管理者可以提升数据分析的能力,数据分析师可以开拓思路,提高解读数据的能力。另外,本书还可以作为企业内部的数据分析培训教材。作 者|第1篇|概述篇1企业中的大数据

什么是数据?什么是数据技术

数据分类

数据类型

数据结构和数据结构化

数据质量及其八个指标

数据处理与数据清洗1.1 什么是数据?什么是数据技术

现在人人都在谈大数据,也在谈数据化管理,很多人把这两个概念混淆在一起,每个人对“大数据”和“数据化管理”的理解都不同。本书所说的企业中的大数据与现在大家都在谈的外部的“大数据”还是有区别的。外部的大数据包括互联网企业、电信企业以及各种富数据行业所公布的数据等,这些构成了企业外部环境的大数据;而本书所说的企业中的大数据则是企业经营和管理所需要的资源以及记录资源活动的数据。为了区分这两者,本书把企业记录经营管理活动所形成的数据称作“企业大数据”,以此来区别于人们常说的外部的“大数据”。

1.1.1 什么是数据

什么是数据?每个人对数据的定义都是不同的。笔者曾经在一个公开课上提过一个问题:什么是数据?你是如何理解数据的?笔者发现300个人中至少有30种不同的理解。有人说数据就是数字;有人说数据就是信息;有人说数据就是财务数据;有人说数据就是报表;有人说数据就是类似GDP和CPI那样的数字指标;有人说数据就是互联网上大家购物所形成的交易数据;有人说数据就是社交信息;有人说数据就是微博中大家的看法和观点……他们说的都对,因为这些都是数据,但这样的定义都不是完整的。为了统一,在开始讲解数据分析方法之前,我们需要对数据做出一个明确的定义,以便让大家在阅读本书时有一个共同的认知基础。

从字面意义上理解,“数据”由“数”和“据”组成。“数”指的是数值、数字、数字化的信息,或者以数值的形式存储的信息;而“据”则指的是“证据”或者“依据”。简单地从字面意义上来理解“数据”的定义就是:数字化的证据和依据,是事物存在和发展状态或者过程的数字化记录,是事物发生和发展留存下来的证据。如果说我们拿到了一份数据,这就意味着我们不仅仅拿到数值,还要理解这个数据。如果无法解读所获得数据的含义,那么只能称之为“数”,而不是“数据”。

例如,175cm是数值,而不是数据(见下图)。而如果说“小明的身高是175cm”,那么175cm就是数据。但是这个说法还是有所欠缺的,因为人的身高是不断变化的,为了精确时间,我们需要将以上例子表述为:“小明在某年某月某日某时的身高是175cm”,或者说“小明在其18岁生日时测量的身高是175cm”。因为既然是证据,那么就要有事物状态的“时间戳”,没有时间戳,这个数据就会变得没有“证据”性。

从严格的定义角度讲,“数据是我们对客观事物及其发生、发展的数字化的记录”。通过这个记录,我们可以还原事物在该数据记录时的状态和发生的活动,因此我们能够通过数据去追溯当时的情景。

数据所能够记录的信息越全面,我们对过去发生的状况就会越清楚。文字的记录有其局限性,图片和声音的记录让事物在某时的状态所留存的信息量更多,能够为我们研究事物发生和发展规律提供更多的“证据”。因此,人们力图用更复杂的方法或者方式去记录数据,以留存更多的信息。就像我们发明了录音机、照相机和录像机,从而能够记录更多的信息。

如今,我们能够记录的信息越来越多,不仅仅是数值、文字、声音、图片和影像,未来记录信息的方式还会有更多的创新以及更多的变化(见下图)。当然,在这个过程中形成全球标准是需要时间的。例如,对于声音,我们有MP3等各种编码方式;对于图片,我们有BMP、JPG、GIF等各种编码方式;对于视频,我们有AVI、MP4、FLV等多种标准化的编码方式。在Web 1.0时代,我们常说“无图无真相”,而现在我们更加相信当时的“录像”,如今照相和摄像功能成了智能手机的标配,更多的视频网站发展起来,我们的活动被各种方式记录下来了。

随着科学技术的发展,数据概念的内涵也会不断发展,并继续演变。例如,当全息影像发展起来之后,人们的每个数据都会像“纪录片”一样被记录下来,数据的概念会进一步得到延展。本书中所使用的数据这个词的含义,就目前来讲,是一个相对比较广泛的含义,包括了数值、文字、声音、图像、视频等,只要是用数据化的方式记录下来的事物的发生和发展状态我们都叫作数据,不管其载体为何。

1.1.2 数据的依据性质比证据性质更重要

在远古时代没有文字记载,我们只能靠代代相传的故事和诗歌来推测历史;或者通过化石来研究过去到底存在什么和发生了什么。当有了文字记载之后,就有了更多的证据去推测和研究历史,从而对历史就了解得更加清楚了。

当有了历史数据后,科学家、历史学家就可以利用这些数据来研究历史,总结事物发生和发展的规律,用来指导我们的社会实践,这是人类科学进步的基本动力源泉。企业留存数据也是一样的道理,企业要把历史数据积累沉淀,然后不断分析和总结企业的发展轨迹和路径,研究过去的得失,不再重复同样的错误,固化最优秀的做法;通过对发展规律的探索,可以指导企业的经营和管理决策,让企业的经营决策更加符合市场的需求。

企业留存和积累的数据越多就越有价值。这些数据一方面可以当作证据,另一方面也可以用来研究规律,成为企业预测未来市场、形成商业洞察的依据。这里的证据和依据的含义差不多,证据强调的是过去,依据强调的是未来。很多企业在经营和管理过程中记录了大量的数据,而这些数据仅仅被企业用来当作一种证据,包括同客户签署的合同、财务记录的交易流水单、员工的上下班打卡记录等。证据只有在产生纠纷和产生疑问的时候才有价值。而依据则不同,如果企业能够充分利用数据、分析数据、挖掘数据背后的规律,找寻事物之间发生和发展的逻辑关系并能够指导企业未来的经营和管理活动,那么这些数据就成了依据。数据的“依据”价值远远大于“证据”的价值。

1.1.3 四大类技术推动数据技术(DT)时代发展

四大类技术的相互作用带我们进入了大数据时代。这四种技术包括:数据采集技术、数据存储技术、数据传输技术以及数据处理和数据挖掘技术。(1)数据采集技术

数据采集是指采集在事物发生和发展的过程中留存的数据。在过去20年中,数据采集技术获得了快速的发展,而更加重要的是,智能化、自动化的数据采集设备逐步普及。现在的数据采集终端越来越智能化和平民化,普及率也越来越高,一部普通的智能手机里就有将近20个智能数据采集元件。(2)数据存储技术

20年前,我们最常使用的数据存储设备是磁带机、软盘等,一台计算机能够存储几十MB的内容就算是非常先进的了。而现在,一个普通的容量为1TB的计算机硬盘,价格还不足500元人民币;一部普通的有着十多个智能采集终端的低端智能手机,在20年前看来都是具有“海量数据”的存储能力。按照数据存储界的“新摩尔定律”,每隔18个月,人类存储的信息量就会翻一番,而数据存储设备的价格会降低50%。(3)数据传输技术[1]

互联网诞生还不足50年,却彻底改变了人类的生活方式以及企业的运作模式,并促生了很多超级企业。互联网和移动互联网的快速发展让带宽不断增加、成本不断下降、网络不断发达。(4)数据处理和数据挖掘技术

随着数据量的不断增长,数据处理技术和数据分析与挖掘技术也在不断提升。在这些技术中可圈可点的包括分布式存储技术,如Hadoop;在微博兴起之后的非结构化数据处理技术;随着传输能力的提高得到快速应用的云存储技术等。

在12306网站刚刚上线时,因为购票人数太多,造成大量的访问请求无法及时处理,给服务器带来巨大的压力,网站一度瘫痪。后来经过同阿里巴巴合作,12306网站通过分布式算法,提高了响应请求的速度,虽然消费者需要不断刷新以获取新票源,但其有效地解决了高并发请求和响应的问题,这也是数据处理技术升级的一个案例。在“双十一”期间,淘宝能够在1秒内应付上亿次的数据查询和订单处理;亚马逊的AWS系统同时连接着200万台以上的服务器,这些技术的发展,为我们挖掘和使用巨量的数据提供了基础条件。

当然,现在的数据分析和数据挖掘技术相比数据量级的快速升级还相对滞后,虽然我们现在在数字数据和文本数据处理上有了较大的进步,但我们在声音的识别与查询,图片的识别与处理,视频资料的自动查询、处理和分析上还有很大的空白区域,仍然需要深度的技术开发或者探索。对于图片、视频、音频的搜索,仍然需要通过文字标签的形式来处理;而从图片中自动识别内容的相关技术,如车牌识别技术、人像识别技术等,才刚刚起步,离我们可以深度利用还有很长的一段路要走。

以上四大类技术在快速发展着,也在快速普及着,并且技术成本还在不断下降。数据自动采集已不再是大企业的专利,就连一个普通居民小区门口的停车管理系统都能自动识别车牌号并自动计费,而其安装成本不足万元;一家大型的商场耗资不足10万元就能够安装整套的Wi-Fi监控设备,从而可以随时随地地观测商场里持有智能手机的顾客的行动轨迹和行为模式,为商场优化布局、精细化管理,为商户选址和制定促销策略提供依据。在企业管理中,特别是在生产制造型企业中,对物料的追溯越来越便捷,有更多的智能终端技术可以采用,包括条形码、二维码、图像识别、监控录像、智能芯片等。

技术在革新,时代在变迁,在智能信息时代,人们的生活逐渐在“数据化”,而企业的运营管理活动也在被“数据化”。分析和挖掘数据是企业的管理者必须要掌握的基本技能,要充分利用数据掌控各种内部或外部信息,提高个人的影响力和控制力,从而为企业创造更大的价值。“信息即权力”,掌握信息越多的人,就会拥有更多的话语权。而信息来自对数据的加工,如果不能从数据中提取信息用于管理决策,那么采集的数据只会成为企业的成本;如果能够充分发挥数据的力量,在数据中挖掘价值,那么数据就会成为企业的资产。1.2 数据分类

1.2.1 分类是认知事物的基本方法,也是数据分析的基本方法

分类是人类认知事物的基本方法,人们通过对事物进行分类,能够根据每个类的特征,快速识别每个具体事物。我们通过对事物进行分类,可以辨别哪些是有益的,哪些是有害的;哪些可以加以利用;哪些需要规避。分类之后,根据类别进行深度研究是科学研究的基础。分类也是数据分析的基本方法之一。

1.2.2 分类需要有标准

为了更好地认识数据、掌控数据、利用数据,我们需要对数据进行分类研究。在分类之前首先要有分类标准。分类标准其实是我们认识事物的角度,看待问题的视角。如果把人分为男人和女人,则我们的分类标准是性别;如果把人分为成年人和未成年人,则我们的分类标准是年龄。

下面我们会从数据的存储方式、数据的来源、数据描述的主体、数据所描述事物的属性特征等角度对数据进行分类。

1.2.3 越是高级的存储方式,越方便、安全和高效

从存储方式的角度对数据进行分类,可分为手工统计在白纸表格上的数据、存储在计算机里电子表格中的数据、存储在管理信息系统或者ERP系统服务器上的数据,还有存储在云端数据库的数据。如今电子化的数据存储方式越来越普及,成本也越来越低,并且越高级的存储格式,越方便、越安全、越高效。各种存储格式的级别如下图所示。

1.2.4 越高级的存储格式保存的信息越丰富

从数据的存储格式角度看,数据可分为数值型(含日期型)、文本型(包括字符型、短文本、长文本等)、视频型(包括图片型、音频型、视频型等格式)等。越高级的存储格式保存的信息越丰富,未来可能会有更多的数据存储格式以全景地记录各种信息和数据。

随着数据存储设备和采集技术的发展,有越来越多的数据采用多媒体存储格式,而目前的数据处理技术还处在发展阶段,能够直接计算的数据往往是数值型、日期型(具有特殊意义的数值型)和字符型。文本型数据中的文本挖掘技术在近几年发展比较迅速,但受限于计算机对自然语言的解读能力,文本挖掘需要结合数据字典,即便如此,文本型数据处理技术还不足以达到数值型数据处理技术的精准度。

图像识别技术在近几年发展得非常快,普及也很迅速,但仍然局限于某些领域中,如头像识别技术、生物识别技术、车牌识别技术等。而大数据的图片信息挖掘技术已经起步,音频识别、视频识别技术也在发展之中,但是与数值型数据处理能力相比,这些技术还是比较初级的。

随着数据计算能力和数据处理技术的发展,各种存储格式的数据都得到了更好的利用,而从现在开始存储相关的数据,为以后的数据处理技术成熟后做准备,是值得投入的工作——如果企业有足够的经济实力。

1.2.5 静态数据表示结果,动态信息表示行为

另外一种对数据进行分类的方法是按照数据所描述的对象来分类。对对象本身进行描述的数据被称作静态数据,而对对象的活动进行描述的数据被称作动态数据。静态数据又叫截面数据,是指事物在某个时间节点上的状态。动态数据又叫时间序列数据,是对事物在不同时间节点的状态的记录,反映事物的动态变化性,或者在不同时间节点上的差异性。

把数据分成静态数据和动态数据,有利于梳理数据的源头。静态数据是对企业资源的描述性数据,相对比较静态,不会经常变化,一次采集之后,不断更新即可;动态数据用来描述企业的经营和管理活动,随着企业经营管理活动的推进,会形成不断叠加的记录,新的记录不能覆盖旧的记录,从而形成一个时间序列的数据集。

员工基本信息表就是一个静态数据集。静态是一个相对的概念,静态数据也并不是一成不变的。随着新员工的加入,员工基本信息表会不断增加数据,员工在企业内部工作时,除部分数据需要更新外,基本信息不会有太大的变化,例如姓名、员工编号、学历、籍贯、民族等。而员工的年龄和司龄就会有变化,但年龄是由一个人的生日决定的,而他的生日是不会变的,可以通过生日来计算一个人的年龄,让年龄自动更新;司龄也会变,但员工的入职日期一般是不会变的,可以根据员工的入职日期来计算司龄,这样员工的司龄数据就可以自动更新,不需要人为地每年更新一次。

企业的动态数据是一个时间序列上的数据集,记录着公司的经营管理活动,只要公司的经营管理活动每天都在发生,数据就会不断地记录着。例如销售订单表,这个数据集随着企业每销售出一个产品都会添加一条数据。

企业经营需要产生价值,价值往往是用静态数据之间的差异来衡量的,而动态数据记录着企业的资源转换行为。所有的结果都是由行为产生的,我们把数据分成静态数据和动态数据的主要目的就是方便研究行为和结果之间的关系,这是数据分析和挖掘最重要的目的。如果能够找到行为和结果之间的关系,那么我们就能够根据这个关系来指导企业的生产实践,从而有效地控制产出的结果。

1.2.6 加工数据是在原始数据解读基础上的提炼,强调追溯机制

从产生的源头对数据进行分类,可以分为原始数据和加工数据。我们从媒体上看到的数据往往是经过加工的数据,是对原始数据进行统计汇总后形成的数据指标。

原始数据的定义也有广义和狭义之分。广义的原始数据就是一手数据,即从数据责任主体处直接获取的数据。例如从企业中直接收集的数据、部门内部统计之后汇报的数据。这种广义的原始数据,有可能也是在数据源头采集之后经过加工处理、汇总统计得到的。

狭义的原始数据是指直接采集的数据,即直接通过手工记录、观察、设备自动采集、电子手段直接识别等形成的最原始的数据,在这个基础上经过统计、汇总之后的数据都是加工数据。例如,员工上下班打卡数据和指纹打卡机直接记录的数据都是原始数据。而人力资源考勤员把指纹打卡机中存储的数据导出之后,统计每个人在本月内正常上下班天数、迟到天数、早退天数,这些统计汇总后的数据从狭义定义上来说就是加工数据;而在广义的原始数据中,考勤员统计后的数据则叫原始数据。一般说的原始数据是指原始数据责任主体直接提供的数据,考勤员对考勤数据直接负责,所以其提供的数据就可以看作原始数据。

从数据分析的角度讲,纠结原始数据和加工数据到底哪种定义更准确是没有什么太大意义的。之所以要定义原始数据和加工数据,最根本的价值在于对数据质量的控制和对数据形成和传输过程的追溯。数据质量决定了数据分析结论的准确性,在数据分析的过程中,如果发现数据存在问题,或者对数据本身有疑问,则可以通过追溯数据产生的机制,追溯数据源头、数据传输的过程、数据处理过程和数据处理的方法,甚至追溯到数据采集的方式、数据采集人或者采集设备,从而找到问题的源头,解决数据的质量问题,以及保证后续数据的准确性。1.3 数据类型

数值型数据是我们经常处理的数据,也是数据处理技术相对比较成熟的领域。从数据所表述内容的角度对数值型数据进行分类,可以分成定类数据、定序数据、定距数据和定比数据,下面分别具体介绍。

1.3.1 定类数据

定类数据也称定性数据,用于标识数据所描述的主体对象的类别或者属性、名称,例如人的名字、事物的名称。定类数据只能用来标识事物,不能进行任何运算,包括比较运算。因为你无法比较一个苹果和一个李子哪个好,除非你能够提供额外的数据来证明谁好谁坏,例如提供了额外的体积数据或者重量数据,按照体积或者重量来比较是可以的,但是苹果和李子这两个数据本身是没有任何比较或者运算意义的。

又例如,将人口按性别划分为男性和女性两类,数量化后可分别用0和l表示;将企业按行业类别分为农林牧渔业、采矿业、教育类、制造业、建筑业、金融业等,可分别用1、2、3、4、5、6等表示。这些数字只是代号而无顺序和大小之分,不能区分大小或进行任何数学运算。

定类数据有各种类型,它们的排序是无关紧要的,即哪一类在前,哪一类在后对所研究的问题并无实质性的影响。而且,定类数据能够进行的唯一运算就是计数,即计算每一种数据类型的频数或频率(即比重)。

1.3.2 定序数据

定序数据也称序列数据,用于对事物所具有的属性顺序进行描述。定序数据虽然可以用数字或者序号来排列,但是并不代表量化的数据的大小,它只代表数据之间的比较关系。例如第一名、第二名、第三名等,这些只代表顺序,按照大小正序排列第一名肯定比第二名大,具体大多少是无法比较的。第一名和第二名相加也不会等于第三名。定序数据只可以用来比较,不能用来做加减乘除等运算,因为这些运算是没有任何意义的。

定序数据不仅具有定类数据的特点,可以将所有的数据按照互斥[2]和穷尽的原则(MECE原则)加以分类,而且还使各类型之间具有某种意义的等级差异,从而形成一种确定的排序。这种序列测定在社会经济管理工作中应用很广泛,例如,将企业按经营管理的水平和取得的效益划分为一级企业、二级企业等;将员工按所受正规教育划分为大学毕业、中学毕业、小学毕业等。这种排序是确定的,对所研究的问题有特定的意义。但是,它并不能具体测定各等级之间的间距大小,例如不能计算一级企业和二级企业有实质意义的量的差距,也不能计算服务质量与预想的之间的差距。

1.3.3 定距数据

定距数据也称间距数据,它比定序数据的描述功能更好一些。定距数据是指没有绝对零点的数据,例如温度,其零点是人为指定的。而且并不能说20摄氏度是10摄氏度的两倍,因为缺少绝对的零点温度,零度并不代表没有温度。

定距数据因为有了标准的距离差异度量,它不仅能将事物区分为不同类型并进行排序以及可以测定其间距大小,标明强弱程度,还可以做加法或者减法运算。我们可以说20摄氏度比10摄氏度高10摄氏度;30摄氏度比20摄氏度高10摄氏度,而这个温度差是一样的,也可以比较。

定序数据之间的差异缺少标准的度量尺度,因而无法比较,但定距数据是可以的,定距数据的差异值本身会成为定比数据,从而可以进行加减乘除运算。时间点是定距数据,没有绝对的零点,或者零点并不代表没有时间,但是时间差就是定比数据,可以进行加减乘除运算。如果时间差是零,则可以认为是没有时间差异。

1.3.4 定比数据

定比数据也称比率数据,用于描述事物的大小、多少、长短等,可以进行加减乘除运算。定比数据与定距数据的显著区别是:定比数据有一个自然确定的非任意的零点,即在数值序列中,零值是有实质意义的。

以上四类数据具有层级关系,高级的数据可以转换为低级的数据,反之则不成立。其转换关系如下图所示。

从数据所描述的现象上看,定类数据和定序数据是对事物属性的测量,而定距数据和定比数据是对事物定量的测量。1.4 数据结构和数据结构化

1.4.1 什么是数据结构

数据结构是我们存储、组织数据的方式,是数据内部的构成方法。数据结构是指数据元素之间存在着一种或多种关系,这种关系会因为数据主体、数据源头、数据处理方式、数据存储方式、数据组成要素之间的关系而形成数据之间的关系。数据结构包括三类,即数据的逻辑结构、数据的存储结构和数据的运算结构。

下面用一个实际案例来介绍什么是数据结构。一家公司的人力资源经理要收集员工的基本信息,于是他设计了一个员工信息登记表,如下表所示。员工信息登记表

为了便于存储和查找,人力资源经理设计了一个Excel数据表格来存放这些员工的基本信息。在分析这个数据表存在的问题之前,下面先介绍三个概念。

数据主体——就是被记录数据的事物,包括动态的事和静态的物。员工基本信息数据的主体是员工;工资表的数据主体是“发工资”这个行为或者动作,属于“事”的范畴。

数据表——记录一系列数据的集合。例如员工信息表记录着公司所有员工或部分员工的个人信息数据。

一条数据——就是该数据集中某个员工的所有信息,一个员工对应一条数据,多个员工对应多条数据。

字段——每条数据中对数据主体的属性描述,例如员工基本信息数据中的“姓名”是一个字段,“性别”是另外一个字段。

该公司的人力资源经理在制作Excel表格时发现这个数据表涉及的数据存在以下三个问题。

问题1:学历,有些人的学历不止一项,从小学、初中、高中、大学、硕士到博士有一系列不同的记录,而这里却无法有效地填写;于是他把学历部分做了扩充,设计了以下的表格形式。学历表格

人力资源经理认为留出7条记录的空间应该足够覆盖员工从小学到博士后的所有学历状况,即学历1(小学)、学历2(初中)、学历3(高中)、学历4(大学)、学历5(硕士)、学历6(博士)、学历7(博士后)。

然而在实际记录数据时,他又发现了两个问题。第一个问题是他碰到了一个“学霸”级的人物,本科修了两个专业,硕士修了两个专业,还读了一个在职MBA,此时数据表的记录空间不够用,如果单独为他加上一列,则对数据存储空间的影响还是很大的,而且数据表太宽也不利于阅读。

第二个问题是在记录数据时,有的人是从最高学历开始记录的,即大学记录在学历1中;有的人是从最低学历开始记录的,即小学记录在学历1中;有的人因为先上了专科,又读了本科,导致大学学历的记录位置不能统一。

问题2:学历的问题还好说,最多留出10条记录空间就能勉强解决这些难题,但工作经历就不同了。有的人换工作比较频繁,而有的人第一份工作就是现在的工作,没有其他的工作经历。而且岗位调动信息也有类似的问题,无法确定要留几条记录空间给岗位调动信息。

问题3:填写完员工的年龄后,到第二年每个人都需要加一岁,但是当年新记录的员工不能加1,这如何实现?司龄也有同样的问题。

最终人力资源经理制成的Excel数据表格非常不规范,这个表格存在的设计问题就是数据结构的问题,优化数据结构能够提高数据管理的效率,如果数据结构不合理,则未来会需要大量的时间进行数据处理、数据清洗,甚至对公司的信息系统资源也会造成浪费。优秀的数据结构设计人员(也叫数据库架构师)能够对公司的所有数据系统进行统筹架构,从而形成优化的数据库体系。

1.4.2 如何设计好的数据结构

数据结构是数据的组织形式,在组织数据之前,需要对数据进行分类。在对“员工”这个资源主体进行信息记录时,首先需要把数据分成静态数据和动态数据,因为静态数据是相对固定不变的,或者说变化不太频繁,而且变化之后,往往采用覆盖的方式;而动态数据则是持续增加的,并且增加时往往采用叠加的方式,并不覆盖原来的数据。我们可以把员工信息表中的数据分为静态数据和动态数据,如下表所示。静态数据动态数据入职信息(包括日期和岗位等信息,虽然在大多数情况下是一次性的,可以当作静态数据保留,但也可能存在姓名多次入职、离职后再入职的情况)学历信息(学历、学校、日期等)出生日期工作经历信息(单位、职位、日期等)性别岗位调整信息(日期、新岗位名称等)籍贯子女信息(二孩全面开放后,可能存在多次生育的情民族况)婚姻信息(多次婚姻变得越来越普遍)血型职级调整信息婚姻状态职序调整信息身份证号……(限于篇幅,不一一……(限于篇幅,不一一列举)列举)

原则上,一个好的数据结构,要么是描述静态信息的,要么是记录动态信息的,然后通过数据表之间的关联形成一个完整的相互关联的数据库。所以,我们可以将上例中的员工信息表进行拆分,将静态数据放在一张表中,形成员工的静态信息表;而对于员工的动态信息,可以将每个动态信息都设计成一个单独的表,然后用员工编号关联起来,如下图所示。

其中最高学历信息可以从员工学历记录表中查询得到,员工所属子公司和部门信息可以通过员工岗位异动表查询得到。这种数据结构关系被称作运算结构关系。员工的年龄和生日,员工的司龄和入职日期都是运算关系。

在上例中,员工所属子公司、所属部门、所在岗位这三者存在包含的关系,公司的组织架构决定了三者之间的逻辑关系,即层级树形结构关系。逻辑结构关系还有很多,例如两个数据之间可能存在集合关系、线性关系、树形结构关系、层级结构关系、图形结构关系等。

物理结构关系比较容易理解,即因为数据的采集、存储、传输和处理所产生的关系。

数据结构是非常重要的概念,因为数据结构是数据的组织方式,而数据组织方式不同,存储和处理数据的效率也会不同。

1.4.3 结构化数据和非结构化数据

1.结构化数据

结构化数据主要指在数据存储和数据处理过程中结构设计比较合理的数据。

例如MySQL开源数据库、Oracle数据库、DB2、Sybase、Access、SQL Server等都是结构化的数据库。结构化数据库要求数据的结构都是由行和列组成的,每一列都表述了数据所描述对象的要素、属性和行动,而每一行都代表一个数据库所描述的对象。例如员工基本信息数据库。为了简化说明,我们选取5个信息点(字段)来讲解结构化数据。一个员工可以用姓名、员工编号、性别、出生日期、血型这5个信息点(字段)来描述,如下表所示。

每一列表示对象的一个属性或者变量,用来区分对象之间的差异;每一行表示一个对象,不同行表示不同的对象。在上表中有一类对象:员工;对每个员工的描述有5个字段:姓名、员工编号、性别、出生日期和血型;表中共有两个对象:张三和李四,他们在不同的属性上有不同的值。

该表即为结构化数据,随着员工人数的增多,表的结构不会改变,但数据可以不断累加。员工只要入职填写了个人信息表,这些信息就会被登记到公司的员工基本信息数据库中。结构化数据库基本上就是由行和列组成的数据集,分别表示同类的不同对象的属性差异。

目前大多数数据库都是结构化数据,自从SQL(Structured Query Language)被发明以来,表状的结构化数据已经成为信息技术记录数据的标准,从而衍生了大量的数据处理软件,最常用的就是开源软件MySQL,当然还有商业化比较重的DB2、Oracle SQL、SQL Server等。

2.非结构化数据

由固定的行和列组成的数据表一般被称为二维(行+列)结构数据表,它是结构化数据。如果行和列的数量不固定,即不能由固定的行和列组成二维结构数据表来表示和存储的数据,则被统称为非结构化数据。常见的非结构化数据包括所有格式的办公文档,文本,图片,标准通用标记语言下的子集XML、HTML,各类报表,图像和音频/视频信息等。

用HTML格式的文本来介绍非结构化数据会更加直观。HTML(Hyper Text Mark Language),超级文本标记语言,它是浏览器解读网页内容,对网页内容进行显示的一种标记方法。每个标记语言都有的标记范式,例如超链接用来标记,链接地址用href=“”来标记,段落用

来标记……通用的标准化标示语言,可以让所有的浏览器都用同样的方式来展示网页的内容。一个HTML文档中可以有数量不等的各种标记,并且其所在的位置序列也会不同,没有固定的“字段”之说,当然,我们可以把一个看作一个字段,但这个字段可以重复,并且还可以出现在不同的地方。

部分非结构化的数据可以通过多表关联的方法进行结构化改造。例如微博数据可以通过一定的形式进行结构化处理,从而能够使用结构化查询语言即SQL来进行处理。

1.4.4 如何将非结构化数据结构化处理

如果数据是非结构化的,或者用结构化方法难以处理,就需要通过多表关联的方式进行结构化处理。

在处理非结构化数据的过程中,最核心的方法就是对数据进行分类,即按照数据的行为(或者属性主体)将数据分为静态数据和动态数据,然后分别进行结构化处理。对于静态数据,要采用单独的表格来记录事物的属性和要素。然后将动态数据也建立成单独的表格并与静态数据进行关联,从而构成了动静结合的数据表集。

在前面介绍的员工基本信息表中,就是把静态数据和动态数据分别制成表,然后通过表之间的关联形成数据表集,从而将非结构化的数据进行结构化的处理。

将非结构化数据结构化处理的方法就是:通过多表关联,让静态数据也单独成表,让动态数据单独成表并能够动态更新数据条目,简称“静动分离,动静结合”。

客户的动态数据对企业更有价值,因为静态数据记录了客户的基本信息,而针对该客户的动态数据才能让我们对客户有更加深刻的理解。当我们通过各种方式收集了客户的静态数据后,如果没有动态数据,例如交易数据,就不能形成完整的客户画像。“静动分离,动静结合”的数据处理方式在对非结构化数据进行结构化处理方面发挥着巨大的作用,它让数据处理更加有效。而将数据结构化处理后,计算机进行增加、删除、修改、查询等各种运算时效率都会得到大幅度提升。

1.4.5 什么是单维数据表

单维数据表是结构化数据表的一种形式,而且是最简单的形式。其要求相同属性的字段统一且固定,所有的字段都在描述相同的数据主体。换句话说:单维数据表是结构化数据表,但结构化数据表不见得一定是单维数据表。

下面这张表格由行和列组成,每列都是独立的。这个数据可以构成结构化数据,但不是单维数据表。

通过“静动分离,动静结合”方式组成的数据集基本都是结构化数据。而单维数据表强调的是每个数据条目描述的都是一个主体,要么是资源的描述数据,即静态数据,要么是资源的动作和行为,即动态数据,在同一个数据表中不存在两个不同的主体。例如员工基本信息表与工资表,如果独立看这两个数据表,那么它们就是单维数据表,一个表以员工作为主体进行数据采集,而另外一个表以“发工资”这个活动作为主体。将两个数据表合并在一起,仍然构成了结构化数据表,但是数据的描述主体不同,导致数据不够集约,形成了冗余,例如一个员工要发12次工资,在合并表中,员工的个人信息就会重复12次。

单维数据表首先必须得是结构化数据表,同时强调数据描述主体的一致性。通过这两个标准来衡量一个数据表是否是单维数据表就比较容易了。下面举例说明。

下表中的数据是结构化数据,可以导入SQL数据库并可以进行查询,但它不是单维数据表,这个表虽然由行和列组成,但是其每个字段都在描述不同的数据主体。这个表是单维数据表的汇总计算表。员工奖金汇总表

将上表转换为单维数据表后其形式如下表所示。单维数据表月 份姓 名奖 金1月张三30001月李四38751月王五36001月赵六19002月张三34002月李四43252月王五12002月赵六43003月张三28003月李四12053月王五45003月赵六2300………………………………12月张三400012月李四500012月王五600012月赵六3200

将结构化数据表转化为单维数据表的技巧在于如何审视数据主体,主体越明确,数据越精准。

单维数据表结构对以后的数据统计汇总工作来说非常重要。

1.4.6 为什么要求动态数据都要按照单维数据表的形式组织

单维数据表的组织形式便于数据分析、数据表之间进行关联以及未来的数据建模,能够大幅度节省数据清洗的时间,以及数据存储的空间,也避免了数据更新时导致的数据不一致。

例如人力资源部门有3个数据表,第一个是员工基本信息表,为静态数据表;第二个是员工工资表,为动态数据表;第三个是员工岗位异动表,为动态数据表。其结构如下表所示。员工岗位异员工基本信息表员工工资表动表*员工姓名工资条编码ID(PK)姓名员工编号员工编号ID(PK)发薪月份*员工姓名性别*入职日期(用于计算司龄)员工编号出生日期*岗位(用于计算岗位工资)岗位异动记最高学历*出生日期(用于计算年龄)录编码最高学历毕业院校基本工资ID(PK)最高学历专业岗位工资岗位调动日入职日期绩效工资期婚姻状况最高学历(用于计算学历补贴)*新岗位名身体状况学历补贴血型应发工资称身高五险一金(个人部分+公司部分共12项)新岗位ID体重出勤天数……扣款实发工资……

在动态数据表中除用于索引和追溯的编码类静态数据外,还包含其他的静态数据,如果要对静态数据表进行调整,则动态数据表中的静态数据也要相应地进行调整,如果不能实现自动调整,则必然会产生数据不一致的现象。

例如,一个员工通过自学提高了自己的学历,人力资源部门对其个人的基本信息表进行了更新,最高学历发生了变化,而在员工工资表中也需要进行相应的调整,如果调整不及时,那么这两个表就产生了数据不一致的现象。动态数据表中的静态数据越多,需要更新的数据就会越多。

采用单维数据表结构的好处在于,除编码数据用于索引外,不包含其他额外的信息,当我们知道了员工编号,可以通过其他的单维数据表去查询相关的信息,通过自动关联形成当期数据,保证了数据的一致性。

单维数据表的一个基本原则是通过多表关联的方式分别记录不同的信息,将静态数据和动态数据分别存储,相互之间通过唯一的编码进行关联。上面的3个数据表之间通过各个ID编码进行关联。其中标记“*”号的数据都是重复的数据。

通过以上单维数据表结构的建表原则,我们可以引申出另外一条基本的原则:一条需要录入的数据信息只能出现在一张表上(除编码索引外)。例如,在上面的3个表中,有了员工编号ID自然可以通过员工的基本信息表索引到员工的姓名、性别、年龄、出生日期、入职日期等信息;如果每张表上都有员工姓名这个字段,而当员工改了名字后,就需要在很多表上进行手工修改,如果采用索引的方式,则只需要在员工基本信息表中进行修改,而其他表中的数据就会自动更新了。1.5 数据质量及其八个指标

数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量。质量不高的数据会影响企业的经营管理决策;如果数据是错误的,那么还不如没有数据,因为没有数据时,我们会基于经验和常识做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此,数据质量是治理企业经营管理数据的关键所在。

数据的质量可以通过八个指标进行衡量,每一个指标都从一个侧面反映了数据的品相。这八个指标分别是:准确性、及时性、即时性、真实性、精确性、完整性、全面性和关联性。

我们在比较两个数据集的品相时往往采用如下图所示的这种图形表示。例如常规来讲,内部数据集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采集数据的技术手段;而外部数据集(如微博数据、互联网媒体数据等)的全面性、及时性和即时性都可以通过技术手段如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,而关联性取决于数据采集和挖掘的相关技术。

我们也可以用这个模型来衡量公司内部各个职能部门数据的品相。如下图所示,通过评价数据质量的八个指标,可以有针对性地采取相应的措施提高企业的数据质量。

1.5.1 数据的准确性

数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据的准确性由数据的采集方法决定的。

1.5.2 数据的精确性

数据的精确性(Precision)是指对同一对象在重复测量时所得到的不同观测数据之间的接近程度。精确性,也叫精准性,它与数据采集的精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也越低。

例如在测量人的身高时,可以精确到厘米,多次测量结果之间的误差只会在厘米级别;在测量北京到上海的距离时,可以精确到千米,多次测量结果之间的误差会在千米级别;用游标卡尺测量一个零件的厚度时,可以精确到1/50毫米,多次测量结果之间的误差也只会在1/50毫米级别。因此,可以说采用的测量方法和手段直接影响着数据的精确性。

1.5.3 数据的真实性

数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度。数据采集过程可控程度高,可追溯情况好,数据的真实性就容易得到保证,而可控程度低或者无法追溯,则数据的真实性就难以得到保证。

为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集的数据的真实性,减少人为干预,减少数据造假,从而让数据更加准确地反映客观事物。

1.5.4 数据的及时性

数据的及时性(In-time)是指能否在需要的时候获到数据。例如企业在月初会对上个月的经营和管理数据进行统计和汇总,此时的数据及时性是指这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是数据分析和挖掘及时性的保障。如果企业的财务核算流程复杂,核算速度缓慢,上个月的数据在本月月中才能统计汇总完成,那么等需要调整财务策略的时候,已经到月底了,一个月已经快过完了。特别是当企业做大了之后,业务覆盖多个市场、多个国家,如果数据不能及时汇总,则会影响到高层决策的及时性。

数据的及时性与企业的数据处理速度及效率有直接的关系,为了提高数据的及时性,越来越多的企业采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,在数据上传到系统中之后自动完成绝大部分报表,从而提高了数据处理的效率。使用计算机自动处理中间层数据是提高企业数据处理效率的有效手段。

企业除要保证数据采集的及时性和数据处理的效率外,还需要从制度和流程上保证数据传输的及时性。数据报表制作完成后,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间中。

1.5.5 数据的即时性

数据的即时性包括数据采集的时间节点和数据传输的时间节点,在数据源头采集数据后立即存储并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据的即时性就稍差。

例如一个生产设备的仪表即时地反映了设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作即时数据。而当将设备的即时运行数据存储下来,用来分析设备的运行状况与设备寿命的关系时,这些数据就成了历史数据。

1.5.6 数据的完整性

数据的完整性是指数据采集的程度,即应采集的数据和实际采集到的数据之间的比例。例如在采集员工信息数据时,要求员工填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间共12项信息,而某个员工仅仅填写了部分信息,例如只填写了其中的6项,则该员工所填写数据的完整性只有一半。

一家企业中的数据的完整性体现着这家企业对数据的重视程度。要求采集的数据在实际中并未完整采集,这就是不完整的数据,这往往是企业对数据采集质量要求不到位导致的。

另外,对于动态数据,可以从时间轴去衡量数据的完整性。比如,企业要求每小时采集一次数据,每天应该形成24个数据点,记录为24条数据,但是如果只记录了20条数据,那么这个数据也是不完整的。

1.5.7 数据的全面性

数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际采集到的数据之间的比例。而数据全面性指的是数据采集点的遗漏情况。例如,我们要采集员工行为数据,而实际中只采集了员工上班打卡和下班打卡的数据,上班时间员工的行为数据并未采集,或者没有找到合适的方法来采集,那么这个数据集就是不全面的。

再例如,我们记录一个客户的交易数据,如果只采集了订单中的产品、订单中产品的价格和数量,而没有采集客户的收货地址、采购时间,则这个数据采集就是不全面的。

腾讯QQ和微信的用户数据记录了客户的交流沟通数据;阿里巴巴和京东的用户数据记录了用户的交易数据;百度地图记录了用户的出行数据;大众点评和美团记录了客户的餐饮娱乐数据。对全面描述一个人的生活来说,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性是一个相对的概念。过度追求数据的全面性是不现实的。

1.5.8 数据的关联性

数据的关联性是指各个数据集之间的关联关系。例如员工的工资数据和绩效考核数据是通过员工关联在一起来的,而且绩效数据直接关系到工资数据。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来的。

本书探讨的企业经营数据,每个数据集都是相互关联的,有的是直接关联的,如员工工资数据和员工绩效数据;有的是间接关联的,如物料采购订单数据与员工工资数据。这些数据是由公司的资源,包括人、财、物和信息等关联起来的。如果有任何的数据集不能关联到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业经营数据关联性不足导致的。而数据的关联性直接影响到企业经营数据集的价值。1.6 数据处理与数据清洗

1.6.1 数据处理

数据处理有广义和狭义两种定义。广义的数据处理包括所有的数据采集、存储、加工、分析、挖掘和展示等工作;而狭义的数据处理仅仅包括从存储的数据中提取、筛选出有用的数据,对有用的数据进行加工的过程是为数据分析和挖掘的模型所做的准备工作。

一般我们讲的数据处理是狭义的定义,即对数据进行增加、删除、修改、查询等操作。在目前的大数据背景下,数据处理工作往往是通过技术手段来实现的,例如利用数据库的处理能力对数据进行增加、删除、修改、查询等处理。

在数据处理过程中最大的工作是对数据进行清洗,即将不清洁的数据进行清洁化,让数据更加规范,让数据的结构更加合理,让数据的含义更加明确,并且让数据处在数学模型的可用状态。

1.6.2 数据之“脏”

我们把数据记录不规范、格式错误、含义不明确等叫作数据的“脏”,其包括几种典型的形式。(1)数据不规范

数据不规范的情况非常常见。

例如同样是张三,有的地方记录为“张三”,有的地方记录为“张 三”(为了让两个字的姓名和三个字的姓名具有相同的长度,中间添加了空格)。这种情况同样会发生在地址字段里,例如“北京”、“北京市”、“北 京”,虽然它们都是指北京,对我们来说很容易识别,但对计算机来说,这三种写法代表着三个不同的值,我们需要通过建立映射关系将数据记录格式统一。

常见的数据不规范的情况还经常发生在日期格式中。日期格式常见的几种记录方法有:

• 2015/10/20

• 2015-10-20

• 2015年10月20日

• 10/20/2015

• Oct. 20,2015

• October 20,2015

• 2015.10.20

每个人都有不同的喜好和记录数据的方式,这给计算机识别造成了很大的困难,一个公司应该有一个明确的规定,要统一数据的录入格式。(2)数据不一致

数据不一致的情况往往是由于没有遵循单维数据表的原则导致的。例如同一条信息在不同的数据表甚至数据库中都有记录,当对此条信息进行更改后,因为没有同时对所有的数据表都做相同的更改,从而会发生数据不一致的情况。为了避免这种情况,我们引入了“单维数据表”的概念,其强调公司内部的同一条信息只能记录在一个地方,当其他地方需要的时候,可以使用索引查询的方式,从而保证数据的一致性,在任何数据表中的存在其他表中数据来源时,都要在查询输出时进行“同步”更新。

数据的一致性虽然在技术上比较容易实现,但是要在企业经营实践中实现却有着巨大的难度。采购部门会录入供应商的信息,财务部门需要向供应商付款,所以也会保留供应商的相关信息。而采购部门和财务部门分属不同的职能部门,财务部门会采集一部分供应商的财务信息,包括银行信息、账号信息、税务信息、工商信息等,如果这些数据发生变化,例如法人变更、业务变更、企业性质变更等,财务部门会对这些数据进行更新。采购部门也会对供应商的信息进行采集并登记到相关的信息管理系统中。如果采购部门的信息管理系统能够同财务部门所使用的信息管理系统对接并且能够把同条信息关联或者建立索引关系,则该公司的数据一致性比较容易实现。但是如果这两个部门都采用了不同的信息管理系统,则很容易产生数据不一致的情况。而这种情况在大多数公司中都存在并且很严重。(3)标准不统一

我们需要对一些事物的描述方法建立统一的标准,从而让计算机可以有效地处理文本数据。

例如在描述导致产品出现质量问题的原因时,在大多数情况下是手工录入的,同样的原因,录入的描述会有不同。例如同样是描述因为电压不稳导致的产品质量问题,有的人会录入为“电压不稳”,有的人会录入为“电流不稳定”,还有的人会录入为“供电问题”……如果没有统一的规范,则在统计汇总数据时会产生上千个导致产品品质问题的原因。这给数据解读和分析以及寻找改善措施带来了很大的麻烦。

这就需要数据库管理员根据公司的实际情况,将该类原因进行归类,然后设定几个类别,让员工在系统中进行选择,而不是让他们手工录入。一般情况下,出现最多的前10个原因能够覆盖90%以上的情况,在录入时要先让员工选择,然后留出一个“其他”选项,当员工选择“其他”选项后才能手工录入,这样就有效解决数据的录入标准化问题。(4)格式不标准

所谓的格式不标准是指在录入数据时使用了错误的格式。例如在录入日期时,因为格式不规范,计算机不能自动识别为日期格式。

这种问题比较容易处理,可以在信息系统中设定相关的数据校验,如果录入的数据格式不正确,则系统会弹出数据录入格式错误的警告。(5)附加字段

我们在清洗数据的时候,往往需要添加新的字段以便数学模型可以直接处理数据。例如数据库中可能没有直接的字段来记录员工的司龄,这就需要在添加司龄字段之后,通过入职日期来计算;而员工的年龄则通过出生日期来计算。

1.6.3 数据杂质和噪声

在外部大数据中,因为数据价值密度较低,所以数据中的杂质和噪声很多,需要大量的数据处理工作才能将有价值的数据和信息提炼出来;而企业经营数据,特别是内部采集的数据,价值密度高,几乎所有的数据和信息都是有价值的,因此杂质和噪声也会少很多。

1.数据杂质

所谓的数据杂质就是在数据集中出现了与数据记录本身无关的数据,就如同大米中出现了沙子,需要在处理数据的过程中将这部分数据剔除。

例如录音或者录像数据,其本质上是为了记录企业的经营或者管理活动,但是在录制的过程中可能因为没有活动发生,这部分数据就会成为杂质。例如企业生产线上的监控录像,当企业没有生产时其仍然在录像,那么这一部分时段的录像就可以从整体数据中剔除。而行车记录仪在检测到汽车已经超过10秒钟不动时,就暂停录像,当画面有变化时,则及时启动录像过程,这是一种比较智能的数据采集和记录方式。

另外一种杂质是在数据采集或者记录过程中产生的。例如问卷调查,在正式进行调查之前,编制问卷的人首先要做几遍测试,还会找

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载