SPSS Modeler+Weka数据挖掘从入门到实战(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-05 01:13:10

点击下载

作者:经管之家

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SPSS Modeler+Weka数据挖掘从入门到实战

SPSS Modeler+Weka数据挖掘从入门到实战试读:

前言

感谢您选择《SPSS Modeler+Wake数据挖掘从入门到实战》。本书内容源于李御玺教授的数据挖掘相关课程讲义,讲义历经多次修改,逐渐适合作为数据挖掘实用教材,并在获得学员们的高度评价后再被编辑成书。本书的另一位作者常国珍也长期活跃在数据挖掘的项目实施和培训中,2014年其与李教授相识,并与李教授对出版本书之事一拍即合。

读者对象

本书的撰写采取了算法与软件实操双向并行的策略。在理论上,本书尽量用例子来说明数据挖掘算法背后的理论及意义,避免艰涩的数学公式,以求读者能用最简单的方式理解理论的精髓。在软件实操上,本书以各领域的实用案例为基础,逐步地将软件的功能引出,以求读者能了解软件功能的使用场景。有了坚实的理论基础及软件操作能力,再辅之以众多的实用案例,本书的读者就能逐步进入多姿多彩的数据挖掘世界。本书是以读者第一次接触数据挖掘为前提来撰写的。读者若有数据库、统计及计算机基础,则学习起来会较为轻松。

工具介绍

IBM SPSS Modeler可谓商业数据挖掘领域的“重型武器”,其功能全面、算法安全可靠、追求执行效率与操作上的简单易用,并被广泛运用于许多企业中。其缺点是缺乏前沿的分析模块及很难与现有的信息系统结合,而开源软件Weka恰能弥补其不足。Weka简单好用,拥有许多前沿的分析模块并易于与现有的信息系统整合。其缺点是在数据预处理部分,便利性不如IBM SPSS Modeler简单、易用。这两个软件对初入数据分析领域的读者而言是很好的入门工具。

阅读指南

本书分为15章。第1章介绍数据挖掘的起源及应用。同时说明如何建立一个SPSS Modeler及Weka的项目。第2章介绍数据挖掘的方法论CRIPS-DM。同时说明如何将数据汇入SPSS Modeler及Weka的项目中,并做初步的数据探索。第3章介绍基本的数据挖掘技术。同时说明如何利用SPSS Modeler及Weka建立KNN模型并进行分类预测。第4章介绍数据挖掘的进阶技术、数据挖掘技术的绩效增益及两个重要的数据挖掘网站。第5章详细介绍数据预处理技术,同时说明如何利用SPSS Modeler,针对银行的信用风险评估数据,进行数据预处理。第6章介绍如何有效地挖掘对项目有帮助的关键变量。同时说明如何利用SPSS Modeler及Weka,挖掘有效变量。第7至15章则为数据挖掘模型的介绍。这些模型均为热门且应用最为广泛的模型。对于每个模型的介绍,先以实例说明其理论,随后以实用的案例介绍如何在SPSS Modeler及Weka中操作,让每个读者充分了解每个模型的实际运用效果。

如果时间允许,则读者可以采取通读本书内容并按照示例进行操作的方式,但是这样效率可能不高。更高效的方法是结合工作中遇到的问题,先集中精力把书上的示例操练好,然后带入工作中的实际数据实现同样的算法,最后修改部分设置,以满足工作中的特定需求。

本书特点

本书作为市场上为数不多的理论与软件实操相结合并面向商业数据挖掘的书籍,和其他统计软件图书有很大的不同,本书结构新颖,案例贴近实际,讲解深入透彻。

●场景式设置

本书从银行、电信、零售、医疗等行业中精心归纳、提炼出各类数据挖掘案例,方便读者搜寻与实际工作相似的问题。

●启发式描述

本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现规律、总结规律和运用规律,从而启发读者快速找出问题的解决方法。

售后服务

尽管作者们对书中的案例精益求精,但疏漏之处在所难免,如果发现书中的错误或某个案例有更好的解决方案,则敬请与本书作者联系,作者邮箱为leeys@mail.mcu.edu.tw。

学习方法

只有对数据分析的流程熟悉了,才能实现从模仿到灵活运用。在产品质量管理方面,对流程的掌控是成功的关键,在数据挖掘项目中,流程同样是重中之重。数据挖掘是一个先后衔接的过程,一个步骤的失误会带来完全错误的结果。数据挖掘的流程大致包括抽样、数据清洗、数据转换、建模和模型评估这几个步骤。如果在抽样中的取数逻辑不正确,就有可能使因果关系倒置,得到完全相反的结论。数据转换方法如果选择不正确,模型就难以得到预期的结果。而且,数据挖掘是一个反复试错的过程,每一步都要求有详细的记录和操作说明,否则分析人员很可能迷失方向。

学习数据挖掘最好的方法就是动手做一遍。本书语言通俗,但高度凝练,很少涉及公式,这会让读者大意,如果读者不动手做一遍,则很难体会到书中表述的思想。本书提供了相应的演练数据,也同时给出了相关方面的参考资料,供学员学习。

致谢

本丛书从策划到出版,张慧敏主编倾注了大量心血,经管之家的董事长赵坚毅先生提供了多方面的支持,特在此表示衷心的感谢!

为保证丛书的质量,使其更贴近读者,我们邀请了北京大学的殷子涵进行试读和修改完善。感谢各位预读员的辛勤、耐心与细致,使得本书能以更加完善的面目与各位读者见面。还要感谢刘莎莎参与本岀的编写工作。

再次感谢您的支持!作者

读者服务

轻松注册成为博文视点社区用户(www.broadview.com.cn),扫码直达本书页面。

●提交勘误:您对书中内容的修改意见可在 提交勘误 处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。

●交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。页面入口:http://www.broadview.com.cn/31911第1篇 理论篇第1章 数据挖掘简介

近年来,信息产业高速发展,人们越来越关注如何将信息转换成有用的、直观的知识。因此,在1991年,William Frawley和Gregory Piatetsky Shapiro提出了数据挖掘的概念,即从现有的大量数据中,撷取不明显的、之前未知的、可能有用的知识的过程。数据挖掘的目标是建立一个决策模型,根据过往的行动来预测未来的行为。例如,分析一家公司的不同客户对公司产品的购买情况,进而分析出哪一类客户会对公司的产品有兴趣。在讲究实时、竞争激烈的网络时代,若能事先破解消费者的行为模式,将是公司获利的关键因素之一。1.1 数据挖掘的起源、定义及目标

数据挖掘可以从数据中撷取不明显的、之前未知的信息,举一个著名的例子:美国的沃尔玛超市为了能够准确了解顾客在其门店的购买习惯,对其顾客的购物行为进行数据挖掘。一个意外的发现是:跟尿布一起销售最多的商品竟是啤酒!在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫在下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。既然尿布与啤酒被一起购买的机会很多,于是,沃尔玛就在其一个个门店中将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。按照常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行分析,沃尔玛是不可能发现这个有价值的规律的。

与此同时,数据挖掘能够发现信息之间的联系,但不一定是因果关系,在数据挖掘的过程中能发现有用的信息。比如,美国的分析员做过这样一项研究:在冰激凌热卖时,溺水的人数会增加。而冰激凌与溺水的人数之间存在的联系并不是因果关系,所以,减少冰激凌的销售量不一定会降低溺水的人数。而二者之所以会存在联系,是因为冰激凌在夏天热卖,而夏天去游泳的人数增加,溺水的人数也会增加。所以,通过这个例子可以看出,数据挖掘要在大量的数据中找到有用的知识,不能发现关联之后就随意下定结论。1.2 数据挖掘的发展历程

数据挖掘虽然是计算机应用领域的新名词,但也经历了几十年的发展历程。

●第一阶段:1960年以后,各种新兴的数据收集模式开始出现,例如磁带、软盘、硬盘等,人们开始掌握了收集数据的基本方法。

●第二阶段:1980年以后,随着收集的数据量的增多,人们开始需要数据库,并逐渐建立起了数据库,但是此时还不能查询数据。

●第三阶段:1990年以后,数据统计的概念出现,人们可以进入数据仓库完成简单的数据统计,但并不能做太精细的决策。

●第四阶段:2000年以后,随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大。针对大规模数据的分析处理方法——数据挖掘出现了。

数据挖掘在各行各业中都有应用,比如其最早应用于银行、通信业,现在也在零售业、保险业及政府中有所应用(见图1-1)。图1-1

1.银行

金融事务需要收集和处理大量数据,由于银行在金融领域的地位、工作性质及业务特点,市场竞争激烈程度决定了它对信息化、电子化的需求比其他领域更迫切。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求并预测未来。例如,汇丰银行对不断增长的客户群进行分类,为每种产品找到最有价值的客户,这样其产品才能推销得好,而且比盲目推销产品节省了30%的销售费用。再例如,银行通过数据挖掘发现,有盗刷信用卡行为的人,其使用信用卡的第一笔消费往往小于10元,所以,银行根据这条规律,冻结了那些第一笔消费小于10元的客户的账号,减少了客户盗刷信用卡所带来的经济损失。

2.零售业

在过去,零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力一天天地增大,很多零售商都开始致力于找到更准确的方法来预测其连锁商店应保有的库存。通过数据挖掘可以为产品存储决策提供准确、及时的信息。

3.保险业

对受险人员进行分类有助于确定适当的保险金额度。通过数据挖掘可以得到不同行业、不同年龄段、不同社会层次的人的信息,从而可以评估他们的保险金。另外,还可进行保险金种类关联分析,分析购买了某种保险的人是否又同时购买了另一种保险,也可预测什么样的顾客会购买新险种。总而言之,数据挖掘在保险业中有广泛的应用。

4.政府

数据挖掘被广泛应用于电子政务中的综合查询、经济分析、宏观预测、应急预警、风险分析及预警、质量监督管理及监测、决策支持等系统,它为公众提供了一个智能化、高效的网上政府。例如,几乎每个政府网站都有类似“公众意见调查”的栏目,这是了解公众需求的一个很好的途径,但是从网站公布的调查结果看,其结论大多还停留在对单个问题求总数、求比例等简单分析上。利用数据挖掘技术可以在网上建立一个能有效地收集、监测和分析公众数据的系统,提炼出实用、有效的信息,建成以公众需求为主导的电子政务。将数据挖掘技术引入电子政务,可大大提高整个电子政务系统的智能化水平。1.3 SPSS Modeler和Weka基础操作1.3.1 SPSS Modeler软件简介

IBM SPSS Modeler(以下简称SPSS Modeler)是一组数据挖掘工具,通过它可以快速建立预测模型,并将其应用于商业活动中,从而改进决策过程。

使用 SPSS Modeler处理数据主要分为3个步骤。

●首先,将数据读入 SPSS Modeler中。

●然后,通过一系列操作运行数据。

●最后,将数据发送到目标位置。

这个操作过程被称为数据流,因为数据以一条条记录的形式,依次经过各种操作,最终到达目标位置(模型或某种数据输出)。

数据流工作区是SPSS Modeler 窗口中最大的区域,也是构建和操作数据流的区域,如图1-2所示。

SPSS Modeler 中的大部分数据和建模工具位于节点选项卡中,该选项卡位于数据流工作区(简称工作区)的底部(见图1-3)。要将节点添加到工作区中,在节点选项卡中双击节点对应的图标或将其拖曳到工作区中即可。随后可将各个图标连接以创建一个数据流。每个选项卡中均包含一组不同的数据流操作阶段中使用的相关节点,例如:

●源(Source)节点。此类节点可将数据引入 SPSS Modeler中。

●记录选项(Record Ops)节点。此类节点可对数据记录执行操作,例如选择、合并和追加等。

●字段选项(Field Ops)节点。此类节点可对数据字段执行操作,例如过滤、导出新字段和确定给定字段的测量级别等。

●图形(Graphs)节点。此类节点可在建模前后以图表形式显示数据。图表形式包括散点图、直方图、网络节点和评估图表。

●建模(Modeling)节点。此类节点可使用SPSS Modeler中提供的建模算法,例如神经网络、决策树、聚类算法和数据排序等。

●输出(Output)节点。此类节点可生成能在 SPSS Modeler 中查看的数据、图表和模型等多种输出结果。图1-2图1-3

●导出(Export)。此类节点可生成能在外部应用程序中查看的多种输出结果。

●IBM SPSS Statistics(P)。此类节点可将数据导入SPSS Statistics 或从中导出数据,以及运行SPSS Statistics 。

在后文会对这些节点的使用方法进行详细讲解。1.3.2 建立一个SPSS Modeler项目

启动SPSS Modeler,弹出的窗口如图1-4所示。

从“源”选项卡中选择要引入数据的来源,例如,读取数据库中的数据就选择“数据库”节点,读取.csv格式数据就选择“可变文件”或“固定文件”节点,读取SPSS数据就选择“Statistic文件”节点,读取SAS数据就选择“SAS文件”节点,读取Excel数据就选择“Excel”节点等,如图1-5所示。图1-4图1-5

在本例中,我们从“源”选项卡中选择“可变文件”节点,将其拖曳到工作区中。

双击“可变文件”节点,在打开的对话框中单击“浏览”(…)按钮。从打开的对话框中选择“german.csv”文件,单击“打开”按钮后可以看到数据显示在新弹出的对话框内,如图1-6和图1-7所示。图1-6图1-7

单击“确定”按钮后,在工作区中可以看到“Var.File”节点变为“german.csv”节点。这样就完成了数据的导入。

之后对数据进行验证。从“输出”选项卡中选择“表格”节点,将其拖曳到工作区中。在“german.csv”节点上单击鼠标右键,在弹出的快捷菜单中选择“连接”命令,如图1-8所示。然后单击“german.csv”节点,在“german.csv”节点到“表格”节点之间出现一条带箭头的直线。图1-8

这样便在“german.csv”节点与“表格”节点之间建立了连接。在“表格”节点上单击鼠标右键,在弹出的快捷菜单中选择“运行”命令,如图1-9所示。图1-9

弹出如图1-10所示的对话框,此对话框中的数据即为german.csv数据集中的具体内容。通过以上步骤,我们完成了在SPSS Modeler中导入数据、验证数据,后文会对建模步骤进行详细介绍。图1-101.3.3 Weka软件环境简介

Weka是由新西兰怀卡托大学开发的智能分析软件。它的工作平台汇集了机器学习算法及数据预处理工具。Weka是由Java语言开发而成的,在GNU通用公共许可证的条款下进行发布,几乎可以在所有的操作平台上运行。(1)Weka作为开源的数据挖掘工具,可以和SPSS Modeler很好地进行互补。(2)Weka能提供更多的模型和更高级的算法供使用者进行选择。(3)Weka包含100种以上的分类算法。(4)Weka包含75种数据预处理的方法。(5)Weka包含25种特征值的选取方法。(6)Weka包含20种聚类、关联分析的算法模型。1.3.4 Weka简单操作实例

接下来通过一个实例来介绍Weka的界面与操作步骤。

首先打开Weka,其起始界面如图1-11所示。图1-11

使用Weka建模最简单的一种方法是使用Explorer用户界面,建立单一模型。在Explorer用户界面中,Weka的所有操作都可以由选择菜单及填写表单的方式来实现。

单击“Explorer”按钮,打开的界面如图1-12所示。图1-12

Explorer界面通过将选项转化为菜单,将不适用的选项设定为不可选状态,并将用户选项设计成表单的形式,引导用户一步步按照合适的顺序完成操作。Weka还对其工具给出了用法提示,即当用户将鼠标光标移至相应的工具图标上时,Weka以弹出工具提示的形式解释该工具如何使用,这对于不熟悉Weka的用户是极有帮助的。

接下来要进行数据的导入。这次我们选用的是Weka自带的数据集,其路径在Weka安装路径下的 data 文件夹中。首先在 Explorer 用户界面中单击“Open File”按钮,在弹出的对话框中选择“weather.nominal.arff”文件,如图1-13所示。图1-13

载入文件后,如图1-14所示。图1-14

其中对话框中间左上部分展示的是数据集的基本信息。weather.nominal这个数据集包含14个实例和5个属性,如果想查看这14个实例的具体数据,则可以单击“Edit”按钮。打开“Viewer”对话框,对数据进行修改和浏览,如图1-15所示。图1-15

该数据集的5个属性分别为outlook、temperature、humidity、windy和play。可以在对话框的左下部分进行查看,如图1-16所示。图1-16

可以用鼠标单击选择每个属性。选择属性后,对话框右侧会显示出被选择属性的一些基本信息。例如,该属性的名称是outlook,类型是Nominal,没有缺失值,共有3个不同的取值,没有唯一值。该属性的3个不同取值分别为sunny、overcast和rainy,它们分别出现了5次、4次和5次。基本信息下方的柱状图表明了不同取值出现的频数。而play被选为类变量,它决定着柱状图的颜色,不同颜色代表着play不同的取值,其效果如图1-17所示。图1-17

可以依次选择该数据集的5个属性,或者直接单击“Visualize All”按钮,查看各个属性的情况,从柱状图的形状和颜色分布来了解和熟悉数据的概况,如图1-18所示。图1-18

接下来会简单地对数据进行分类处理,使读者能够对Weka的使用有更加直观的了解。下面准备建立一个决策树模型。首先单击Weka界面上方的“Classify”选项卡,如图1-19所示。

然后单击“Choose”按钮,在随后打开的菜单中的“trees”选项中找到J48模型,如图1-20所示。图1-19图1-20

在界面左侧的“Test options”选项中选择“Use training set”单选框,最后单击“Start”按钮。Weka开始工作,并在界面右侧的“Clossifier output”界面中输出计算结果,如图1-21所示。图1-21

接下来要对生成的结果进行解读。由于“Test options”选项被设成“Use training set”,可以看到对于14个实例,该模型的分类准确率是100%,如图1-22所示。图1-22

从图1-23中可以看到一棵被剪枝过的决策树,这棵树是以文本形式构成的,每一条分支代表一条规则。在这棵决策树中,冒号后面的是分配到某个叶节点的类标,类标后面是该叶节点所包含的实例数量,如果有错误分类的实例,则也会被列出来(本例中没有这样的实例),如图1-23所示。图1-23第2章 数据挖掘方法论

本章分为3部分,第1部分介绍两个数据挖掘的方法论,即CRISP-DM和SEMMA。前者是从数据挖掘实践中总结出来的,指导数据挖掘的整个流程;后者面向数据挖掘的具体操作,为主要的数据挖掘软件所借鉴。第2部分根据案例简要介绍数据挖掘的具体流程。第3部分则将前两部分的内容进行综合,以实例操作的形式来介绍。2.1 数据挖掘方法论2.1.1 CRISP-DM

CRISP-DM,Cross Industry Standard Process of Data Mining,被称为跨产业的数据挖掘标准流程,即无论什么产业,其数据挖掘的方法论都是一样的。CRISP-DM方法论将数据挖掘过程分为6个阶段,分别是商业理解、数据理解、数据预处理、建模、评估和实施,如图2-1所示。在具体的操作过程中,用户可以根据自身的需求调整各个阶段的顺序。图2-1

商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是定题目,即通过数据挖掘想要解决什么问题。

数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解这一步。

数据预处理:对收集到的数据进行处理,此阶段耗时最长。

建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。

评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解这一步,重新开始。

实施:模型的实际应用。2.1.2 SEMMA

SEMMA表示Sample,Explore,Modify,Model和Assess。

SEMMA是由 SAS Institute开发的连续步骤清单。SAS Institute是统计和商业智能软件的最大生产商之一。它指导数据挖掘应用程序的实现。

尽管SEMMA通常被认为是一种通用的数据挖掘方法,但SAS声称SEMMA更像是一套逻辑组织功能组件,用来执行数据挖掘的核心任务。

SEMMA和相关任务的阶段如下:

采样(Sample):该过程从数据采样开始,比如,选择用于建模的数据集。数据集要足够大,以包含足够的信息来检索。但数据集又需要足够小,以便有效地使用。这一阶段还涉及数据分区。

探索(Explore):这一阶段在数据可视化的帮助下,发现变量之间预料到的和未预料到的关系,以及异常情况,以此来理解数据。

修改(Modify):修改阶段包含了用于选择、创建和转换变量以准备数据建模的方法。

建模(Model):在建模阶段,重点是在准备变量上应用各种建模(数据挖掘)技术,以创建可能提供所需结果的模型。

评估(Assess):最后一个阶段是评估。建模结果的评估显示了所创建模型的可靠性和实用性。2.2 数据库中的知识挖掘步骤

整个数据挖掘的过程可以被称作知识挖掘的处理过程,包含6个步骤:字段选择、数据清洗、字段扩充、数据编码、数据挖掘和结果呈现。前4个步骤是进行数据挖掘之前的数据准备工作,主要是整理数据,也被称作建立数据仓库。而最后一个步骤则是数据挖掘的结果输出,其中数据挖掘是最关键的步骤,通过它可以从数据仓库中找到一些有用的信息。

例如,一家杂志社主要出售5种杂志和书籍,即汽车杂志、房屋杂志、运动杂志、音乐杂志和漫画书。杂志社老板想运用数据挖掘来找到一些客户特征,如购买汽车杂志的客户有什么特征、同时喜欢汽车杂志和漫画书的客户有什么特征等。2.2.1 字段选择

字段选择指的是从数据库中选取字段进行分析。

以上述杂志社为例,我们从交易数据库(何人在何时购买了何种杂志)中选取了5个字段,即顾客编号、顾客姓名、顾客住址、购买杂志的时间及购买杂志的类型,如图2-2所示。图2-22.2.2 数据清洗

数据库中的每个数据不一定都是正确的,可能存在一些数据污染,例如数据输入错误等。

以上面的杂志社数据为例(见图2-3),顾客Jonson与Johnson的名字只差一个字母,且二者居住地址一样,因而有理由怀疑这是数据输入错误,两个顾客为同一个人。

另外,购买时间出现了01-01-01,因为系统默认这个日期是1901年1月1日,因而这个数据可能是错误的。图2-3

由于存在数据污染,所以需要进行数据清洗,保持字段范围的一致性,即确定字段的范围。例如,购买杂志的时间应该设定在1990年1月1日以后,购买杂志的类型应该设定为5种以内;顾客住址也有范围,要排除那些没有人住的地址,但是确定地址比较困难。任何字段都有一个范围,只是有的比较好确认,有的比较难确认。上例数据清洗的结果如图2-4所示。图2-42.2.3 字段扩充

字段扩充指的是添加新的字段到现有的数据库中。

以上面的杂志社数据为例,在字段选择的过程中,我们从交易数据库中选择了5个字段,即顾客编号、顾客姓名、顾客住址、购买杂志的时间及购买杂志的类型。但是,这5个字段对我们进行数据挖掘并不是都是有用的,例如,顾客编号只是一个流水号,顾客姓名只是一个标志,这些与他会购买什么杂志没有关系。

在这种情况下就要进行字段扩充。前面是从交易数据库中选择字段,现在再从人事数据库中进行字段扩充,例如,选择生日、收入、贷款、有无汽车及有无房屋等数据。整合之后的结果如图2-5所示。图2-52.2.4 数据编码

数据编码包括以下三步。

第一步:删除垂直方向不重要的字段和水平方向信息量不足的数据。

第二步:进行编码,主要是使字段数据可用于分析。

第三步:摊平指令,即将一个栏位摊成多个栏位。

以上面的杂志社数据为例,顾客姓名这个字段对于数据分析没有用,所以将其删除;顾客King的信息量不足,所以将其删除,如图2-6所示。图2-6

然后将生日转换为年龄,即用现在的年份减去其出生的年份。

将收入和贷款数据都除以1000,代表1000以下的变化是比较细微的变化。

在有无汽车和有无房屋数据中,将“有”编码为“1”,将“无”编码为“0”。

将顾客住址转换为顾客居住区域编码,如编码“1”代表某个区域。

将顾客购买杂志的时间转换为顾客购买杂志的月份数,即从1990年1月算起的月份数。

编码结果见图2-7。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载