IBM SPSS Modeler 18.0数据挖掘权威指南(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-19 22:50:08

点击下载

作者:张浩彬 周伟珠

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

IBM SPSS Modeler 18.0数据挖掘权威指南

IBM SPSS Modeler 18.0数据挖掘权威指南试读:

前言

当人民邮电出版社编辑王峰松找到我和伟珠时,问我们要不要写一本关于SPSS Modeler的图书,我当时还是有一些迟疑的。第一点迟疑是,我之前已经写了一本关于数据挖掘算法的图书,虽然关于SPSS Modeler的操作只占了其中100页左右的篇幅,但作为一本彩色印刷的算法图书,这真的不少了。第二点迟疑是,正是因为写过一本书,所以才知道写作的艰辛,尤其是这类和数学及工具应用密不可分的书籍。我问王编辑,为什么还要再写一本书?王编辑反问了我一句:“你第一本书是主要讨论算法的,那你觉得你在IBM作为SPSS 工程师的这段时间,关于SPSS Modeler的话已经说完了吗?”真是一个让人难以拒绝的反问,我内心有一个声音简直要脱口而出:“当然没有。”就这样,我和伟珠两个人就开始了这本书的写作,我们希望写一本“纯粹的SPSS Modeler工具书”。

不开玩笑地说,这本书在最开始写作的时候,名字就暂定为《IBM SPSS Modeler最强工具书》。当然,这么“土”的名字通过性也不大,倒是因为这个初衷,我和伟珠两个人吃了不少苦头,因为我们是真的想把这些年关于Modeler的使用经验和使用感悟都写下来,告诉每一个喜欢和使用这个工具的读者。还记得,本书第一稿写完的时候一共包括了23章,页数一度接近900页。

本书现在的名字叫《IBM SPSS Modeler 18.0数据挖掘权威指南》,是一本以数据挖掘应用为主导、以SPSS Modeler为实践框架的应用指南,内容涵盖数据挖掘方法论、数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署以及性能优化等,力求帮助读者全面掌握数据挖掘项目的主要内容以及实践细节。除了操作层面,本书也尽可能地把专业晦涩的数据挖掘知识及商业应用内容以通俗易懂的方式传递给读者,同时所有场景会结合IBM SPSS工具进行实现并提供样例学习,方便读者在学习的同时加深巩固和理解。简单来说,如果你是在校学生、刚刚从事数据分析的大学毕业生、数据分析爱好者、市场营销人员、产品运营人员或者数据分析师,如果你希望提升自己的数据挖掘技术,就适合阅读本书。本书特色

本书第一个特色是“全”。作为一本“SPSS字典”,从本书结构来看,23章的内容中涵盖了数据挖掘方法论、数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署以及性能优化等,全面覆盖在数据挖掘项目中用户可能遇到的内容。

本书的第二个特色是“透”。本书的每一章内容,既包括理论的讲解,又涵盖应用的实践,而且在工具介绍上尽可能涵盖每一个选项的内容和应用形式,力求让读者“吃透”该章节的内容。

本书的第三个特色是“重实践”。从本书的内容上看,作为数据挖掘算法与工具操作相结合的图书,实践是少不了的。更进一步的是,本书每章都附有对应的实战技巧,每个实战技巧都是由我和伟珠两个人多年的应用经验总结而成。致谢

感谢“探数寻理”的读者关注与支持。感谢IBM大中华区分析事业部刘咏梅、龙力辉、钟云飞、秦思等多位领导及同事的帮助和建议,是你们的大力支持让本书变得更加完善。感谢刘建平教授、陈光慧教授、朱斌董事长、梁勇总经理等多位书评作者,感谢你们能够在百忙之中抽出时间阅读书稿,并提出宝贵的意见和建议。感谢人民邮电出版社编辑王峰松的大力支持和辛勤工作,让本书能够顺利出版。联系方式和电子资源

由于作者水平有限,本书难免会出现纰漏和不足之处,恳请各位读者批评指正。如果读者有任何意见和建议,欢迎在微信中搜索“wetalkdata”并关注“探数寻理”公众号,与本书作者进行互动和沟通。

读者可以通过关注公众号,回复“指南案例数据”获取本书所有章节对应的数据文件以及数据模型文件。资源与支持

本书由异步社区出品,社区(https://www.epubit.com/)将为您提供相关资源和后续服务。配套资源

本书提供如下资源:● 本书彩图;● 数据文件以及数据模型文件。

要获得以上配套资源,请在异步社区本书页面中单击,跳转到下载界面,按提示进行操作即可。注意:为保证购书读者的权益,该操作会给出相关提示,要求输入提取码进行验证。提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”标签,输入勘误信息,单击“提交”按钮即可。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区在线提交投稿(直接访问www.epubit.com/selfpublish/submission即可)。

如果您是学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。关于异步社区和异步图书“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT技术图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT技术图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社近30年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、软件测试、前端、网络技术等。异步社区微信服务号第1章 IBM SPSS Modeler基本介绍

IBM SPSS Modeler(以下简称SPSS Modeler)是一款强大且易用的数据挖掘软件。它的设计遵循CRISP-DM方法论,在功能上能够覆盖整个数据挖掘生命周期的使用,不但内置丰富稳健的数据挖掘算法,而且提供了各种不同的数据处理方式以及多种生动的图形展现方式。1.1 SPSS简介

SPSS最初称为“Statistical Package for the Social Sciences”,即社会科学统计软件包。1968年,SPSS由斯坦福3 个学生所开发,它是世界上最早的统计分析软件。在1984年,SPSS公司推出全球第一个统计分析软件微机版本(SPSS/PC+),并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。之后在1999年,SPSS公司收购了Clementine产品线,并将其改名为SPSS Modeler。随着这次收购,以及SPSS产品能力和服务范围的扩展,SPSS公司将英文全称改为Statistical Product and Service Solutions,即统计产品与服务解决方案,这也标志着公司战略方向和产品设计的重大转型。在2009年,SPSS公司被IBM收购,而直到现在,IBM SPSS产品线下最主要的两款产品依然为IBM SPSS Statistics以及IBM SPSS Modeler,前者定位于为统计分析工具,后者则定位为数据挖掘工具。到2018年为止,IBM已经发布了SPSS Statistics 25.0以及SPSS Modeler 18.1.1。

由于写作期间,Modeler还没更新到18.1.1,而且目前来看18.1.1属于18.0的小版本更新,因此全书的操作实现均基于SPSS Modeler 18.0版本。1.2 SPSS Modeler的特点

SPSS Modeler作为一款数据挖掘利器,它的优势(见图1-2-1)主要表现在4方面:专业性、易用性、扩展性以及高性能。图1-2-1 SPSS Modeler的优势1.专业性(1)覆盖整个数据挖掘生命周期:SPSS Modeler提供数据处理、分析探索、模型创建、评估及部署整个数据挖掘流程功能。(2)高效的数据处理:SPSS Modeler提供一系列数据处理功能,包括数据合并、导出、抽样、筛选和汇总等。当用户的连接数据源为数据库的时候,数据处理过程中生成的SQL可直接通过SQL Pushback技术将生成的SQL回推到数据库端运行,减少数据I/O处理时间,从而提高运行速率。(3)丰富、稳健的数据挖掘模型:SPSS Modeler提供一系列高级数据挖掘技术,专为满足各种数据挖掘应用程序所需而设计,包括40种常用的分类算法、聚类算法和关联规则,其中有12种支持Spark基于内存计算。2.易用性(1)图形化操作界面:如图1-2-2所示,SPSS Modeler支持图形化界面、菜单驱动和拖拉式的操作。SPSS Modeler提供了数据源、记录处理、字段处理、图形、模型、输出和导出 7 大类节点,在数据挖掘过程中,只需要把相关节点通过鼠标拖拉的方式连接在一起即可完成整个过程,而无须任何编程操作。图1-2-2 SPSS Modeler图形化操作界面(2)自动建模算法:如图1-2-3所示,SPSS提供了自动分类、自动数值等自动建模节点帮助用户快捷便利地进行模型选择。例如,自动分类节点能够自动运行所有分类模型,按准确率和运行时间等指标排序,选择最优模型,同时也支持混合多个模型进行组合投票。(3)便捷的参数调整:各个建模节点中都带有默认模式和专家模式。一般情况下,默认模式能够帮助初学者快速开始数据挖掘过程。而进一步的专家模式,则使得用户能够根据建模目标及实际业务数据特征等进行参数调整,如图1-2-4所示。(4)丰富清晰的中文帮助文档:帮助文档提供了从数据挖掘整个过程点对点的详细说明及应用举例。同时帮助文档提供关键词搜索,可以获取需要的各种问题解答说明。图1-2-3 SPSS Modeler自动建模算法3.扩展性(1)多种数据源的集成:SPSS Modeler支持与多种不同数据源的连接,支持传统关系型数据库(如Oracle、DB2和SQL Server等)、Hadoop分布式架构数据、分隔符隔开的文本文件和固定宽度的文本文件、SPSS Statistics文件、Excel等各种数据源。图1-2-4 SPSS Modeler C5.0算法参数调整界面(2)在开源工具上更好的扩展和支持:SPSS Modeler在开源技术上一直有很好的支持。SPSS Modeler 15版本开始集成R语言,SPSS Modeler 16版本开始集成Python,SPSS Modeler 17版本集成Spark。来到SPSS Modeler 18版本后,SPSS Modeler在集成上更进一步,以往在集成Python及Spark上需要SPSS Modeler Analytics Server组件的支持,现在能够直接在SPSS Modeler的客户端上集成Python,并且能够把相关的R语言代码/Python代码直接集成为一个建模节点,如图1-2-5所示。(3)全新的扩展中心:除了通过在SPSS Modeler中嵌入相关的R/Python代码定制相关节点外,IBM公司也开发了更多的功能在GitHub上,现在用户可以直接在SPSS Modeler上下载应用相关的功能节点。新的扩展功能包括天气数据获取、GIS集成和地理空间应用等。SPSS Modeler的扩展中心如图1-2-6所示。图1-2-5 Modeler用于扩展的定制对话框(R/Python的集成)图1-2-6 SPSS Modeler扩展中心4.高性能

作为一款功能强大的商业化软件,为满足用户对企业化生产环境及分布式计算的需求,SPSS Modeler提供了对应的服务器版本以及Analytics Server,通过Analytics Server可以直接连接Hadoop分布式数据源。同时,提供了多种可以在Hadoop上运行的算法,直接转换成Map Reduce或Spark在Hadoop上运行,从而大大提升计算性能。1.3 CRISP-DM方法论

在实际的商业挖掘项目中,数据挖掘绝不仅仅是拿到一份数据后建立模型这么简单,要做好一个数据挖掘项目,需要将丰富的业务知识、高质量的数据以及科学的算法理论进行结合。更具体地说,它是一个从商业问题中来、到商业应用中去的过程,而在一个典型的商业数据挖掘项目过程中如何界定商业问题、怎么获取高质量数据、怎么完成对数据的清洗、如何建立合适的模型、怎么把模型结果应用到商业领域当中都是这个过程的核心要素。因此,为了能够在整个数据挖掘项目过程中更加专业化及标准化,SPSS Modeler遵循跨行业数据挖掘标准流程(Cross Industry Standard Process for Data Mining,CRISP-DM)方法论进行设计。

如图1-3-1所示,在CRISP-DM方法论中,它把一个数据挖掘项目划分为6个阶段:商业理解、数据理解、数据准备、建立模型、模型评估及结果部署。图1-3-1 CRISP-DM方法论1.商业理解

在数据收集及建立模型之前,应该先完成对商业目标的界定。在这个阶段,需要与相关业务及技术人员对数据挖掘目标的达成、对现有资源的评估及对计划的制定进行充分讨论。商业理解阶段是整个数据挖掘过程路线图的基础所在。在商业理解阶段,需要完成以下工作:● 确定业务目标;● 评估情况;● 确定数据挖掘目标;● 制定项目计划。2.数据理解

在数据理解阶段,需要深入理解可用于数据挖掘项目的相关数据资源。只有完成对数据资源的充分掌握,才能避免在下一阶段(数据准备)中发生意外问题,因此可以利用表格、图形或统计指标对数据进行进一步的数据探索。在数据理解阶段,需要完成以下工作:● 收集初始数据;● 描述数据;● 探索数据;● 验证数据质量。3.数据准备

在数据准备阶段,需要花费大量的时间对数据进行清洗,以保证在建模时具备高质量的数据基础。在实际的数据挖掘项目中,数据准备阶段的工作往往占整个项目工作的50%~70%。值得高兴的是,假如用户在商业理解及数据理解阶段投了足够多的精力,将能有效地减少在此阶段不必要的返工。在数据准备阶段,需要完成以下工作:● 选择数据;● 清理数据;● 构建新数据;● 集成数据;● 格式化数据。4.建立模型

建立模型是整个数据挖掘项目中的核心阶段,通过前面的数据准备,用户已经获得可用于数据建模的高质量数据,接下来就是通过构建合适的模型从数据中获得真正的洞察。在建立模型阶段,可能会需要进行多次迭代,以找到一个能够圆满解决商业问题的模型。在建立模型阶段,需要完成以下工作:● 选择建模技术;● 生成测试设计;● 构建模型;● 评估模型。5.模型评估

模型评估是验证用户的工作是否获得成功的关键。在此阶段,除了需要对算法模型进行技术上的评估外,还需要根据在业务理解阶段设定的目标进行业务评估,以确保项目成果能满足实际的业务需求。在模型评估阶段,需要完成以下工作:● 评估结果;● 审核过程;● 确定后续步骤。6.结果部署

结果部署是最终结果的运用过程。在此阶段,需要把在数据中获得的洞察应用到具体业务中,以求实现最终的商业价值。在结果部署阶段,需要完成以下工作:● 指定部署计划;● 计划监视和维护;● 生成最终报告;● 执行最终项目审核。1.4 SPSS Modeler 下载与安装

SPSS Modeler的客户端支持Windows及Mac OS操作系统,SPSS Modeler服务器端支持Windows及Linux操作系统。考虑到数据挖掘过程中需要消耗大量的资源,IBM官方建议对应的系统配置内存应大于或等于4GB,并且至少有20GB的硬盘空间。1.SPSS Modeler试用下载

步骤1:首先登录IBM SPSS官方网站。在该官网上提供了SPSS Modeler的下载链接,并支持30天试用。链接地址为:

https://www.ibm.com/analytics/cn/zh/technology/spss/

步骤2:在单击图1-4-1所示的“SPSS最新版本下载”按钮后,将弹出如图1-4-2所示的对话框。在此处,选择“SPSS Modeler免费试用”选项。如果用户此前没有注册过IBMid(IBM账号),那么在下载前会要求用户注册并登录。图1-4-1 IBM SPSS官方网站下载界面图1-4-2 下载SPSS Modeler 试用版

步骤3:在选择“SPSS Modeler免费试用”选项后,将会来到IBM官网上的“产品与服务”页面,如图1-4-3所示。在此处,已经看到SPSS Modeler的试用已经被添加到个人管理页面,此时可以单击“下载”按钮。图1-4-3 单击“下载”按钮进行下载

步骤4:根据需要,选择对应的操作系统进行下载,如图1-4-4所示。下载完成后,即可开始进行安装。图1-4-4 选择合适的版本下载2.SPSS Modeler客户端的安装

安装介质下载后,双击安装程序,即可开始安装。

步骤1:在安装介质下载后,双击安装程序,可以开始安装。在弹出的如图1-4-5所示的“安装前的说明”界面中,单击“下一步”按钮。

步骤2:在弹出的如图1-4-6所示的“欢迎”界面中单击“下一步”按钮。图1-4-5 SPSS Modeler 安装前说明图1-4-6 “欢迎”界面

步骤3:在弹出的如图1-4-7所示的“软件许可协议”界面,选择“我同意许可协议中的条款”单选按钮,然后单击“下一步”按钮。

步骤4:SPSS Modeler默认的安装目录是C:\Program Files\IBM\SPSS\Modeler\18.0,这里可以根据个人实际情况进行修改,然后单击“下一步”按钮,如图1-4-8所示。图1-4-7 “软件许可协议”界面图1-4-8 更换安装路径

步骤5:在弹出的如图1-4-9所示的“已做好安装程序的准备”界面中单击“安装”按钮。

步骤6:在弹出的如图1-4-10所示的界面中单击“完成”按钮即可。图1-4-9 “已做好安装程序的准备”界面图1-4-10 单击“完成”按钮完成安装过程1.5 SPSS Modeler的主界面及基本操作1.5.1 主界面介绍

启动SPSS Modeler,在弹出的操作界面中可看到SPSS Modeler的主界面非常简洁。事实上,SPSS Modeler的设计初衷就是能够尽可能屏蔽算法及编程的复杂性,希望让使用者能够把主要精力都聚焦于业务场景,以及如何选择合适的数据挖掘技术去解决当前的业务问题。

如图1-5-1所示,SPSS Modeler主界面可以分为4个区域:数据流构建区(又称作画布),节点区,流、输出和模型管理区,数据挖掘项目管理区。图1-5-1 SPSS Modeler主界面1.数据流构建区

数据流构建区是数据分析建模人员的主要工作区域,在SPSS Modeler中又称为画布。在节点区中,通过把一个个节点添加到数据流构建区,并把节点进行相互连接,最终组成一个完整的分析过程,这个过程称为“流”,即stream,因此SPSS Modeler保存的文件是以扩展名“.str”结尾的。图1-5-2展示了一个简单的数据分析流,该流一共由4个节点连接而成,分别是变量文件节点、类型节点、C5.0节点及分析节点。图1-5-2 数据流构建区2.节点区

如果说数据流构建区是分析师的“工作室”,那么节点区(见图1-5-3)就是构建数据流的“弹药室”了。数据流构建区中的所有节点均是从节点区中添加而来的,只需要在节点区中进行拖曳或者双击,即可完成节点的添加过程。图1-5-3 节点区

在SPSS Modeler中,可以把所有节点分为3大类。● 起始节点:起始节点是整个数据流的开端,一般用作数据读取。

该类节点等同于实际类别的源节点,之前不能再连接其他节点。● 中间节点:中间节点往往是数据挖掘过程的一个中间步骤,在它

之前以及之后都可以连接其他类型的节点。● 终端节点:终端节点代表了数据流的一个分支的结束。图形、输

出、导出节点都属于终端节点,这类节点后面不能再接其他类型

的节点。值得注意的是,一个数据流中可能包括多个结束分支。

在SPSS Modeler中,每一个节点都用来执行某一清晰而明确的过程。考虑到使用方便,SPSS Modeler在节点区中,进一步把所有节点划分为9大类节点以及收藏夹。(1)源节点:属于起始节点。通过源节点,可以导入多种不同格式存储的数据文件,如可以通过数据库节点直接读取数据库数据,通过Excel节点导入扩展名为.xls或者.xlsx的文件数据,如图1-5-4所示。图1-5-4 源节点选项卡(2)记录选项节点:属于中间节点。记录选项节点提供了对数据进行记录级别的处理,即对数据从行的角度的处理,如图1-5-5所示。例如,要对包含100名男、女学生成绩记录的数据进行分析,可以使用“选择”节点帮助用户从100个包含记录当中选择其中的男性记录进行单独研究分析。图1-5-5 记录选项节点选项卡(3)字段选项节点:属于中间节点。字段选项节点提供了对数据进行字段层面的处理,即对数据从列的角度的处理,如图1-5-6所示。例如,要对包含100名学生成绩记录的数据进行分析,其中每名学生的成绩由语文、数学及英语成绩组成,可以使用“过滤器”节点只选择其中的语文成绩进行单独研究分析。图1-5-6 字段选项节点选项卡(4)图形节点:属于终端节点。在数据理解和数据准备阶段,经常需要使用图表对数据进行探索性分析。图形节点选项卡为用户提供了多种图形功能,如图1-5-7所示。在SPSS Modeler中,散点图、直方图和网络图等常用图形在图形节点选项卡中会有专门的节点来完成。考虑到图形比较多,SPSS Modeler还提供了“图形板”节点,可以根据用户选择的数据类型自动过滤出适用图形。图1-5-7 图形节点选项卡(5)建模节点:属于终端节点。建模节点选项卡为用户提供了各种机器学习和统计学的建模方法。通过这些建模方法,可以使用数据进行一系列的分析预测。值得注意的是,在SPSS Modeler中,建模节点属于终端节点,即在建模节点后面不再连接任何节点。在建模节点中,可以对具体的数据挖掘方法进行参数调整。一旦确认参数,可以运行该建模节点,运行结束后,会生成一个金黄色的“模型节点”,而该节点属于中间节点,可以供用户后续调用。在SPSS Modeler中,建模节点分为4大类:Analytic Server节点、分类节点、关联节点及细分节点(聚类),分别如图1-5-8~图1-5-11所示。

值得注意的是,在SPSS Modeler中,有3个自动节点,即自动分类器、自动数值及自动聚类。在该类型节点中,一个节点包含了多种类型算法,如自动分类器包含了所有的分类算法。自动节点可以在“全部”子选项卡中找到,通过自动节点,可以在一次建模中同时运行多个算法,如用户选择自动分类节点,则可以同时选择多个分类算法,并各自设置参数进行批量运行。图1-5-8 Analytic Server节点图1-5-9 分类节点图1-5-10 关联节点图1-5-11 细分节点(6)输出节点:属于终端节点。输出节点选项卡为用户提供了多种用于获取数据或模型相关结果信息的方法,如表格、矩阵、交叉表、统计结果等,如图1-5-12所示。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载