SPSS Modeler数据挖掘方法及应用(第2版)(txt+pdf+epub+mobi电子书下载)-txtepub下载

作者：薛薇

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SPSS Modeler数据挖掘方法及应用(第2版)试读：

前言

数据挖掘是当前数据分析领域中最活跃、最前沿的地带。

任何事物都有定性和定量两个方面，定量则产生数据。从数据分析入手是我们认识事物本质的基本手段。任何事物都是互相关联着的，从数据分析入手是我们把握事物之间联系的基本方法。任何事物都在永恒地变化发展着，从数据分析入手是我们探索事物发展规律的基本思路。所以我们进行数据分析，既是一种世界观，也是一种方法论。我们在研究着丰富多彩的客观世界的同时，也体现着分析者主观的智慧和自身的价值。

随着中国社会经济的蓬勃发展，在错综复杂的宏观、中观和微观的共同作用下，战略决策和战术选择都显得敏感而关键，越来越多的人们加入到数据分析的行列中来。这是一个非常富有挑战性的工作，不但有意思，而且有意义。

IBM公司于2009年1月公布了其“智慧地球”战略。该战略的主要思想是，将传感设备或智能仪表嵌入到建筑、电力、交通、管道等各种物体中，进行数据自动采集，之后基于互联网形成物物相联的物联网，然后通过超级计算机和云计算将数据整合，进行智能化分析和建模，从而实现社会与物理世界的融合。这是一个未来理想化的信息世界图景。

在这个智慧系统中，核心是数据处理。为此，IBM公司于2009年7月斥资12亿美元收购了著名的SPSS 统计分析软件公司，将其应用广泛的SPSS统计分析软件和SPSS Modeler数据挖掘软件纳入麾下。同时对软件产品进行了整合，将SPSS Modeler更新命名为IBM SPSS Modeler，并快速推向市场。

目前，SPSS Modeler软件已经连续若干年蝉联数据挖掘应用的王者，而业界对于IBM SPSS Modeler的认知则刚刚开始。所以本书继续沿用为广大读者所熟悉的SPSS Modeler这个名字。

SPSS Modeler软件不但将计算机科学中许多机器学习的优秀算法带入到数据分析中来，同时也综合了一些行之有效的数据挖掘方法，成为内容最为全面、功能最为强大的数据挖掘产品。

SPSS Modeler软件充分利用计算机系统的运算处理能力和图形展现能力，将方法、应用与工具有机地融合为一体，是解决数据挖掘问题的最理想工具。

SPSS Modeler软件继续保持了SPSS产品的一贯风格：界面友好且容易使用。复杂的数学算法和冗余的输出结果被软件隐藏在程序系统内部。SPSS Modeler软件始终把自己的应用对象锁定在实际部门的业务分析人员，而不是一个数据分析专家。这种“傻瓜型”软件经常遭到一些精英学者的指责，但是这恰恰成为SPSS Modeler成功开拓自己应用领域的最有效利器。

本书作者常年从事计算机数据分析的教学与科研工作，并长期跟踪研究SPSS公司数据分析产品，具有计算机应用与统计分析的双重学历背景。我们深知，对于数据挖掘这样一款综合方法性的软件工具来说，一个基层的读者应该从哪些方面入手，就能很快地掌握和使用SPSS Modeler开始数据挖掘工作，并从中受益。

本书默认读者具有以下特征：具有基础的计算机操作能力；不甚了解数据挖掘的原理和方法；有自己应用领域积累的数据，渴望使用数据挖掘方法解决实际问题。

所以，针对上述读者群，本书特点如下：

1.以数据挖掘过程为线索介绍SPSS Modeler软件

目前，具备基本的计算机操作能力已经不是读者的障碍，数据挖掘的过程与方法才是读者关心的主题和应用的难点。各领域众多的读者所面临的问题是：自己拥有的一批数据不知道如何使用SPSS Modeler进行组织，不知道如何利用SPSS Modeler对它们进行基本加工和整理；并且，不知道选择SPSS Modeler中的哪些方法对数据进行分析，不知道如何解释分析结果。

因此，本书以数据挖掘的实践过程为主线，从SPSS Modeler数据管理入手，说明问题从浅至深，讲解方法从易到难。这样，能使读者在较短时间内掌握SPSS Modeler的基本功能和一般方法，并可快速地运用于实际工作中。

2.数据挖掘方法、软件操作、案例分析的有机结合

目前，由于数据挖掘方法的中文资料相对不足，SPSS Modeler相关书籍都比较侧重对其英文手册的翻译介绍，侧重于计算机操作过程的描述。而对数据挖掘方法则较多地罗列数学公式，对于输出结果也缺少恰当的解释。

本书作者配合实际案例，侧重数据挖掘方法核心思想和基本原理的阐述，使得读者可以直观理解方法，并正确掌握方法的应用范围，不至于滥用或者误用。同时介绍软件操作，使得读者能尽快熟悉SPSS Modeler软件，从而在理解方法与掌握操作的基础上对输出结果进行合理的解释。

3.数据挖掘方法讲解通俗，软件操作过程说明翔实

针对初学者的特点，本书力求以最通俗的方式对数据挖掘方法的核心思想与基本原理进行讲解，同时避免大量罗列数学公式、数学推导与数学证明，目的是使读者能够直观地了解方法的本质，并正确运用；介绍方法的同时也紧紧围绕SPSS Modeler的输出结果展开，以使读者理解分析结论的重要性，会合理地引用分析结果。另外，本书对SPSS Modeler的操作过程也给出了较为翔实的说明，但并非是对菜单功能清单的描述，而是将其穿插于分析案例的实现过程中。

本书适合于各应用领域从事数据分析的读者，尤其适合于商业管理、财政经济、金融保险、社会研究、人文教育等行业的相关人员。同时，也能够作为高等院校计算机类、财经类、管理类专业本科生和研究生的数据挖掘教材。

本书共十章，由薛薇、陈欢歌执笔完成，全书最后由薛薇审核定稿。本书网上资源配备全书的案例数据和数据流文件。数据流文件需使用SPSS Modeler 12.0以上版本打开，执行时只需修改数据源节点中的数据文件所在目录项，即可正确执行流文件。

由于水平所限，书中难免出现错误，敬请读者批评指正。

编著者

第1章数据挖掘和SPSS Modeler概述

数据挖掘，作为20世纪90年代中后期兴起的，具有鲜明跨学科色彩的应用和研究领域，因其注重减少数据分析方法对数据的限制性和约束性，注重与计算机技术结合以实现数据的可管理性及分析的易操作性，已成为数据分析应用实践的新生代。同时，随着数据挖掘方法的不断成熟及其应用的日益普及化，数据挖掘软件的研发也取得了令人可喜的成果。目前，以SPSS Modeler为代表的数据挖掘软件，因其有效地将束之高阁的数据挖掘理论成果解放到数据分析实践中，已普遍应用于商业、社会、经济、教育、金融、医学等领域，并成为数据分析的主流工具，得到数据分析相关领域的极大关注。

1.1 数据挖掘的产生背景

数据挖掘的产生和兴起是在计算机数据库技术蓬勃发展，人工智能技术应用领域不断拓展，统计分析方法不断丰富过程中，为有效迎合数据分析的实际需求而逐步形成和发展起来的一门具有鲜明跨学科色彩的应用研究领域。1.1.1 海量数据的分析需求催生数据挖掘

20世纪80年代以来，随着计算机数据库技术和产品的日益成熟以及计算机应用的普及深化，各行业部门的数据采集能力得到了前所未有的提高，组织通过各自内部的业务处理系统、管理信息系统以及外部网络系统，获得并积累了浩如烟海的数据。以商业领域为例，美国著名的连锁超市 Wal-Mart 的数据库中已积累了 TB[1]级以上的顾客购买行为数据和其他销售数据。随着互联网和电子商务的普及，各类网上书店、网上银行、网上营业厅和网上商城等积累的Web点击流数据，存储容量也多高达GB级。另外，国家政府部门所积累的数据量也令人瞠目。例如，一次全国经济普查或人口普查所采集和处理的数据量均在千万级以上。随着移动互联技术的普及应用，互联网公司更是被海量数据所淹没。Google公司每天所处理的数据量高达24PB[2]，Twitter的信息量几乎每年呈翻番增长，2012年的日发布微博量就已高达4亿条。据南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特教授估计，2007年人类积累了大约超过300EB[3]的数据，大致相当于300×10亿部被压缩的数字电影的量。据估计，2013年全世界的数据量将达到1.3ZB[4]。若把这些数据全部记录在书上，这些书可以覆盖52个美国国土面积；若把这些数据刻到光盘上，光盘罗列起来的高度是地球到月球距离的5倍。人们正面临一个大数据时代的到来。

在严酷的市场竞争压力下，为更客观地把握自身和市场状况，提升内部管理和决策水平，企业管理者们面对如此丰富的海量数据，分析需求越来越强烈。他们希望利用有效的数据分析工具，更多地挖掘出隐藏在数据中的、有价值的能够辅助管理和决策的信息。

例如，制造业已从过去的粗放式生产经营模式过渡到精细化的生产管理模式。决策者需要了解客户偏好，设计最受市场欢迎的产品；需要制定合适的价格，确保企业的利润；需要了解市场需求，调整产销计划，优化库存结构；需要评估供应商质量、供应合同和订单违约率，提高产品合格率以及风险控制能力等。

再如，政府部门中的政策制定者们，为保证出台政策的科学性和全面性，也希望利用数据分析方法，对现有数据进行科学、缜密的分析。

因此，正如著名的数据仓库专家Ralph Kimball在其著作中所写的那样：“我们花了二十多年的时间将数据放入数据库，如今是该将它们拿出来的时候了。”

然而，令人棘手的问题接踵而来。原来管理者们得不到想要的数据，是因为数据库中没有充足的数据，但现在他们似乎仍然无法快捷地得到想要的数据，其原因是数据库里的数据太多了。人们面对规模庞大、纷繁复杂的数据，漫无头绪，无从下手，致使原本宝贵的数据资源成了使用者的负担。组织中的管理决策者无奈地感慨：基层业务人员尚且能够通过业务处理系统快速访问一定范围内的业务数据，而高层决策者却似乎缺少有效的工具，从数据库中获得利于决策制定的有价值的数据。于是，所谓的“信息爆炸”、“数据多但知识少”成为一种普遍的怪现象。

究其原因，一方面，对于基层业务人员来说，由于业务处理系统是依据一定的业务流程，符合一定的业务规范的，所以通过业务处理系统业务人员能够灵活自如地掌控“自己的”数据；而对于管理决策者，他们所需要的数据通常来自于各个业务处理系统，但由于业务处理系统是分散的，加上管理、规划、设计、技术等诸多因素影响，各系统基本处于“封闭”状态，系统之间的数据交换需求极少，而且交换的渠道也不够畅通。尽管客观上各系统之间仍然存在数据重复录入、数据不一致等问题，但由于基层业务处理具有“各自为政”的特点，因此对日常业务处理似乎并无大碍。然而由此形成的“信息（数据）孤岛”现象，对那些正在逐渐摒弃“凭经验”、“拍脑袋”决策方式的领导者们来说，却是一个大忌。他们深刻认识到，如果无法有效快捷地将各系统中的数据整合到一起，就无法及时得到全面准确的数据，更无法进行分析而做出正确决策。

另一方面，数据的定量分析是科学决策的前提。实施定量分析需要深厚的专业知识，更需要有效的分析工具。但一般业务处理系统中的数据分析功能相对简单，通常只能制作各种数据汇总报表，无法实现对数据的深层次分析，因此不能很好地满足决策者的定量分析需求。

大规模海量数据的整合处理和深层次量化分析的实际需求，直接孕育了20世纪90年代初期的两项重大技术，这就是数据仓库技术和数据挖掘技术。数据仓库和数据挖掘的产生和发展，使得当今的计算机网络应用体系从业务管理层逐步跃升到决策支持层。同时，两者在技术和产品上的互相补充和互相促进，逐渐形成了融合发展的可喜局面，为最终形成具有一定通用意义的决策支持系统奠定了良好的基础。1.1.2 应用对理论的挑战催生数据挖掘

应用需求对理论研究的牵引力是巨大的，没有应用背景的理论研究是没有价值的。在海量数据管理和分析应用呼声不断的同时，相关理论研究和应用实践的脚步也未曾停止。数据库与数据仓库、人工智能与机器学习、统计学理论应用的发展是数据挖掘诞生的坚实基础。

1.数据库和数据仓库

计算机应用从其刚刚诞生时的以数值计算为主跨越到当今的以数据管理为主，数据库的理论实践起到了巨大的推波助澜的作用。从最初的文件系统研究，到后来的层次模型、网状模型，直至1969年E.F.Codd提出的关系数据模型，可以说数据库理论开创了数据管理的新时代。数据库以其卓越的数据存储能力和数据管理能力，得到了极为广泛的应用。随着数据库中数据的不断积累以及人们对海量数据分析的强烈需求，数据库的理论实践开始思考这样的问题：是否存在更有效的存储模式来实现高维海量数据的存储管理?数据库仅仅是用来存储数据的吗?难道数据库对数据的管理仅仅停留在简单的查询和汇总上吗?

应用呼唤理论的发展和理论的再实践。通过数据库研究者们的不懈努力，在数据库基础上逐渐发展完善起来的数据仓库技术，已经成为一种有效的面向分析主题的数据整合、数据清洗和数据存储管理集成工具。同时，在机器学习和统计学等领域研究成果的基础上，数据仓库正在不断吸纳经典的数据分析方法并将其融合到商业产品中。

例如，许多知名的数据库厂商，如Microsoft公司的SQL Server产品，提供了多种典型的数据挖掘算法；Oracle公司的Oracle产品包含了包括关联规则和贝叶斯算法在内的众多数据挖掘算法；而IBM公司更是通过斥资12亿美元收购了业界极为著名的，麾下拥有SPSS统计分析软件和SPSS Modeler数据挖掘产品的SPSS软件公司，扩展了IBM的“信息随需应变”软件组合和商业分析能力。IBM表示，收购SPSS将增强公司“信息议程战略”（Information Agenda Initiative）的业务实力，帮助客户公司更有效地将信息转化为战略资产。

与此同时，研究者们也在为实现数据仓库中数据和分析模型的无缝交互，以及不同数据仓库产品间的数据挖掘分析方法共享而不懈努力着。例如，1999年，Microsoft公司提出了OLE（Object Linking and Embedding）DB（DataBase）for DM（Data Mining）规范，研发了模型建立、模型训练和模型预测的数据挖掘语言。其核心思想是利用SQL和OLE DB将数据库中的关系概念映射到数据挖掘中；包括IBM、Microsoft、Oracle、SAS、SPSS等大公司在内的数据挖掘协会，提出了预测模型标记语言PMML（Predictive Model Markup Language），它标准化了常见数据挖掘算法的模型内容，并以XML格式存储，使不同软件之间的模型交换和共享成为可能。以Microsoft公司的SQL Server产品和IBM公司的SPSS Modeler产品为例，当用户在计算机中安装了SQL Server，如果在SPSS Modeler中建立和执行数据挖掘流，则SPSS Modeler会将挖掘流提交给数据库，并利用数据库系统所提供的各种数据管理优化机制，直接读取数据库中的数据而不必下载到SPSS Modeler中，且模型结果可存储于数据库中。

2.人工智能和机器学习

人工智能和机器学习的理论研究一开始就具有浓厚的应用色彩。针对如何利用计算机模拟人脑的部分思维，如何利用计算机进行实际问题的求解等，人工智能和机器学习的理论研究主要集中在基于谓词演算的机器定理证明技术和二阶演绎系统等方面，可以说成果丰硕。然而，其理论实践过程中出现了许多问题。

例如，作为人工智能和机器学习研究成果之一的专家系统，在某种意义上能够代替专家给病人看病，能够帮助人们识别矿藏，但却很难解决那些看似简单实则极为复杂的问题。如专家系统建立中的知识获取过程，出现了诸如人脑是如何思维的，计算机技术人员应以怎样的方式与领域专家交流才能全面获取其专业知识，如何克服知识交流过程中的随意性、跳跃性等一系列问题；再如，专家系统的知识表示过程中，出现了因计算机的知识表示通常是“机械”化的“如果……那么……”方式，而专家的领域知识丰富多彩，并不是所有知识都能够概括成“如果……那么……”的模式等问题；再如，专家系统中获取和存储的知识绝大部分是领域的专业知识，常识性知识很少，但没有常识的专家系统有时会比傻子还傻。人工智能学家Feigenbaum曾估计，将一般人拥有的常识存入计算机大约需100万条事实和抽象经验。将如此庞大的事实和抽象经验整理表示并存储在计算机中，难度是极大的。

正是这样，人工智能和机器学习的应用重心开始从博弈、自然语言理解、专家系统等领域向更具应用意义的数据分析方面转移。机器学习方法，如决策树、神经网络、推理规则等，能够模拟人类的学习方式，向数据案例和经验学习，并通过学习实现对新事物所具模式的识别和判断，而这种方式恰恰为数据分析提供了极为绝妙的研究思路。

3.统计学

统计学发展至今已有几百年的历史，它为数据收集、整理、展现和分析过程提供了完整的理论框架和实践依据。然而在信息技术迅猛发展，数据量高速膨胀、数据类型日益丰富、数据管理和分析需求不断提升的当今，统计学的理论研究和应用实践也面临着诸多挑战。这主要体现在理论研究和应用实践两个方面。（1）理论研究方面

例如，在数据采集能力极为有限的过去，人们只能通过研究少量样本来推断总体特征。此时，作为统计学传统方法的推论统计具有极高的应用价值。但在数据采集能力极强的今天，有时摆在人们面前的不再是“小样本”而是海量的高维总体，此时推断不再有意义，且原本较小的参数差异在大样本条件下都表现出了“显著”；再如，经典统计分析方法往往是模型驱动式的。以统计学中应用极为广泛的线性回归分析方法为例，它便是首先确定模型，然后利用数据建立、验证模型，最后应用模型。这样的研究模式是建立在对模型的“先知先见”基础上的。但在数据庞大、结构复杂的今天，这种“先知先见”几乎是不可能的，数据驱动式的分析思路似乎更为现实。因此，基于模型假设进行总体推断和检验的传统分析方法已显露出很大的局限性。

为克服统计分析方法应用过程中的诸多问题，20世纪60年代，稳健统计开始盛行。它通过敏感性分析、异常值诊断等手段，开创性地解决了数据与理论分布假设有偏差的分析问题。20世纪70年代中期，John Tukey提出的探索性数据分析（EDA）方法，开始打破统计方法中分布假设的古典框架，注重从数据的特征出发研究和发现数据中有价值的信息。在之后至今的几十年发展历程中，统计方法在与数据相结合的发展道路上硕果累累，许多新的统计技术应运而生。在摆脱古典框架约束方面，通过马尔可夫链蒙特卡罗（Markov Chain Monte Carlo，MCMC）模拟以及Bayes统计等方法，着力解决复杂模型识别和分析问题。利用Jack-knife（刀切法）、Cross-Validate（交叉验证）、Bootstrap等方法解决模型评价和选择问题。此外，在分析结果展示方面，除传统的数学语言表示之外，统计也力图更多地借助现代计算机技术，实现高维数据分布特征以及分析结果的图形化展示，数据的可视化技术已成为统计和计算机界共同的热门话题。（2）应用实践方面

例如，数据整理是统计分析必不可少的重要环节。在数据量相对较少的过去，数据整理可以通过手工或借助简单工具实现。但随着数据量的快速膨胀，这个问题不再是个量变而成为一种质变。从工作量看，数据整理的工作量已经占到整体统计分析工作量的70%～80%或更高；从工作方式看，手工或借助电子表格软件整理数据的方式已显得无能为力。

表面看，上述问题源于数据整理手段和工具效率不高，但本质上却源于数据的存储组织模式。因为，数据整理的高效率是建立在良好的数据组织模式基础上的，只有好的数据组织模式才可能支撑高效率的数据整理。因此，过去在统计应用视野之外的数据存储和组织问题，今天不得不成为统计应用实践的焦点，统计应用与计算机数据库技术相结合已是大势所趋。

再如，整体解决方案已成为统计应用实践的大趋势。过去，人们的统计应用实践往往呈现出“片段性”的特点，原本完整的统计应用呈“割裂”状。以企事业统计为例，统计应用实践应包括建立指标体系，采集数据，存储和管理数据，分析数据和制定决策等多个相互影响和制约的环节。但如果将其割裂开，必然会出现各自为政、各行其是的局面。于是，一些统计人员脑子中“我只负责指标框架设计，不考虑具体实施”、“你给我数据，我给你分析”的工作模式不足为怪，数据上报成了基层人员的额外负担也并非罕事。

没有从系统和工程的角度提供统计应用的整体解决方案是导致以上问题的根本原因。事实上，企事业统计更需要的是服务于企事业决策的统计指标体系。其理论框架固然重要，但更应建立在对业务充分理解、广泛调研和可行性深入分析的基础上。指标体系的建立不仅涉及统计制度的建设，还必须考虑其可操作性，并将其体现在业务处理系统或信息管理系统中。统计数据的采集应纳入企事业的日常管理流程中，应能够通过业务处理系统或信息管理系统自动生成所要的统计数据，并以面向主题的方式存储于统计数据库中。同时，分析过程所需的数据是对统计数据库灵活查询的结果，它支持数据的不同表式和格式的转化，且分析过程方法“无缝”嵌入在决策支持系统中，统计建模过程可以不透明，分析结果以业务人员熟悉的语言陈述，且能够随数据的不断更新而自动调整。可见，现代统计应用实践需要依托数据库和网络技术，实现从海量数据的收集、存储管理到有效分析的整体解决方案，它无疑是统计与计算机相结合的产物。

总之，海量复杂数据的存储和分析需求，数据库和数据仓库技术、机器学习和统计分析的理论发展和应用实践，以及各学科领域融合发展所形成的异曲同工特点，诞生了数据挖掘这个新兴的应用研究领域。

1.2 什么是数据挖掘

海量数据的分析需求，理论研究的拓展和相互渗透，利用数据库、数据仓库技术存储管理数据，利用机器学习和统计方法分析数据，这种多学科交叉融合发展和实践的思想，形成了备受各领域人们关注的新兴领域——数据挖掘。

1995年，加拿大蒙特利尔召开了第一届“知识发现（Knowledge Discovery in Database，KDD）和数据挖掘（Data Mining，DM）”国际学术会议。“数据挖掘”一词很快流传开来。人们将存储在数据库中的数据比喻为“矿石”，数据挖掘则是一个从数据“矿石”中开采知识“黄金”的过程。

于是，国内外众多学者和机构纷纷投入数据挖掘的理论和应用研究大潮中，涌现出了大批学术论文、著作以及商业应用成功案例。这些成果涉及的领域极为广泛且各有不同的侧重点。有的从计算机数据库和数据仓库角度阐述数据挖掘过程中的数据管理理论和技术，有的从人工智能和机器学习角度重点探讨各种算法改进策略，有的则从应用角度探讨如何实施数据，挖掘以解决诸如客户关系管理、购物篮分析、信用评分、产品制造、Web点击流分析等众多现实问题，形成了前所未有的蓬勃发展局面。1.2.1 数据挖掘的概念

数据挖掘的交叉学科特点导致在数据挖掘诞生早期，不同学者对数据挖掘的理解和定义有所差别。例如，Michael J.A.Berry和Gordon Linoff在其1997年所著的《Data Mining Techniques For Marketing，参考文献[15]Sales and Customer Support》和2000年所著的《Mastering Data Mining：The Art and Science Of Customer 参考文献[11]Relationship Management》著作中指出，数据挖掘是一种通过自动或半自动方式探索和分析大量数据，以发现其中有意义的模式和规则的过程。Bhavani Thuraisingham在她1998年的著作《Data Mining：Technologies，Techniques，Tools and Trends》中指出，数据挖掘是对存储于数据库中的大量数据，通过查询和抽取方式获得以前未知的有用信息、模式和规则的过程。

随着数据挖掘研究和应用的发展，人们对数据挖掘的理解已经达成了共识，即数据挖掘是一个利用各种方法，从大量数据中提取隐含和潜在的，对决策有用的信息和知识的过程。其特点体现在以下几个方面。

第一，数据挖掘是一个过程，而非一个单纯的数据建模。数据挖掘是一个以数据为中心的循序渐进的螺旋式数据探索过程，它涉及业务理解（Business Understanding）、数据理解（Data Understanding）、数据准备（Data Preparation）、建立模型（Modeling）、方案评估（Evaluation）和方案实施（Deployment）等多个阶段。在业界公认的跨行业数据挖掘标准CRISP-DM（CRoss Industry Standard Process of Data Mining）中，对各个阶段所涉及的问题、应采取的步骤和策略进行了非常详尽的论述。该标准的目的是希望从数据挖掘的全局出发，为各行业数据挖掘应用提供具有重要参考价值的总体实施方案，如图1-1所示。

篇幅所限，这里不对其中内容做详细介绍。

第二，数据挖掘方法是各种分析方法的集合。一方面，数据挖掘能够通过数据库系统所提供的结构化查询语言，实现对数据的多维度在线分析处理（On-Line Analysis and Processing），验证人们事先对数据所含信息的假设，实现验证驱动（Verification-driven）型的数据分析；另一方面，数据挖掘也能够通过机器学习和可视化等方法，挖掘隐藏在数据中的人们事先并不知道的规律，实现发现驱动（Discovery-driven）型的数据分析。

第三，数据挖掘具有分析海量数据的能力。数据仓库技术以及丰富的数据建模算法，使得数据挖掘具有处理和分析海量数据的能力。图1-1 跨行业数据挖掘标准

第四，数据挖掘的最终目的是辅助决策。数据挖掘从来都是面向应用的，脱离现实问题的数据挖掘是没有意义的，因此，不具备任何行业知识的数据挖掘应用也是无法成功的。1.2.2 数据挖掘能做什么

数据挖掘通常可以完成数据总结、分类、关联、聚类等若干主要任务。

1.数据总结

数据总结是对数据的基本特征进行概括。通过数据总结，不仅能够实现对数据多维度多层次的汇总，还能够得到数据分布特征的精确概括。

例如，为制定不同种类的商品在不同城市和不同季节的销售方案，首先可对现有销售数据进行汇总。如果数据为月度数据，那么可以按季节，汇总出不同种类商品在不同城市各个季度的销售量；也可以按地理区域，汇总出不同种类商品在不同月份各个区域的销售量，形成各种统计报表，等等。这种多角度的汇总能够直观反映销售状况，是对原始数据的提炼和总结。进一步，可以比较不同季度、不同区域的不同种类商品销售数据在分布特征上的差异性，以制定不同的销售策略。

可利用数据仓库OLAP技术进行数据的多维查询汇总，也可通过基本统计方法计算测度数据分布的集中趋势、离散程度以及分布对称性和陡缓程度。

2.分类

分类的主要目的是通过向数据“学习”，分析数据不同属性之间的联系，得到一种能够正确区分数据所属组别的规律，即通过“学习”建立一种包含分类规律的分类模型，且该模型能够对新数据所属的组别进行自动预测。

例如，一份客户消费行为的数据，其中包括客户的性别、职业、收入、年龄以及消费记录。如果希望分析客户的性别、职业、收入、年龄等属性特征，与是否购买某种商品有元联系，则可将曾经购买的客户作为一类，未购买的客户作为另一类，并通过“学习”找到客户特征属性与购买行为之间的联系规律，进而实现对新客户是否购买进行分类预测。

常用的分类方法有机器学习中的决策树、神经网络，以及统计学的Logistic回归、判别分析等。评价分类模型优劣的重要方面是分类预测的准确性。

3.关联

关联就是通过数据分析，找到事物之间的相互关联规则，包括简单关联规则和时序关联规则。

例如，分析发现购买面包的顾客中有相当大比例的人同时购买牛奶，即为一种简单关联规则。再如，通过大量数据分析，可以计算出客户在保险公司购买了A保险产品且三个月内又购买了B保险产品，那么客户在未来六个月内购买C保险产品的概率，这就是一种时序关联，它在简单关联中加入了时间属性。

当然，关联分析中，通常并不知道关联性是否确实存在，因此关联分析所生成的规则是带有一定置信度的，它度量了关联规则的强弱。

常用的关联分析方法是机器学习中的相关规则等。

4.聚类

聚类是一种在没有先验知识的条件下，根据某种相近程度的度量指标，对数据自动进行子集划分的技术。所形成的子集合内部数据的结构特征相近，而不同集合之间的数据结构特征有较大差异。

例如，仍然针对上述客户消费行为的数据，企业可以通过聚类分析，在不指定任何分类标准的情况下，根据数据全面客观地进行客户群划分，不同群组中客户特征和消费行为总体上相近。这样，可以针对不同客户群采用不同的营销策略。

常用聚类方法有层次聚类、K-Means聚类以及两步聚类、Kohonen聚类等。

正因数据挖掘能够完成上述各类任务，因此它在各个领域和行业有着极为广泛的应用。例如，在市场营销中，可以利用数据挖掘进行客户分析，包括客户行为分析，划分客户群，制定针对不同客户群的市场营销活动和客户服务；客户流失分析，把握客户流失率、流失客户特征、客户流失原因，从而有针对性地制定策略以保持客户和提升其存在价值。同时，还可以进行产品分析，发现交叉销售产品，进行市场预警等。

再如，在证券领域，可以利用数据挖掘分析包括结算数据、过户数据和交易系统数据等在内的业务数据、行情数据以及证券文本数据等，从而把握客户交易行为，掌握企业经营状况，控制证券交易风险等。

另外，数据挖掘还可通过图像识别服务于环境分析，帮助人们尽早做出生态灾难报警，及时制止污染排放和倾倒等。1.2.3 数据挖掘得到的知识形式

数据挖掘通过各种分析方法最终得到的知识，通常的表现形式包括浓缩数据、树形图、推理规则以及数学模型等。

1.浓缩数据

浓缩数据是通过计算数据中各个变量的重要程度，剔除那些对决策不重要的变量，并按一定原则合并数据记录，完成变量和样本压缩而最终得到的结果。浓缩数据是原数据的精炼，更能体现数据中的规律性。

例如，某厂商计划推广一种新产品，为此与某大型商厦联合，对在商厦消费的部分消费者进行了调查。调查得知顾客中一部分人打算购买某种新产品，而另一部分人不打算购买。表1-1是这些客户的背景资料，及其他相关消费的模拟数据。现希望分析客户背景和以往的消费行为是否会影响他们对新产品的购买计划。

通过分析可以看到，在打算购买和不打算购买的人群中，消费频率和收入水平的分布在不同组有区别，可能是区分是否打算购买的有意义的属性。而性别在两类人群中的比例没有显著差异，可以认为它对区分是否打算购买方面意义不明显。表1-1 原始数据

为精简数据，可以剔除“性别”变量。当剔除“性别”变量后，原始数据会出现重复，需要压缩这些重复数据，于是得到浓缩数据，结果见表1-2。表1-2 浓缩数据

由于数据挖掘中的数据往往是海量的，因此数据的适当精简对提高分析效率尤为重要。浓缩数据的数据量较原来减少了，但并没有因此丢失对决策有用的信息。所以，精简后的浓缩数据更有价值。

2.树形图

树形图是将数据分析过程和结果以倒置的树的形式展现出来的一种方式。

例如，在上例中，当剔除“性别”变量并利用消费频率和收入水平区分是否打算购买时，发现依据消费频率进行判断的确定性大于收入水平，则可首先依据消费频率，然后再依据收入水平进行分类。于是，所得的树形图如图1-2所示。

3.规则

规则是数据分析结论的一种表现形式。它由前提条件和结论两部分组成。前提条件由变量、变量值以及关系运算符组成，关系运算符包括“并且（∩）”和“或者（∪）”，结论是某个决策变量的取值和类别。

例如，上例中，分析结论的规则表述为以下形式：

●IF（消费频率=经常）∪（（消费频率=偶尔）∩（收入水平=高收入∪中收入））THEN打算购买

● IF（（消费频率=从未）∪（消费频率=偶尔∩收入水平=低收入）THEN 不打算购买图1-2 树形图

4.数学模型

数学模型通过分析找到事物中所含变量之间的数量关系，并用某种数学形式表示这种关系。统计学中常见的模型y=β+βx+ε就是一种01典型的数学模型。

总之，数据挖掘的分析结果是多种多样的，它更注重分析结果的直观表述和展示。1.2.4 数据挖掘的算法分类

算法是数据挖掘模型的核心，由于数据挖掘具有交叉学科的色彩，因此其算法也丰富多彩。可以从不同角度对数据挖掘算法的分类做简单概括。

1.根据算法分析数据的方式划分

从算法分析数据的方式角度划分，可将数据挖掘算法划分为假设检验型算法和知识发现型算法。（1）假设检验型算法，也称自顶向下（Top-Down）型算法。该类算法通常应首先提出某个理论假说，然后利用所收集的数据去证实假说。如果数据不能充分证实假说，则应拒绝假说，反之则不能拒绝假说。

例如，针对上述消费者是否购买的例子，可以先提出一个是否购买与性别、消费频率、收入水平之间关系的模型，然后利用数据计算模型中的参数，并检验模型是否充分反映了是否购买与性别、消费频率、收入水平之间的真实关系，进而判断所提出的假说是否合理。

因此，假设检验型算法的本质是一种从一般原理推出个别结论的验证型方法。（2）知识发现型算法，也称自底向上（Bottom-Up）型算法。该类算法一般不对数据和结论提出假设，而是通过对数据的分析发现数据中隐含的事先并不知道的规律。

例如，位于美国阿肯色州的著名连锁超市Wal-Mart，通过分析顾客消费数据库发现，啤酒和尿布同时购买的可能性很高。这个结论让超市的管理者大为惊讶，但仔细研究发现其原因在于，住在该超市周边的顾客大部分为年轻夫妇，通常妻子总是嘱托丈夫在下班的时候给孩子买尿布，于是年轻的爸爸们在给孩子买尿布的同时，也会买些啤酒犒劳自己。于是，超市根据这个分析结论重新调整了货架的安排，以减少爸爸们在超市里来回拿取商品所花费的时间。

可见，知识发现型算法是一种从个别数据中归纳得出一般性结论的探索性分析方法。但由于这种分析方法的自身特点，使得一般性结论的推广要更慎重。例如，上述尿布和啤酒的结论是在特定时间、地点和场合下得到的，它并非在任何条件下都成立。

2.根据算法来自的学科类型划分

从算法来自的学科类型角度划分，可将数据挖掘算法划分为机器学习算法和统计学算法。

机器学习和统计学本属于不同的学科领域，但两个领域的专家们在某些算法上却有类似的解决方案。

例如，20世纪80年代中期，Breiman等四位统计学家出版了名为《分类和回归树》（Classification and Regression Trees）的专著。与此同时，卓越的机器学习专家J.Ross Quinlan也开发了一种从数据中推导分类的系统。当时科学家们并没有意识到两种解决方法的相似之处，直到很久以后两个领域的研究者才互相意识到对方的成就。

机器学习算法的核心是通过对n维空间数据集的搜索，找到对数据特征的恰当概括。其本质任务是通过对有限的系统输入/输出分析，估计出输入/输出的相关性并进行分类预测，或揭示系统结构特征。一个简单的机器学习系统如图1-3所示。图1-3 一个简单的机器学习系统

以上述消费者是否购买为例，可将该事物看成一个“购买系统”。在这个系统中，消费者的性别、消费频率和收入水平等特征数据，将看成机器学习系统中随机发生器的随机发生结果X，而是否打算购买则看成“购买系统”中的y。当然，不同特征（X）的顾客是否打算购买的意向（y）是不同的，在机器学习中将其看成条件X下的概率，即P（y|X）。于是，这两者将被同时输入到图中所示的学习机中。

学习机的主要任务是从其所支持的函数集f（X，W）中选择一个一般化的与“购买系统”响应行为最近似的函数f（X，w）。这里，W是所有函数的参数集合，w是某个特定函数的参数集合。当然，选择近似函数的依据通常是损失函数L（y，f（X，w））。针对不同的数据类型可定义不同的损失函数，如平方损失函数即学习机给出的预测值y'与实际值y的差的平方和等。如果将损失函数看成一个X、y、w多维空间上的曲面，那么机器学习过程就是一个不断向数据“学习”，不断调整参数，进而使损失函数尽快达到最小的过程。

经典统计学方法与机器学习思路有类似的方面，同时它更强调模型的先期假设和后期验证。

3.根据算法所得结果的类型划分

从算法所得结果的类型角度划分，可将数据挖掘算法划分为直接型数据挖掘算法和间接型数据挖掘算法。

直接型数据挖掘是一种“黑匣子”式的数据分析方式。其核心任务是根据已有数据，建立分类模型，并通过模型实现对新数据对象的分类等。因此，这种分析算法重点关注的是模型的分类预测精度。

例如，针对上述消费者是否购买的例子，可以依据所获得的数据建立分类模型以预测具有某种特征的新客户是否打算购买。

间接型数据挖掘是一种“半透明”式的数据分析方式。其核心任务是根据已有数据，建立数据的描述模型，并通过描述模型展现数据的内在特征和规律，揭示数据中隐藏的规律和关系。与直接型数据挖掘相比，间接型数据挖掘算法中一般没有特定的分类预测目标变量。因此，它更关注对数据内在联系和结构的展现程度。

例如，还是上述消费的例子，可以根据数据将客户客观划分为若干客户群，每个客户群有各自不同的特征。

4.根据学习过程的类型划分

从学习过程类型的角度划分，可将数据挖掘算法划分为有指导的学习算法和无指导的学习算法。

有指导的学习算法通常应用在分类问题中，核心目标是实现对新数据的分类预测。而分类预测模型的建立一定是建立在对历史数据的学习基础上的，因此历史数据就是一位“老师”，它始终指导着模型的建立和评价。

无指导的学习算法通常应用在数据内在关系和结构的剖析问题中。由于这些关系和结构是事先未知的，所以学习过程是无“老师”参与的。

当然，随着数据挖掘应用的不断深入，目前也有很多算法集中在有指导和无指导之间，称为半指导的学习算法。

1.3 SPSS Modeler软件概述

Clementine（IBM SPSS Modeler）前身是英国ISL（Integral Solutions Limited）公司开发的一款数据挖掘工具产品，1998年被SPSS公司收购，并被重新整合和开发。

Clementine研发项目始于1992年。1994年v1.0正式发布，之后经过2000年v6.0版，2001年v6.5版，2002年v7.0版，2003年v7.2版、v8.0版，2004年v8.5版，2005年v9.0版，2006年v10.0版，2007年v11.0版，Clementine的研发速度惊人。目前已推出v14.0版。2009年，SPSS公司被IBM收购，产品得到更有效的合理整合，Clementine被重新命名为IBM SPSS Modeler，成为IBM麾下一款面向商业用户的高品质数据挖掘产品。

由于SPSS Modeler拥有丰富的数据挖掘算法，支持与数据库之间的数据和模型交换；同时，具有可视化操作界面，简单易用，分析结果直观易懂，图形功能强大等特点，已从诸如Statsoft Statistics、SAS Enterprise Miner、Oracle DM、MATLAB、Angoss等众多数据挖掘软件中脱颖而出。自2000年以来，KDnuggets公司面向全球开展①“你最常用哪种数据挖掘工具”的跟踪调查，反馈结果表明，2000至2009年Clementine产品一直居首位。2009年SPSS Modeler使用率较2008年增长148%。1.3.1 SPSS Modeler的窗口

SPSS Modeler的操作与数据分析的一般流程相吻合。数据分析通常经过数据收集、数据展示和预处理、模型建立、模型评价等环节。SPSS Modeler形象地将这些环节表示成若干节点，将数据分析过程看成数据在各个节点之间的流动，并通过一个图形化的“数据流”直观表示整个数据分析过程。

所以，SPSS Modeler的操作目的就是要建立一条或多条数据流，不断修改和调整流中的节点及参数，执行数据流，进而完成整个数据分析任务。

成功安装并启动SPSS Modeler后会出现SPSS Modeler主窗口，如图1-4所示。图1-4 SPSS Modeler主窗口

SPSS Modeler主窗口由数据流编辑区域和三个窗口组成。

1.数据流编辑区域

数据流编辑区域位于主窗口中间，是建立和编辑SPSS Modeler数据流的区域，用户的大部分操作是在这个区域内完成的。

2.节点工具箱窗口

SPSS Modeler数据流是由多个节点组成的。节点工具箱窗口位于主窗口的下方，可通过上下按钮（▲▼）使其呈“可见”或“不可见”状态。

工具箱中分类存放着SPSS Modeler的所有节点工具，这些节点均以图符形式显示，可实现数据采集、数据展示、数据（包括变量和样本）预处理、数据建模以及模型评价等功能。它们被分别放置在Source、Record Ops、Field Ops、Graphs、Modeling、Output和Export选项卡中，其中的常用节点又集中放置在Favorites选项卡中。

呈黄色背景显示的选项卡为当前选项卡，用户可通过鼠标任意指定当前选项卡，并在其中选择所需的节点工具。

3.流管理窗口

多个节点依次连接就形成了数据流。流管理窗口位于主窗口的右上方，可通过左右按钮（◄ ►）使其呈“可见”或“不可见”状态。流管理窗口由Streams、Outputs、Models三张选项卡组成。

可在Streams选项卡中新建、打开、关闭、保存数据流。呈蓝色背景显示的数据流为当前数据流，用户只能对当前数据流进行操作。可通过鼠标任意指定当前数据流。

Outputs选项卡中存放着执行数据流后生成的各种数据表，用户可根据需要对这些数据表进行必要的管理操作。呈蓝色背景显示的数据表为当前数据表，用户只能对当前数据表进行操作。可通过鼠标任意指定当前数据表。

Models选项卡中存放着执行数据流后生成的各种模型计算结果，用户可根据需要对模型计算结果进行必要的管理操作。

需要注意的是：在Streams选项卡中，数据流的磁盘文件扩展名为.str；在Outputs选项卡中，数据表的磁盘文件扩展名为.cou；在Models选项卡中，模型计算结果的磁盘文件扩展名为.gm。

4.项目管理窗口

项目管理窗口位于主窗口的右下方，可通过上下按钮（▲▼）使其呈“可见”或“不可见”状态。

多条数据流可组成一个数据挖掘项目。数据挖掘项目的实施应遵循前文的CRISP-DM方法论，需经历多个阶段，而各阶段又需要与之对应的数据流以实现不同的目标。因此，SPSS Modeler通常以项目为单位，对流管理窗口中的各种数据流进行集中分类管理，进而避免由数据流过多带来的管理上的混乱。

所以，当用户的数据挖掘任务较为庞大而建立了很多数据流时，可自行将流管理窗口中服务于不同目标的数据流，分别存放到不同目录中，这些目录的默认名为Business Understanding、Data Understanding、Data Preparation、Modeling、Evaluation、Deployment，分别对应于数据挖掘的各阶段，以最终形成一个完整的数据挖掘项目。用户只需打开一个项目，SPSS Modeler便会自动打开项目中记录的全部数据流，并显示在流管理窗口中。

项目管理窗口中的Business Understanding默认呈黑体字显示，表示为当前目录。用户也可单击鼠标右键，选择弹出菜单中的“Set as Default”项，指定任意目录为当前目录。此时，在流管理窗口的Streams选项卡中，单击鼠标右键，选择弹出菜单中的“Add To Project”项，则当前数据流将被存放到项目的当前目录中。

同理，Outputs和Models选项卡中的数据表以及模型计算结果，也可采用同样的操作方法存放到当前目录中。

需要注意的是：项目的磁盘文件扩展名为.cpj。.cpj文件只记录项目中相关数据流的索引，并不存储数据流本身。数据流是以.str文件单独存储的。1.3.2 数据流的基本管理和执行

数据流的基本管理是SPSS Modeler的核心操作。由于节点是组成数据流的最小单元，因此，数据流的基本管理是围绕节点展开的。数据流中的节点通常应实现以下主要功能。

第一，从指定数据源中读入数据到SPSS Modeler中。通常这些节点位于整个数据流的开始部分。第二，对所读入的数据进行必要的预处理。例如，以表格形式显示数据内容；数据分布特征的分析和展示；根据分析需要筛选部分数据参与后续分析等。第三，数据建模。第四，对所建立模型进行评价，选择最优模型等。

为实现上述目标，数据流的操作主要包括以下步骤：

第一，选择和管理节点。第二，节点连接和连接调整。第三，设置节点参数。第四，执行数据流。

图1-5 所示是一个简单的数据流，有向线段表示数据的流动方向。图1-5 一个简单的数据流

1.选择和管理节点

由于节点所实现的功能不同，因此被安排在节点工具箱的不同选项卡中。建立数据流时，应根据实际需要，首先通过鼠标单击选择相应的选项卡，然后再通过鼠标双击或鼠标拖动操作，将某个节点工具选中并添加到数据流编辑区域中。其中包括如下选项卡。

● 收藏（Favorites）选项卡：存放数据流建立过程中最常用的节点工具。

● 数据源（Sources）选项卡：存放将各种外部数据读到SPSS Modeler中的节点工具。

● 记录（Record Ops）选项卡：存放针对记录操作的节点工具。通常，数据以行为单位组织，每行为一条数据。数据库中称行为记录，统计上称为样本。为避免混乱，本书以后将行统称为样本。

● 字段（Field Ops）选项卡：存放针对字段操作的节点工具。数据库中称列为字段，统计上称为变量。为避免混乱，本书以后将列统称为变量。

● 图形（Graphs）选项卡：存放展示数据分布特征和变量关系规律的可视化图形节点工具。

● 建模（Modeling）选项卡：存放建立各种数据模型的节点工具。

● 输出（Outputs）选项卡：存放展示数据和数据基本统计特征的节点工具。

● 导出（Export）选项卡：存放将数据转换成其他格式的节点工具。

鼠标右击数据流编辑区域中的当前节点（呈反向蓝色显示），选择弹出菜单中的选项或按快捷键，可实现对节点的一般管理。例如，Rename and Annotate：给节点改名和添加说明文字；Cut：剪切节点；Copy Node：复制节点；Delete：删除节点，等等。

2.节点连接和连接调整

当数据流编辑区域中有两节点A、B时，可通过有向线段实现节点A、B的连接。连接操作的实现方式很灵活，包括：

鼠标右击节点A，选择弹出菜单中的Connect选项或按快捷键F2，指定将第一节点A和第二节点B相连；另外，还可按住Alt键，同时拖动鼠标指向第二节点B，实现节点A、B的连接。

节点间连接的调整也是经常用到的。

● 删除节点A、B之间的连接：鼠标右击节点A，选择弹出菜单中的Disconnect选项；或者鼠标右击相应的有向线段，选择弹出菜单中的Delete Connection选项。

● 在已连接的两个节点A、B中插入一个节点C：首先将节点C选择到数据流编辑区域的相应位置上，然后鼠标拖动A、B之间的有向线段到节点C。

● 在已建立的节点“A→B→C”上绕开节点 B 而直接连接到节点 C：首先指定节点 A为当前节点，然后按住Alt键同时拖动鼠标A、B之间的有向线段到节点C。

需要注意的是：并非所有节点之间都可以建立连接。例如，输出选项卡中的节点都为“终止”节点，它们之后不能再连接其他节点。

3.设置节点参数

节点是用来处理数据的，需要对某些节点中针对数据处理的参数进行必要的说明。例如，记录卡中有样本筛选节点Select，对这个节点就需要进行参数设置，以指明按照怎样的策略进行样本筛选。

设置节点参数的操作也非常简单，只需鼠标右击相应节点，选择弹出菜单中的Edit即可。不同节点的参数不同，若要弄清楚参数的含义，往往首先要了解节点的功能，以及节点所提供数据分析方法的原理，这是学习和使用SPSS Modeler的难点。后面的章节将陆续对相关节点参数的含义做详细解释。

4.执行数据流

当数据流建立完成后，若要得到数据分析结果，则需要执行数据流。

选择主菜单Tools→Execute，表示从数据流第一个节点开始执行整个数据流；

也可首先选中某个节点作为当前节点，然后鼠标右击，选择弹出菜单中的Execute From Here选项，表示从当前节点开始执行数据流。

需要注意的是：并非所有节点在任何条件下都是可执行节点。例如，Source选项卡中的节点，如果后续没有适当的节点与之相连，则不能被执行。

如果数据流执行成功，则所产生的数据表或模型结果会显现在流管理器的相应选项卡中；如果没有执行成功，SPSS Modeler会给出错误提示信息，用户需要对节点参数进行重新调整后再执行数据流。

总之，SPSS Modeler的操作使用非常简单，用户只需要通过鼠标和菜单选择，就可轻松完成较为复杂的数据挖掘工作。1.3.3 数据流的其他管理

为提高数据流的执行效率，同时更便于复杂数据流的管理，在节点的基础上，SPSS Modeler又提出了缓冲节点和超节点的概念。它们在大规模复杂数据挖掘过程中，起到了非常重要的作用。

1.缓冲节点

缓冲（Cache）节点，顾名思义，就是该节点能够起到数据缓冲的作用，即可在某个节点上建立一个数据缓冲区，以存放数据流执行至此的中间结果，且结果可保存到文件中。于是，下次执行数据流时就不必从头开始，而只需从该节点开始即可，这将大大提高数据流的执行效率。通常数据读入和数据预处理节点都可作为缓冲节点。

若要使用缓冲节点，需首先创建缓冲。鼠标右击当前节点，选择弹出菜单中Cache下的Enable选项，于是节点右上角将显示白色文本

试读结束[说明：试读内容隐藏了图片]

下载完整电子书

SPSS Modeler数据挖掘方法及应用(第2版)试读：

相关推荐

妙笔丹青画百态：花鸟鱼虫国画写意入门(txt+pdf+epub+mobi电子书下载)

我们都在红尘中修行(txt+pdf+epub+mobi电子书下载)

统计学原理(第4版)(txt+pdf+epub+mobi电子书下载)

唐宪宗的皇后(txt+pdf+epub+mobi电子书下载)

牛津大学哲学通识课(套装共2册)(txt+pdf+epub+mobi电子书下载)

个体突围：真正的高手，都有破局思维(txt+pdf+epub+mobi电子书下载)

Six Little Bunkers at Grandpa Ford's(txt+pdf+epub+mobi电子书下载)

The Girl of the Golden West(txt+pdf+epub+mobi电子书下载)

第一推动·宇宙传记（科普大师约翰·格里宾迄今为止最激动人心的作品）(txt+pdf+epub+mobi电子书下载)

作文周计划 六年级创意写作训练(全2册)(txt+pdf+epub+mobi电子书下载)

犯罪心理学(现代犯罪心理学之父汉斯·格罗斯传世经典。现代犯罪心理学理论奠基之作。先后被译成8种文字，二十余个版本。中文版首次面市。)(txt+pdf+epub+mobi电子书下载)

汉语传播新视域：理论探微及词汇认知与习得(txt+pdf+epub+mobi电子书下载)

新媒体行业写作与推广108招：打造专业内容，成就企业品牌(txt+pdf+epub+mobi电子书下载)

作文工具王·中学生分类作文(第2版)(txt+pdf+epub+mobi电子书下载)

10～16岁青春叛逆期，这样跟女孩沟通最有效(txt+pdf+epub+mobi电子书下载)

中小企业财务管理实务(txt+pdf+epub+mobi电子书下载)

自然语言处理Python进阶(txt+pdf+epub+mobi电子书下载)

生物素描(贾祖璋 科普大师经典馆)(txt+pdf+epub+mobi电子书下载)

养好肝 年轻20岁(txt+pdf+epub+mobi电子书下载)

未来的你，一定会感谢现在执着的自己(txt+pdf+epub+mobi电子书下载)

最新文章

人生就要不断精进(txt+pdf+epub+mobi电子书下载)

做个心智成熟的人：人生可以不走弯路(txt+pdf+epub+mobi电子书下载)

跟谁都能聊不停：一看就能用的魔鬼搭讪学(txt+pdf+epub+mobi电子书下载)

赴美留学必知(txt+pdf+epub+mobi电子书下载)

我的男友(txt+pdf+epub+mobi电子书下载)

中国东北与东北亚古代交通史(txt+pdf+epub+mobi电子书下载)

幸福生活讲座(txt+pdf+epub+mobi电子书下载)

情商决定一生(txt+pdf+epub+mobi电子书下载)

夜雨寄北(txt+pdf+epub+mobi电子书下载)

让学生热爱学习(txt+pdf+epub+mobi电子书下载)

On Dreams(txt+pdf+epub+mobi电子书下载)

我的史学人生(txt+pdf+epub+mobi电子书下载)

Creo2.0完全学习手册(txt+pdf+epub+mobi电子书下载)

2018年陕西省军转干部安置考试《公共基础知识》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

假如给我三天光明(txt+pdf+epub+mobi电子书下载)

带出高效执行力(txt+pdf+epub+mobi电子书下载)

北史（四）(txt+pdf+epub+mobi电子书下载)

影响力的企业富豪(上册)(txt+pdf+epub+mobi电子书下载)

商界40年：逐鹿人(1999-2008)(txt+pdf+epub+mobi电子书下载)

The Boats of the Glen Carrig(txt+pdf+epub+mobi电子书下载)

作文周计划六年级创意写作训练(全2册)(txt+pdf+epub+mobi电子书下载)

生物素描(贾祖璋科普大师经典馆)(txt+pdf+epub+mobi电子书下载)

养好肝年轻20岁(txt+pdf+epub+mobi电子书下载)