SparkMLlib机器学习实践(第2版)(txt+pdf+epub+mobi电子书下载)-txtepub下载

作者：王晓华,夏毓彦

出版社：清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SparkMLlib机器学习实践(第2版)试读：

前言

Spark在英文中是火花的意思，创作者希望它能够像火花一样点燃大数据时代的序幕。它，做到了。

大数据时代是一个充满着机会和挑战的时代，就像一座未经开发的金山，任何人都有资格去获得其中的宝藏，仅仅需要的就是有一把得心应手的工具——MLlib就是这个工具。

本书目的

本书的主要目的是介绍如何使用MLlib进行数据挖掘。MLlib是Spark中最核心的部分，它是Spark机器学习库，经过无数创造者卓越的工作，MLlib已经成为一个优雅的、可以运行在分布式集群上的数据挖掘工具。

MLlib充分利用了现有数据挖掘的技术与手段，将隐藏在数据中不为人知，但又包含价值的信息从中提取出来，并通过相应的计算机程序，无须人工干预自动地在系统中进行计算，以发现其中的规律。

通常来说，数据挖掘的难点和重点在于两个方面：分别是算法的学习和程序的设计。还有的是需要使用者有些相应的背景知识，例如统计学、人工智能、网络技术等。本书在写作上以工程实践为主，重点介绍其与数据挖掘密切相关的算法与概念，并且使用浅显易懂的语言将其中涉及的算法进行概括性描述，从而可以帮助使用者更好地了解和掌握数据挖掘的原理。

作者在写作本书的时候有一个基本原则，这本书应该体现工程实践与理论之间的平衡。数据挖掘的目的是为了解决现实中的问题，并提供一个结果，而不是去理论比较哪个算法更高深，看起来更能吓唬人。本书对算法的基本理论和算法也做了描述，如果读者阅读起来觉得困难，建议找出相应的教材深入复习一下，相信大多数的读者都能理解相关的内容。

本书内容

本书主要介绍MLlib数据挖掘算法，编写的内容可以分成三部分：第一部分是MLlib最基本的介绍以及RDD的用法，包括第1～4章；第二部分是MLlib算法的应用介绍，包括第5～12章；第三部分通过一个经典的实例向读者演示了如何使用MLlib去进行数据挖掘工作，为第13章。

各章节内容如下：

第1章主要介绍了大数据时代带给社会与个人的影响，并由此产生的各种意义。介绍了大数据如何深入到每个人的生活之中。MLlib是大数据分析的利器，能够帮助使用者更好地完成数据分析。

第2章介绍Spark的单机版安装方法和开发环境配置。MLlib是Spark数据处理框架的一个主要组件，因此其运行必须要有Spark的支持。

第3章是对弹性数据集（RDD）进行了讲解，包括弹性数据集的基本组成原理和使用，以及弹性数据集在数据处理时产生的相互依赖关系，并对主要方法逐一进行示例演示。

第4章介绍了MLlib在数据处理时所用到的基本数据类型。MLlib对数据进行处理时，需要将数据转变成相应的数据类型。

第5章介绍了MLlib中协同过滤算法的基本原理和应用，并据此介绍了相似度计算和最小二乘法的原理和应用。

第6～12章每章是一个MLlib分支部分，其将MLlib各个数据挖掘算法分别做了应用描述，介绍了其基本原理和学科背景，演示了使用方法和示例，对每个数据做了详细的分析。并且在一些较为重要的程序代码上，作者深入MLlib源码，研究了其构建方法和参数设计，从而帮助读者更深入地理解MLlib，也为将来读者编写自有的MLlib程序奠定了基础。

第13章是本文的最后一章，通过经典的鸢尾花数据集向读者演示了一个数据挖掘的详细步骤。从数据的预处理开始，去除有相关性的重复数据，采用多种算法对数据进行分析计算，对数据进行分类回归，从而最终得到隐藏在数据中的结果，并为读者演示了数据挖掘的基本步骤与方法。

本书特点● 本书尽量避免纯粹的理论知识介绍和高深技术研讨，完全从应用

实践出发，用最简单的、典型的示例引申出核心知识，最后还指

出了通往“高精尖”进一步深入学习的道路；● 本书全面介绍了MLlib涉及的数据挖掘的基本结构和上层程序设

计，借此能够系统地看到MLlib的全貌，使读者在学习的过程中

不至于迷失方向；● 本书在写作上浅显易懂，没有深奥的数学知识，采用了较为简洁

的形式描述了应用的理论知识，让读者轻松愉悦地掌握相关内

容；● 本书旨在引导读者进行更多技术上的创新，每章都会用示例描述

的形式帮助读者更好地学习内容；● 本书代码遵循重构原理，避免代码污染，引导读者写出优秀的、

简洁的、可维护的代码。

读者与作者● 准备从事或者从事大数据挖掘、大数据分析的工作人员● Spark MLlib初学者● 高校和培训学校数据分析和处理相关专业的师生

本书由王晓华主编，其他参与创作的作者还有李阳、张学军、陈士领、陈丽、殷龙、张鑫、赵海波、张兴瑜、毛聪、王琳、陈宇、生晖、张喆、王健，排名不分先后。

示例代码下载

本书示例代码可以从下面地址（注意数字和字母大小写）下载：

http://pan.baidu.com/s/1hqtuutY

如果下载有问题，请联系电子邮箱booksaga@163.com，邮件主题为“MLlib代码”。编者2017年1月第1章星星之火

星星之火，可以燎原吗？

当我们每天面对扑面而来的海量数据，是战斗还是退却，是去挖掘其中蕴含的无限资源，还是就让它们自生自灭？我的答案是：“一切都取决于你自己”。对于海量而庞大的数据来说，在不同人眼里，既可以是一座亟待销毁的垃圾场，也可以是一个埋藏有无限珍宝的金银岛，这一切都取决于操控者的眼界与能力。本书的目的就是希望所有技术人员都有这种挖掘金矿的能力！

本章主要知识点：● 什么是大数据？● 数据要怎么分析？● MLlib能帮我们做些什么？1.1大数据时代

什么是“大数据”？一篇名为“互联网上一天”的文章告诉我们：

一天之中，互联网上产生的全部内容可以刻满1.68亿张DVD，发出的邮件有2940亿封之多（相当于美国两年的纸质信件数量），发出的社区帖子达200万个（相当于《时代》杂志770年的文字量），卖出的手机数量为37.8万台，比全球每天出生的婴儿数量高出37.1万。

正如人们常说的一句话：“冰山只露出它的一角”。大数据也是如此，“人们看到的只是其露出水面的那一部分，而更多的则是隐藏在水面下”。随着时代的飞速发展，信息传播的速度越来越快，手段也日益繁多，数据的种类和格式也趋于复杂和丰富，并且在存储上已经突破了传统的结构化存储形式，向着非结构存储飞速发展。

大数据科学家JohnRauser提到一个简单的定义：“大数据就是任何超过了一台计算机处理能力的庞大数据量”。亚马逊网络服务（AWS）研发小组对大数据的定义：“大数据是最大的宣传技术、是最时髦的技术，当这种现象出现时，定义就变得很混乱。”Kelly说：“大数据是可能不包含所有的信息，但我觉得大部分是正确的。对大数据的一部分认知在于它是如此之大，分析它需要多个工作负载，这是AWS的定义。当你的技术达到极限时也就是数据的极限”。

飞速产生的数据构建了大数据，海量数据的时代我们称为大数据时代。但是，简单地认为那些掌握了海量存储数据资料的人是大数据强者显然是不对的。真正的强者是那些能够挖掘出隐藏在海量数据背后获取其中所包含的巨量数据信息与内容的人，是那些掌握专门技能懂得怎样对数据进行有目的、有方向地处理的人。只有那些人，才能够挖掘出真正隐藏的宝库，拾取金山中的珍宝，从而实现数据的增值，实现大数据的为我所用。1.2大数据分析时代

随着“大数据时代”的到来，掌握一定的知识和技能，能够对大数据信息进行锤炼和提取越来越受到更多的数据分析人员所器重。可以说，大数据时代最重要的技能是掌握对大数据的分析能力。只有通过对大数据的分析，提炼出其中所包含的有价值内容才能够真正做到为我所用。换言之，如果把大数据比作一块沃土，那么只有强化对土地的“耕耘”能力，才能通过“加工”实现数据的“增值”。

一般来说，大数据分析需要涉及以下5个方面，如图1-1所示。图1-1　大数据分析的5个方面1．有效的数据质量

任何数据分析都来自于真实的数据基础，而一个真实数据是采用标准化的流程和工具对数据进行处理得到的，可以保证一个预先定义好的高质量的分析结果。2．优秀的分析引擎

对于大数据来说，数据的来源多种多样，特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此，我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。3．合适的分析算法

采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上，不仅仅要考虑能够处理的大数据的数量，还要考虑到对大数据处理的速度。4．对未来的合理预测

数据分析的目的是对已有数据体现出来的规律进行总结，并且将现象与其他情况紧密连接在一起，从而获得对未来发展趋势的预测。大数据分析也是如此。不同的是，在大数据分析中，数据来源的基础更为广泛，需要处理的方面更多。5．数据结果的可视化

大数据的分析结果更多是为决策者和普通用户提供决策支持和意见提示，其对较为深奥的数学含义不会太了解。因此必然要求数据的可视化能够直观地反映出经过分析后得到的信息与内容，能够较为容易地被使用者所理解和接受。

因此可以说，大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的，不用关心数据的来源和具体格式，能够根据我们的需求去处理各种结构化、半结构化和非结构化的数据，配合使用合适的分析引擎，能够输出有效结果，提供一定的对未来趋势的预测分析服务，能够面向更广泛的用户快速部署数据分析应用。1.3简单、优雅、有效——这就是Spark

Apache Spark是加州大学伯克利分校的AMPLabs开发的开源分布式轻量级通用计算框架。与传统的数据分析框架相比，Spark在设计之初就是基于内存而设计，因此其比一般的数据分析框架有着更高的处理性能，并且对多种编程语言，例如Java、Scala及Python等提供编译支持，使得用户在使用传统的编程语言即可对其进行程序设计，从而使得用户的学习和维护能力大大提高。

简单、优雅、有效——这就是Spark！

Spark是一个简单的大数据处理框架，可以使程序设计人员和数据分析人员在不了解分布式底层细节的情况下，就像编写一个简单的数据处理程序一样对大数据进行分析计算。

Spark是一个优雅的数据处理程序，借助于Scala函数式编程语言，以前往往几百上千行的程序，这里只需短短几十行即可完成。Spark创新了数据获取和处理的理念，简化了编程过程，不再需要使用以往的建立索引来对数据分类，通过相应的表链接将需要的数据匹配成我们需要的格式。Spark没有臃肿，只有优雅。

Spark是一款有效的数据处理工具程序，充分利用集群的能力对数据进行处理，其核心就是MapReduce数据处理。通过对数据的输入、分拆与组合，可以有效地提高数据管理的安全性，同时能够很好地访问管理的数据。

Spark是建立在JVM上的开源数据处理框架，开创性地使用了一种从最底层结构上就与现有技术完全不同，但是更加具有先进性的数据存储和处理技术，这样使用Spark时无须掌握系统的底层细节，更不需要购买价格不菲的软硬件平台，借助于架设在普通商用机上的HDFS存储系统，可以无限制地在价格低廉的商用PC上搭建所需要规模的评选数据分析平台。即使从只有一台商用PC的集群平台开始，也可以在后期任意扩充其规模。

Spark是基于MapReduce并行算法实现的分布式计算，其拥有MapReduce的优点，对数据分析细致而准确。更进一步，Spark数据分析的结果可以保持在分布式框架的内存中，从而使得下一步的计算不再频繁地读写HDFS，使得数据分析更加快速和方便。提示需要注意的是，Spark并不是“仅”使用内存作为分析和处理的存储空间，而是和HDFS交互使用，首先尽可能地采用内存空间，当内存使用达到一定阈值时，仍会将数据存储在HDFS上。

除此之外，Spark通过HDFS使用自带的和自定义的特定数据格式（RDD），Spark基本上可以按照程序设计人员的要求处理任何数据，不论这个数据类型是什么样的，数据可以是音乐、电影、文本文件、Log记录等。通过编写相应的Spark处理程序，帮助用户获得任何想要的答案。

有了Spark后，再没有数据被认为是过于庞大而不好处理或存储的了，从而解决了之前无法解决的、对海量数据进行分析的问题，便于发现海量数据中潜在的价值。1.4核心——MLlib

如果将Spark比作一个闪亮的星星的话，那么其中最明亮最核心的部分就是MLlib。MLlib是一个构建在Spark上的、专门针对大数据处理的并发式高速机器学习库，其特点是采用较为先进的迭代式、内存存储的分析计算，使得数据的计算处理速度大大高于普通的数据处理引擎。

MLlib机器学习库还在不停地更新中，Apache的相关研究人员仍在不停地为其中添加更多的机器学习算法。目前MLlib中已经有通用的学习算法和工具类，包括统计、分类、回归、聚类、降维等，如图1-2所示。图1-2　MLlib的算法和工具类

对预处理后的数据进行分析，从而获得包含着数据内容的结果是MLlib的最终目的。MLlib作为Spark的核心处理引擎，在诞生之初就为了处理大数据而采用了“分治式”的数据处理模式，将数据分散到各个节点中进行相应的处理。通过数据处理的“依赖”关系从而使得处理过程层层递进。这个过程可以依据要求具体编写，好处是避免了大数据处理框架所要求进行的大规模数据传输，从而节省了时间，提高了处理效率。

同时，MLlib借助于函数式程序设计思想，程序设计人员在编写程序的过程中只需要关注其数据，而不必考虑函数调用顺序，不用谨慎地设置外部状态。所有要做的就是传递代表了边际情况的参数。

MLlib采用Scala语言编写，Scala语言是运行在JVM上的一种函数式编程语言，特点就是可移植性强，“一次编写，到处运行”是其最重要的特点。借助于RDD数据统一输入格式，让用户可以在不同的IDE上编写数据处理程序，通过本地化测试后可以在略微修改运行参数后直接在集群上运行。对结果的获取更为可视化和直观，不会因为运行系统底层的不同而造成结果的差异与改变。

MLlib是Spark的核心内容，也是其中最闪耀的部分。对数据的分析和处理是Spark的精髓，也是挖掘大数据这座宝山的金锄头，本书的内容也是围绕MLlib进行的。1.5星星之火，可以燎原

Spark一个新兴的、能够便捷和快速处理海量数据的计算框架，它得到了越来越多从业者的关注与重视。使用其中的MLlib能够及时准确地分析海量数据，从而获得大数据中所包含的各种有用信息。例如，经常使用的聚类推荐，向感兴趣的顾客推荐相关商品和服务；或者为广告供应商提供具有针对性的广告服务，并且通过点击率的反馈获得统计信息，进而有效地帮助他们调整相应的广告投放能力。

2015年6月15日，IBM宣布了一系列Apache Spark开源软件相关的措施，旨在更好地存储、处理以及分析大量不同类型的数据。IBM将在旧金山开设一家Spark技术中心，这一举措将直接教会3500名研发人员使用Spark来工作，并间接影响超过一百万的数据科学家和工程师，让他们更加熟悉Spark。

相对于IBM对Spark的大胆采纳，其他一些技术厂商对于Spark则是持相当保留的态度。IBM近年来将战略重点转向数据领域，在大数据、物联网、软件定义存储及Watson系统等领域投入大量资金。

IBM在Spark开源软件方面的举动将会对许多以Spark为框架协议的初创公司带来利益，最重要的是会使业界对Spark开源软件的接受度和应用率增加。因为Spark开源软件不仅对初创公司有利，对于一些大的数据项目来说，它也是非常好的解决方案。

Spark将是大数据分析和计算的未来，定将会成为应用最为广泛的计算架构。越来越多的公司和组织选择使用Spark，不仅体现出使用者对大数据技术和分析能力要求越来越高，也体现出了Spark这一新兴的大数据技术对于未来的应用前景越来越好。1.6小结

Spark是未来大数据处理的最佳选择，而MLlib是Spark最核心最重要的部分。掌握了使用MLlib对数据处理的技能，可以真正使得大数据为我所用，让我们梦想成真，大数据会成为我们所拥有的财富，一座可以开采的金矿。我们还有什么理由不去使用和掌握它呢？第2章Spark安装和开发环境配置

本章将介绍Spark的单机版安装方法和开发环境配置。MLlib是Spark数据处理框架的一个主要组件，因此其运行必须要有Spark的支持。本书以讲解和演示MLlib原理和示例为主，因此在安装上将详细介绍基于Intellij IDEA的在Windows操作系统上的单机运行环境，这也是MLlib学习和调试的最常见形式，以便更好地帮助读者学习和掌握MLlib编写精髓。

本章主要知识点：● 环境搭建● Spark单机版的安装与配置● 写出第一个Spark程序2.1Windows单机模式Spark安装和配置

Windows系统是最常见的操作系统，本节将讲解如何在Windows系统中下载使用Spark单机模式。2.1.1　Windows 7安装Java

MLlib是Spark大数据处理框架中的一个重要组件，其广泛应用于各类数据的分析和处理。Scala是一种基于JVM的函数式编程语言，而Spark是借助于JVM运行的一个数据处理框架，因此其使用首选安装Java。

步骤01　首先从Java地址下载安装Java安装程序，地址如下：

http://www.oracle.com/technetwork/java/javase/downloads/index.html

单击JavaDownLoad，进入下载页面。本书在编写时Java 8已经放出，这里推荐读者全新安装时使用Java 8，如图2-1所示。图2-1　Java安装选项

步骤02　此时单击Accept License Agreement按钮，之后按需求选择Java的版本号。本例中为了统一安装，这里全部选择32位Java安装文件进行下载，如图2-2所示。图2-2　下载Java提示这里需要注意的是，为了统一安装后续的其他语言，统一采用32位的安装模式。

步骤03　双击下载后的文件，在默认路径安装Java，如图2-3所示，此时静待安装结束即可。图2-3　Java安装过程

步骤04　安装结束后需要对环境变量进行配置，首先右击“我的电脑”|“属性”选项，在弹出的对话框中单击“高级系统设置”选项，然后选中“高级”标签。单击“环境变量”按钮，在当前用户名下新建JAVA_HOME安装路径，即前面jdk安装所在路径，如图2-4所示。图2-4　设置环境变量：JAVA_HOME

步骤05　PATH用于设置编译器和解释器路径，在设置好JAVA_HOME后，需要对PATH设置以便能在任何目录下使用，如图2-5所示。图2-5　设置环境变量：PATH

步骤06　最后再对CLASSPATH进行配置，此时需要注意的是，路径方框中一定要在开头加上“.;”（不包括引号），如图2-6所示。图2-6　设置CLASSPATH路径

步骤07　单击Windows 7开始菜单，在附件里面找到运行，输入cmd命令，如图2-7所示。图2-7　输入CMD运行命令

步骤08　输入命令后打开控制台界面，在打开的界面中输入java，如图2-8所示。图2-8　输入java运行命令

步骤09　运行后出现如图2-9所示的界面，说明Java已经配置好了！电脑可以运行Java程序了。图2-9　配置结果2.1.2　Windows 7安装Scala

步骤01　Scala的安装比较容易，直接下载相应的编译软件，下载之后双击程序直接安装即可，Scala会在安装过程中自行设置。我们需要下载的版本是Scala 2.10.3，下载地址：http://www.scala-lang.org

步骤02　打开Scala网站首页，如图2-10所示。图2-10　Scala网站首页

步骤03　单击DOWNLOAD按钮，进入下载界面，单击如图2-11所示黑圈处的链接。图2-11　Scala下载页面

步骤04　根据日期的不同，在首页默认下载的Scala版本也不尽相同，这里本文笔者选用的是2.10.3版本，单击图2-12中ALL download按钮进入版本选择页面，如图2-12所示：图2-12　Scala版本选择提示这里需要注意的是，目前Scala最新版本为2.12，但是为了更好地与Spark兼容，笔者在这里推荐使用2.10.3稳定版。

步骤05　单击图2-12中画横线的按钮进入Scala2.10.3版本的下载页面，如图2-13所示：等待程序下载完成后，双击进行程序安装。图2-13　Scala2.10.3下载页面

步骤06　与Java安装时类似，安装结束后对环境变量进行配置，首先右击“我的电脑”|“属性”菜单，打开“系统属性”对话框。单击“高级系统设置”选项。之后选中“高级”标签。单击“环境变量”按钮。在当前用户名下新建SCALA-HOME安装路径，即前面Scala安装所在路径，如图2-14所示。图2-14　SCALA-HOME环境变量设置

步骤07　设置path变量：找到系统变量下的“path”项，单击编辑。在“变量值”一栏的最前面添加如下的“%scala_Home%\bin;%scala_Home%\jre\bin;”注意后面的分号“；”不要漏掉。

步骤08　设置classpath变量：找到系统变量下的“ClassPath”如图2-15所示，单击编辑，如没有，则单击“新建”按钮，打开“新建系统变量”窗口，设置“变量名”为ClassPath，“变量值”为.;%scala_Home%\bin;%scala_Home%\lib\dt.jar;%scala_Home% \lib\tools.jar.;。提示“变量值”最前面的.;不要漏掉。最后单击“确定”按钮即可。图2-15　ClassPath环境变量设置

步骤09　跟前面运行Java命令一样，还是通过在“运行”对话框输入cmd命令打开命令控制台。

输入scala，显示如图2-16所示，可以认为scala安装完毕。图2-16　输入scala运行结果2.1.3　Intellij IDEA下载和安装

Intellij IDEA是常用的Java编译器，也可以用它作为Spark单机版的调试器。Intellij IDEA有社区免费版和付费版，这里只需要使用免费版即可。

Intellij IDEA下载地址为：http://www.jetbrains.com/idea/download/，如图2-17所示，选择右侧社区免费版下载即可。图2-17　Intellij IDEA安装选择右侧社区免费版

双击下载下来的Intellij IDEA，会自动进行安装，这里基本没有什么需要特别注意的事项，读者如果安装过程中碰到问题，可以自行百度解决。2.1.4　Intellij IDEA中Scala插件的安装

Scala是一种把面向对象和函数式编程理念加入到静态类型语言中的语言，可以把Scala应用在很大范围的编程任务上，无论是小脚本或是大系统都可以用Scala实现。Scala运行在标准的Java平台上（JVM），可以与所有的Java库实现无缝交互。

而Spark MLlib是基于Java平台的大数据处理框架，因此在语言的选择上，可以自由选择最方便的语言进行编译处理。而Scala天生具有的简洁性和性能上的优势，以及可以在JVM上直接使用的特点，使其成为Spark官方推荐的首选程序语言，因此本书笔者也推荐使用Scala语言作为Spark MLlib学习的首选语言。

Intellij IDEA本身并没有安装Scala编译插件，因此在使用Intellij IDEA编译Scala语言编写的Spark MLlib语言之前，需要安装Scala编译插件，其安装步骤如下：

步骤01　在桌面上找到已安装的Intellij IDEA图标，双击打开后请等待读取界面结束（如图2-18所示）。由于Intellij IDEA是首次使用，之后会进入创建工程选项，如图2-19所示。图2-18　Intellij IDEA读取界面图2-19　Intellij IDEA首次使用界面

步骤02　因为需要使用的是Scala语言编译程序，这里建议读者先选择新建工程，验证是否可以使用Scala创建工程，如图2-20所示。图2-20　创新新工程页面

步骤03　从图2-20可以看到，其中并没有可以建立Scala工程的选项。即，如果需要使用Scala，Intellij IDEA需要进一步配置相应的开发组件。因此在这一步，单击Cancel按钮，之后选择Configure选项，然后选择Plugins进入插件的选择，单击左下角的“Install Intellij Plugins...”，出现如图2-21所示的界面，上面显示了当前可以安装的插件。图2-21　查找插件

步骤04　此时如果显示的插件过多，可以在Search文本框中键入Scala搜索相应的Scala插件，如图2-22所示。图2-22　查找Scala插件

步骤05　当找到Scala插件后，单击右侧的“install plugin”绿色按钮，等待一段时间，即可完成安装，如图2-23所示。图2-23　安装Scala插件

步骤06　当安装完毕后，可以看到，在“new project”选项下有一项新的项目即为“Scala”，如图2-24所示。单击项目，可以创建相关程序，至此Intellij IDEA的Scala插件安装完毕。图2-24　安装Scala插件后的页面2.1.5　HelloJava——使用Intellij IDEA创建Java程序

激动人心的时刻开始了，如果读者看到这里，表明你已经成功安装好了Java、Scala以及通用编译器Intellij IDEA。那么祝贺你，你迈入了称为一个合格程序员的第一步，下面将带领读者正式使用Intellij IDEA创建Java与Scala的HelloWorld小程序。

步骤01　单击桌面上的Intellij IDEA标记，打开Intellij IDEA软件，这里建议读者先选择新建工程，单击新建工程后界面如图2-25所示。图2-25　创建新工程页面

步骤02　这里笔者首先创建的是Java程序，因此可以在弹出的如图2-25所示的窗口中进行选择，左侧选择Java选项，右侧选择Kotlin(Java)选项。提示最上方的SDK选项为空，因此需要在下一步之前进行设定，SDK是Java语言的编译开发工具包，需要设定安装的JDK的地址。在这里填写2.1.1节中安装Java时使用的地址。

步骤03　单击Project SDK右侧的New…按钮（如图2-25所示窗口右上方），在弹出的对话框中选择JDK按钮，选定Java JDK安装目录，结果如图2-26所示。图2-26　SDK选择界面

从图2-27右侧的圈注可以看到IDE以及自动认出了Java的版本号，可以使用Intellij IDEA创建一个Java程序。

试读结束[说明：试读内容隐藏了图片]

下载完整电子书

SparkMLlib机器学习实践(第2版)试读：

相关推荐

祝文艺女青年终成眷属(txt+pdf+epub+mobi电子书下载)

挣脱(txt+pdf+epub+mobi电子书下载)

堂吉诃德4（英文版）(txt+pdf+epub+mobi电子书下载)

信贷全流程风险管理(txt+pdf+epub+mobi电子书下载)

汽车人机交互界面设计(txt+pdf+epub+mobi电子书下载)

大数据管理概论(txt+pdf+epub+mobi电子书下载)

肛肠疾病防治知识问答(txt+pdf+epub+mobi电子书下载)

眉县宗教事略(txt+pdf+epub+mobi电子书下载)

空中多面手：特种飞机(txt+pdf+epub+mobi电子书下载)

Three Boys in the Wild North Land(txt+pdf+epub+mobi电子书下载)

动漫秀场19——超级漫画武器素描技法(第2版)(txt+pdf+epub+mobi电子书下载)

生命中被辜负的时光(txt+pdf+epub+mobi电子书下载)

中文版Flash CS5多媒体课件制作案例教程(txt+pdf+epub+mobi电子书下载)

新世纪高职高专精品教材·公共基础课 现代交际礼仪(txt+pdf+epub+mobi电子书下载)

外国广告发展史(txt+pdf+epub+mobi电子书下载)

爱你的余下三分是什么？(txt+pdf+epub+mobi电子书下载)

天朝的黄昏：著名汉学家眼中的太平天国与近世中国(套装2册 甲骨文系列 天国之秋+湖南人与现代中国)(txt+pdf+epub+mobi电子书下载)

哼哈二将(txt+pdf+epub+mobi电子书下载)

海风醉(txt+pdf+epub+mobi电子书下载)

丁香花(txt+pdf+epub+mobi电子书下载)

最新文章

人生就要不断精进(txt+pdf+epub+mobi电子书下载)

做个心智成熟的人：人生可以不走弯路(txt+pdf+epub+mobi电子书下载)

跟谁都能聊不停：一看就能用的魔鬼搭讪学(txt+pdf+epub+mobi电子书下载)

赴美留学必知(txt+pdf+epub+mobi电子书下载)

我的男友(txt+pdf+epub+mobi电子书下载)

中国东北与东北亚古代交通史(txt+pdf+epub+mobi电子书下载)

幸福生活讲座(txt+pdf+epub+mobi电子书下载)

情商决定一生(txt+pdf+epub+mobi电子书下载)

夜雨寄北(txt+pdf+epub+mobi电子书下载)

让学生热爱学习(txt+pdf+epub+mobi电子书下载)

On Dreams(txt+pdf+epub+mobi电子书下载)

我的史学人生(txt+pdf+epub+mobi电子书下载)

Creo2.0完全学习手册(txt+pdf+epub+mobi电子书下载)

2018年陕西省军转干部安置考试《公共基础知识》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

假如给我三天光明(txt+pdf+epub+mobi电子书下载)

带出高效执行力(txt+pdf+epub+mobi电子书下载)

北史（四）(txt+pdf+epub+mobi电子书下载)

影响力的企业富豪(上册)(txt+pdf+epub+mobi电子书下载)

商界40年：逐鹿人(1999-2008)(txt+pdf+epub+mobi电子书下载)

The Boats of the Glen Carrig(txt+pdf+epub+mobi电子书下载)

新世纪高职高专精品教材·公共基础课现代交际礼仪(txt+pdf+epub+mobi电子书下载)

天朝的黄昏：著名汉学家眼中的太平天国与近世中国(套装2册甲骨文系列天国之秋+湖南人与现代中国)(txt+pdf+epub+mobi电子书下载)