Hadoop应用开发基础(txt+pdf+epub+mobi电子书下载)


发布时间:2020-09-11 14:24:51

点击下载

作者:刘雯 王文兵

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

Hadoop应用开发基础

Hadoop应用开发基础试读:

前言

大数据技术让我们以前所未有的方式对海量数据进行分析,从中获得有巨大价值的产品和服务,最终形成变革之力。如何从零基础学习大数据平台Hadoop的应用开发技术,并运用相关技术解决一些实际的业务需求,正是本书的编写目的。全书共10章,各章主要内容如下。

第1章是对Hadoop的总体概述,包括大数据的基本概念、Hadoop生态圈、Hadoop与大数据的关系,以及Hadoop安装部署的详细步骤。

第2章是对HDFS的介绍,主要包括HDFS的体系结构、Shell操作以及使用Java API访问HDFS系统。

第3章是对MapReduce分布式计算框架的讲解,包括MapReduce的编程模型、编写和运行MapReduce程序,同时还配以多个经典的MapReduce应用案例。

第4章是对Hadoop新的资源调度框架YARN以及Hadoop新特性的讲解,并深度分析了如何实现Hadoop高可用集群及高可用的实现原理。

第5章是对ZooKeeper分布式高可靠协调服务的讲解,主要介绍ZooKeeper的架构设计以及数据模型,解析如何掌握ZooKeeper单机环境的搭建,并能利用ZooKeeper实现分布式系统服务器上下线的动态感知。

第6章是对HBase数据库的基础讲解,介绍HBase的体系架构及数据模型,分析如何实现HBase的伪分布式环境搭建。

第7章是对HBase操作的实践讲解,详细介绍HBase的DDL、DML的Shell操作以及如何用Java API实现对《王者荣耀》游戏玩家信息表的管理。

第8章是对HBase的高级知识扩展,深度解析HBase表空间管理和权限管理、HRegion的切分原理、HBase中的Compaction过程,提升读者对HBase的认知。

第9章是对Oozie调度框架的讲解,介绍Oozie的架构及执行流程,引导读者搭建Oozie环境,并在Oozie上进行作业的调度。

第10章的综合项目实训利用前面各章所学的Hadoop生态圈中的HDFS、YARN、ZooKeeper、HBase等知识,自主开发《王者荣耀》游戏英雄排行榜功能,通过理论与实践的结合来加强读者对知识的掌握和运用。

读者学习大数据技术,就要多动手练习,从而深入理解每个知识点,提高编程熟练度,培养分析问题和解决问题的能力,不断积累开发经验。同时,学习中读者还要通过交流来消除学习疑惑,分享学习经验,取长补短,共同进步。

本书提供了便捷的学习体验,读者可以通过扫描二维码下载各章提供的资源,包括素材、技能实训源码及本章作业参考答案等。

本书由课工场大数据开发教研团队编写,参与编写的还有刘雯、王文兵、倪天伟、郭迎慧、李贤志等院校老师。尽管编者在写作过程中力求准确、完善,但书中不足或疏漏之处仍在所难免,殷切希望广大读者批评指正!智慧教材使用方法扫一扫查看视频介绍

由课工场“大数据、云计算、全栈开发、互联网UI设计、互联网营销”等教研团队编写的系列教材,配合课工场App及在线平台的技术内容更新快、教学内容丰富、教学服务反馈及时等特点,结合二维码、在线社区、教材平台等多种信息化资源获取方式,形成独特的“互联网+”形态——智慧教材。

智慧教材为读者提供专业的学习路径规划和引导,读者还可体验在线视频学习指导,按如下步骤操作可以获取案例代码、作业素材及答案、项目源码、技术文档等教材配套资源。

1. 下载并安装课工场App。(1)方式一:访问网址www.ekgc.cn/app,根据手机系统选择对应课工场App安装,如图1所示。图1 课工场App(2)方式二:在手机应用商店中搜索“课工场”,下载并安装对应App,如图2、图3所示。图2 iPhone版手机应用下载图3 Android版手机应用下载

2. 登录课工场App,注册个人账号,使用课工场App扫描书中二维码,获取教材配套资源,依照如图4至图6所示的步骤操作即可。图4 定位教材二维码图5 使用课工场App“扫一扫”扫描二维码图6 使用课工场App免费观看教材配套视频

3. 获取专属的定制化扩展资源。(1)普通读者请访问http://www.ekgc.cn/bbs的“教材专区”版块,获取教材所需开发工具、教材中示例素材及代码、上机练习素材及源码、作业素材及参考答案、项目素材及参考答案等资源(注:图7所示网站会根据需求有所改版,下图仅供参考)。图7 从社区获取教材资源(2)高校老师请添加高校服务QQ群:1934786863(如图8所示),获取教材所需开发工具、教材中示例素材及代码、上机练习素材及源码、作业素材及参考答案、项目素材及参考答案、教材配套及扩展PPT、PPT配套素材及代码、教材配套线上视频等资源。图8 高校服务QQ群第1章 Hadoop入门技能目标

➤ 了解大数据和Hadoop概念

➤ 掌握Hadoop架构及核心构成

➤ 了解Hadoop生态圈技术

➤ 能够搭建Hadoop平台

➤ 能够运行Hadoop程序本章任务

任务1 了解大数据现状

任务2 了解Hadoop基础

任务3 搭建移动通信业务的Hadoop处理平台本章资源下载

在当今大数据的时代背景下,Hadoop作为大数据处理领域的分布式存储和计算框架,已经得到了众多国内外企业的青睐,并得到广泛使用。对于从事大数据工作的开发人员来说,掌握Hadoop技术是非常必要的。本章主要介绍目前大数据的现状和特征、Hadoop框架的核心构成、Hadoop生态圈技术及应用场景,同时介绍如何搭建Hadoop平台。任务1 了解大数据现状【任务描述】

了解大数据的概念及特征,了解大数据带来的机遇、挑战及应对策略。【关键步骤】(1)了解大数据的概念及特征。(2)了解大数据时代的机遇与挑战,以及如何应对。1.1.1 大数据基本概念和特征1. 什么是大数据“大数据”作为当今最热门的IT行业词汇,在互联网时代变得越来越重要。究竟什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。对于“大数据”(Big Data),研究机构Gartner给出这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2. 大数据特征(1)4V + 1O特征

大数据量(Volume)。采集、存储和计算的数据量大。大数据时代下,每时每刻都在产生着大量的数据,比如社交网络,交通等领域,每天都会产生很多的日志文件。大数据的起始计量单位至少是PB量级的。

类型繁多(Variety)。数据种类和来源多样化。数据的种类包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等。多样化的数据对大数据处理技术提出了更高的要求。

价值密度低(Value)。随着现阶段物联网的广泛应用,接入到互联网的信息感知设备无处不在,产生了海量的数据,但数据价值密度较低,如何结合业务逻辑并通过强大的机器学习算法来挖掘数据价值,是大数据时代最需要解决的问题。

速度快、时效高(Velocity)。数据增长速度快、处理速度快,时效性要求高。在使用搜索引擎时,用户希望几分钟前的新闻能够被查到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据的显著特征。

数据在线(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特点。现在提及大数据不仅仅是“大”,更重要的是数据变得在线了,这是互联网发展背景下赋予大数据的时代特征。(2)固有特征

时效性。数据在某一时间段内具有对决策有价值的属性,也就是说,同一信息在不同的时间具有很大的性质上的差异,这个差异就是数据的时效性。信息的时效性决定了决策在哪些时间内有效。

不可变性。数据不会改变,也就是说,大数据的变化可看作是新产生的数据条目,而不是对现有条目的更新。1.1.2 大数据带来的机遇和挑战

随着互联网和云计算的飞速发展,物联网和社交网络的日益普及,当前社会已进入大数据时代。大数据作为一个时代、一项技术、一个挑战、一种文化,对社会的发展带来了深刻的影响。党的十八届五中全会指出,要实施“国家大数据战略”。实施国家大数据战略,必须正确认识大数据,准确把握其带来的机遇,科学应对其带来的挑战,用大智慧实现大数据的价值。1. 机遇(1)大数据已经成为重要的战略资源。在当今社会,资源已经不仅仅指传统的矿产、石油等资源,大数据等信息资源也成为重要的战略资源。在各行各业,每分每秒都在产生数据,企业可以通过这些数据了解市场和用户需求,做出精准营销。大数据应用已经成为提高企业核心竞争力的关键因素,数据资产逐渐成为商业社会的核心竞争力。越来越多的企业开始重视大数据战略布局。(2)大数据人才需求大幅增长。进入大数据时代以来,对大数据处理技术人才的需求呈现爆炸式的增长,企业提供了更多的岗位需求,为想要技术转型及转换行业的人员提供了一个不错的选择。2. 挑战

大数据时代带来了机遇的同时,也带来了一定的挑战。(1)对现有存储方式的挑战

传统的数据存储是将数据存储在数据库中,随着大数据时代的到来,传统的数据存储方式已经不能适应存储PB量级的数据。同时新产生的数据具有多样化的特点,一些非结构化的数据也不能采用传统的结构化数据系统存储。(2)对现有企业的挑战

大数据环境下,企业提供业务服务的传统运营模式已经不具优势,必须逐步向数据服务转型。目前企业面临的最显著挑战就是数据的碎片化,在很多企业尤其是大型企业,数据常常散落在不同部门,导致企业内部的数据无法打通,大数据的价值难以挖掘。(3)对技术的挑战

由于大数据具有时效性强的特点,数据的价值会随着时间的流逝而降低,这就要求对数据进行快速的处理,电商以及新闻资讯的推荐系统就是很好的案例。假如推荐的内容延迟性太高,对于订单的转化效果就会大大降低,实时推荐就是大数据技术对传统技术的挑战。3. 应对策略

如何应对大数据时代下的挑战呢?(1)培养大数据专业人才。大数据技术有着很高的门槛,大数据建设的每一个环节都需要专业的人员完成,因此必须培养更多的掌握大数据技术的专业人才,这就需要高校和企业共同努力培养和挖掘。(2)加快新技术的研发和创新。大力研发大数据新技术并重视其应用。任务2 了解Hadoop基础【任务描述】

了解Hadoop概念及由来,掌握Hadoop的核心组件及组件功能,了解Hadoop生态圈技术的功能。【关键步骤】(1)认识Hadoop。(2)掌握Hadoop的核心组件及功能。(3)了解Hadoop的生态圈技术及应用场景。(4)了解大数据在目前行业中的应用案例。1.2.1 Hadoop概述1. 什么是Hadoop

Hadoop是由Apache软件基金会开发的一个可靠的、可扩展的分布式系统架构。架构中包含用于解决大数据存储的分布式文件系统(Hadoop Distributed File System,HDFS)、用于解决分布式计算的分布式计算框架MapReduce以及分布式资源管理系统YARN。Apache Hadoop软件库是一个框架,允许用户在不了解分布式系统底层细节的情况下,使用简单的编程模型开发分布式程序,并充分利用集群的分布式能力进行运算和存储。它的设计目的是从单一的服务器扩展到成千上万的机器,并将集群部署在多台机器中,每台机器提供本地计算和存储。Apache Hadoop生态圈已成为目前处理海量数据的首选架构。2. Hadoop发展史

Apache Hadoop起源于开源的网络搜索引擎Apache Nutch,Nutch是Apache Lucene项目的一部分。2002年,Apache Lucene的创始人Doug Cutting创建了Hadoop。

2003—2004年,Google发表了The Google File System和MapReduce: Simplifed Data Processing on Large Cluster两篇论文,向全世界展示了Google分布式文件系统(GFS)和MapReduce框架。

2005年年初,Nutch开发人员在Nutch上实现了一个MapReduce算法,花费半年左右的时间完成Nutch主要算法的移植,并用MapReduce和NDFS来运行。

2006年2月,开发人员将NDFS和MapReduce与Nutch分离,形成Lucene子项目,并命名为Hadoop。Doug Cutting几经周折加入Yahoo公司,并致力于Hadoop技术的进一步发展。

2008年1月,Hadoop成为Apache的顶级项目,同年4月,Hadoop打破世界纪录,成为最快的TB量级数据排序系统。

2009年3月,Cloudera公司基于Apache Hadoop发布了CDH版本。

2011年12月,Hadoop发布1.0.0版本,标志着Hadoop已经初具生产规模。

2013年,Hadoop发布了2.2.0版本,Hadoop进入到2.x时代。

2014年,Hadoop2.x更新速度加快,先后发布了Hadoop2.3.0、Hadoop2.4.0、Hadoop2.5.0和Hadoop2.6.0,极大地完善了YARN框架和整个集群的功能。

2015年,发布了Hadoop2.7.0版本。

2016年,Hadoop及其生态圈在各行各业落地并且得到广泛应用,同年,Hadoop发布Hadoop3.0-alpha版本,标志着Hadoop进入3.x时代。3. Hadoop VS RDBMS

在许多场景下,Hadoop能够被视为RDBMS(关系型数据库管理系统)的一种补充。两个系统之间的对比如表1-1所示。Hadoop很适合那些需要分析(尤其是自主分析)整个数据集的问题,以批处理的方式进行,而RDBMS适合于点查询和更新。Hadoop适合数据被一次写入和多次读取的应用,而RDBMS适合持续更新的数据集。表1-1 RDBMS与Hadoop对比4. Hadoop核心构成

Hadoop框架包括三个部分:分布式文件系统HDFS、计算系统MapReduce、资源管理系统YARN。(1)分布式文件系统HDFS

HDFS是谷歌GFS的克隆版,是对谷歌2003年10月发表的GFS论文的开源实现。作为大数据领域的数据存储,HDFS的设计目标就是提供一个具有高可靠性、高容错性、高吞吐量以及能运行在通用硬件上的分布式文件存储系统。

HDFS的设计思想是将数据文件以指定的大小切分成数据块,将数据块以多副本的方式存储在多台机器上。这样的设计使HDFS可以更方便地做数据负载均衡以及容错,而且数据文件的切分、数据负载均衡和容错这些功能对用户都是透明的,用户在使用的时候,可以把HDFS当作普通的本地文件系统使用。(2)分布式计算框架MapReduce

MapReduce是Hadoop的核心计算框架,用于PB量级数据的并行计算。MapReduce是一种简化应用程序开发的编程模型,模型中主要包括Map(映射)和Reduce(规约)两项核心操作。MapRecude编程模型为应用开发者隐藏了系统层实现细节,允许用户不必关注并行计算底层实现,只需按照MapReduce API的编程模型即可实现相应业务逻辑的开发。

当启动一个MapReduce任务时,作业会将输入的数据集切分成若干独立的数据块,由Map端将数据映射成需要的键值对类型,然后对Map的输出进行排序,再把结果输入Reduce端;Reduce端接收Map端传过来的键值对类型的数据,根据不同键分组,对每一组键相同的数据进行处理,得到新的键值对并输出,这就是MapReduce的核心思想。通常MapRedude任务的输入和输出都是使用HDFS进行存储,也就是说,MapReduce处理数据的大部分场景都存储在HDFS上。(3)资源管理系统YARN

YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器。在Hadoop1.x版本中还没有YARN,它的出现解决了Hadoop1.x版本中MapReduce架构中JobTracker负载压力过大的问题,它将JobTracker的资源管理和作业调度拆分成两个独立的服务,分别为全局的资源管理器(ResourceManager)和每个应用程序特有的ApplicationMaster。其中,ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。

YARN是随着Hadoop的不断发展而催生的新框架,它的引入不仅解决了JobTracker负载压力大的问题,同时也解决了Hadoop1.x中只能运行MapReduce作业的限制。YARN作为一个通用的资源管理系统,允许在其上运行各种不同类型的作业,比如MapReduce、Spark、Tez等。

YARN的引入,为Hadoop集群在利用率、资源统一管理和数据共享等方面带来了极大的提升。5. 为什么选择Hadoop作为大数据的解决方案

企业在选择技术架构的时候,主要考量的方面包括源码的开放程度、社区的活跃程度、目前在业界的使用情况等。Hadoop能被选作大数据的解决方案,原因有很多,本节主要列举以下四个原因。(1)Hadoop源代码开放。(2)社区活跃、参与者众多。实际工作中遇到问题可以在社区得到很好的解决。(3)Hadoop发展到现在,已经得到企业界的广泛验证。(4)Hadoop生态圈可胜任分布式存储和计算的各个场景。6. Hadoop发行版本

目前而言,Hadoop的发行版本主要有三个。(1)Apache Hadoop。这是最原始的版本,所有的发行版都是基于这个版本进行改进的,也被称为社区版Hadoop。(2)Cloudera CDH。是目前国内公司使用最多的。CDH完全开源,比起Apache Hadoop,在兼容性、安全性和稳定性上均有所增强。(3)Hortonworks HDP。该版本的Hadoop是百分之百开源的,版本和社区版完全一致,它集成了开源监控方案Ganglia和Negios。2018年10月,两家大数据先驱Cloudera和Hortonworks宣布合并。1.2.2 Hadoop生态圈1. 概述

Hadoop自出现以后,得到快速发展,大量与其相关的应用也被开发出来,共同服务于Hadoop工程。现在Hadoop已经成为一个庞大的架构体系,只要是与大数据相关的,都会出现Hadoop的身影。这些相关组件系统与Hadoop一起构成Hadoop生态圈,如图1.1所示。图1.1 Hadoop生态圈2. Hadoop生态圈技术(1)Hadoop核心

Hadoop的核心构成包括用于分布式存储的HDFS、用于分布式计算的MapReduce,以及用于分布式资源管理的YARN。三个核心的具体功能及架构在后面的章节会详细讲解。(2)数据查询分析

Hadoop生态圈提供了方便用户使用的数据查询分析框架Hive和Pig。下面分别对这两种框架进行介绍。

Hive是建立在Hadoop之上的数据仓库基础框架,可以将结构化的数据文件映射为一张数据库表,并定义了一种类SQL语言(HQL),让不熟悉MapReduce的开发人员也能编写数据查询语句来对大数据进行分析统计操作。Hive的出现极大地降低了大数据技术的学习门槛,同时提高了开发效率。

Pig是一个基于Hadoop的大规模数据分析平台,它有一套叫作Pig Latin的类SQL语言,该语言的编译器会把类SQL的数据分析请求转换成一系列经过优化处理的MapReduce运算,处理的对象是HDFS上的文件。(3)协调管理

在Hadoop生态圈中,使用ZooKeeper框架来解决分布式环境下的数据管理问题,比如统一命名、状态同步和配置同步等问题。Hadoop的大多数组件都依赖于ZooKeeper,比如HBase的高可用就是通过ZooKeeper来实现的。(4)数据迁移

在数据应用中,通常会有不同系统间的数据迁移操作。在Hadoop生态圈中,Sqoop和Flume框架可以很好地解决不同系统间的数据收集和传输。

Sqoop是一款开源的工具,主要用在关系型数据库、数据仓库和Hadoop之间进行数据迁移。在实际应用中,可以使用Sqoop完成关系型数据库到HDFS、Hive等框架的数据导入导出操作。

Flume是Cloudera提供的一个高可用、高可靠、分布式的框架,主要用于分布式海量日志数据的高效搜集、聚合和传输。Flume支持在日志系统中定制各类数据发送方,用于收集数据,同时Flume提供对数据进行简单处理并写入各种数据接收方的能力。(5)NoSQL

在Hadoop生态圈中,HBase提供了NoSQL数据库的功能,用于满足大数据应用中快速随机访问大数据量(PB量级)数据并及时响应用户的需求。

HBase是建立在HDFS上的面向列的NoSQL数据库,可以对大规模数据进行随机、实时读/写访问。HBase具有可伸缩、高可靠、高性能的特点。(6)机器学习

目前,机器学习已经发展成为一个热门话题,Hadoop生态圈中提供了Mahout库来完成机器学习功能。

Mahout提供了一些可扩展的机器学习领域经典算法的实现,目的是帮助开发人员方便快捷地开发智能应用程序。Mahout是一个机器学习和数据挖掘库,包括聚类、分类、推荐引擎(协同过滤)等数据挖掘方法,用户可以通过调用算法包来缩短编程时间。(7)任务调度

大数据实际应用中,通常会遇到多个作业协同完成一个业务分析的场景。这就需要一个能合理管理作业调度的框架,在Hadoop生态圈中,由Oozie负责解决任务调度问题。

Oozie是一个工作流引擎,是基于Hadoop的调度器,可以调度MapReduce、Pig、Hive、Spark等不同类型的单一或者具有依赖性的作业。当一个作业中需要调用几个任务时,就可以使用Oozie将任务串联,再通过Oozie调度整个任务进程。1.2.3 Hadoop应用案例1. 大数据在传媒行业的应用

大数据正逐渐上升为不同新闻媒体晋升一流媒体的优化路径,如何利用缜密的大数据思维和良好的大数据洞察力推动传媒生态升级转型,使自身完全具备大数据应用的能力,已被各大媒体提上重要议程。大数据时代正在推动整个传媒行业发生深刻变革,要想在这场变革中获得优势,必须构建创新思维体系,充分利用传统媒体和大数据时代的特点,发展壮大传媒行业。

通过全网舆情数据汇聚互联网上的文章内容,挖掘全网最热新闻话题和话题评价,为新闻发稿、栏目制作做参考,达到报道分析热点的抓取、节目制作的改进、明星邀约的助攻。通过智能算法得出有可能成为明日头条的新闻事件,实现最快新闻发稿,最贴合节目编辑,达到快人一步、领先全部。

通过创建微博分析任务进行传播分析,展现微博曝光数,挖掘话题的兴趣图谱、普通用户与大V的关系网络,整合标签进行多维透视,深度刻画人群画像,精准触达目标客户。2. 大数据在智能交通领域的应用

近年来,随着我国经济的快速发展,机动车持有量迅速增加,交通管理现状和需求的矛盾进一步加剧。在此情况下,如何利用先进的科技手段提高交通管理水平,抑制交通事故发生,是当前交通管理部门亟待解决的问题。

针对交通管理部门的需求以及我国的道路特点,可通过整合图像处理、模式识别等技术,对监控路段的机动车道、非机动车道进行全天候实时监控和数据采集。前端卡口处理系统对拍摄的图像进行分析,获取车牌号码、车牌颜色、车身颜色、车标、车辆子品牌等数据,并将获取到的车辆信息连同车辆的通过时间、地点、行驶方向等信息,通过计算机网络传输到卡口系统控制中心的数据库中,进行数据存储、查询、比对等处理,当发现肇事逃逸、违章或可疑车辆时,系统会自动向拦截系统及相关人员发出告警信号,为交通违章处理、交通事故逃逸、盗抢机动车辆等案件的及时侦破提供重要的信息和证据。同时,随着全城Smart系统的建设,新型的Smart IPC监控前端也将成为一个卡口系统,这使得城市卡口系统更加严密,能够获取到更多的过往车辆数据,能够更准确地描绘出车辆动态信息。

基于大数据的智慧交通存在多种可能。交通的智能化是根本的趋势,利用大数据技术和智能分析技术,整合城市管理的其他数据,将真正推动智慧交通建设,为交通管理奠定良好的基础。目前大数据技术主要应用在交管部门所辖道路,随着数据的进一步联网开放,可以整合停车场、铁路、轨道交通、公交等各种来源的数据,提供更为丰富的城市交通应用,让道路更加畅通,停车位不再难找,提升城市交通整体运营效率。3. 大数据在金融行业的应用

下面从四个方面介绍大数据技术在金融行业的应用。(1)客户画像应用

在银行业务中,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时难以得出理想的结果甚至可能得出错误的结论。比如,某位信用卡客户月均刷卡8次,平均每次刷卡金额800元,平均每年拨打4次客服电话,从未有过投诉。按照传统的数据分析,该客户应该是一位满意度较高、流失风险较低的客户。但如果看到该客户的微博,看到的真实情况却是:由于工资卡和信用卡不在同一家银行,导致还款不方便,该客户好几次打客服电话没接通,并多次在微博上抱怨。可见该客户的流失风险较高。所以银行不仅要考虑银行自身业务采集到的数据,还应考虑整合更多的外部数据,可以使用大数据客户画像方式采集客户特征、客户标签,完成有效的客户画像,便能对客户进行有效的数据建模和有效准确的营销。(2)精准营销

在客户画像的基础上银行可以有效地开展精准营销,包括:

实时营销:根据客户的实时状态来进行营销。

交叉营销:即不同业务或产品的交叉推荐。

个性化推荐:根据客户的喜好进行服务或者进行产品的个性化推荐。

客户生命周期的管理:新客户获取、老客户流失和老客户赢回等。(3)风险管控

风险管控包括中小企业贷款风险评估、欺诈交易识别和反洗钱等手段。

中小企业贷款风险评估:将企业的产品、流通、销售、财务等信息结合大数据挖掘方法进行贷款风险分析。

欺诈交易识别和反洗钱:利用持卡人基本信息、交易模式、行为模式等,结合智能规则进行交易反欺诈分析。(4)运营优化

市场和渠道分析优化:通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。

产品和服务优化:金融行业可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。

舆情分析:金融行业可以通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息,并通过自然语言处理技术进行正负面舆情判断。任务3 搭建移动通信业务的Hadoop处理平台【任务描述】

搭建Hadoop伪分布式环境。【关键步骤】(1)安装虚拟机。(2)安装Linux操作系统。(3)搭建Hadoop伪分布式环境。1.3.1 安装虚拟机1. 虚拟机概述

虚拟机是指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。虚拟机软件允许用户在一台机器上同时运行多个不同类型的操作系统,可以模拟一个标准的计算机环境,包括CPU、内存、显卡、硬盘、网卡、声卡、USB控制器等。

目前,流行的虚拟机软件有VMware Workstation和VirtualBox,它们都能在Windows系统上虚拟出多个计算机。由于VMware的功能更加完善,所以本书采用VMware Workstation虚拟机,版本选择VMware Workstation 12。读者可以在官网下载对应的版本。2. VMware安装

安装VMware Workstation的过程如下。(1)双击下载的安装文件,进入到安装向导界面,如图1.2所示。图1.2 VMware安装向导界面(2)在安装向导界面,单击“下一步”按钮,进入到最终用户许可协议界面,如图1.3所示。图1.3 VMware许可协议界面(3)选中“我接受许可协议中的条款”复选框,单击“下一步”按钮,选择“自定义”单选按钮进入自定义安装界面,如图1.4所示。图1.4 VMware自定义安装界面(4)单击“下一步”按钮进入快捷方式选择界面,勾选“桌面”和“开始菜单程序文件夹”复选框后单击“下一步”按钮,如图1.5所示。图1.5 VMware快捷方式选择界面(5)单击“安装”按钮即可完成安装,如图1.6所示。图1.6 VMware准备安装界面1.3.2 安装Linux操作系统1. Linux概述

Linux是一套免费使用和自由传播的类UNIX操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux操作系统诞生于1991年10月5日,可安装在手机、平板电脑、台式计算机、大型服务器等设备中。目前,大多数企业选择Linux作为服务器的操作系统。

Linux存在很多变种以及版本。(1)Ubuntu。2004年9月发布,是最为流行的桌面Linux发行版本,个人用户使用较多,社区很庞大。(2)Red Hat。使用最广泛,性能比较稳定,属于商业版本。(3)CentOS。2003年年底发布,是对商业版RHEL(Red Hat Enterprise Linux)的重新编译,免费开源,性能稳定。目前主流企业仍旧选用Red Hat或者CentOS,本书选择CentOS 7版本的iso镜像文件(CentOS-7-x86_64-DVD-1804.iso)。读者可以在CentOS官网下载对应的版本。2. CentOS安装(1)打开安装完成的VMware虚拟机,单击【文件】/【新建虚拟机】或直接单击【创建新的虚拟机】图标,如图1.7所示。图1.7 新建虚拟机(2)选择“自定义”单选按钮,单击“下一步”按钮,如图1.8所示。图1.8 自定义安装(3)选择虚拟机硬件兼容性,如图1.9所示。图1.9 选择硬件兼容性(4)选择“稍后安装操作系统”,如图1.10所示。图1.10 选择安装来源(5)选择客户机操作系统和版本,如图1.11所示。图1.11 选择Linux以及CentOS 64位操作系统(6)输入虚拟机名称和安装路径,如图1.12所示。图1.12 选择虚拟机名称和安装路径(7)选择“使用网络地址转换(NAT)”,如图1.13所示。图1.13 选择网络类型(8)选择“创建新虚拟磁盘”,如图1.14所示。图1.14 选择磁盘(9)指定磁盘容量。分别选择最大磁盘大小为20GB和“将虚拟磁盘拆分成多个文件”单选按钮,如图1.15所示。图1.15 指定磁盘容量(10)磁盘文件选择默认即可,如图1.16所示。图1.16 指定磁盘文件(11)单击“自定义硬件”按钮,如图1.17所示。图1.17 自定义硬件(12)选择“新CD/DVD”和“使用ISO映像文件”单选按钮,浏览找到本地镜像下载位置,如图1.18所示。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载