大数据实验手册(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-21 09:37:14

点击下载

作者:刘鹏

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据实验手册

大数据实验手册试读:

前言

教材是体现教学内容和教学方法的知识载体,是教师授课和学生学习的重要参考资料,直接关系到教学质量和人才培养目标的实现,在教学过程中占据十分重要的地位。特别是在大数据教学中,除了理论学习外,实验尤为重要。对于大数据专业毕业生而言,拥有实际操作技能与工作经验俨然成为了其入职薪酬的加分项。以Hadoop开发工程师为例,Hadoop入门月薪可达8千元,而具有2~3年工作经验的Hadoop人才年薪则可达到30-50万元。所以,大数据实验与实训直接关系到学生们的职业前景,重要性可见一斑。

然而,对于大数据实验而言,各大高校在开设课程的过程中却遇到了诸多问题。首先,大数据专业处于起步阶段,人才培养课程体系缺乏系统性,大数据教学资源匮乏,可配置和指导实验环境的专业师资不足;其次,教学过程中缺乏相应的实训项目,只有理论教育,难以培养实用型人才,存在专业学习与实际应用脱轨的情况;最后,缺乏相应的基础实验环境,无法为每一个学生都提供一套实验集群。

针对大数据实验课程建设的三大难题,我们的大数据研发团队通过长期的研究,经过反复的验证,推出了《大数据实验手册》这本教材。本教材紧扣应用型人才培养需求,本着“有用、够用、实用”的原则,在某些知识点上做了适当的扩充和提高,在突出重点、有效化解难点方面做了认真考虑和合理安排。教材打破纸上谈兵的传统模式,设计了大量的大数据实验项目,使纸质教材的实际功能辐射到学生实际操作中,引导学生对教材某些内容与观点进行探究。

本教材以实战方式进行编写,一是为了推动大数据人才培养和应用成果转化,使本书成为全国高校首选实验教材;二是为了从社会发展与高校教材发展的关系出发,寻求适应新世纪“创新人才”培养目标的新思路。同时,我们的团队开发了大数据实验平台和大数据实验一体机,可提升高校信息化管理水平和实验项目研究水平,为高校大数据课程提供基础实验环境和实验数据。

本书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。我的邮箱:gloud@126.com,微信公众号:刘鹏看未来(lpoutlook)。刘鹏 教授于南京大数据研究院2017年6月6日实验一大数据实验一体机基础操作1.1 实验目的

1.熟悉大数据实验一体机并了解如何搭建集群;

2.熟悉Linux基本命令;

3.掌握vi编辑器的使用;

4.了解SSH免密登录的原理以及为何需要配置SSH免密登录;

5.掌握如何配置SSH免密登录;

6.掌握Java基本命令;

7.熟悉集成开发软件Eclipse的安装和使用。1.2 实验要求

本次实验完成后,要求学生能够:

1.使用大数据实验一体机搭建自己的集群;

2.通过SSH工具登录集群服务器;

3.实现每台服务器相互之间的免密登录;

4.通过vi编辑器编写Java程序;

5.通过Java命令编译和运行编写的Java程序;

6.通过jar命令打包编写的Java程序;

7.安装Eclipse并在其中编写Java程序。1.3 实验原理

1.3.1 大数据实验一体机

随着移动互联网、云计算、物联网的快速发展,特别是智能手机端博客、社交网络、位置服务(LBS)等信息发布方式的不断涌现,数据正以前所未有的速度不断增长和累积,大数据时代已经来到。

在海量数据面前,大数据人才无疑是其中最关键环节之一。然而,不论国内外,大数据人才却相当稀缺。例如,当前我国数据人才缺口高达150万,而在未来5~10年,随着市场规模不断增加,这一缺口还将不断加大。

在创新探索大数据教学面前,高校却碰到了一系列困难,如大部分高校大数据课程体系并不完善,在实验环节,由于缺乏实验设备和大数据实训案例匮乏,实验难以开展。

针对大数据专业建设的三大难题,云创大数据为各大高校量身定制了大数据软硬件一体化的教学科研平台——大数据实验一体机。大数据实验一体机通过应用容器技术,以少量机器虚拟大量实验集群,可供大量学生同时拥有多套集群进行实验,而每个学生的实验环境不仅相互隔离,方便高效地完成实验,而且实验彼此不干扰,即使某个实验环境被破坏,对其他人也没有影响,一键重启就可以拥有一套新集群,大幅度节省了硬件和人员管理的投入成本。

此外,作为一个可供大量学生完成大数据与云计算实验的集成环境,该平台同步提供了配套的培训服务,对于教学组件的安装、配置,教材、实验手册等具体应用提供一站式服务,有助于更好地满足高校课程设计、课程上机实验、实习实训、科研训练等多方面需求,并在一定程度上缓解大数据师资不足的问题。对于各大高校而言,即使没有任何大数据实验基础,该平台也能助其轻松开展大数据与云计算的教学、实验与科研。

具体而言,大数据实验一体机从以下四个方面解决了高校大数据的教学科研难题。(1)完整的大数据课程体系及配套资源,一步解决入门难的问题

在《实战Hadoop2.0——从云计算到大数据》和实验手册的指导之下,大数据实验一体机解决方案涵盖大数据算法、接口、工具、平台等多方面内容,从大数据监测与收集、大数据存储与处理、大数据分析与挖掘直至大数据创新,帮助高校构建完整的大数据课程体系。

综合36个大数据实验的实验手册及配套高清视频课程,涵盖原理验证、综合应用、自主设计及创新的多层次实验内容。每个实验呈现详细的实验目的、实验内容、实验原理和实验流程指导。配套相应的实验数据和高清视频课程,参照手册即可轻松完成每个实验。中国大数据、中国云计算、中国存储等国内大数据和云计算专业领域排名第一的网站将会提供全线支持,一网打尽各类优质资源。(2)安全可靠的实验环境,大幅度提升大数据技能

基于Docker容器技术,大数据实验一体机可快速创建随时运行的实验环境。使用几台机器即可虚拟出大量实验集群,方便上百学生同时使用。采用Kubernetes+ZooKeeper架构管理集群,实验集群完全隔离。实验环境互不干扰,如果实验环境被破坏,一键重启即可建立新集群。内置数据挖掘等教学实验数据,可导入高校各学科数据进行教学、科研,校外培训机构同样适用。(3)热门实战项目贯穿始终,进一步提高教学效果与就业率

大数据实验一体机解决方案采用理论与实践相结合的人才培养模式,帮助教师提高教学水平,促使学生完善大数据知识体系。基于真实的企业基地实训经验,提供丰富的项目实训案例。结合高校各专业实际情况进行行业数据研究,培养实用型人才的专业项目能力。(4)更多潜在效益,同步增强高校的硬实力和影响力

大数据上升为国家战略,发改委明确组建13个国家级大数据实验室,大数据实验一体机有助于高校大数据实验室建设以及高层次大数据人才的深度培育。大数据实验一体机解决方案在理论与实践双管齐下,帮助提升了高校信息化管理水平和实验项目研究水平。大数据产业迎来发展黄金期,大数据实验一体机可提高大数据专业就业率,进一步增强高校的硬实力和影响力。

在2016年暑期全国高校大数据培训中,云创大数据利用大数据实验一体机搭建了Docker容器云,为每个学员分配5套虚拟服务器集群,提供了简洁易用的上机操作环境,得到了学员的一致好评。在理论讲解的基础上,讲师通过这一实践平台,为学员提供精确到每一步的操作指导,真正做到了学思结合、知行统一,所有学员的大数据应用能力均得以提升,并获得了相应的大数据能力等级证书。

大数据实验一体机基本操作主要包括账号管理、集群管理、集群登录和辅助功能四大部分,其中账号管理完成新建和销毁用户账号,集群管理完成新建和销毁集群,集群登录指通过SSH登录到集群各机器,辅助功能模板提供了部分软件下载等实用小功能。

1.界面管理

输入本校大数据实验一体机网址后,请输入相应账号与密码,点击登录即可。如图1-1所示。图1-1 登录界面

2.账号管理

系统管理员和教师角色登录后,可以看到用户账号管理界面。

系统管理员用户可以在该界面中查看或修改所有的教师和学生用户信息,并可以注册、销毁教师或学生用户账户;

教师用户可以在该界面中查看或修改自己建立的所有学生用户信息,并可以注册或销毁自己的学生用户账户,如图1-2所示。图1-2 账号管理

3.集群管理

此处的集群管理包含创建集群和销毁集群,由于云创大数据实验一体机采用Docker技术,因此能够在几乎不占用系统资源情况下,实现大量机器快速创建与销毁,不必担心资源消耗高、启动销毁慢、管理维护难等问题。(1)创建集群

当需要新建集群时,直接点击集群管理界面的创建集群即可,后台会快速为用户新建五台预安装CentOS 7操作系统的机器,并配置好各自的主机名和IP地址等。如图1-3所示。图1-3 创建集群(2)销毁集群

若实验过程中,由于命令敲错等各种原因导致集群无法使用,可在“我的主页”中随时销毁失效的集群,之后再重新建立新的集群。集群主页如图1-4所示。图1-4 集群主页

4.相关下载

大数据实验一体机的相关下载界面提供了实验所需的软件及插件的下载,为避免软件版本不同导致实验环境配置错误,请尽量下载和使用此处指定的软件版本与插件。如图1-5所示。图1-5 相关下载

1.3.2 Linux基本命令

云创大数据实验平台搭建的集群服务器均为预装Linux操作系统的服务器。

Linux是一套免费使用和自由传播的类UNIX操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了UNIX以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

Linux操作系统于1991年10月5日成立。Linux存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,例如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。

严格来讲,Linux这个词本身只表示Linux内核,但实际上人们已经习惯了用Linux来形容整个基于Linux内核,并且使用GNU工程各种工具和数据库的操作系统。

本小节将介绍实验中涉及的Linux操作系统命令。(1)查看当前目录

pwd命令用于显示当前目录:(2)目录切换

cd命令用来切换目录:(3)文件罗列

ls命令用于查看文件与目录:(4)文件或目录复制

cp命令用于复制文件,若复制的对象为目录,则需要使用-r参数:(5)文件或目录移动或重命名

mv命令用于移动文件,在实际使用中,也常用于重命名文件或目录:(6)文件或目录删除

rm命令用于删除文件,若删除的对象为目录,则需要使用-r参数:(7)进程查看

ps命令用于查看系统的所有进程:(8)文件压缩与解压

tar命令用于文件压缩与解压,参数中的c表示压缩,x表示解压缩:(9)查看文件内容

cat命令用于查看文件内容:(10)查看服务器IP配置

ip addr命令用于查看服务器IP配置:

1.3.3 vi编辑器

vi编辑器通常被简称为vi,而vi又是visual editor的简称。它在Linux上的地位就像Edit程序在DOS上一样。它可以执行输出、删除、查找、替换、块操作等众多文本操作,而且用户可以根据自己的需要对其进行定制,这是其他编辑程序所没有的。

vi编辑器并不是一个排版程序,它不像Word或WPS那样可以对字体、格式、段落等其他属性进行编排,它只是一个文本编辑程序,没有菜单,只有命令,且命令繁多。vi有三种基本工作模式:命令行模式、文本输入模式和末行模式。

vim是vi的加强版,比vi更容易使用。vi的命令几乎全部都可以在vim上使用。

vi编辑器是Linux和UNIX上最基本的文本编辑器,工作在字符模式下。由于不需要图形界面,vi是效率很高的文本编辑器。尽管在Linux上也有很多图形界面的编辑器可用,但vi在系统和服务器管理中的功能是那些图形编辑器所无法比拟的。

vi或vim是实验中用到最多的文件编辑命令,命令行嵌入“vi/vim 文件名”后,默认进入“命令模式”,不可编辑文档,需键盘点击“i”键,方可编辑文档,编辑结束后,需按“ESC”键,先退回命令模式,再按“:”进入末行模式,接着嵌入“wq”方可保存退出。图1-6为vi/vim三种模式转换,图1-7为vi/vim操作实例。图1-6 vi/vim三种模式转换图1-7 vi/vim操作实例

1.3.4 SSH免密认证

实验中,我们需要从实验室机器登录到集群中的Linux服务器上,而绝大多数Linux服务器采用的是SSH(Secure Shell)登录方式,因此,我们需要在实验室机器上安装一个SSH登录工具。常用的SSH工具包括XShell、Secure CRT、putty等,大数据实验一体机的相关下载界面中提供了XShell工具的下载。

Hadoop的基础是分布式文件系统HDFS,HDFS集群有两类节点以管理者-工作者的模式运行,即一个namenode(管理者)和多个datanode(工作者)。在Hadoop启动以后,namenode通过SSH来启动和停止各个节点上的各种守护进程,这就需要在这些节点之间执行指令时采用无须输入密码的认证方式,因此,我们需要将SSH配置成使用无须输入root密码的密钥文件认证方式,如图1-8所示。图1-8 实验集群master服务器SSH免密登录

1.3.5 Java基本命令

在安装Java环境后,可以使用Java命令来编译、运行或者打包Java程序。(1)查看Java版本(2)编译Java程序(3)运行Java程序(4)打包Java程序

由于打包时并没有指定manifest文件,因此该jar包无法直接运行:(5)打包携带manifest文件的Java程序

manifest文件用于描述整个Java项目,最常用的功能是指定项目的入口类:

打包时,加入-m参数,并指定manifest文件名:

之后,即可使用java命令直接运行该jar包:

1.3.6 Eclipse集成开发环境

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Eclipse是著名的跨平台的自由集成开发环境(IDE)。最初主要用来Java语言开发,通过安装不同的插件Eclipse可以支持不同的计算机语言,比如C++和Python等开发工具。Eclipse的本身只是一个框架平台,但是众多插件的支持使得Eclipse拥有其他功能相对固定的IDE软件很难具有的灵活性。许多软件开发商以Eclipse为框架开发自己的IDE。

使用Eclipse可以帮助程序开发人员自动补全语义、方法名、方法参数、语句块等,并且能够实时检查程序语法,提供错误和警告说明等,极大地提高了开发效率。

然而,使用Eclipse会占用较大的系统内存,因此,对于配置不高(32位操作系统或内存不足4G)的实验机器,不推荐安装Eclipse。1.4 实验步骤

1.4.1 搭建集群服务器

使用自己的账号密码登录大数据实验一体机(默认密码为123456,登录后会自动跳转至密码修改界面,建议修改为自己的密码),进入集群管理界面,如图1-9所示。图1-9 登录大数据实验一体机

选择第一个Hadoop集群,点击创建集群,等待集群建立完成,如图1-10所示。图1-10 搭建Hadoop集群完成

1.4.2 使用SSH工具登录每台服务器

在搭建好的Hadoop集群中,已经给出了所有五台服务器的内部IP地址、SSH端口号、SSH登录名以及SSH登录密码。

要想登录这些服务器,我们需要先下载OpenVPN客户端软件。

在相关下载中,根据PC的操作系统版本下载对应版本的OpenVPN客户端安装包,并下载客户端配置文件,如图1-11所示。图1-11 下载OpenVPN

安装完成后,将下载的客户端配置压缩包解压,将其中的client.ovpn放于OpenVPN安装目录的config文件夹下。

以管理员身份运行OpenVPN GUI,任务栏将出现OpenVPN GUI图标,右键单击任务栏内OpenVPN GUI图标,点击“Connect”,如图1-12所示。图1-12 登录集群服务器(一)

当提示连接成功后,即可使用SSH工具登录大数据试验一体机分配的内网IP连接你的集群服务器。如图1-13所示。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载