Python大战机器学习:数据科学家的第一个小目标(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-23 21:46:15

点击下载

作者:华校专,王正林

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

Python大战机器学习:数据科学家的第一个小目标

Python大战机器学习:数据科学家的第一个小目标试读:

前言

拥抱智能时代“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”马云在2013年淘宝十周年晚会上的这句话,仿佛一下子拉开了大数据时代的序幕。

2016年下半年,著名的计算机科学家,超级畅销书《浪潮之巅》和《数学之美》的作者吴军博士,携他的全新力作《智能时代:大数据与智能革命重新定义未来》,宣告“智能时代,未来已来”,智能时代到来了!

新的时代,需要新的技术;新的技术,需要新的人才。2016年年底,全球最著名的管理咨询公司麦肯锡在《分析的时代:在大数据的世界竞争(The Age of Analytics:Competing in a Data-Driven World)》的报告里指出“在美国,2012年到2014年数据科学家的平均工资每年平均增长约16%,远远高于美国劳工部统计的不到2%的所有工种的名义工资平均增长率。预测每年数据科学专业的应届毕业生将增加7%,然而高质量项目对于专业数据科学家的需求每年增加12%,这使得缺口约为25万人……到2018年,美国在‘深度分析’人才方面将面临14万至19万的人才缺口;在‘能够分析数据帮助公司做出商业决策’方面将面临150万的人才缺口”。清华大学计算机系教授武永卫2016年5月透露了一组数据:未来3~5年,中国需要180万数据人才,但目前只有约30万人。

麦肯锡还为这个时代把脉“大数据分析正在改变竞争的基础,领先的公司如苹果、谷歌、亚马逊、Facebook、微软、通用以及阿里巴巴集团用自己的优势建立了全新的商业模式,数字化平台的网络结果在一些市场导致了“赢家通吃”的局面。……数据正在被商业化,而价值很大可能属于稀缺数据的所有者、用独特方式将数据整合起来的玩家、以及提供有价值的数据分析的人。”

大数据时代,做大数据分析的人有了一个更“性感”的名字,叫做数据科学家(Data Scientist)。《哈佛商业评论》声称,21世纪最富挑战的工作是数据科学家。时下最热门的职业是数据科学家,而不是传统的信息科学家,也不是大数据工程师。

在数据科学家必备的技能中,机器学习和Python应该是位列前五的两项。机器学习炙手可热,在互联网、金融保险、电商、电信、制造业、零售业、医疗等产业领域发挥了越来越大的作用,关注度也越来越高。而Python则是最in的语言,“人生苦短,我用Python”^_^

怎么用这本书?

机器学习既有算法又有实现,还是比较高深的,算法太难,啃不动,代码太浅,钻不下去。我们的目标是让您快速上手,在内容组织上我们是动了心思的,采用“原理笔记精华+算法Python实现+问题实例+实际代码+运行调参”的形式,理论与实践交织着展开,算法原理与编程实战并重。

全书分13章进行展开,从内容上分为四篇:机器学习基础篇、机器学习高级篇、机器学习工程篇和Kaggle实战篇。

第一篇:机器学习基础篇(第1~6章)

包括线性模型、决策树、贝叶斯分类、k近邻法、数据降维、聚类和EM算法等内容。

这些基础算法非常经典,原理也相对简单,是入门的最佳选择,掌握这些算法,才能更好地理解后续的高级算法。老司机可以直接忽略这部分。

第二篇:机器学习高级篇(第7~10章)

包括支持向量机、人工神经网络、半监督学习和集成学习等内容。

这些高级算法是目前应用非常广泛,也是效果不错的算法,需要深入理解算法的原理、优劣势等特点以及应用场景,要能达到应用自如的程度。

第三篇:机器学习工程篇(第11~12章)

讲述机器学习工程中的实际技术,包括数据预处理,模型评估、选择与验证等内容。

数据清洗、数据预处理和模型评估选择在实际中非常重要,在整个工程项目的开发过程中通常占到一半以上的时间,这部分给出的一些步骤和方法是实践的精华,值得熟练掌握。

第四篇:Kaggle实战篇(第13章)

Step-by-step讲述一个Kaggle竞赛题目的实战,有代码,有分析,有惊喜,有收获。

Kaggle是目前顶级的数据科学比赛平台,很多机器学习的牛人都在这里玩过,咱们可以学习牛人好的算法,也可以启发自己的思路。对于梦想成为牛人的您,还是去里面混混先:)万一拿了个好的名次呢,拿个一流公司的offer还是很easy的。

本书的代码全部开源,请自行下载https://github.com/huaxz1986/git_book,也欢迎在这上面交流。

由于作者水平和经验有限,书中错漏之处在所难免,敬请读者指正,我的电子邮箱是wa 2003@126.com。

作者

2017年元旦于北京第一篇机器学习基础篇第1章线性模型1.1 概述

给定样本,我们用列向量表示该样本。样本有n种特征,我们用(i)x 表示样本的第i个特征。线性模型(linear model)的形式为:

其中为每个特征对应的权重生成的权重向量,称为权重向量,权重向量直观地表达了各个特征在预测中的重要性。

线性模型中的“线性”其实就是一系列一次特征的线性组合,在二维空间中是一条直线,在三维空间中是一个平面,然后推广到n维空间,这样可以理解为广义线性模型。

线性模型非常简单,易于建模,应用广泛,它还有多种推广形式,常见的有广义线性模型,包括岭回归、lasso回归、Elastic Net、逻辑回归、线性判别分析等。本章将介绍这些模型的基本思想、优缺点以及如何用Python实现。1.2 算法笔记精华1.2.1 普通线性回归

线性回归是一种回归分析技术,回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计两类),就是找出因变量和自变量之间的因果关系。回归分析的因变量应该是连续变量,若因变量为离散变量,则问题转化为分类问题,回归分析是一个有监督学习的问题。

给定数据集,y ∈Y ⊆ℝ ,i=1,2,…,N,其中。我们需要学习i的模型为:

也即:根据已知的数据集T 来计算参数和b。

对于给定的样本i,其预测值为。我们采用平方损失函数,则在训练集T 上,模型的损失函数为:

我们的目标是损失函数最小化,即:

可以用梯度下降法来求解上述最优化问题的数值解。在使用梯度下降法时,要注意特征归一化(Feature Scaling),这也是许多机器学习模型都需要注意的问题,这么重要的问题,我们一定要讲三遍!

特征归一化有两个好处。(1)提升模型的收敛速度,比如两个特征x 和x ,x 的取值为0~2000,而x 的取值为1~5,假如只有这1212两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢。相比之下,归一化之后,是一个圆形,梯度的方向为直接指向圆心,迭代就会很快。可见,归一化可以大大减少寻找最优解的时间。(2)提升模型精度,归一化的另一好处是提高精度,这在涉及一些距离计算的算法时效果显著,比如算法要计算欧氏距离,上面x 的取值范围比较小,涉及距离计算时其对结果的影响远比x 带来21的小,所以这就会造成精度的损失。所以归一化很有必要,它可以让各个特征对结果做出的贡献相同。在求解线性回归的模型时,还有一个问题要注意,那就是特征组合问题,比如房子的长度和宽度作为两个特征参与模型的构造,不如把其相乘得到面积作为一个特征来进行求解,这样在特征选择上就做了减少维度的工作。

回过头来,上述最优化问题实际上是有解析解的,可以用最小二乘法求解解析解,该问题称为多元线性回归(multivariate linear regression)。

令:

则有:

令:

则:

令),求它的极小值。对求导令导数为零,得到解析解:

❐当为满秩矩阵或者正定矩阵时,可得:

其中的逆矩阵。于是学得的多元线性回归模型为:

❐当不是满秩矩阵时。比如N

其中,λ>0调整正则化项与均方误差的比例;||...|| 为L 范数。22

根据上述原理,我们得到多元线性回归算法:

❐ 输入:数据集,y ∈ Y ⊆ ℝ ,i=1,2,…,N,正则化项系数iλ>0。

❐ 输出:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载