Python大战机器学习：数据科学家的第一个小目标(txt+pdf+epub+mobi电子书下载)-txtepub下载

作者：华校专,王正林

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

Python大战机器学习：数据科学家的第一个小目标试读：

前言

拥抱智能时代“大家还没搞清PC时代的时候，移动互联网来了，还没搞清移动互联网的时候，大数据时代来了。”马云在2013年淘宝十周年晚会上的这句话，仿佛一下子拉开了大数据时代的序幕。

2016年下半年，著名的计算机科学家，超级畅销书《浪潮之巅》和《数学之美》的作者吴军博士，携他的全新力作《智能时代：大数据与智能革命重新定义未来》，宣告“智能时代，未来已来”，智能时代到来了！

新的时代，需要新的技术；新的技术，需要新的人才。2016年年底，全球最著名的管理咨询公司麦肯锡在《分析的时代：在大数据的世界竞争（The Age of Analytics：Competing in a Data-Driven World）》的报告里指出“在美国，2012年到2014年数据科学家的平均工资每年平均增长约16%，远远高于美国劳工部统计的不到2%的所有工种的名义工资平均增长率。预测每年数据科学专业的应届毕业生将增加7%，然而高质量项目对于专业数据科学家的需求每年增加12%，这使得缺口约为25万人……到2018年，美国在‘深度分析’人才方面将面临14万至19万的人才缺口；在‘能够分析数据帮助公司做出商业决策’方面将面临150万的人才缺口”。清华大学计算机系教授武永卫2016年5月透露了一组数据：未来3～5年，中国需要180万数据人才，但目前只有约30万人。

麦肯锡还为这个时代把脉“大数据分析正在改变竞争的基础，领先的公司如苹果、谷歌、亚马逊、Facebook、微软、通用以及阿里巴巴集团用自己的优势建立了全新的商业模式，数字化平台的网络结果在一些市场导致了“赢家通吃”的局面。……数据正在被商业化，而价值很大可能属于稀缺数据的所有者、用独特方式将数据整合起来的玩家、以及提供有价值的数据分析的人。”

大数据时代，做大数据分析的人有了一个更“性感”的名字，叫做数据科学家（Data Scientist）。《哈佛商业评论》声称，21世纪最富挑战的工作是数据科学家。时下最热门的职业是数据科学家，而不是传统的信息科学家，也不是大数据工程师。

在数据科学家必备的技能中，机器学习和Python应该是位列前五的两项。机器学习炙手可热，在互联网、金融保险、电商、电信、制造业、零售业、医疗等产业领域发挥了越来越大的作用，关注度也越来越高。而Python则是最in的语言，“人生苦短，我用Python”^_^

怎么用这本书？

机器学习既有算法又有实现，还是比较高深的，算法太难，啃不动，代码太浅，钻不下去。我们的目标是让您快速上手，在内容组织上我们是动了心思的，采用“原理笔记精华+算法Python实现+问题实例+实际代码+运行调参”的形式，理论与实践交织着展开，算法原理与编程实战并重。

全书分13章进行展开，从内容上分为四篇：机器学习基础篇、机器学习高级篇、机器学习工程篇和Kaggle实战篇。

第一篇：机器学习基础篇（第1～6章）

包括线性模型、决策树、贝叶斯分类、k近邻法、数据降维、聚类和EM算法等内容。

这些基础算法非常经典，原理也相对简单，是入门的最佳选择，掌握这些算法，才能更好地理解后续的高级算法。老司机可以直接忽略这部分。

第二篇：机器学习高级篇（第7～10章）

包括支持向量机、人工神经网络、半监督学习和集成学习等内容。

这些高级算法是目前应用非常广泛，也是效果不错的算法，需要深入理解算法的原理、优劣势等特点以及应用场景，要能达到应用自如的程度。

第三篇：机器学习工程篇（第11～12章）

讲述机器学习工程中的实际技术，包括数据预处理，模型评估、选择与验证等内容。

数据清洗、数据预处理和模型评估选择在实际中非常重要，在整个工程项目的开发过程中通常占到一半以上的时间，这部分给出的一些步骤和方法是实践的精华，值得熟练掌握。

第四篇：Kaggle实战篇（第13章）

Step-by-step讲述一个Kaggle竞赛题目的实战，有代码，有分析，有惊喜，有收获。

Kaggle是目前顶级的数据科学比赛平台，很多机器学习的牛人都在这里玩过，咱们可以学习牛人好的算法，也可以启发自己的思路。对于梦想成为牛人的您，还是去里面混混先：）万一拿了个好的名次呢，拿个一流公司的offer还是很easy的。

本书的代码全部开源，请自行下载https：//github.com/huaxz1986/git_book，也欢迎在这上面交流。

由于作者水平和经验有限，书中错漏之处在所难免，敬请读者指正，我的电子邮箱是wa 2003@126.com。

作者

2017年元旦于北京第一篇机器学习基础篇第1章线性模型1.1 概述

给定样本，我们用列向量表示该样本。样本有n种特征，我们用（i）x 表示样本的第i个特征。线性模型（linear model）的形式为：

其中为每个特征对应的权重生成的权重向量，称为权重向量，权重向量直观地表达了各个特征在预测中的重要性。

线性模型中的“线性”其实就是一系列一次特征的线性组合，在二维空间中是一条直线，在三维空间中是一个平面，然后推广到n维空间，这样可以理解为广义线性模型。

线性模型非常简单，易于建模，应用广泛，它还有多种推广形式，常见的有广义线性模型，包括岭回归、lasso回归、Elastic Net、逻辑回归、线性判别分析等。本章将介绍这些模型的基本思想、优缺点以及如何用Python实现。1.2 算法笔记精华1.2.1 普通线性回归

线性回归是一种回归分析技术，回归分析本质上就是一个函数估计的问题（函数估计包括参数估计和非参数估计两类），就是找出因变量和自变量之间的因果关系。回归分析的因变量应该是连续变量，若因变量为离散变量，则问题转化为分类问题，回归分析是一个有监督学习的问题。

给定数据集，y ∈Y ⊆ℝ ，i=1，2，…，N，其中。我们需要学习i的模型为：

也即：根据已知的数据集T 来计算参数和b。

对于给定的样本i，其预测值为。我们采用平方损失函数，则在训练集T 上，模型的损失函数为：

我们的目标是损失函数最小化，即：

可以用梯度下降法来求解上述最优化问题的数值解。在使用梯度下降法时，要注意特征归一化（Feature Scaling），这也是许多机器学习模型都需要注意的问题，这么重要的问题，我们一定要讲三遍！

特征归一化有两个好处。（1）提升模型的收敛速度，比如两个特征x 和x ，x 的取值为0～2000，而x 的取值为1～5，假如只有这1212两个特征，对其进行优化时，会得到一个窄长的椭圆形，导致在梯度下降时，梯度的方向为垂直等高线的方向而走之字形路线，这样会使迭代很慢。相比之下，归一化之后，是一个圆形，梯度的方向为直接指向圆心，迭代就会很快。可见，归一化可以大大减少寻找最优解的时间。（2）提升模型精度，归一化的另一好处是提高精度，这在涉及一些距离计算的算法时效果显著，比如算法要计算欧氏距离，上面x 的取值范围比较小，涉及距离计算时其对结果的影响远比x 带来21的小，所以这就会造成精度的损失。所以归一化很有必要，它可以让各个特征对结果做出的贡献相同。在求解线性回归的模型时，还有一个问题要注意，那就是特征组合问题，比如房子的长度和宽度作为两个特征参与模型的构造，不如把其相乘得到面积作为一个特征来进行求解，这样在特征选择上就做了减少维度的工作。

回过头来，上述最优化问题实际上是有解析解的，可以用最小二乘法求解解析解，该问题称为多元线性回归（multivariate linear regression）。

令：

则有：

令：

则：

令），求它的极小值。对求导令导数为零，得到解析解：

❐当为满秩矩阵或者正定矩阵时，可得：

其中的逆矩阵。于是学得的多元线性回归模型为：

❐当不是满秩矩阵时。比如N

其中，λ>0调整正则化项与均方误差的比例；||...|| 为L 范数。22

根据上述原理，我们得到多元线性回归算法：

❐ 输入：数据集，y ∈ Y ⊆ ℝ ，i=1，2，…，N，正则化项系数iλ>0。

❐ 输出：

试读结束[说明：试读内容隐藏了图片]

下载完整电子书

Python大战机器学习：数据科学家的第一个小目标试读：

相关推荐

我的互联网生活(套装共3册)(txt+pdf+epub+mobi电子书下载)

济慈诗选(英诗经典名家名译)(txt+pdf+epub+mobi电子书下载)

命悬一线(周浩晖、紫金陈等悬疑推理名家推荐！以恶的脆弱和强悍，彰显对善的坚守！)(txt+pdf+epub+mobi电子书下载)

水中营养盐指标检测工作页(txt+pdf+epub+mobi电子书下载)

真爱协议(txt+pdf+epub+mobi电子书下载)

庞门左道(txt+pdf+epub+mobi电子书下载)

铸就高情商之路(高情商并非遥不可及，后天的培养和训练才是关键。)(明心书坊)(txt+pdf+epub+mobi电子书下载)

独掌乾坤的历代帝王（上）(txt+pdf+epub+mobi电子书下载)

蓝色咖啡馆和绿色咖啡馆(txt+pdf+epub+mobi电子书下载)

谁走在十年之后(txt+pdf+epub+mobi电子书下载)

隋唐五代史·文明卷(txt+pdf+epub+mobi电子书下载)

财富是一种心态(txt+pdf+epub+mobi电子书下载)

Python大战机器学习：数据科学家的第一个小目标(txt+pdf+epub+mobi电子书下载)

书虫·牛津英汉双语读物(第1级+第2级全)(套装共60本)(txt+pdf+epub+mobi电子书下载)

少年科幻小说大奖书系：创造者(txt+pdf+epub+mobi电子书下载)

怪诞心理学(txt+pdf+epub+mobi电子书下载)

中公版2017国家教师资格考试专用教材：真题大全中学(txt+pdf+epub+mobi电子书下载)

水墨丹青里的艺术世界与文化意蕴——中国古代绘画及其明清文人画研究(txt+pdf+epub+mobi电子书下载)

区域经济差异的资本形成机制研究(txt+pdf+epub+mobi电子书下载)

Flink原理、实战与性能优化(txt+pdf+epub+mobi电子书下载)

最新文章

人生就要不断精进(txt+pdf+epub+mobi电子书下载)

做个心智成熟的人：人生可以不走弯路(txt+pdf+epub+mobi电子书下载)

跟谁都能聊不停：一看就能用的魔鬼搭讪学(txt+pdf+epub+mobi电子书下载)

赴美留学必知(txt+pdf+epub+mobi电子书下载)

我的男友(txt+pdf+epub+mobi电子书下载)

中国东北与东北亚古代交通史(txt+pdf+epub+mobi电子书下载)

幸福生活讲座(txt+pdf+epub+mobi电子书下载)

情商决定一生(txt+pdf+epub+mobi电子书下载)

夜雨寄北(txt+pdf+epub+mobi电子书下载)

让学生热爱学习(txt+pdf+epub+mobi电子书下载)

On Dreams(txt+pdf+epub+mobi电子书下载)

我的史学人生(txt+pdf+epub+mobi电子书下载)

Creo2.0完全学习手册(txt+pdf+epub+mobi电子书下载)

2018年陕西省军转干部安置考试《公共基础知识》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

假如给我三天光明(txt+pdf+epub+mobi电子书下载)

带出高效执行力(txt+pdf+epub+mobi电子书下载)

北史（四）(txt+pdf+epub+mobi电子书下载)

影响力的企业富豪(上册)(txt+pdf+epub+mobi电子书下载)

商界40年：逐鹿人(1999-2008)(txt+pdf+epub+mobi电子书下载)

The Boats of the Glen Carrig(txt+pdf+epub+mobi电子书下载)