数据科学家访谈录(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-03 05:56:59

点击下载

作者:(美)单研(Carl Shan) 陈子蔚(William Chen) 汪强明(Henry Wang) 宋迈思(Max Song)

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据科学家访谈录

数据科学家访谈录试读:

前言

欢迎阅读本书!

在本书此后的内容中,你将会看到针对25位卓越的数据科学家的深度采访。他们来自于不同的背景、职业以及产业。他们中的一些人,诸如DJ Patil和Hilary Mason,是曾经将这一领域从默默无闻推向全球皆知的伟大开拓者。也有一些刚刚开始数据科学家生涯的学者,例如Clare Corthell,她在这个领域内有自己独树一帜的贡献,即创造了开源数据科学导师课程,这是一套完全基于开源的互联网资源而建立的自学课程。如何阅读本书

我们出版本书的目的,是创造一本可以历久弥香并且激发你对于数据科学的兴趣的图书,无论你的教育专业背景如何,希望你都能从中获益。我们每一次精心校对、编辑、推敲和拿捏,都是为了让本书成为你日后在不同的学习和事业阶段,可以不断回头翻阅,得以温故知新的一件礼物。

这里列出了本书中涵盖的知识点。尽管本书的每一篇访谈都是精彩绝伦的,并且涵盖了很广阔的知识领域,我们还是从中选择出了一些有助于你快速起步的访谈。● 有志于成为数据科学家的读者:你可以从这些故事中得到如何转

向数据科学领域的建议和经典案例。

推荐阅读:William Chen、Clare Corthell和Diane Wu。● 正在从事数据科学工作的读者:你可以从访谈中知道如何更高效

地工作,以及如何更快地在职场中成长。

推荐阅读:Josh Wills、Kunal Punera和Jace Kohlmeier。● 数据科学团队领袖:你可以从访谈中知道如何招聘其他数据科学

家,如何组建一个团队,以及如何与公司产品和工程部门通力协

作等一系列历久弥新的经验。

推荐阅读:Riley Newman、John Foreman和Kevin Novak。● 企业家以及商业人士:你可以从中读到有关数据科学未来发展方

向的灵感,从而拓展你的视野。

推荐阅读:Sean Gourley、Jonathan Goldman和Luis Sanchez。● 对数据感兴趣的普通读者:你可以通过阅读一些最早期的数据科

学家的故事,来知道这个领域的来龙去脉与历史沿革。

推荐阅读:DJ Patil、Hillary Mason、Drew Conway和Pete

Skomoroch。

在收集、策划以及编纂这些访谈的时候,我们的重心一直是与这些科学家中的每一位都能有深度并且高质量的对话。这其中的很大一部分信息也同样是长久以来数据科学界众多周知的观点和故事。你将会听到他们每一个人独家的出身背景、宏观眼界、职场经历以及人生建议。

在本书后面的内容中,你将会看到这些数据科学家对于以下问题的观点和解答:● 为什么数据科学对于今天的世界和经济如此重要?● 如何同时掌握编程、统计以及领域知识,从而成为一名卓有成效

的数据科学家?● 如何从学术界或者其他领域,专职进入数据科学领域,并在其中

找到一份工作。● 数据科学家与统计学家、软件工程师有什么区别?他们如何协同

工作?● 如果你的公司有数据科学相关工作需求,你应该如何招聘员工?● 如何建立一支出色的数据科学团队?● 卓越的数据科学家与优秀的数据科学家相比,在心态、技术和能

力等方面有什么区别?● 数据科学的未来会是怎样的?

在你阅读这些访谈之后,我们希望你会发现,从不同的背景和领域转入数据科学领域,并最终成为数据科学家这一过程是非常多样化的。我们再次祝你一路好运,并且期待你与我们联系:contact@thedatasciencehandbook.com。—— Carl、Henry、William和Max 第1章重要问题的取舍

RelateIQ产品部副总裁DJ Patil

DJ Patil是“数据科学家”这个术语的创造者之一,也是哈佛商业周刊文章《数据科学家:21世纪最诱人的工作》(Data Scientist:Sexiest Job of the 21st Century)的共同作者。

由于折服于数学的魅力,年轻时代的DJ在加利福尼亚大学圣地亚哥分校取得了数学学士学位,然后在马里兰州立大学取得应用数学博士学位。在攻读博士期间,他主要研究非线性动态过程、混沌理论以及复杂系统。在进入科技领域以前,他在气象领域做了将近十年的研究工作,并且为美国国防部和能源部提供咨询服务。在他的职业生涯中,DJ曾在eBay担任首席架构师和研究科学家职位,然后在LinkedIn担任数据产品主管,正是在那段时光里,他与Jeff Hammerbacher一同创造了“数据科学家”这个术语,并且打造了一个出类拔萃的数据科学团队。他曾是RelateIQ公司产品部副总裁,RelateIQ是新一代基于数据科学开发的客户关系管理软件(customer relationship management software)。近期,RelateIQ公司因为其出众的数据科学技术而被Salesforce.com收购。

在对他的访谈中,DJ将会谈论抓住时机的重要性,通过独立学习、团队工作,激发兴趣并回馈帮助过自己的社区,以此不断提高自己。

2015年,DJ被任命为美国历史上第一位首席数据科学家。

您的演讲中打动了很多人的一部分内容是您曾经的失败经历。看到像您这么成功的人公然讨论自己过往的失败经历是挺让人惊讶的。您能更多地告诉我们一些相关内容吗?

在初入职场的时候,很多人都在挣扎面对的一个问题是,如何才能正确地走进这个领域的招聘市场。首先你要明白,当你走进去的时候,你必然已经把自己放在一个特定的“盒子”里呈现到了大家面前,而大家一定程度上会根据你所在的“盒子”来评估你所拥有的技能。比如说,如果你以一个销售人员的身份进入了人才招聘市场,大家就会默认你寻求的是销售职位;如果你以一个媒体人的身份进入市场,大家就会默认你对媒体公司有兴趣;如果你是生产产品的人,大家就会觉得你对于生产企业更感兴趣。在这个时候,相比形形色色的很多“盒子”,一些特定的“盒子”就更容易让你转入或转出相关的领域。

比如学术这个“盒子”就是一个非常不容易转型的例子。因为显而易见,在大家的印象中,你就是一个拥有学术背景的人。你所面对的问题有:我在目前的情况下有什么出路?如何转入其他的“盒子”里?我认为这方面一个颇具挑战的现状就是,组织机构和招聘人员更倾向于寻找与他们自己更类似的人。比如,在Ayasdi(一个拓扑机器学习公司)里,只有非常少量的数学家,却有非常多的拓扑学家。

对于大部分从学术界过来的人来说,招聘你就意味着公司可能需要在你身上冒一定的风险,除非你跟他们中的很多人有过非常非常多的沟通交流。我花了6个月才获得eBay的工作岗位。不要指望会有人在咖啡馆发现你,走过来跟你说:“嗨,你好,我看到了你在餐巾纸上写的那些东西,你一定是一个非常聪明的人!”工作不是这样找到的,在你获得机会之前,你必须要清楚地意识到,任何招聘你的人都是在你身上冒险。不要指望会有人在咖啡馆发现你,走过来跟你说:“嗨,你好,我看到了你在餐巾纸上写的那些东西,你一定是一个非常聪明的人!”工作不是这样找到的,在你获得机会之前,你必须要清楚地意识到,任何招聘你的人都是在你身上冒险。

在你的求职过程中,你一定会失败很多次,那是因为他们最终不愿意在你身上下注。在很多公司恶狠狠地把职位的大门对你毫不留情地关上之前,估计你是不太可能找到一份称心的工作的。并且,求职可不是你准备一篇稿子,然后在每一次需要介绍自己的时候,千篇一律地讲出来。而是需要你每一次都针对不同的聊天对象修改对自己的介绍和描述。其中的精髓正和做数据科学如出一辙,你需要不断地在展示自己和研究如何展示自己之间反复循环。

最终,有人愿意试试聘用你了,但是当你刚刚找到工作的时候,迎面而来的问题就是:如何在走进公司以后尽快地让自己的事业走上快车道?我认为目前数据科学领域的一大优势就是它并没有过于清晰的职位技能需求,所以很大一部分拥有偏才的人其实都是适合这个领域的。人们会说:“啊,你当然可以成为一名数据科学家!也许你的编程功底不如软件工程师那么出色,但是你研究问题以及运用工具解决问题的能力是相当出色的。”

公司里根本没有人知道具体该使用什么工具来解决正在面对的问题,所以你必须去搞清楚,而这恰好给予了你足够的自由度。一本还没有开始动笔的书,才有可能成为一本精彩的著作。

您能不能给我们一些起步的建议,例如您一开始在那个市场上是怎么做的,以及您如何想办法弄清楚那个领域内的“新人必知”之类的知识?新人如何在其中展现出自己的价值?

你首先需要做的就是,证明你可以完成一些任务,然后证明你可以创造一些东西。

我曾经让我的每一个研究生都做如下的测试——当我自己曾经还是一个研究生的时候,我经常在我的公寓附近散步并且喃喃自语:“我想要成为一个数学家。当我说‘数学家’的时候,它对我来说意味着什么?什么是每一个数学家都应该知道的事情?”

当我还是研究生的时候,我就是这样做的,然而经过一段时间的思考,我却得到了各种不同的结论。天知道我该怎么办!根本没有人对于数学家有一个很明确的定义啊!但是我觉得,一定还是应该有一些基准吧,毕竟都是过来人(数学家),对于一些问题还是应该有一些共识的。在思考了一段时间之后,我大概总结出了3~4个针对这些问题的不同观点和结论。而这其中,我觉得最重要的结论,就是那种让你在一个糟糕的想法上最终遭受失败以后,还能有机会转行到其他领域的结论。

基于上述的想法,我开始上大量形形色色的推公式的课程以及一堆概率统计课,尽管后者其实并不是我的研究方向。我给学生上课,我也知道如何编程,我曾经学过很多物理学知识——总而言之,我做每一件事的目的,就是希望它能给我带来更广阔的眼界和出路。

很多学术界的人技能都过于单一,只专注于特定的问题和纬度。他们并没有证明他们有能力创造任何东西,只是在不断证明他们可以学会一些没人关心的东西(除了他们的导师以及他们实验室过往两届的学生们)。在我眼里,这是不对的。其实在那一段时间里,你可以同时搞定你的博士研究课题,并且学会其他的一些技能。你首先需要做的就是证明你可以完成一些任务,然后证明你可以创造一些东西。

比如说,除了在实验室的时间,你可以出去走走,多跟人交流,去参加一些课程充电,参加黑客马拉松活动,以及学习如何制作一些东西。正如我们绝对不会跟一个人说“你必须先学会做科研,然后再去学怎么跟人交流”一样。这些事情本应该是同时发生的,并且彼此相互协同促进。

所以我的论点就是,现在的科研人员完全不知道如何去创造一些东西。在你学会如何创造东西以后,你还需要学会如何讲故事,这样才能告诉大家你为什么想要做这个东西。

还有另一件学术界的人非常不擅长的事情。他们很喜欢滔滔不绝地说话,而不是静静地聆听你的需求,所以他们不太擅长倾听别人的问题在哪里。在学术界,你需要做的第一件事就是关上门,静静地坐在自己的桌子前。但是硅谷是没有门的!一旦走进企业界,你就好比走到了空旷的空地上一样。在第一次听到别人告诉他们“不,你必须要工作、合作、交流、沟通、竞争、辩论,而不是躲在门或者办公桌的背后”的时候,这些人往往都是一脸的震惊。

我觉得这正是学术界的不足之处:对这些方面的训练太少了。他们几乎没有机会参与团队合作,或者以小组的形式工作。

相反,现在的本科教育正在经历巨大的转变。如果我们比较一下过去几年和现在的大学里黑客马拉松、合作、小组项目一类的数量,我们就会发现转变的趋势。本科教育确实正在把学生训练成非常适合工作的一类群体。硕士生也有一些类似的机会,但是博士是几乎没有的。我觉得这种情况的原因主要是很多学者更愿意把学生训练成重复性的科研劳工,而不是设身处地为学生着想,让他们变得更适应社会,并且给他们选择自己人生路线的更多机会。

学术界的项目合作与业界的相比有哪些不同?

人们错就错在总是会忘记数据科学其实是一个团队游戏。人们可能会指着我、Hammerbacher以及Hillary或者Peter Norvig这样的人惊叫:天呐,快看,是他们!这是完全不对的,没有任何一个数据科学家可以为自己的成就独自邀功。数据科学是一个团队游戏,必然需要有些人去把数据收集到一起,有些人去转移这批数据,有些人来分析它们,有些人来把分析的结果和想法大声地告诉世界。人们错就错在总是会忘记数据科学其实是一个团队游戏。

如果没有Facebook核心团队其他成员的帮忙,Jeff绝对不可能做出他的毕生成就,而那个团队也是他协助创建的。我的工作依赖于其他非常非常多的人的帮助,这一点对于任何人都是相同的!因为做数据科学与搞科研其实是非常类似的。人们总是看到数据科学家独来独往地工作,这是完全错误的表述,更多的原因估计是现在媒体以及其他方面的错误解读。

您认为现在有没有可能存在一种趋势,就是有些人在数据科学领域工作了一些年,然后把这其中的技能转而用于其他的行业和领域,比如市政学、教育学或者健康领域?

我觉得这样的趋势正在开始,而且我希望这样的转变会发生。Datakind就是其中的一个例子,同样Social Good的数据科学方向也正是如此。而且这其中有一个让我非常揪心的公司叫Crisis Text Line。它是从DoSomething.org这个公司分出来的——他们做的事情是非常聪明地将自然语言文本技术用于避免自杀行为的电话干预,在公司的产品结果中,那些算法分析出的与自杀有关的文字看上去实在是非常令人心痛。

在从这些人的信息中分析出有关自杀原因的一些非常悲惨的语句的时候,他们马上就会被电话联通。现在社会很多年轻人很少通过声音来彼此沟通——打电话说话其实很困难,而发文字信息却容易很多。通过Crisis Text Line技术分析得到的往来于受困、需要帮助的人和那些愿意提供帮助的人之间的信息量巨大得惊人。

我们是如何做到的?这一切背后的原理是什么?该产品背后有一群非常聪明的数据科学家坐镇,他们一直致力于研究完善该系统,就因为产品的目的是帮助那些深陷泥潭的年轻人。现在,我们的身边有非常多的新兴科技,使得我们可以轻松地完成很多五六年前需要耗费巨资和重大科研设备才能实现的任务。今天,我们可以轻松地选择我们喜欢的工具做任何想做的事情。

这些人做的事情是非常了不起的。换言之,他们一直在节约我们所有人的时间。这个公司背后那一套复杂精巧的运行系统,完全可以与其他许多庞大知名而且资金充足的大机构相匹敌。他们能做到,就是因为他们确实是这方面的行家里手。他们能玩转这些技术,并且他们有足够聪明的大脑。正在有越来越多的人希望贡献自己的技术,加入他们的团队,去帮助他们把这件事情做得越来越好。我们并不觉得这仅仅是数据科学这一个领域的事情,而是一个非常开放普及的事业。这么多的技术专家甘愿投身于这个项目并帮助他们的原因,就是因为这件事情非常伟大而且有意义。

Jennifer Aaker最近刚刚在《纽约时报》上发表了一篇文章,主题是千禧年那一代人比起他们的祖辈,做事情有更强的目标性。他们以助人为快乐之本。我认为这个社会正在发生一些根本上的转变。主导我们这一代人的情结是同情,主导你们这一代人的情结是扶助。同情仅仅意味着去理解他人的痛苦,而扶助意味着真正地帮助别人走出困境,根本性地去解决问题。从数据科学的视角上来说,这样的细微转变就类似于,以往的数据科学只能以图像的形式向你展现出问题和数据,而现今的数据科学是通过鞭辟入里的分析得出结论,并告诉你可以采取什么行动。这绝对是质的飞跃。

对于开发一个简洁漂亮的产品来帮助减轻他人的痛苦来说,同情心确实是非常重要的。您平时在工作和产品开发中最看重的品质是什么?比如对于数据的解读能力?

我认为人们经常没有意识到的一个问题是:很多选择从事或者研究非常难的问题的人,本身已经拥有非常强的技术背景。

我用Electronics的Fry举一个例子。John Fry是Electronics公司的创始人,他同时也是一位数学家。他在Morgan山为一个数学学会建造了一座城堡。他对于数学的热情可见一斑。然后我们可以看看Netflix的Reed Hastings,他也是一位数学家。我的父亲以及他那个时代的很多老一辈硅谷精英,都曾经是计算机核心硬件方面的科学家。这样的例子数不胜数,我只是想说明,如果你去花力气了解每一个这样的地方,你都会找到很多难以想象的故事。

公司里有两样事情是非常吸引我的:第一个是你可以从头开始做一些东西,第二个就是我们的目的是开发一个实实在在的产品。为什么这两点很重要?因为如果你要创建一个公司,你必然需要产品,而如果你需要产品,你就必然要想办法把它们做出来。我指的就是在物理意义上把一个东西从无到有地创造出来。下面的问题就来了:你要怎么做这个产品?你可以依据自己的擅长和偏好,选择任何你喜欢的工具来做。另外,现在人们经常说的市场调查也是很重要的,你可以做一个详细的市场调查,找到现在市场上的不足和缺漏,然后把它作为目标。

有市场类的产品,意思就是你创造一些东西,然后把它们投放到让人们群情激昂的市场上,市场是自己会发生效应的。也有工程类的产品,它们会让人们惊讶——你会觉得它背后的工程技术是如此精巧、非常了不起,以至于根本没有人能理解它背后的运作机制,这样的产品就是这么出色而纯粹,这就是纯工程产品。也有设计类的产品,它们往往是非常漂亮的东西。当然,也有数据类的产品。

我最喜欢的人都需要理解两样东西,缺一不可。一个是用户体验(user experience),另一个是数据。为什么偏偏是这两样呢?很多人说他们只擅长其中的一样,我完全不认同这样的结论,因为解决数据问题的最好方法恰好就是用户体验。有时候,你可以通过简单而独具匠心的数据分析来聪明地解决一个用户体验上的难题。鉴于这个时代事物转变得如此快速,我们最应该培养自己的地方,就是让自己多元全能。

比如说,“你认识的人(People You May Know)”(LinkedIn公司的连接社交图谱的工具)就是使用数据解决了现实中的设计问题的一个经典案例。你加入那个网站,然后网站就会在你登录的时候自动给你推荐你可能认识的人。但是如果“你认识的人”的推荐结果太好了,可能会让人觉得毛骨悚然,尽管其实那只是基于一个叫作Triadic closing的算法计算出来的结果。人们会问“你是怎么知道我们之间的关系的?我们才刚刚见过面而已!”而回答这类问题的答案就是“你们俩都认识Jake”,这下就一目了然了。就是这样一个简单的设计,成功解决了一个数据问题。我的信条就是,你把两个简单的东西放在一起,它们可能会创造一个新的世界。

另一个问题就是:你如何让自己多元全才?你如何让别人也成为多面手,能够适应多种多样的工作和任务?我之所以这么问,是因为相比于从前,我们这个时代改变得越来越快。现在的东西淘汰的速度是非常惊人的。当我为eBay工作的时候,那是一个激情澎湃的地方,但是现在eBay已经在转型。雅虎曾经像猛犸象一般坚不可摧,但是现在也在每况愈下。我们已经见证了太多公司的兴衰起伏。

我见过太多的市值几十亿美元的公司起起落落。这是一个剧变迭起的年代。想想微软,十年前它是多么辉煌而不可一世?显而易见,它已经今非昔比了。

鉴于这个时代事物转变得如此快速,我们最应该培养自己的方向,就是让自己多元全能。我想我们也同样应该认识到,接触不同的事物能让人有多元的视角。正如现在的数据,这方面的人才太稀缺了。不过人们正在意识到这样的转变正在发生。现在这个时代,懂数据科学的人实在是优势太大了。

您曾经说过,在曾经希望成为一名数学家的时候,您尽力地让自己对于生活的选择权更多更大。那么作为一名数学科学家,您认为应该学习哪些技术来让拓宽自己的眼界以及让自己多元全能?

我认为数据科学给了我们一个得以接入不同行当的绝好入口。其性质就像是你坐在中间,周围的很多产业生意都围绕着你,但是你必然也需要花力气去研究这些不同的领域,去了解其他人在做什么,以及思考如何可以把你的所学用在这些领域。换言之,你永远在不停地努力学习,而不是躺在板凳上吃“铁饭碗”。所以你必然需要花很多时间去了解这些其他的领域,而这最终会给你带来变化。我经常告诉新入行加入公司的年轻数据科学家的一件事就是,他们最好是每天最早到公司但是最晚离开的人。

我认为现在很多人都无法清楚地看到数据科学这一项工作需要耗费多少力气。比如RelateIQ这个公司,我是公司产品部的一员(虽然他们说我是他们的头,但是我觉得这是一个团队事业,所以我更认同我和他们是平等的),我经常每周工作超过100个小时。如果我有更多时间,我会花更多的时间在里边。我认为人们很难意识到这背后需要花费多少时间去沟通交流。无论你有多资深,或者你技术有多好,你都需要花费这些时间去做这项事业。

你不要觉得我说的是现在社会上流行的那个10000小时理论(我根本就不相信那个,因为我觉得它完全就是错的,它默认大家的学习效率是线性的,而没有考虑也许可以通过并行学习来加速这个过程)。我的意思是你需要花费很多时间来学习很多相互独立、看似不相关的事情,并最终把它们拼凑在一起。就像是炖汤,炖一锅好汤的秘诀就是四个字——“历久弥香”。

我经常告诉新入行加入公司的年轻数据科学家的一件事就是,他们最好是每天最早到公司但是最晚离开的人。如果这意味着你每天只能睡4~5个小时,你只能去习惯它。这样的生活至少要持续6个月甚至于一年多。

这就是你如何加速你的学习曲线。一旦你入门了,你就可以到达与人交流的阶段。在这个阶段,你可能需要经常与人交流到凌晨两点。你会精疲力竭,和你沟通交流的人也同样疲惫不堪。你的所有情感防线都将会崩塌。而这个时候,就意味着你上道了。这其实就是为什么美国海军陆战队有着地狱一般的青训。他们在每一个士兵的起步阶段就把他们放在了地狱一般的生存环境中。因为如果在真枪实弹的时候才把未经世事的士兵投入战场,那就意味着让他们去送死。在上战场之前就让他们经历痛苦,可以迫使他们团结努力,让他们在未来的真枪实弹面前可以团结彼此依赖对方,然后齐心协力增加他们在真正的战火面前的生存概率。所以,在实战里面学习是不行的,必须要在上战场之前就学好。

这就是我对于全球所有尖端数据科学公司或者研究所中的人的看法。他们所有人都比我努力十倍以上,因为这是唯一的出路。他们就是这样一遍一遍不断地磨砺自己的能力的,这就是为什么他们如此优秀。

您认为是否有某些日复一日的习惯和坚持,让您最终成为一名如此优秀的数据科学家?你看孩子在绕着一条跑道疯跑,他的父母想要走了,孩子总是央求他的父母:“再让我跑一次!再让我跑一次!”但是你再看那些在敲打笔记本键盘的成年人,他们满脑子都是抱怨:“我还要再做这样的事情多少次?”

这么说吧,我从来不觉得我们人类是无所不知的。我也从来都觉得我们的数据还不够多。另外,我也觉得我们对于做得好的事情和做得不好的事情还没有足够清晰的认识。我说这些话的原因就是,针对你的问题,我们当然可以说肯定是有一些事情是增加了某个人事业的成功的可能性的。这不仅是在数据科学领域,在所有领域都是。这些品质就有很多了,从认真倾听他人,到做一个团队合作者,小到出门捡垃圾,再到认真陪孩子做每一个游戏,不浪费食物,以及做事情重视团队利益而不仅是自身利益。当然,还有一丝不苟地完成自己的任务,不辜负任何人和任何任务。

在做这些事情的时候,你要想象总是有一个客户在你面前(他其实可以是任何人,外在的,或者你自己想象的)。我认为,这就是让自己进步的绝好办法。除了上述的这些常规小事,我觉得还有一些很重要的素养应该强调一下——讲故事的能力和叙事能力。另外,永远不要丢掉内心里的激情和好奇心。

我觉得那些投身于科研领域的人是非常有激情的。是否记得你曾经听课时学到的一些东西引得你大叫“酷!这个脑洞开得太大了!”?是否记得你曾经在大学里说“该死!我怎么就没预见到这件事情呢?”的时候?为什么我们要丢掉那个时候的澎湃激情呢?

这是完全可以类比的。你看孩子在绕着一条跑道疯跑,他的父母想要走了,孩子总是央求他的父母“再让我跑一次!再让我跑一次!”但是你再看那些在敲打着笔记本键盘的成年人,他们满脑子都是抱怨:“我还要再做这样的事情多少次?”他们总是在数着分秒地盼着下班回家,而不会激动地说“这个东西太棒了!”

我觉得每一次人们从孩子长大成为我刚才说的后一种人的时候,他们内心的一些东西已经丢失掉了。你们一定要努力用那些曾经让你疯狂激动的东西重新填满你的生活和内心。再多交流一次,再多努力一次,再来一次。如果你能找到这样的感觉,那你已经相当不容易了。如果你的生活中围绕着你的人都是这样的鸡血满满,每天给你带来无止境的新信息、新故事,那么你已经非常幸运了。

所有的学习都是一样的吗?作为一名年轻的数据科学家,您能给比自己更博学的前辈长者们带来什么价值?

知识和智慧是不一样的。我认为这正是学术界长期在面对的一个经典问题。一个高中生可以比一个算法博士更好更快地写一个手机软件,这是因为那个高中生的知识恰好在手机软件领域。而智慧是另一件事:比如你在研究一个非常艰深的学术问题,经过经年的研究学习,2然后最后你宣布:“这个东西的算法复杂度是O(n)”。

我觉得我本人是非常幸运的,在初入eBay的时候,我恰巧在一个拥有非常多的智慧的小组。尽管我们小组所参与的项目在eBay这个公司里进展缓慢,但是我身边的人真的拥有非常多的智慧可以分享,所以当时我真的是小组里最傻的人,当然,我也有最轻最少的任务。但即便如此,我也为那个团队贡献了我自己的能量,因为我可以看到别人看不到的东西。所以在生活中,我们需要找到哪里有智慧存在而哪里没有。

另一个对我有重大影响的公司是LinkedIn,在那里我与公司一同经历了一段指数级增长的进步曲线。人们会说,“你仅仅在那个公司待了三年半而已”,但是恰好就是我在的那几年,LinkedIn公司的员工数从几百人激增到了几千人。在一个快速发展崛起的公司工作是很容易给你带来相当的智慧的,我觉得这就是所谓的“量变引起质变”。

现今的很多年轻人都在知识和智慧上遇到很多问题。他们经常会问自己:我是应该做那些我最感兴趣而且有非常强烈的激情的事情呢,还是做那些马上能给我带来进步的事情?我是应该加强特定方面的技术知识呢,还是应该更多地增加针对特定领域的宏观智慧?

这是一个不断重现江湖的难题。我个人算是曲线解决了这个问题:我永远去接纳我的那个地方去。我的意思就是:无论你去哪里,记得要跟最优秀的人在一起。

我是学徒文化的坚定拥趸。我是非常幸运的,因为我当时有机会与James Yorke一同共事,他提出了“混沌理论”。我经常和塞吉·布林的父亲在一起。我总是和很多非常出色的人在一起,而他们与我的交流对话是对我人生产生最重要影响力的东西。我真的觉得能和他们有过交集是我人生一大幸事。和Reid Hoffman、Jeff Weiner这样的人在一起绝对能让你变得优秀,并且你能从中学到很多智慧。

这就是我的答案。如果你要去跟一些在Google公司工作的顶尖人才共事,好极了!如果你要去跟教育系统中一些非常优秀的人才共事,好极了!只需要确保无论自己去哪里、做什么,都可以让自己获得尽量多的进步就行了。你的人生坐标最好时刻指向那个时候对你来说最好的方向。记住人生努力的方向是非常重要的。

您是如何面对风险的?您又是如何识人的?

每一个人都需要写就自己的人生。我唯一确定的事情就是,作为一个个体,你一定要不断地问自己问题,然后通过问问题和解答问题,你才能慢慢勾勒出最适合自己的故事轮廓。如果你的人生故事写错了,那你就有责任自己把故事写回来。一句话,如果你不喜欢自己正在做的事情,那就想办法改变它。如果你的人生故事写错了,那你就有责任自己把故事写回来。一句话,如果你不喜欢自己正在做的事情,那就想办法改变它。

这一切也许不容易,看起来不体面,会给你带来很多痛苦,但事实是,在你年轻的时候做这样剧烈的转变是可以接受的,这总比你老了以后重头再来要好得多。我现在已经无法完成我曾经完成过的成就中的哪怕一半了,而且我真的很嫉妒那些年轻力强的人。但这就是生活,在你有了家庭责任或者开始养育下一代的时候,你就无法再像从前那样无所不能了。你的父母们在一个小城里度过了他们人生绝大部分的时光,抑或一些顶级高校的教授也一样,他们几乎不需要考虑这些事情,也无须思索这背后的风险和艰辛。

这就是你可以发力的地方。这也是单打独斗和团队合作之间的区别所在。生活中你并不总是可以做自己想要做的事情。这也是我并不那么非常精于技术的原因,至少相比于Monica Rogati和Peter Skomoroch这两位LinkedIn的杰出数据科学家和工程师来说我的技术不那么厉害。那么我大部分的时间用来做什么了呢?想办法和他们竞争?去堵死他们的路?然后也和他们一样花大量的时间去调试程序写代码吗?

我做的事情,其实也是我所在的职位对我这项工作的要求,就是帮助别人移除他们前进道路上的障碍。我的工作就是开辟一条康庄大道,然后让别人在上边顺利快捷地完成工作。而他们做得确实非常好。

您曾经谈到过,您视自己的研究工作为一项回馈大众的行为。那么现今这个社会,有没有一些您觉得可以通过数据科学家的杰出才华来实现进步和提升的领域?做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。

我觉得我们可以从组成社会的每一个小的元素着手分析这个问题。Crisis Text Line所在的领域就是其中至关重要的一个,这也是我为什么在它身上投入了这么多的精力和时间。当然还有其他的很多方面:国家安全、基础教育、政府、为美国编程项目(Code for America)。我环视我们当今的环境,想要去理解气候,想要了解很多很多的东西。我真的很希望我们可以攻克那些难题。

通过传统的方法,想要找到一条合适的切入这些难题的路径并不是一件容易的事情,因为如果选择的方向不慎,机遇的大门就可能关闭。但是数据很有魅力的一点就是,通过它,我们可以有很多种打开一个问题大门的方式。我醉心于研究气候就是因为那个领域有数据。我对自己说:“我能做到!”最终,我可以说,我成为数据科学家的起点,就是下载了那一批疯狂的数据,然后在我的公寓里开始着手分析他们。那一批数据让我有可能成为气象领域的专家,并不仅仅是因为我花费了很多年在其中做研究,而是因为我从心底喜欢它,是这样的动力和激情促使我得以纵情其中很多年。

从重拾好奇心到探索数据,再到拓展更多的领域,您的生活看似是一个不断最大化您的生活的可能性,也不断探索各种领域和机会的过程。那么未来您将会选择往哪个方面发力呢?

前往那些门槛和阻碍比较低的方向。其实我并不喜欢挑硬骨头啃。我的博士生导师给我上过很重要的一课——他说做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。

所以,诀窍就是从简单的事情做起?

从简单的事起步就好。我是学徒文化的坚定拥趸。 第2章在成为成功的数据科学家之际

Fast Forward Labs创始人Hillary Mason

Hillary是机器智能研究公司Fast Forward Labs 的创始人,同时也是Accel公司的全职数据科学家。在此之前,她曾是Bitly公司首席科学家,她在那里领导着一个专注于研究因特网实时动向的团队,从事研究、探索和软件工程的复合型工作。她也是HackNY和DataGotham的联合创始人,同时是NYCResistor成员。

作为一名全职的数据科学家,您的工作具体有哪些?

我的日常工作主要有3个方面。首先,我时常与合作伙伴们一同探讨有趣的技术以及公司。其次,我与那些Accel注资管理的公司合作,在他们遇到有趣的或者具有挑战性的数据问题的时候提供帮助。最后,我帮助Accel公司理清头绪,分析出未来的下一代数据公司应该是什么样的。

现在风险投资公司开始聘用全职数据科学家了,您觉得这种趋势会越来越流行吗?

在我们当下的这个时代,只有极少数的人有过花费多年时间来帮助公司建立数据科学团队或者帮助公司打造数据产品的经历。所以对于公司来说,能有从事这方面工作达数年时间的专家加入并着手做这件事情,本身就已经非常有价值了。

我并不觉得招聘数据科学家在未来会和现在一样困难。因为现在数据科学是一个全新的东西——只有很少的人有过这方面的长期经验。因此对于风投公司来说,得到一位能时时刻刻协助它的多家下属公司、解决各种数据问题的数据科学家是多有裨益的。就当下而言,数据科学专家不容易找到,但也并不是完全不可能。我觉得在未来几年,越来越多的人会给予这类专家更高的待遇和重视。

您能向我们读者介绍一下纽约的数据社区吗?

纽约不是一个科技城市。这个城市的金融、出版、媒体、流行、美食以及其他一些行业更为著名。这是一个无所不有的城市,所以我们在城市的每一个角落都可以看到数据。在纽约从事数据科学的人,几乎遍布你能想象到的所有行业领域。这正是这座城市的魅力所在。

你会看到公务员们在市长办公室使用数据来谈论他们的工作,科学家们在用数据展示、讨论他们的科研成果,健康领域的人在使用数据治疗癌症,甚至于媒体界也在使用数据分析新闻。你会看到无论是初创公司还是大型企业,他们都在热情洋溢地坐在一起讨论他们是如何运用数据的。

DataGotham是我们致力于让更多这样的数据分析需求得到人们重视而所做的一次尝试。我们开始这个项目的宗旨就是:“无论你从事什么行业,如果你关心数据,就来我们这里,与其他志同道合的人一起探讨。”我认为这个项目非常成功。纽约的数据社区就是在这样的灵感中诞生的。

您认为数据科学未来会在其他方面有哪些改变?在您的设想中,未来5年数据科学领域会变成什么样子?

5年是非常长的一段时间了。如果你回看5年以前,数据科学在那时甚至还不存在,而即使是在当下,它也尚在一个茁壮成长的萌芽过程中。未来5年,很多事情都会发生转变。我不能具体地说出未来5年会发生什么,但是可以做一些猜测与展望。

首先的一个变化就是,当下这种野蛮生长、孤立无援的局面将不复存在。我认识很多出色的数据科学家,他们供职于计算机科学、物理学、数学、统计学、经济学、心理学、政治科学、新闻业等各种行业。他们正在兴致盎然地转向数据科学,而他们中的许多人其实都没有学术背景。这样的转变正在发生着——今天,你甚至可以直接在硕士阶段选择数据科学专业。

也许在未来,越来越多来自不同领域背景的新鲜血液进入这个领域之后,他们之间的交流合作会让数据科学的轮廓框架日渐清晰,让我们自身也对于它有更为深入的了解,并且迸发出更多的创意和点子。而这可能会是一把“双刃剑”。我们在城市的每一个角落都可以看到数据。在纽约从事数据科学的人,几乎遍布你能想象到的所有行业领域。这正是这座城市的魅力所在。

第二个变化就是,这么说吧,假如未来5年,我依然在写Java代码的话,我很可能要遇到难以逾越的瓶颈!我们的工具一定会变得比现在好用很多的,这样的情况同样也已经在发生了。这简直不能被称为“猜想”了,因为我知道在数据科学领域,这样的革命正在进行。

5年以前,大部分数据公司都着力于创造基础设施,例如研发各种不同类型的数据库。他们致力于开发的工具大多是用于管理时间序列数据的。但是现在,这个领域的基础设施已经非常成熟了,我们现在看到公司正在想办法让这些原本笨拙复杂的数据设备变得简单易用。所以现在你可以看着一个个漂亮的仪表盘,在大屏幕上输入你的查询语句,然后你的命令就会转向后台,自动进行map-reduce运算,而不再需要像以前一样,一边抱怨,一边花费40小时去绞尽脑汁地编写并行运算算法。我认为工具的简单易用就是一种趋势,未来会越来越常见。

文化同样也是一个将会发生显著变化的方面。我认为数据文化(data culture)将会越来越流行,即使对于并不从事数据科学的人来说也一样。这意味着在许多公司里,你将会看到很多人的头衔并不是“数据科学家”,但是他们也做着差不多的事情。在他们需要统计数据库里的一些数据的时候,他们再也不需要寻求统计学家的帮助——他们自己也可以搞定。我对此是非常期待的。我始终坚信数据可以赋予人们做出更好的决策的能力,所以越多的人参与这项事业,对这个领域的发展必然越好。

如果在未来,几乎每一个公司里都有这样有数据意识的人,您觉得数据科学家的角色会发生什么变化吗?

数据科学家会不断地询问问题。在任何时候,问对问题都很不容易,例如你在面对一个复杂的商业难题时该怎么入手?有哪些问题需要解决?这些都很不容易看出来。另外,如何解读数据分析的结果也是一个难题。数据科学家可能会成为像教练一样的人,在他们的领域内,针对他们一直以来致力解决的问题,他们慢慢会成为那方面的权威专家。

数据科学家以及数据团队能做的事情众多,远远不止上述的商业智能领域。他们可以做算法工程,创造新颖的产品,收集数据集,为产品寻找以及打开潜在的市场与生意。所以我从来不觉得数据科学家们会像明日黄花一般日暮西沉。

在谈论数据科学的时候,您特意强调了沟通能力和讲故事的能力,您可以更多地介绍一下吗?

一名数据科学家就是脑子里想着问题、静静地坐在计算机前的人,然后他会开始收集数据,用数据去解决问题、回答问题。抑或他是一个一开始拥有一批数据的人,然后他开始针对这批数据问出问题,并且尝试去深入理解它。他会做一些数学推导、写一些代码、做一些分析,然后最终得到一些结论,再然后呢?

他需要把从数据中分析得到的东西告诉别人,让更多并没有参与这个研究过程的人也知道结论是什么。创造一个有信服力并且精彩的故事,同时要保证故事尊重数据事实,这可不是容易的事情。这一项技能在众多技术行业里都被忽视了。但事实就是,如果你不仅能做出一些东西,还能很好地解释它们,这会让你异常出彩。但是,我不认为这是一件容易的事。

为什么它不容易?为什么用简练的语言解释一些东西是非常困难的?

之所以难,是因为它需要同理心。你当然必须要理解那些非常复杂以及学术性的技术,但同时你需要对一些完全没有技术背景的人讲解这一切。你必须要清楚他们是怎么想的,这样你才能用他们能够理解的语言来讲述这一切。同时,你必须要考虑到,你的听众只有很短的一段时间能集中精力,他们很快就会变得不耐烦,并且他们绝对不会花费大量的时间去学习这些知识或者技术。我始终坚信数据可以赋予人们做出更好的决策的能力,所以越多的人参与这项事业,对这个领域的发展必然越好。

所以你必须要想办法用你的语言,或者可视化的工具方法,来让你的听众理解你所做的东西,这样才不枉你花费大量的时间去建立复杂的模型。当你这样去看这个问题时,就会觉得能够在自身了解清楚各种复杂技术的情况下,用精练准确的笔触把这一切写下来,然后与其他人进行沟通,分享数据分析背后的知识和兴趣,这是一件多么让人激动的事情。

当你像这样去思考这个问题的时候,就会发现“讲故事”确实是非常困难的技能,就像是艺术一样。你需要努力将旷日持久的学习经验和复杂工作,以人们可以理解的一种方式娓娓道来。

您之前说过,一些初创公司拥有非常好的数据科学工作机会。基于您曾经在Bitly和咨询初创公司的工作经历,您能不能更多地解释一下?

我不得不说,我在最好的数据科学工作机会这个问题上是有一些个人偏好的。最好的数据科学工作机会,就是那种你有足够的自由度去收集数据的工作机会。而你收集来的数据经常是你一直在努力创造的一个产品的“副产品”。

Bitly就是一个这样的例子——更短的URL可以让你的公司网站更快、更容易地在互联网上传播复制。针对人们在互联网和社交网站上倾向于点击什么网址、分享什么网址,人们收集了一批非常好的数据。但是仅此而已,从来没有人真正从头开始、踏踏实实地做一个专门用于缩短网址的产品,然后用它来进行分析:卡戴珊(Kardashian)在采用了“Kim” 的缩写名之后,有没有变得更受欢迎。Bitly的创始人John Borthwick称这样的“副作用”为“数据尾气”,这实在是一个非常可爱的名字。

换言之,如果你是学术界的人,你可能没有机会拥有一个可以不断为你产生数据的产品。这导致在你开始做想做的事情之前,必须要做一些额外的工作(来产出数据)。你需要想办法自己产出数据,或者去大公司乞求他们施舍你一些数据。这一切都是非常不容易的,因为绝大多数公司根本不愿意分享数据。实际上,他们对于数据都有非常强的独家占有意识。所以,作为一名科研工作者,你可能会觉得自己在这个问题上进退两难,除非你可以与公司里那些家伙把关系搞得非常好。

如果你供职于一家大企业,你想要的数据可能已经深埋在公司那堆成山的、无法运转的数据库里了。或者你需要动用层层叠叠的批准文件,才能获得你想要的数据。

如果你所在的初创公司拥有一个可以产出数据的产品,那么这绝对是最完美的地方了。作为一名数据科学家,你有能力去修改产品的

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载