计算广告:互联网商业变现的市场与技术(第2版)(精装版)(txt+pdf+epub+mobi电子书下载)


发布时间:2021-02-25 19:03:22

点击下载

作者:刘鹏 王超

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

计算广告:互联网商业变现的市场与技术(第2版)(精装版)

计算广告:互联网商业变现的市场与技术(第2版)(精装版)试读:

版权信息

书名:计算广告 互联网商业变现的市场与技术(第2版)(全彩精装版)

ISBN:978-7-115-52431-7

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。版       权

著    刘 鹏  王 超

责任编辑 杨海玲

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315内容提要

计算广告是一项新兴的研究课题,它涉及大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学等诸多领域的知识。本书从实践出发,系统地介绍计算广告的产品、问题、系统和算法,并且从工业界的视角对这一领域进行具体技术的深入剖析。

本书立足于广告市场的根本问题,从计算广告各个阶段所遇到的市场挑战出发,以广告系统业务形态的需求和变化为主线,依次介绍合约广告系统、竞价广告系统、程序化交易市场等重要课题,并对计算广告涉及的关键技术和算法做深入的探讨,还加入了深度学习的基础方法论及其在计算广告中的应用。

无论是互联网公司商业化部门的产品技术人员,还是对个性化系统、大数据变现或交易有兴趣的产品技术人员,传统企业互联网化进程的决策者,传统广告业务的从业者,互联网创业者,计算机相关专业研究生,都会从阅读本书中受益匪浅。对第1版的赞誉

以下点评分领域以点评人的姓氏笔画为序排列。来自互联网公司管理层

在线广告市场是比较复杂的体系,它涵盖了互联网生态链的各种角色。本书既从商业角度介绍了在线广告,也深入到了广告的技术和算法层面,还涉及了大规模竞价市场在市场设计方面的相关原理和优化手段。这本书不仅是了解在线广告市场的途径,也是了解互联网商业和盈利模式设计的窗口,对于互联网产品设计也有很好的参考作用。—— 王华,前阿里巴巴副总裁,阿里妈妈负责人

这是一本非常系统、全面地介绍计算广告的书,一本在线广告专业人员必读的书,一本值得强烈推荐给想利用互联网力量的企业主和决策制定者以及对大数据价值感兴趣的研究人员和工程师的书。虽然我亦曾目睹广告业在20 世纪90 年代开始的革命,一直积极参与在线广告的演变,但阅读完这本书,我对计算广告整个图景以及很多细微之处有了更多更深刻的理解。—— 毛建昌,微软Distinguished Engineer 和Bing 广告工程负责人,前雅虎实验室广告科学副总裁

十多年的实践证明,互联网最有效的商业模式莫过于可以把流量直接变现的在线广告模式。从最初铺天盖地的横幅广告起步,到人群及兴趣精准定向的搜索广告与推荐引擎,再到与内容环境融为一体的原生广告,用户需求与口味的不断变迁促使广告产品与技术持续不断地升级与发酵。本书最大的亮点在于,作者从中国互联网广告发展全过程亲历者的视角,极为系统地讲述了计算广告的产品设计思维与技术理论基础,涵盖从广告呈现到计价策略乃至算法实现并直接运用于互联网流量变现课题的方方面面。无论是产品经理还是工程师,只要准备投身于这一互联网最大的金矿领域,本书就是手边必须常备的工具书与教材。—— 刘子正,有信CEO,微博研发副总经理

本书内容全面且与时俱进,对核心技术的介绍深入浅出,是计算广告领域一本难得的好书。本书视野宽阔,涵盖了在线广告市场及核心技术的各个方面,除主流技术以外,对其他著作很少涉及的方面,如广告创意优化、反欺诈、隐私保护等也进行了介绍。本书内容新颖,把近年来涌现的一些新的广告形式和技术,如实时竞价的广告交易、原生广告等,都囊括其中。另外,本书行文流畅、逻辑清晰,对核心技术的介绍深入到位,包含了重要的算法细节以及理论探讨,对计算广告的从业者而言,是一本非常实用的参考书。—— 刘铁岩,微软亚洲研究院首席研究员

刘鹏博士是我以前在微软工作时的同事,他博学睿智,融会文理,给我留下深刻印象。他将多年积累的相关经验与成果整理成一部正式出版的计算广告著作,值得向大家强烈推荐。本书将该领域的实际商业问题与技术解决方案结合起来,让读者对计算广告的理论与实践、应用与技术、系统与方法有全面深入的了解和认知。对于已经掌握了机器学习、数据挖掘技术想进入计算广告及其相关领域的从业者、技术人员、教师和学生,这是一部实用的指南。—— 李航,字节跳动人工智能实验室总监,前华为诺亚方舟实验室主任

我们的团队花了大量精力查找相关资料和文献,却一直苦于没有一套相对完整的知识体系来帮助我们的业务和技术人员加快学习、少走弯路。因此,我期待这样一本书的出现至少已经有两三年的时间。作为一个方兴未艾而发展迅猛的新兴产业,我相信刘鹏的这套科学且实际的知识体系,将对数字营销领域的同仁有非常大的指导作用。程序化营销、大数据应用是发展异常迅猛的产业,涉及大量的产品、工程以及算法方面的知识,也涉及相当多的商业逻辑的深刻洞察。而刘鹏通过对产业内在逻辑的诠释和推演,阐述了程序化营销产业的发展,对真正把握大数据给各个产业带来的深刻变化和影响,具有深刻的指导意义。—— 杨炯纬,360高级副总裁

如果说当年雅虎广告首席科学家Andrei Broder 在斯坦福开设的课程第一次把计算广告学作为一门学科,那么本书堪称这门新兴学科的标准教科书,因为它是首次全面系统地阐述计算广告学的著作,覆盖了商业逻辑、产品结构、关键技术、工程实践和应用实例。在内容结构编排上,本书由浅入深地讲述了从宏观背景到技术细节、从经典的搜索广告到最新的实时竞价等诸多内容,既适合作为从事在线广告的商务运营人员的参考书,也适合作为一线技术开发人员的实战指导。—— 余凯,地平线公司创始人,前百度深度学习实验室主任

互联网业内人士都清楚流量的作用,流量之于互联网,正如血液之于人体。不同之处在于,互联网上的流量是趋利的,变现能力决定了流量的方向和价值。计算广告是流量变现最重要的方式之一。只有了解了互联网广告的精髓,才能真正懂得互联网上流量的奥秘,也才能懂得互联网的奥秘。本书作者对互联网广告的市场、产品和技术做了全面、深刻的剖析,为业内外人士理解并踏入这个领域提供了一条捷径。尽管本人从事互联网广告研发多年,也是第一次读到如此系统的著作,受益匪浅!—— 沈抖,百度高级副总裁

计算广告近年来特别热,全球大小互联网公司有大量的算法工程师、系统工程师、数据科学家在从事与此相关的工作。正如刘鹏在书中指出的,流量变现和数据变现是很多互联网公司商业模型的核心。虽然学术界和工业界有大量与计算广告相关的文章,但或侧重于算法,或侧重于系统,抑或侧重于商业逻辑,却很少能像本书一样把这几个维度融会贯通地串在一起,既有连贯性、有广度,又有足够的深度。刘鹏过去几年中花了大量的精力在清华大学、北京大学以及一些在线教育平台分享他对计算广告的深刻理解,影响了不少人,我过去和现在的团队都有他的粉丝、他的学生。现在刘鹏又把他对计算广告的深刻理解集结成书,能影响到更多的人。为刘鹏点赞!—— 张小沛,瓜子二手车CTO,前宜信CTO,前Hulu 全球副总裁

在互联网深入改造传统行业的进程中,所谓“羊毛出在猪身上” 的后向变现商业策略至关重要。市场上并不缺少关于这一策略的推崇和讨论,不过本书从实战的角度出发,对其中关键的商业逻辑和产品结构做了全面的梳理,而这些对于商业化战略的落地至关重要。因此,我推荐所有正处在互联网化变革的行业的从业者阅读本书,相信你们结合自身的知识背景和行业问题,一定可以从本书中找到有指导意义的内容。—— 陈彤,一点资讯总裁,前小米副总裁

计算广告学纷繁复杂,刘鹏以科学的实践家的态度抽丝剥茧,全面、系统地阐述了其技术架构与产品生态,为入门者普及了概念,为从业者开阔了眼界。—— 罗征,腾讯广点通总经理

很高兴看到刘鹏博士把自己在互联网广告领域的多年经验和智慧整理成书,其中既有他对商业产品的理解,也有算法和工程实现的总结。本书不仅全面梳理了互联网广告产品形态,针对每个产品描述了相应的核心算法和系统实现,而且全面描述了以媒体和广告主为核心的生态圈,以及技术如何一步步促使生态圈演化,不断创造出更大的商业价值。对互联网广告从业者来说,读后一定获益良多。—— 贾志峰,汽车之家技术副总裁

互联网广告在近十余年里一直保持着爆炸式的发展,支撑着谷歌、脸书、阿里、百度等数个百亿、千亿级互联网公司。或许其发展过于迅猛,或许其涉及领域过于宽泛,以至于近几年来一直没有一本优秀的书能够系统、全面地对互联网广告加以介绍。本书作者把这件早就应该有人去做的事情漂亮地完成了。从业务模式到技术架构,从算法模型到工程实现,从理论基础到实现细节,从历史背景到最新动态,本书都做了翔实、系统的讲解。相信对于每一位置身于互联网广告业的朋友,不论其在这纷繁复杂的行业里承担什么样的角色,本书都值得一读。—— 顾大伟,小米广告负责人

这本书中所介绍的技术环节,除了广泛应用在互联网广告领域,在搜索和推荐领域也有很多相通之处。本书作者将这些关键技术抽象出来整理成书,对互联网行业的初学者有很大帮助。此外,书中提及的前沿技术方向对从业人员也具有一定的参考价值。—— 黄荣升,百度主任架构师来自互联网创业者

如果你正从事互联网广告相关的工作或正准备进入互联网广告行业,本书应该是你的职业生涯中必不可少的读物之一。作者不仅立足中国而且放眼世界,以其更深、更广的视角向读者展示了当今互联网行业的市场与技术。本书让中国互联网从业者(包括产品技术人员)在享受互联网大数据带来乐趣的同时,还能通过书中介绍的中西市场案例开拓创新思维。本书为推动中国互联网发展做出了自己的贡献。—— 闫曌,AdMaster 创始人、CEO

今天,大数据浪潮正在席卷全球。数字技术正在改变我们的生活方式,同样也在驱动着商业、营销和广告业的未来发展。营销不再只是关于策略、创意和想法的,更与技术的发展紧紧地捆绑在一起。进入2015 年后,我们看到全行业正在迎接大数据的风口,从数据的沉积分析和管理到数据的真正打通,这是一场时代的演进。刘鹏博士的这本书正是这个变革时代营销技术变化的实录,他对最新数字广告技术方方面面的精到剖析,不仅是对广告知识体系的实时更新,更是对未来新的数字营销体系架构的有益探索。希望今天我们勇于探索和开拓的也正是未来被写进历史的故事。—— 吴明辉,秒针系统创始人、董事长兼CEO

随着互联网的高速增长,广告开始往精细化发展,如何在有限的资源里获得最大化的广告综合收益是一个非常复杂、重要且有趣的问题,这也是计算广告研究的方向。刘鹏作为这个方向的专家,在本书中从计算广告问题的提出开始,介绍了计算广告的产品形态以及关键技术。本书非常适合互联网广告的从业者系统性地了解计算广告领域。—— 周霖,搜易贷联合创始人,前搜狐高级副总裁

本书逻辑清晰,非常贴近实战,值得网络广告从业人员仔细阅读与思考。无论是媒体、广告代理还是广告主,谁能更好地获取数据、理解数据、应用数据,谁就能在日益激烈的市场竞争中脱颖而出。—— 赵士路,WiseMedia 创始人、CEO

互联网和移动互联网广告生态圈正在发生翻天覆地的变化,广告形式、产品形态、市场格局及产业链模式不断推陈出新,让人目不暇接。同时,基于营销大数据的计算广告技术也日益成熟。刘鹏博士的这本书将两者有机结合起来,既能帮助从业人员了解互联网广告全貌及流量变现的现状,也能帮助技术人员掌握计算广告的核心技术,是一本兼顾商业产品逻辑和技术实践的难得一见的作品。—— 唐健,爱点击CEO

互联网广告是一个千亿元级的市场。如果把互联网比作一辆车的话,互联网广告就是“汽油”,因为大多数网站都要依靠广告盈利。刘鹏博士的这本书涉及大量的基础知识、概念和商业模式,是目前此领域比较全面的一本广告技术著作。书的内容深入浅出,讲述了搜索广告、广告交易平台、广告基本算法以及开源系统等重要概念,也介绍了不少相关广告技术公司以及他们在互联网广告这个产业链上的各种典型产品,非常适合从业人员以及有兴趣进入这一阳光产业的人学习。—— 唐朝晖,艾德思奇创始人、CEO

过去5 年是移动互联网发展最快的时期,开发者创造出如此多的应用和内容,用户行为习惯和数据积累发生惊人变化。在此过程中,在线广告作为最主要的变现形式,逐渐成为广大从业人员必须掌握的知识和技术。然而,由于此领域学习门槛较高,对很多从业人员来说迷雾重重。大部分相关文章只是对与广告相关的一些术语进行了罗列或介绍,无法让读者“知其然且知其所以然”。本书的出版将弥补这一空白,它系统性地介绍了在线广告的发展历史和逻辑,以及流行的程序化购买的关键技术与算法。更为可贵的是,刘鹏在本书中融入了自己对计算广告领域的理解和多年积累下来的宝贵经验,使整本书的思路和编排极为流畅。本书既适合想了解此领域的初学者或业务人员泛读,也适合专家以及产品人员对特定的知识点进行精读。本书将成为广大互联网从业人员理想读物,特此重点推荐给大家。—— 崔晓波,TalkingData 创始人、CEO来自媒体与行业专家

本质上讲,互联网经济与广告经济都属于信息经济的具体技术形态或产业形态,核心要素是数据,经济学特征则是“所有能够传播信息的商品,其售价都会趋向其边际成本”。因此,确定数据商业化与广告产品化之间转换的逻辑、方法和路径极为重要,计算广告恰恰是这样一种经过多年实践的有效体系。刘鹏先生所著的这本书对相关的技术、创新与商业做了极好的刻画、梳理与论述。—— 马旗戟,原尼尔森高级副总裁

我有两个身份,既是从20 世纪开始工作的广告主,又是大学老师,但面对的却是一样的问题和困惑。营销方法尤其是广告形式推陈出新,新技术层出不穷,受限于我自身的学问背景,不可能全部都了解,所以有拜读本书内容的机会我特别欣喜,终于有一本由业内专家执笔且技术含量特别高、非常实用的书了!广告主可以从中了解不同的展现方式,利用书中的广告主在线营销决策过程择善而为。媒体也可以凭借类似的广告变现决策,揭示未来的发展方向。专业人员可以进一步了解背后的技术,找出最有针对性的广告投放方式,提升推广成果。因此,我非常推崇本书的实用价值及参考价值。

—杨仕名,香港大学SPACE 中国商业学院副总监,营销与传媒管理中心主任

广告带来的后向变现是互联网经济中核心的变现模式之一,也是互联网商业模式的重要根基,而本书对这一领域做了一次全面的总结。我们希望互联网企业、广告服务和技术公司以及艾瑞这样的数据服务公司,以本书的出版为契机,认真探讨互联网商业模式上的分工协作,推动行业的变革与发展。—— 杨伟庆,艾瑞咨询总裁

世界上有一种沟通是付费的,这就是广告的本质。然而,近几年互联网改变了整个广告生态的格局,目前世界上最叱咤风云的互联网公司几乎都依赖广告。刘鹏博士的这本书系统性地介绍了这种深层次的变化,以及整个产业链迸发出的各种技术手段与学问。本书由浅入深,系统地介绍了几乎每个互联网广告的生态位置以及其背后运作的机理,是我目前见过国内最系统的计算广告方面的著作。本书对互联网、媒体、广告公司、市场营销人士,甚至消费者,都是一本了解互联网广告的佳作。—— 张迪,Adexchanger.cn 创始人

有了互联网才有了计算广告学:计算广告学把传统的无法定向投放和无法度量的广告变得可以定向投放和可以量化度量效果。刘鹏博士在工作之余,把计算广告学的系统性知识和多年实战经验总结成书,对从事计算广告的工程师和想了解计算广告的工程师都非常有帮助。—— 张栋,前谷歌研究员

本书于我而言,是打开了一扇窗,让我看见了在巨大的互联网广告产业后面蕴含的数学模型和算法基础。计算广告学中蕴含的各种方法让我想到了管理方法论中很著名的一句话:“If you can’t measure it, you can’t manage it!”(不能量化,就无法管理。)量化的方法使计算广告学成为计算机科学与工程的一个崭新和重要的方向。非常感谢作者的知识分享。—— 陈怀临,弯曲评论创始人

对计算广告技术和商务人才的需求近两年迅速高涨,但计算广告是一个新兴交叉学科,一直缺乏全面系统的著作。本书全面介绍了这一领域的商业背景知识、业务需求和详细的技术实现思路。本书一个重要特色是将该领域的商业挑战与技术的选择、应用、实现进行了融汇中西的系统化介绍,让不同知识背景的读者都能从中获得认识提升。此外,本书对于整个计算广告技术知识体系的梳理全面、准确,囊括了从业人士和学术研究需要关注和了解的主要知识点,已有一定基础和实践经验的读者也能从中温故知新和查遗补缺。本书的出版对于促进中国相关行业人才池的增长大有裨益。—— 范秋华,RTBChina 创始人

互联互通正领跑,眼球经济网民包。创收多多靠广告,变现书籍好难找。计算广告学走俏,廿年蔚然成林悄。理论实践兼顾到,刘鹏此书及时抛。入门登堂先介绍,市场规模大蛋糕。产品技术两面刀,块块切尝大与小。搜索推广竞价搞,合约展现包推销。程序交易争分秒,移动平台憋新招。信息流起人社交,原生广告置混淆。探索利用平衡高,点击建模测验校。背景逻辑打夯牢,核心技术窥其奥。照葫芦可画出瓢,立竿见影编码跑。十载面壁勤思考,刘鹏功成发大招。油翁多年练广告,情不自禁拇指挑!—— 洪涛,打油诗人,前百度高级科学家第1版序一

2009年11月,我在香港参加CIKM’09,听Andrei Broder 等几位学者讲了一个导学课—Introduction to Computational Advertising(计算广告导论),耳目一新,觉得在我们的大学中应该有这样一门课。回来后了解了一下周围青年教师的情况,没有发现能够开这种课的人。后来,好像首先是在微博上,知道了刘鹏是这方面的专家。一联系,果然如此。与其探讨在北大开一次这种课的可能性,他欣然应允。时间定在2013 年夏天,我安排实验室的青年教师彭波做助教,目的之一,就是希望通过助教工作学会计算广告这一套知识,然后独立在北大开出课来。刘鹏的课进行得很顺利,彭波每次都参加,我也去听过一次。2014 年秋,彭波勇敢地开出课来了。课程结束后我问他感觉怎么样,他说内容太多,把握得还不好,而且没有教材,对老师学生都是个困难。

其实,最初我请刘鹏来上课的时候就谈到过教材的问题。他答应考虑,但因为他在公司里的工作很忙,所以需要比较长的时间。但他没有忘记!两年多过去了,一天他给我发邮件说书稿完成了,希望我能为他的书写个序,令我十分欣喜。

这本书不厚,但比较全面地覆盖了基于互联网服务的广告的市场背景、产品逻辑与关键技术,给出了一个宽阔的视野。作者基于多年的从业经验,从市场行为出发演绎对产品与技术的需求,而不是就技术讲技术,提高了本书的立意,因而也适合更广泛的读者群,包括计算机相关专业的研究生。应该说,这本书的风格不同于通常的教材,如果直接用于教学,对教师的要求会比较高,但不失为一本优秀的教学参考书。尤其是在其内容铺陈中展现出来的数据加工、利用与交易的思维主线,能让计算机专业的学生看到活生生的技术需求。而在互联网广告的背景下对数据的充分强调,让读者对大数据的意义有了一种更具体的体会。

国内一些大学中的计算机专业教育(尤其是高年级和研究生的)现在困难和问题还比较多。比较明显的一点就是,教学内容的时代感不够强。这一点在广度和深度上都有反应。跟不上业界的发展,一些重要的课程不能及时有效地开,我认为“计算广告”就是其中之一。这种情况和蓬勃发展的信息技术和产业是不相适应的。因此,我们欢迎业界中对技术和产业有比较透彻理解且对教育有情怀的专家参与到大学教学活动中来,让我们的学生学到更多的真本事,适应产业发展的需要。刘鹏2013 年在北大首开“计算广告”课程就是这样一种表率,他这本书的面世也是这个意义上的一种奉献,当予祝贺。李晓明北京大学计算机系教授第1版序二

所有互联网公司都对广告变现的地位和价值并不陌生。在每一个用户产品成长的各个阶段,除了认真解决需求痛点、优化用户体验,也应该不断地对流量和数据的价值进行评估,并积极探讨商业变现的战略与产品。而在各种商业化产品当中,以计算为导向的广告变现无疑是最为重要的。

在产品选型、开发和运营的初期阶段,如果能对产品未来产生的数据和流量价值有正确的评估,并了解如何利用广告产品将这些资产变现,对于判断该产品的成长空间和商业价值非常重要。另外,早期的产品推广会用到许多广告营销产品,而对于计算广告原理的深入了解也将有利于高效地做好营销。

当产品得到市场认可,获得了一定的用户规模以后,积极制定系统性的商业化战略,用合理的变现方式获得现金流,从而支撑产品的快速发展,则是每一个互联网公司成长过程中必须经历的关键步骤。如果能洞悉互联网广告市场的产品技术全貌,无疑对此阶段的决策大有帮助。

虽然广告技术在互联网行业至关重要,长期以来,却只有一些只鳞片爪的专题文章,对业界系统架构与算法的介绍,从世界范围来看,都非常缺乏系统性的整理和总结。这一方面是由于广告市场发展迅速,从搜索竞价到程序化交易,再到移动互联网下的原生广告趋势,日新月异的产品进化速度让整个工业界来不及停下脚步做小结;另一方面是广告产品的内在逻辑不像用户产品那样直觉,要进行全面透彻的整理和剖析,需要兼有丰富的实践经验和相当的理论抽象能力。也正由于缺乏系统性的资料,互联网工业界在这方面的人才培养也不够系统,导致在广告产品技术这样一个重要的领域,人才一直是短缺的。

刘鹏博士曾经与我在搜狐集团有过一段时间的同事经历。从简短的几次接触中,我知道他在对媒体的流量变现和需求方广告产品方面都有丰富的实践经验,并曾在Yahoo! Labs 对计算广告领域进行过系统性的研究,是对这一领域做全面总结的合适人选。如今,终于看到他不吝时间和精力,将计算广告领域的产品技术和商业逻辑整理成书,这将是令整个互联网工业界受益之举。

带着期待读完本书,我的第一印象是,其内容全面而富有条理:本书既有计算广告全线产品的介绍,又有对其商业逻辑和原理的透彻解剖,还有对应的技术架构和关键算法的深入讨论。另外,除了受众定向、点击率预估、实时竞价等热点问题的讨论,还有详尽的周边产品和技术的介绍。相信认真读完此书的读者,一方面会对整个广告生态的全貌有全局性的了解,不会只见树木,不见森林;另一方面又可以按图索骥,再碰到各种实际问题时在本书中找到具体思路甚至解决方案。

当然,本书的另外一项重要意义就是,它是计算广告领域第一本系统性的正式出版物。非常希望以此为契机,从合理配置资源的角度出发,整个互联网领域能够在流量和数据变现上逐渐走向标准化与分工协作。这也许会从一个侧面促进中国互联网企业摆脱恶性竞争的囚徒困境,走向合作共赢之路。

最后,祝贺此书的出版,并希望它能够给你些许启示。王小川搜狗公司CEO第1版序三

广告营销处在历史转折点,技术对传媒的驱动和融合趋势让数字营销充满变数,这变化颇有乐趣却又让人不安。原因很简单:一方面,技术驱动下的数字生态百花齐放,程序化营销渐入佳境;另一方面,数字世界各式各样的广告技术概念让市场营销者感到困惑。

不可否认,营销行业有专业的技术型人才和数据科学家帮助我们实践和创新这些技术,似乎有了需要的一切。可想象一下,某个下午时光,当和我们的客户坐在一起,他可能会问起这样的问题:未来你们能帮我们做什么?

如果说技术代表营销的未来,那么技术到底是什么呢?技术为什么存在?技术可以帮助人们做些什么?我常想,要拨开这些技术迷雾,营销人具备的知识背景应该能跨越技术理解的盲点,能洞察到真正关键且清晰的归因,把这些问题的答案清晰和简单地传递给我们的客户。所以我期待行业中有人能把广告技术的真实情况和作用讲出来,无论是DSP、DMP 或是RTB 这些商业产品概念,还是“预测模型”“机器学习”“人群定向”之类的技术名词。

带着这个期待,我阅读了刘鹏博士这本广告技术专著。我想说,我的这些疑惑在阅读这本书的过程中都得到了解答或者找到了线索。

刘鹏博士在互联网领域,特别是广告变现产品领域有着非常丰富的从业经验。从雅虎全球研发中心到微软研究院,再到今天作为360 首席商业架构师,他既主持过需求方营销产品和供给方变现产品的设计开发,又兼有从产品到系统和算法的全面把握能力,而这些经验都成了本书丰富实用内容的基础。

一本好的广告书不会大谈趋势,而是会从细节观察出发,探知商业逻辑;一本好的技术书不会大谈常识,而是剖析实践领域的真知灼见。刘鹏博士编写的这本书就是这样一部跨越领域、兼而有之的作品。

很愿意分享两点阅读感受。第一点是繁纷复杂的数字生态和技术说辞,刘鹏对此做了系统的梳理和介绍,即使高度专业的产品概念、逻辑及算法应用,非技术背景的读者也能对这些概念建立统一的认识。第二点是概念之外,书中列举了国际国内经典的广告平台产品,分析其形态、技术、策略,描绘了商业和产品之间相互关联、相互促进的有趣演进。这些来自于作者多年从业实践和积累并给营销人带来“互联网+”的思考角度更难能可贵。而书中列举了很多翔实的数据和图例,反映了刘鹏博士对技术和治学的严肃态度。

如果你需要了解在线广告的产品和技术,就应该马上行动,打开这本书,努力去学习和探索。

愿每位从事数字广告事业的营销人,都能读到此书。李桂芬前安吉斯媒体集团大中华区首席执行官前        言

互联网的快速发展改变了整个世界。从门户网站到搜索引擎,从社交网络到电子商务,从免费Wi-Fi到应用市场,层出不穷的在线服务方便了人们的生活,甚至颠覆了原有的产业。更为神奇的是,这些服务大多是免费的。在今天,“互联网思维”这个名词被越来越多互联网行业内外的人们追捧和畏惧,而其中很多人的困惑都在于:这么多免费的服务是如何获得收入,乃至赚得盆盈钵满的呢?实际上,如果把多样的互联网产品或服务看成各式硬币的正面,那么我们会发现,其中许多硬币的背面都有着一样的图案,这就是以广告为核心的后向变现体系。正面的免费服务是为了获得流量和数据,而背面的广告业务则将这些流量和数据变成金钱。这就是互联网最关键的思维模式之一。

在能够获得充分的流量或高价值的数据后,我们认为,所有能够传播信息的商品,其售价都会趋向其边际成本。这样的观点对许多传统行业商业模式的影响是深远的,也是我们认为大家应该在互联网时代深入了解广告、了解变现产品的原因。因此,本书虽然以介绍互联网广告的产品和技术为核心,但并不是想让大家都学会搭建一个广告系统。本书的核心目的,是让读者在清晰地了解互联网广告全貌的基础上,在遇到与后向变现相关的产品问题时,能够以合理的思维逻辑和背景知识来应对。实际上,在互联网时代,不论你身处哪个行业,只要用心留意,就会发现这类问题可能比你想象的更为常见,也更为重要。对其中最重要的几类问题,我们来看看下面几个具体的例子。(1)商业模式探索。例如,电影是一种边际成本很低、信息传播量又很大的典型商品。那么现在电影的票价为什么这么高?能否探索一种售价很低,而充分利用其信息传播能力的电影行业发行模式,获得更高的经济效益和社会效益?(2)流量变现。例如,互联网电视厂商除了硬件销售的回报以外,还可以获得一部分用户流量。这些流量的性质和价值如何,应该以什么样的方式变现?(3)数据变现。例如,室内导航技术是近年来快速发展的新型互联网应用,如果以向用户免费的方式运营室内导航产品,会得到什么有价值的数据资产,从而支撑相应的后向变现,又应该采用哪种具体的商业产品来支撑?(4)商业产品建设和运营。例如,团购、游戏联运、返利购买、积分墙这些推广模式与一般的展示广告或搜索广告有什么内在联系?是否可以共用某些产品和技术平台?

这4类问题的典型性和价值不言而喻。不过,要回答这些问题,仅靠独立的深入思考是不够的,还必须对当前互联网流量和数据变现市场的商业逻辑和产品现状有相当程度的了解,并在需要具体产品实施时有相应的方案可以参考和选择。为读者提供这方面的帮助,正是本书希望做到的。

从传统的视角看广告,会有人认为互联网服务中的广告破坏了用户体验。这实际上是一种观念上的误解。首先,互联网广告不再像线下广告那样,以宣教性的横幅为主,而是以各种自动决策的付费信息的方式存在,这其中既包括传统的创意形式,也包括游戏联运、团购、返利、原生广告等更加契合用户意图的新传播形式。另外,虽然从微观上看,部分不顾及媒体价值、盲目变现的广告产品确实存在破坏用户体验的问题,但从宏观上看,恰恰是因为广告这一后向变现模式的存在,互联网产品的整体用户体验才达到了前所未有的高度。在传统企业中,一般会根据产品线分设若干事业部,每个事业部在研发自己产品的同时,还要对营收和利润负责。而在互联网企业或者按照互联网方式运营的企业中,还存在另外一种组织方式,即面向用户的免费产品部门只负责优化产品体验,不对营收负责,而专门面向客户的商业产品部门通过广告等后向变现方式为企业创造营收。实践证明,在这样的组织方式下,用户产品部门往往能够心无旁骛,专心为了提高用户体验而努力。因此,我们会看到,比起传统软件企业,互联网企业的产品在把握用户需求、优化用户体验方面往往能够做得更加优秀。

因此,在互联网的世界里,广告不再只是广告公司的事,而是每一个互联网公司都要关心的事。从结果来看,在线广告实际上成了互联网最重要的“发动机”。从营收上看,它支撑着互联网业务的大半壁江山。当然,广告的概念本身在互联网业务中也已经发生了脱胎换骨的变化。首先,在互联网广告中,服务于中小商家、以直接销售为目的的广告取代品牌广告成为主流,这也创造了全新的巨大市场;其次,它的关键不再是创意、策略等人工服务,而是以数据支撑的流量规模化交易为典型特点。也就是说,机器和算法取代了人员与服务,成为在线广告最鲜明的特色。可以说,互联网广告的灵魂就在于数据与计算,因此,也就产生了“计算广告”这个名词,以及其背后复杂的产品与技术。

计算广告这个课题在以Google AdWords为代表的竞价广告业务产生以后逐渐成形,并且在展示广告进入程序化交易阶段以后愈加成熟,而将其整理成一个新的研究方向,则要归功于时任Yahoo!广告首席科学家的Andrei Broder。他在斯坦福开设的“Computational Advertising”这门课,第一次全面而系统地介绍了在线广告中的计算挑战,以及工业界中的实用算法。既然有了计算广告的相关课程,为什么还要再编写这本计算广告的书呢?首先当然是因为这一领域变化太快,在“计算广告”这个词诞生后的几年里,它的内涵和外延都已经发生了重大的变化,而且这几年的变化使这个领域逐渐完备起来。因此,有必要在此时对当下的计算广告领域做一个阶段性的小结。另外还有一个重要原因,那就是我们在几次计算广告的教学实践中发现,对在校学生或者刚刚接触此领域的人来说,最主要的理解障碍不在于算法和技术本身,而在于广告的商业逻辑和产品目标。以此为出发点,本书将以广告产品为核心进行组织。在清楚地了解计算广告的产品逻辑与商业价值的基础上,我们再有针对性地讨论其中的算法和架构问题。因此,商业逻辑驱动的在线广告产品和技术的升级,将是本书最重要的一条主线。

另外,本书还有一条潜在的主线,即数据的加工、利用与交易。熟悉计算广告业务和产品的读者会有认识,广告业务的收益只能来自3个方面,即数据、流量或品牌属性。其中后两点是媒体的专属,而大量的广告平台在做的事情,主要就是数据的加工与利用。不夸张地说,计算广告对于数据利用的广度和深度是空前的,而且产业的各个环节也是比较完备的。在各行各业都在强调大数据思维与方法的今天,深入了解计算广告产品与技术具有特别强的范本意义。因此,我们在内容组织上将特别强调数据这条线索,努力将广告产品进化过程中是如何一步步更有效利用数据的这一点解释清楚。

当下人工智能的火热,也让我们从这个视角重新审视计算广告业务的本质。实际上,人工智能在今天的快速发展,正是得益于深度学习的计算效率大大提高以后对大数据的挖掘和使用能力大大加强。而广告领域最重要的特点也是处理的数据规模巨大,并且机器对这些用户行为数据的解读潜力远远大于人类制定的规则。在计算广告发展的第一阶段,虽然我们已经在处理大量的数据,但用的方法往往是比较浅的模型,但是今天,以深度学习为代表的方法论和技术,正在计算广告领域得到越来深入的应用。在这一版中,我们也将对深度学习的基础方法论及其目前在计算广告中的关键应用进行介绍。本书的读者对象

既然在线广告不再只是广告公司的事,那么需要了解这一业务及其背后产品技术的人群也就相当广泛了。我们希望下面几类读者可以从本书中找到有价值的内容。(1)互联网公司商业化部门的产品、技术和运营人员。对互联网公司来说,商业化产品中最重要的就是广告产品,不过我们发现,囿于各公司具体的产品形态,仅从自己的业务中了解广告产品技术的全貌并不容易。因此,本书最主要面向的读者就是与这些广告产品相关的人员,希望他们通过阅读本书,对互联网广告的全貌以及复杂的技术产品系列有整体的了解,避免“只见树木,不见森林”。(2)对个性化系统、大数据变现或交易有兴趣者。计算广告在各种个性化系统中具有典型性,又因其商业逻辑而相对复杂;此外,计算广告还催生了对大规模数据利用和变现的直接市场。因此,推荐等个性化系统的产品技术人员,以及大数据相关的产品技术人员,都非常有必要通过了解计算广告的产品和技术,对个性化系统架构约束下的效果优化、大数据变现和交易等诸多问题在实际工业界的落地有一定的理解。(3)传统企业互联网化进程的决策者。传统企业在互联网化的过程中,需要借鉴的绝不仅仅是利用互联网的技术和产品,更重要的是按照互联网企业形成的高效运营和变现模式来改造传统业务。从这个意义上说,互联网企业以广告为基础的后向变现体系是整个互联网化过程中至关重要的一环。因此,在这样的传统企业中,互联网化进程的决策者对广告的原理和市场必须有一定程度的了解。(4)传统广告业务的从业者。传统广告业务与互联网广告业务既有密切的联系,又存在着巨大的差别。以技术为导向、精准地面向受众的广告策略,正深刻地影响着整个广告市场。同时,随着互联网广告规模的迅速扩大,这样的策略越来越为广告主接受和青睐。因此,传统广告业务的从业者必须要顺应潮流,理解和运用计算广告的方法与策略,将线下资源与线上资源整合起来,才能更好地服务于广告主和媒体。(5)互联网创业者。我们接触过不少互联网行业的创业者,对他们来说,找到用户产品的痛点并漂亮地解决往往并不是十分困难。但是,一个企业最终需要的是利润,而许多对变现逻辑和思考方法不熟悉的创业者,往往面对产品得到的流量和数据不知所措,而商业化进程的缓慢也会大大拖慢用户产品的运营进度,甚至因此错过企业的黄金发展机会。从这个意义上说,了解一些流量与数据变现的思路,无疑会对创业方向的选择、创业过程的加速、创业果实的收获有巨大的帮助。(6)计算机相关专业研究生。计算广告人才在互联网行业相当稀缺,而目前学校的教育对这种与工业界关系密切的实际问题是有些脱节的。我们整理本书的一个重要目的,是希望为具有一定的计算机科学基础并且对工业界实际问题有兴趣的学生提供一些指导,让他们对思考和设计商业产品、运用技术解决产品问题形成正确的思考方法。本书的内容组织

前面说过,我们整理本书并不是简单地为了介绍计算广告的产品和技术,更重要的目的是希望提供一个新的视角,让大家通过了解广告变现的内在逻辑,进而对互联网时代的用户产品如何将体验做到极致、将变现做到最高效有宏观的认识。在我们看来,如果不了解广告变现产品和市场,就谈不上真正透彻地了解互联网,也一定会在用户产品的设计和运营上有诸多掣肘。出于这样的目的,本书在核心内容组织上包括以下3个部分。

第一部分是在线广告市场与背景,这部分介绍在线广告领域的一些基本问题和背景知识。虽然内容比较容易理解,但这部分是全书的基础,特别是很多相关概念和术语的集中介绍,请不要略过。

第二部分是在线广告产品逻辑,这部分主要面向产品、运营和销售等人员,以及互联网产品的宏观决策者,其内容重点是介绍计算广告的市场结构、交易模式和主要产品。这部分内容将以在线广告产品发展的顺序展开,希望能帮助读者理解各种复杂的广告产品和交易机制产生的内在规律。

第三部分是计算广告关键技术,这部分主要面向系统工程师、算法工程师和架构师。与前一部分的广告产品相对应,这部分也以在线广告产品发展的顺序展开,重点阐释实现各种广告产品的关键技术挑战,并提供基础的解决方案。

一般来说,对于那些想运营在线广告业务,或者想了解如何用在线广告对用户产品进行变现的读者来说,可以重点阅读前两部分,并且对其中的产品与商业逻辑要深入理解;对那些重点关注工程实现和收入优化的读者来说,在了解了前两部分之后,还要花一些精力深入阅读第三部分,特别是其中与自己关注的广告产品相关的技术章节。计算广告这个领域的复杂性在于,对于任何一项产品或技术,都需要放在相应的商业背景下去判断其合理性,而要理解商业产品上能达到的目标,又需要对技术的现状和难点有相当的认识。因此,我们推荐的阅读方式还是尽可能地通读全书,对其中确实不相关或者知识背景上无法理解的部分简单跳过就可以了。

在讨论在线广告市场产品技术的过程中,会涉及大量的术语和专业名词。对于对变现业务不太熟悉的读者,这些术语会给阅读带来一定的障碍。为了帮助读者检索和查找术语的相关内容,我们在附录中对主要术语及缩写给出了索引,以方便阅读。

由于篇幅限制,本书中有些内容的细节或背景知识无法全面展开,在这种情形下给出了相应的参考文献。但是,由于本书并非学术著作,在引用文献时并不会保证完备性,因此当正文足以说明观点和方法时,其原始文献不一定还会列出,请读者谅解。另外,在本书的第三部分中,为帮助读者理解,会对一些比较关键的算法给出相应的代码片段。不过本书中的代码都是示例性代码,目的只是更清楚地描述逻辑,而并非可以直接编译执行的程序,其中一些特别容易理解和实现的子函数调用,也可能会略去其具体实现。

本书的内容主要是由刘鹏在清华的公开课以及在北大、北航的研究生课程内容整理加工而成的,并且在整理过程中针对更广泛的读者群体做了内容本身和顺序上的调整。在两位作者中,刘鹏为主要执笔者,负责主体部分的写作和内容的整体组织,王超负责其中产品案例和算法示例代码的部分。由于作者的水平有限,再加上时间仓促,书中难免出现错漏之处,敬请各位读者多多批评指正。此外,在本书撰写的过程中,我们邀请了一些业内的专家和从业者帮助对内容进行把关,得到了他们很多有益的建议,这些建议使本书更加完备和实用,我们在此一并表示感谢,并将其中部分专家对本书的评语附在书中。资源与支持

本书由异步社区出品,社区(https://www.epubit.com/)为您提供相关资源和后续服务。提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入勘误信息,单击“提交”按钮即可。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区在线提交投稿(直接访问www.epubit.com/selfpublish/submission即可)。

如果您来自学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。关于异步社区和异步图书“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT技术图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT技术图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社近30年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。

异步社区 微信服务号第一部分 在线广告市场与背景第1章 在线广告综述

在线广告,也称网络广告、互联网广告,顾名思义,指的是在线媒体上投放的广告。与传统广告不同的是,在线广告在其短短十几年的发展过程中,已经形成了以人群为投放目标、以产品为导向的技术型投放模式。它不仅为广告主带来了以准确接触目标受众为方法论的全新营销渠道,也为互联网免费产品和媒体找到了规模化变现的手段。可以说,不论在做用户产品还是商业产品,不深入了解在线广告,就不可能全面了解互联网业务。因此,互联网行业的从业者花一些时间把现代在线广告原理和产品搞清楚是必需的。

另外,从数据的角度来看,在线广告开启了大规模、自动化利用数据改善产品和提高收入的先河。不夸张地说,在过去相当长的一个时期内,大数据(big data)这一方法论唯一形成规模化营收的落地行业就是在线广告。即便在今天,计算广告仍然是大数据应用中最成熟、市场规模最大的行业,因此,对大数据感兴趣的读者认真研究在线广告中的技术挑战和产品问题,会对探索其他的大数据应用有很大帮助。

在线广告领域的产品形态和业务逻辑相当复杂。为了对在线广告有宏观上的把握,本章将从两个方面来探讨:一是其内涵,即在线广告这种商业活动的定义与目的;二是其外延,即在线广告发展历史中产生的关键产品形态。对其中的许多概念和观点,读者未必能够马上形成清晰的印象,但随着内容的展开,读者可以剥茧抽丝般层层递进地加深理解。另外,本章还有另外一个目的,就是尽可能集中地介绍互联网广告的产品和技术术语,以方便后面的讨论。

与线下广告相比,在线广告的产品和创意形式由于互联网媒体在形态、交互方式等方面存在差异,也呈现出各种各样的表现形式。我们将简要介绍其中比较常见的创意形式,帮助读者对在线广告的具体表现建立直观了解。

本章的内容与计算基本无关,目的在于让读者在进入计算广告领域之初就建立起一些重要观念。首先,广告不完全等同于搜索或推荐,它首先是一项商业活动,然后才是一项技术;其次,在这一商业活动中,广告主、媒体和用户的利益都需要被认真考虑和满足,这样才能达到整个市场的平衡和不断发展。在线广告市场所有产品和商业形式的演进,都是在这一主题下发生的。在商业逻辑的框架下思考和探索计算广告技术对理解本书中提到的产品、架构和算法非常关键。1.1 免费模式与互联网核心资产

大家都知道,互联网产品的网站、应用等软件产品,往往以免费的形式服务用户;另外一些互联网公司也在以直接利润微薄甚至亏损的情形下,出售手机、电视等硬件产品。无论是软件的免费,还是硬件的低价销售,都可以称为免费模式。那么什么是免费模式的本质呢?我们的观点是:免费模式的本质是将那些能够规模化、个性化传播信息的商品,以边际成本的价格出售。

考察上面提到的例子,网站等软件产品多服务一个用户的边际成本很小,因此这些产品都不收费,这是狭义的免费,而手机等硬件产品,边际成本即是量产成本,因此以毛利为零左右的价格出售,这是广义的免费。当然,这些产品的共同特点是能够传播信息,并且能够对不同用户个性化地传播信息,而像矿泉水、充电器这类无法传播信息的商品,是无法被互联网的免费模式改造的。

既然产品本身没有利润,这些产品的开发者的利润从哪里来呢?其实,这类免费产品在传播信息的过程中,获得了3项可变现的核心资产,这就是流量、数据和影响力。(1)流量。流量的价值是,有人使用你的产品,你便可以在产品本身的功能之外夹带一些付费内容(sponsored content),或者称为广告,这样就把流量变成了收入。(2)数据。有人在使用你的产品的过程中留下了一些行为和属性,比如搜过某个关键词,浏览过某个商品,填写过自己的性别,这些都是数据。根据这些数据,你可以更好地了解该用户的属性、偏好等信息。基于这些信息,可以调整投放付费内容的策略以提高效率。(3)影响力。影响力指的是你的产品或内容获得了高于普通水准的关注与信任。当然,你投放的付费内容也就同时获得了更好的关注效果,而这些对于提高转化率同样是至关重要的(参见2.1节)。因此,具备影响力的产品或内容在投放广告时可以获得品牌溢价。

值得指出的是,近年来迅速崛起的大量网红和自媒体,实际上主要靠影响力而非流量和数据变现。如果将从公众号软文(影响力变现)标价与文末展示广告(流量和数据变现)收入进行对比,前者的价格往往是后者的数十倍。现有的在线广告体系并不能很好地处理这种以影响力为主要资产的媒体变现,这也是未来一个有趣的探索方向。

将这3项资产通过商业产品的形式转变成收入的过程,即商业化(monetization)过程,与用户使用免费产品的过程是分离的,因此称为后向变现。从上面的介绍可以看出,无论是数据变现还是影响力变现,都是建立在流量变现的基础上的,而这样的体系也就是计算广告技术所支撑的、现代的商业化产品体系。1.2 大数据与广告的关系

近年来,大数据思维和技术渐成显学。然而,大数据这一概念迄今并没有一个内涵上准确的界定。在参考文献[73]中,作者用规模(volume)、多样性(variety)、高速(velocity)和价值(value),即所谓的4V特征来描述大数据问题的特性,但并没有给出这类问题的界定标准。但是,从实践的角度来看什么是大数据问题,或许要比理论上的定义要简单一些:自从互联网公司开始挖掘海量用户行为数据中的价值,大数据这一概念就进入实践阶段了。它在工业界最显著的特点是区别于以往数据处理系统的低成本、分布式计算架构。从数据来源、处理方式和应用方向这3个角度来看,大数据问题都有鲜明的特点。(1)行为数据。传统的数据处理任务往往面对的是交易数据。所谓交易数据指的是商业活动中必须记录的数据,如电信运营商的话费充值、通话记录,银行的存取款、利息等。交易数据处理的规模往往并不太大,但是对一致性和实时性的要求非常高,IOE(IBM、Oracle和EMC)的计算架构为交易数据处理提供了成熟的方案。与此相对,商业活动中产生的非必须记录的数据,就是行为数据。电信运营商采集到的用户位置、银行的窗口排队以及网站的用户访问日志等,都属于行为数据。与交易数据相比,行为数据的加工有两个特点,首先是规模巨大,其次是对一致性的要求要低得多,例如,网站的日志丢失千分之一,往往并不是什么严重事故。由于这两个特点,传统的IOE架构并不合适,这些是大数据架构产生的原动力。(2)全量加工。如果数据规模很大,并且问题无法通过采样来降低处理的复杂程度,那就必须利用一些专门为海量数据处理而设计的计算和存储技术(如MapReduce、NoSQL数据库等)来实现。如图1-1所示,我们考察某数据处理过程的目标函数,就有可能存在如下两类有代表性的情形。图1-1 大数据问题的特性示意● A类问题:如果通过数据采样能够显著降低数据处理的复杂程度,

同时解决问题的效果(即目标函数)没有太大的下降,那么显然

应该这样做。这类问题可以用图1-1中的A曲线来示意。一般的统

计报表、报告等往往属于这类问题。● B类问题:另有一些数据问题基本上不可能通过只处理一小部分

数据来达到处理全量数据的效果,或者说,随着数据采样率的降

低,解决问题的收益快速下降,这类问题是典型的大数据问题,

可以用图1-1中的B曲线来示意。个性化推荐(personalized

recommendation)和计算广告(computational advertising)等问

题,需要用到每一个人的行为做定制化推送,而无法只采样一部

分人做处理,符合这一特征。(3)自动化应用。使用数据的应用有两种类型。一种是洞察(insight)应用,即对数据进行统计分析后得到整体的结果报表,再由决策者根据结果进行决策。洞察应用传统典型的例子是企业的财务报表,而商业智能(Business Intelligence,BI)也属于洞察应用。另外一种是自动化(automation)应用,即将数据处理的结果直接送给对业务进行自动决策的引擎。计算广告正是典型的自动化应用,从用户行为数据收集,到受众定向,再到线上根据用户标签的自动决策,整个过程都是自动进行的,人的作用只是建立流程和调整策略。电商的自动进货系统,也是一种大数据的自动化应用。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载