广告数据定量分析:如何成为一位厉害的广告优化师(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-19 20:59:38

点击下载

作者:齐云涧

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

广告数据定量分析:如何成为一位厉害的广告优化师

广告数据定量分析:如何成为一位厉害的广告优化师试读:

前言

为什么要写这本书

现如今,数据、大数据、数据分析成为互联网行业的热门词汇。数据定量分析的方法论已经在互联网诸多领域创造价值,如量化投资、互联网金融征信和风控、广告监测等。而广告优化领域的数据分析还处在非常落后的状态,大部分广告优化师只掌握了环比、同比、百分比等数据描述的基础方法和折线图、柱状图等基础图表,优化师的优化工作以经验主义居多,优化能力的同质化严重。我在服务广告主的过程中,一直探索通过数据定量分析的方法,将广告数据分析这件事做得更好,为客户的广告投放创造更大价值,2017年我将服务某客户的历程做了总结,写成一篇《玩转应用商店——相关性分析实现不同广告位资源的配比优化》,不曾想在业内引起了小小的轰动,得到多位资深业内人士的认可,说明了我的研究方向——“广告数据定量分析”是很有价值的。

实际上,广告数据定量分析在网站分析和产品运营中早已践行,如转化率优化、AB测试的方法论,就是建立在统计学基础上的数据分析。最近两年,GrowingIO、诸葛IO、吆喝科技等数据创业公司的兴起,更是说明了市场上数据驱动用户增长和效果优化的用户需求很大,市场前景广阔。

近年来,随着互联网广告行业市场规模增长,新的广告媒体和广告类型层出不穷,互联网创业方兴未艾,对广告优化师的需求渐长,广告优化师队伍人数激增,越来越年轻化。而一直以来,优化功底过硬、经验丰富的优化师都是业内的稀缺人才。一方面,从拉勾网、BOSS直聘的搜索结果可以看出,拥有3~5年经验的市场推广人才是很多公司急缺的。另一方面,数据分析作为广告优化师的必备技能一直是业界共识,但由于缺乏系统的学习和培训,广告优化师从业者的数据分析功底良莠不齐,对数据分析一知半解的大有人在,哪怕有心想学习提高的业内人士,也没有合适的学习资料。对他们来说,纯数据分析的书籍和视频课程,学习门槛较高,且难以学以致用;而结合广告优化的数据分析文章干货难觅,多是营销软文的性质,难以满足学习需求。国内至今没有一本关于广告优化数据分析的正式著作出版,本书正好开创了先例。

在本书中,我希望能在以下几个方面为行业发展添砖加瓦:

1)指出广告优化师提高数据分析能力的方向,即通过科学的数据定量分析,从KPI出发以终为始,精益优化;

2)为想成为高级优化师,渴望塑造个人核心竞争力的读者踏出一条大道,为年轻的优化师实现跨越式发展、弯道超车提供助力;

3)对现在的优化师的广告优化工作有所启发,促进行业内更多的交流和创新;

4)填补广告优化与数据定量分析这一交叉领域的空白,提高广告优化岗位的技术含量和经济价值。读者对象

·甲方广告主从事渠道运营的相关人员

·乙方广告代理公司的初中级广告优化师

·广告媒体方的运营人员

·其他关注流量购买和转化的读者群体本书特色

数据分析作为广告优化师的必备技能一直是业界共识,但亚马逊、京东上以“广告数据分析”为主题的书尚且没有搜索结果,在知乎的一些问答中,资深人士多推荐纯数据分析的书籍,说明广告优化与数据分析的交叉领域尚处空白。

本书在内容上几乎涵盖了互联网主流的广告形式和优化方法论,从KPI出发,以终为始。从统计学的基础,讲到SEM广告、应用商店广告、信息流广告的优化,一直到从社会学角度剖析广告业内的3种角色,最后展望了广告优化的未来发展。同时书中提供了丰富的案例,实践了作者提出的广告的数据定量分析方法论,对一些优质的数据分析工具也进行了相关阐述,知无不言、言无不尽。如何阅读本书

本书的内容可分为3大部分:

基础部分(第1~3章和第8章),介绍了广告优化中的统计学思想和基本原理,为后文讲述数据分析方法论打好基础。在最后一章对互联网广告商业生态进行阐述,关于广告优化师如何实现个人精进成长有所分享。

应用部分(第4~7章除案例部分),以移动广告市场上3大主流广告类型为例,分别阐述不同广告类型的流量特点、优化难点,并提出一些创新性的数据分析方法论。另外对于多广告推广渠道的综合效果评估和统筹优化也做了深入讲解。

实例部分(第4~7章案例部分),通过对4个具有代表性的广告优化项目的案例讲解,让读者了解广告数据定量分析和效果优化的完整流程。勘误和支持

由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。为此,特意留下我的联系邮箱qiyunjian@126.com,如果你遇到任何问题,欢迎邮件交流,我将及时为读者提供最满意的解答,期待能够得到你们的真挚反馈。致谢

首先要感谢宋星老师,感谢你作为前辈对我一如既往的提携和帮助,得益于你的自媒体平台,我的一些文章得以在业内传播和提高影响力。

感谢曲海佳老师,在与你共事的日子里,你在专业上给予我很多指导,肯定了广告数据定量分析的价值,鼓励我坚定地研究下去。

感谢我任职过的致维科技、量化派,因为领导层的开明和支持,才让我在有了大量的广告数据基础上,进行更深入研究的可能。

感谢机械工业出版社华章分社的编辑杨福川、张锡鹏,在这一年多的时间中始终支持我的写作,你们的鼓励和帮助引导我顺利完成全部书稿。

最后感谢我的家人和朋友们,感谢你们对我写作的关心和支持。

感谢国家图书馆、通州区图书馆为我提供了良好的写作环境。

谨以此书献给众多从事广告优化、渠道运营的朋友们!齐云涧第1章 广告优化中的统计学

正如书名所示,本书的目标是想帮助读者了解统计学知识,掌握科学的数据分析方法论,并在广告优化中践行,以实现数据驱动的广告分析和效果优化。

本章会从统计学的基本定义出发,用通俗易懂的语言向读者说明统计学和广告优化之间的关系。读者阅读本书的目标应是学会运用统计学知识,了解统计学和广告数据定量分析的主要思想和理念。1.1 统计学:用一句话解释它是什么

统计学是通过1)收集数据、2)分析数据、3)由数据得出结论等手段,以达到推测所测对象的本质,甚至预测对象未来的一门综合性科学。

以互联网广告优化为例:1)从媒体广告平台获取曝光、点击等数据,从广告主数据后台获取注册量、线索量、获客成本等数据,即为收集数据;2)从广告点击率、获客成本等多个维度对广告效果进行评估,即为分析数据;3)围绕“以更低的成本获取更多更优质的流量,提升广告投放的ROI”这一核心诉求,给出广告优化策略,指导下一步的优化操作,即为得出结论。1.2 学会运用统计:读者的目标1.2.1 理解统计学术语

如果不能理解统计学术语,那么我们就无法从统计分析结果中获取更多有用信息。下面举几个例子:

1.对于某个日均UV上万的页面做A/B测试,原始版本的转化率是5.6%,试验版本_1的转化率是6.4%,看似转化率提高了0.8个百分点,但这会不会是随机波动导致的呢?但A/B测试系统会告诉你,转化率是显著优化的,也就是说试验版本_1的转化率确实要更好一点。

2.某App在小米应用商店的广告投放数据显示,该App的总激活量和首页精品广告(注:一类很重要的广告位)带来的下载量是高度相关的,是否建议提高精品广告的出价呢?

3.本周360渠道的注册成本环比增长12%,同比下降8%,综合比较来看注册成本是优化了吗?

以上涉及了几种最常见的统计学术语,对于知道它们的人来说,这些术语中包含了有用的信息;而不知道这些术语的人,根本不知道这些术语代表什么,甚至会得出错误的结论。1.2.2 掌握科学的数据分析方法论

在从事广告优化师的数年中,我一直在思考数据分析和广告优化之间的关系。不论是广告公司还是广告主,都表现出对数据分析的高度关注。在具体优化工作中,同样的数据结果,不同的广告优化师可能会有着不同的分析和洞察,随之而来的优化效果也会有一定的差异。

可以这样说,大多数广告优化师没有受过专业的统计学思维训练,他们对数据分析的认知还停留在百分比、环比、同比等简单的概念上。举个例子,“昨天的注册量是2,今天的注册量是4,有广告优化师就在给广告主的日报中这样写道:优化有效果,注册量增长100%。”这种从2到4的随机波动难道真能反映出什么规律吗?也许有,但任何一个接受过专业统计学训练的人都会认为这很困难。

广告优化这件事情,说简单点就是要不断地做正确的事情,在其他变量基本不变的条件下,只对少数变量做调整,积累数据,评估该调整是否能使效果显著优化,然后继续循环。科学的数据分析方法论能帮助我们更科学地设计优化试验,更高效地积累数据,更准确地评估优化效果,进而指导下一次的优化试验。1.2.3 理解什么地方可能出差错

瑞典数学家、作家安德烈斯曾说过一句话:“用数据说谎容易,但是用数据说出真相却很难。”下面用一个例子来说明,广告数据分析中什么地方可能出错。

例:简单平均,还是加权平均?

表1-1是某App在某应用商店共计两周的广告投放数据。下面我们分别用简单平均和加权平均两种计算方法,计算第一周和第二周的平均成本。表1-1 某App在某应用商店的广告投放数据

简单平均成本:用每一天的注册成本加总,再除以7天,得到第二周的注册成本高达34.0元,环比第一周上涨26%。

加权平均成本:回归到注册成本的公式本身,用7天的消费合计除以注册量合计,得到第二周的注册成本29.8元,环比第一周仅上涨10%。

结论:简单平均看似没有问题,但计算结果却和加权平均的计算结果相差超过15个百分点。由此可见,广告优化中能够理解什么地方可能出错是多么重要。

举一反三

凡是有计算公式的数据指标,如点击率、平均排名、平均点击成本、转化率等,在求平均时需多加注意,这些数据指标大多数不能直接简单相加求平均。正确的做法是回到公式本身,先将原始数据求合计,再进行计算。1.3 统计学的主要思想1.3.1 随机性和规律性

当我们不能准确预测一件事情的结果时,随机性就和这件事联系起来了。例如,当我们抛掷一枚硬币时,我们并不能确定硬币会出现正面向上还是反面向上的结果。类似地,当我们对某个关键词提高出价时,我们也不能确定该关键词带来的点击量一定会提高。

不过,当我们把随机的事件放在一起时,它们将表现出令人惊奇的规律性。甚至当我们观察抛掷硬币这一看似完全随机的事情时,趋势和概率也变得很明显。例如,我们抛掷硬币100次,会发现差不多有50次正面向上,50次反面向上。

类似地,当一个网民在百度搜索“英语培训”一词时,搜索引擎会展现包含SEM广告在内的搜索结果页,他可能点击我们排名第2的SEM广告,也可能不点击。但我们在广告后台可能会看到这个关键词近一周的点击率(点击量/展现量)是比较稳定的,这是因为一个网民是否点击我们的SEM广告,是有随机性的,但“英语培训”是一个热门词,网民的日均检索量能达到几千,得到的点击率数据反映的将不再是单个网民的意志,而是检索“英语培训”一词的整个网民群体的真实用户需求。

引用:通过对看起来随机的现象进行统计分析,我们开始认识这个世界。统计思想的基础知识能够帮助我们把随机性归纳于可能的规律中。统计思想从我们如何观察事物和事物本身如何真正发生两方面,帮助我们理解随机性和规律性的重要性。因此,统计学可以看作是一项对随机性中的规律性的研究。——《统计学(基本概念和方法)》1.3.2 规律性中的随机性

正如上文提到的,我们在广告后台可能会看到这个关键词近一周的点击率是比较稳定的,请注意是比较稳定,而不是恒定在某个准确的数字。这就是我想告诉你的,规律也会表现出某种随机性。如果我们再抛掷硬币100次,很大可能得到的结果和之前那一次是不一样的。在第一次抛掷硬币试验中,可能有49次正面向上,然而在第二次抛掷硬币试验中可能只有47次正面向上。

不管我们是否再进行一次或一组新的试验,大多数情况下我们并不能得到和上次试验一模一样的数据。这种偏差不仅仅发生于抛掷硬币中,也会发生于调查、试验和其他任何一种数据收集中。比如观察某个信息流广告的创意a的转化率,今天有1000次点击,转化率接近3%;明天还是同样的创意a,还是同样的出价和1000次点击,但转化率可能会相差±1%。

这两个比例之间的差异主要是由于数据本身的随机性引起的。在这种意义上来说,统计学就成了一种研究数据中的偏差问题的手段。

根据作为统计学基础的数学理论,我们可以确定一项调查或试验中的某一比例有多大的随机性,以及在下一次的重复调查或试验中,这个比例可能有多大的偏差。我们甚至可以指出,这两个比例之间的差异,是否大到了随机性本身不能解释的地步,即这一项数据指标已经显著改变了。例如,还记得1.2.1节中提到的A/B测试吗?原始版本的转化率是5.6%,试验版本_1的转化率是6.4%,A/B测试系统会告诉你,转化率是显著优化的,换句话说,相差的0.8个百分点已经大到了随机性本身不能解释的地步。我们将在以后的章节中引申和详细讨论这类问题。1.3.3 概率:什么是机会

概率是一个取于0和1之间的数,它告诉我们某一特定的事件以多大的机会发生。

在讨论随机性时,概率是一个非常重要的概念。概率为统计学的第三个方面,即如何从数据中得出结论,奠定了基石。我们或许永远不能十分确定,两个数字之间的差别是否已超过随机性本身可以解释的范围,但是我们可以确定,这种差别的概率是大还是小。

根据这个基本思想,我们将会有很多机会得出关于广告优化的有趣的结论。至于具体做法,我们将在后面的章节介绍。1.3.4 变量和值

变量是指一个可以取两个或更多个可能值的特征、特质或属性。

统计学中的变量都可以是下面三种类型之一:

1.数值型变量。它的值可以取一些具体数字,这些值对于加法减法、求平均值等操作是有意义的。

例如,CPD的出价可以是1.5元,也可以是1.4元,还可以是1.8元。

2.顺序型变量。描述事物等级或顺序,变量值可以是数值或字符,是可以比较大小的。

例如,SEM关键词排名有第一、第二、第三等,转化成本可分为偏高、合适、偏低。

3.分类型变量。取值之间没有顺序差别,仅做分类,故不可比较大小。

例如,信息流广告定向中的性别定向分为男、女、其他;广告投放的时间是否是节假日,可分为工作日、周末和节假日。

统计学的另一个很重要的概念是值。值是指某一变量的具体取值。

例如,应用商店CPD广告出价为1.2元,这里的1.2即为变量“CPD出价”的值。

表1-2列出了一些变量、变量的值的例子。表1-2 广告数据分析中常见的变量、变量类型及值1.3.5 常数

常数也作常量,是与变量相对的词,一个常数总是有一个固定的取值。

如果我们对100个看到我们广告的用户做调研,看有多大比例的人愿意点击我们的广告,比如是5个人;假定没有人改变主意,我们重复这项调研时,这个比例仍将是5%,像这样一个不变的比例数就是常数。

如果只是抽象地阐述常数这一概念,大家可能很难理解,在2.8.2节中,我会结合实际优化案例进行更生动形象的解读。1.4 统计学和广告优化的关系

看到这里,大家或许还有疑问,我们是做广告优化的,工作中学到的基础数据分析已经够用了,为什么还要学统计学呢?

下面,我想用三句话来阐述我认为的统计学和广告优化的关系。

第一句:君子善假于物——他山之石

这个典故出自《荀子·劝学》,意为君子的资质与一般人没有什么区别,君子之所以高于一般人,是因为他能善于利用外物。业内的一位前辈和我说过,广告优化是一个永无止境的过程。大家现在掌握的数据分析方法很可能已经够用了,已经能将广告投放效果做好,能让客户满意了,但依旧还有更好的数据分析方法论可以学习和利用,以帮助我们更科学地设计优化试验,更高效地积累数据,更准确地评估优化效果。举个例子,之前服务5个客户已经满负荷了,效果优化要1个月才能做好,但掌握了更先进的数据分析方法论后,或许就能服务10个客户,效果优化只要3周就能做好。如此一来,等待大家的不仅是升职加薪,更是个人核心价值的提升吧。

第二句:学院派与野路子——可以攻玉

这个提法并无褒贬的态度。个人认为,业内一些所谓的干货分享,重方法轻思想,不强调案例数据的有限性,缺乏可复制性和可迁移性。这也解释了,为什么看了那么多的干货分享,似乎掌握了各种各样的技巧,广告效果的优化还是不稳定。一旦开始优化实操,难免容易受到各种经验和教条的干扰,不利于做出正确的决策,优化效果往往不尽人意。以上即是野路子。

那什么是学院派呢?个人以为是基于对广告媒体的深刻理解、广告产品逻辑的准确认知、用户受众需求和偏好的洞察基础上,以统计学的思想和方法论指导我们的广告优化实操。对于每一个广告优化师来说,减少了个人认知、运气等主观成分,更加稳定和实用。

第三句:白猫与黑猫——实事求是

我写这本书,并不是为了一味宣扬学院派好,野路子不好。我所推崇的也是大家都熟悉的白猫黑猫论,即“不管黑猫白猫,能捉老鼠的就是好猫”。其实广告优化也是一样的,不在乎你用的什么技巧和方法,最终以两个ROI说话:第一个ROI是客户的;第二个ROI是广告公司的。某种程度上这两个ROI也是广告优化师自己的ROI。换句话说,不论什么样的数据分析方法论,能更快、更有效提高客户ROI的,能更持续提高广告公司的劳动生产率的,都是好的数据分析方法论,都值得我们花时间和精力去研究和学习。1.5 广告数据定量分析的主要理念

这里我将广告数据定量分析方法论总结提炼出来,形成一套可以指导广告优化的实用理念,以期大家读完有所启迪和共鸣。为了方便记忆,我将这些理念的英文单词首字母组合为PLCSS,具体包括目的性Purpose、有限性Limited、相关性Correlation、抽样性Sampling、显著性Significance,下面一一阐述。1.5.1 目的性Purpose

上文说到,广告优化应以两个ROI说话,以终为始,我们做广告数据定量分析的起点也应该是这两个ROI。对广告数据的定量分析,一定要有很强的目的性,不能直击核心指标优化的数据分析可能有理论意义,但是没有现实价值。这里可以给大家分享一下我走过的弯路,我曾经花费大量的时间精力研究了根据历史数据预测当天小米应用商店分时段的曝光量和下载率,估算百度SEM中App下载样式的展现概率等,实际上也确实取得了一些成果。但我后来反思,这些问题都太“绕”,哪怕得出的结论具有借鉴意义,也不能直接有效地影响核心指标优化。更何况,这类问题往往具有天生的局限性,受媒体流量、产品逻辑的影响很深。

我所称的“目的性”,简单来说就是不要太“绕”。想优化什么核心指标就去找与它直接相关的变量,科学地进行对比试验、数据分析和效果评估。例如,在SEM广告优化中,想提高单个关键词的点击量,可以采取的方法包括但不限于:1)曝光量相对稳定的条件下,研究不同排名对点击率的影响,寻找最适合的排名位置组合,比如第2名和第3名各占50%(普遍认为排名越靠前点击率越高);2)轮替多套创意,对比多套创意的点击率优劣,得到点击率显著最优的那一套,请注意是显著最优,而非我们觉得最优,有疑惑的读者建议回顾1.2.1节中提到的A/B测试例子。1.5.2 有限性Limited

有限性是一个包含多个子概念的概念,下面逐一阐述。1.数据有效性

我们做的是广告数据定量分析,首要前提就是确保数据的真实性。试想如果实际点击量只有80次,但媒体告诉你是100次,那么计算出的转化率是偏低的,且很难做到相对稳定,优化就无从谈起。自此开始,我们的广告数据定量分析有了一个最基本的假设,即数据都是真实的。

接下来,聊聊各项数据的准确定义。

例如,什么是曝光量?乍一听是一个很简单的问题,实则不然。

在SEM广告中比较好理解,当网民搜索某个词,触发了我们广告后台的关键词,且关键词满足广告展现条件,网民在搜索结果页看到我们的关键词广告,以上即为一次曝光(或展现)。但对于应用商店广告(这里仅指安卓应用商店)、信息流广告就不一样了。

以华为应用市场为例。如果大家细心观察一下,应用商店首页推荐(有的应用商店叫精品)中,App列表是一波又一波加载的,华为应用市场中一波差不多显示25个,即你第一次看到的是第1~25位,拉到底会加载,才能看到第26~50位。那么问题来了,如果我们推广的App排名第26,但用户没有加载出第二波(第26~50位)时,算不算曝光量?关于这个问题,我曾经问过媒体官方,一直没有得到明确的回复。此外,现在的应用商店都有个性化推荐,这是排名之外更能决定曝光量的因素,这又给准确定义曝光量增加了不少困难。

信息流广告也有类似问题,当用户往下翻阅回顾旧内容时,之前加载出的广告依然还存在,算不算一次新的曝光?这还是最简单的情况,如果算上联网状态或断网状态、间隔时间长短、是否重启过App等因素,问题更加复杂。

我说这么多,想表达的就是,有些数据获取很容易,媒体的广告后台写得清清楚楚,但曝光量真的是有效曝光吗?下载量真的是有效下载吗?值得仔细揣摩。

又例如,在“曝光→下载→安装→激活→注册或登录”这一转化路径中,华为应用市场的规则是,没有安装成功则不收费,即广告后台显示的下载量等于安装量。为什么有时候大家在分析下载激活率时,会觉得这个指标波动较大,一定程度上是因为你跳过了“安装”环节,直接分析“下载→激活”的转化率,从而忽视了“下载→安装”的流失。

所以,当我们对某一数据指标进行分析前,请先关注它的准确定义和有效性。

有效的曝光量,有效的点击量,才能得到有效的点击率。

除此之外,各家广告后台有技术差异,数据总会有或多或少的延迟和误差,这些都是不可避免的。但因为是技术黑箱,很难直接观测,所以我们在做广告定量数据分析时,一般可假设不存在延迟和误差,如果得到的数据模型的拟合度(这里指数据模型的预测结果与实际发生情况的吻合程度,2.8.2节中会有详细阐述)太低,则可以考虑加入一个常量,代指这些不可控的因素。2.存量优化与增量优化

这是《罗辑思维》里一个很常见的提法。存量和增量本身属于经济学的范畴。MBA智库百科给出的定义是,存量是指系统在某一时点所保有的数量,增量则是指在某一段时间内系统中保有数量的变化。

映射到广告优化领域,存量和增量可以理解为:存量是指某一时间段内、在某一媒体的、预算相对稳定的广告投放所带来的流量;而增量则是指可以使固有存量的特性和流程发生变化的另外一些特性和流程,是那些新的增长点。

这里需要强调的是,存量与增量性质上是一样的,都是一套完善的流量获取流程。但对于这里所讲的内容来说,现阶段的广告数据定量分析更擅长做存量优化,在增量优化上则略逊一筹。这是由多方面原因造成的:第一,广告优化工作中接触的多为存量优化,这种优化的目的性更强,适用范围更广,研究的难度也更小一点;第二,广告数据定量分析太依赖于历史数据,且历史数据需要比较稳定;第三,对于任何数据的分析,做预测都是难题之一。

然而,做增量是一件很不确定的事情,广告主可能是要加预算,可能要尝试新的广告资源,可能是因为他的主观感觉要求做什么操作或限制,这一切都会导致增量优化是一件困难的事情。

言归正传,存量优化将是本书阐述的重点,同时对于增量优化书中也会有所涉及。3.时效性

时效性包括两方面:一方面,用于分析的广告数据需要是最近比较新的数据,这样分析起来更能反映现阶段的流量规律,也对未来的优化更具现实意义;另一方面,数据分析得出的结论是有时效性的,我们不能拿上个月分析出的规律生搬硬套在本月的数据上,也不该期望得出什么一劳永逸的普遍规律。互联网时代,唯一不变的只有“变化”。4.特定性

特定性指的是我们研究的对象,是在特定时间段内、在特定媒体推广的特定产品或服务,这里有三个特定,缺一不可。我和业内的朋友交流时,有的人说应用商店的首页推荐广告效果好,有的人说搜索广告效果好,还有的人说针对不同客户这两种广告效果不一样。他们说的都有各自的道理,也确实有案例和数据支持其观点,但都有以偏概全的嫌疑。不说清楚时间段,年前和年后的情况可能大不一样;不说清楚媒体,厂商的华为应用市场和第三方的应用宝可能存在很大差异;不说清楚产品,一个月活500万的老牌产品和才推广3个月的新品对比,更是千差万别。甚至连“效果好”这句话本身都是不严谨的,客户不同,客户满意度的阈值也不一样。1.5.3 相关性Correlation

相关性和因果性之间的联系,从统计学教材到大数据著作,都有广泛的探讨,甚至争议不断。

维克托·迈尔·舍恩伯格在《大数据时代》里说,“要相关,不要因果”,在大数据时代有相关就够了。而周涛则在《为数据而生》一书中说,放弃对因果关系的追寻,就是人类的自我堕落,相关性分析是寻找因果关系的利器。

广告优化是一项很复杂的工程,无形之中我们做的每一个操作其实都有相关性和因果性的考量。我个人更偏向迈尔·舍恩伯格的观点,对于广告优化来说,大部分情况下做到相关分析即可,因为营销本来就因人而异,主观性太大。

相关关系可以理解为,当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。例如,以X和Y分别记一个人的身高和体重,或分别记广告出价与广告曝光量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

何谓因果关系?通常来说,原因是指引起一定现象的现象,结果是指由于原因的作用,随之串联而引起的现象。因果联系的特征就是,原因在先,结果在后,前者的出现导致后者的产生。

更明确点来说,相关性是统计上的概念,数据多了,X发生时Y发生的概率足够显著,那么A和B就是相关的。而因果性是逻辑上的概念,X发生导致Y发生。类似的还有,例如,看见闪电(X)和听见雷声(Y)是高度相关的,但它们二者相互之间并没有因果关系。

下面举一个例子说明相关性和因果性。

在SEM关键词的优化中,通常将关键词按词性分类,包括品牌词、通用词、竞品词等,每种类型的词甚至每个词背后都是网民的不同需求。但优化实践中,往往会看到有的关键词就是有转化,有的就是没有转化,有的关键词就是转化成本高,有的就是转化成本低,而这些词之间很可能还很相似,我们很难仅凭关键词的几个字,就洞察到这背后的用户需求存在什么细微差异。我们做的优化,看起来是基于相关关系,实际上是有因果关系的,只不过因为因果关系很难度量,我们能做的事情也有限,套路基本就是先圈一批词,投放一段时间,积累数据后,分析转化量和转化成本,再将预算、时间精力向那些转化多、成本低的关键词倾斜。

这里还有一个问题,那就是在相关性分析中,我们优先关注的应是直接相关,在1.5.1节中,我提到过“不要太绕”。对于广告优化来说,直接相关的相关分析就已经很不容易了,再绕到间接相关,分析的难度增加不说,可能得出的结论也会很奇怪,缺乏现实价值。1.5.4 抽样性Sampling

广告数据定量分析本质上是从有限的样本数据中得出无限总体某一数据指标的有关结论。

假定我们分析的是过去2周的广告投放数据,这就是一个确定的样本数据;从我们进行数据分析这个时间点,之后的广告投放还会进行,在一定时间内、一定程度上可以看作无限的总体。如果我们什么都不做,我们有理由相信过去2周的效果会延续到未来1个月甚至更久,这就是我们基于样本数据得出的一个初步的结论。如果我做了优化操作,则新样本数据(未来2周)需要和老样本数据(过去2周)对比分析,若新样本数据显著优于老样本,则我们有理由相信优化是成功的,这种显著优化的效果会延续到未来1个月甚至更久。

抽样性还会导致一个问题,那就是抽样误差。这并不是某件事出错造成的误差,而是指这样一个事实:如果再做一遍研究,结果未必会和上次一模一样。例如,本周的转化率是3.1%,下周可能就是3.3%、2.9%或其他相近比例。但是,即便不同的样本会产生不同的答案,大部分答案仍都位于总体中的真正比例的某一变化范围内。例如,通过每次大约1000个UV的多次抽样,大部分样本(95%)得出的转化率和实际的转化率至多相差3个百分点(±3%)。具体怎么计算的,有一个通用的公式,在第2章中会有介绍。

抽样误差的大小取决于得到样本的方式和样本量的大小。抽样方式越随机,抽样误差就会越稳定;样本量越大,误差越小。如果样本等于整个总体,则样本比例等于总体比例,样本误差为0。

所以,严格来说,在公布任何一次抽样调查的结果时都应说明抽样误差的大小,不管是比例、均值还是其他形式。例如,1.2.1节中提到的A/B测试例子,说明抽样误差后,原始版本的转化率是5.6%(±0.64%),试验版本_1的转化率是6.5%(±0.67%)。

业界有这样一句话,广告优化的效果看人品。实际上,是说广告优化成功一定程度上是受运气影响的,而运气本质上是因为我们观测的数据总是样本数据,抽样总会有随机性,哪怕没有进行任何操作,两次抽样的结果也可能存在较显著的差异。认识到这一点,广告优化师应以更平和地心态接受每一次数据反馈,效果好了不骄傲,效果差了不沮丧。1.5.5 显著性Significance

显著性是统计学上的一个概念,又称统计显著性(Statistical significance),用于衡量两个样本数据之间的差异是由于系统因素而不是偶然因素的影响。在广告优化中,其实我们无时无刻不在考虑显著性,比如上周的注册成本是25元,本周优化到23元,相对变化来看下降了8%,但注册成本是否显著降低了呢?以住大部分优化师是不会去关心的,但现在我们需要学着关心这个问题。

如果广告效果显著优化了,我们也就得到正确的反馈,明确下一步优化的方向,也能对内对外争取到更多的资源支持。如果不能准确判断这是否显著优化了,偶尔遇到一两次数据波动,情况较好,就以此为参照,对于管理客户和老板的预期都不是好事,很容易给后期的优化工作戴上“无形的枷锁”,十分被动。所以,不管外人怎么说,优化师心里要一清二楚,效果是自己做出来的,还是撞大运撞出来的。1.6 本章小结

本章主要想和大家阐述的是统计学和广告优化的关系,所以提到了一些统计学上的基本概念、统计学的主要思想和广告数据分析的理念。一方面,我们要强调科学的统计分析方法论对于广告数据分析的工具性价值;另一方面,也要承认广告数据分析在效果优化上的局限性。

对于其中某些内容,有的读者可能不太能理解,不过没关系,读者可以带着自己的疑问继续后面章节的阅读,随着大家对于广告数据定量分析的认识越来越深入,诸多疑惑也会迎刃而解。第2章 广告数据分析中的统计学原理

这一章将会涉及不少统计学的概念和术语,包括抽样、概率和分布、假设检验、相关和回归等,我将在介绍相关内容时引用大量广告投放和优化的类比和案例,帮助读者朋友在广告数据分析和统计学二者之间建立思维上的关联,这是一个循序渐进的过程。从全书结构来看,本章是整个广告数据分析方法论的理论基础,后面的章节将直接进行数据分析方法论的运用,理论部分将不再赘述。2.1 抽样:总体、样本和误差

总体:是客观存在在某一相同性质基础上结合的若干个别事物的整体。

样本:就是按照一定的概率从总体中抽取并作为总体代表的一部分的集合体。

抽样:是指按照随机原则,以一定概率从总体中抽取一定容量的单位作为样本进行调查,根据样本的情况对总体作出具有一定可靠程度的估计与推断。

抽样的一个重要价值,就是可以在没有拿到全部数据的条件下对总体做一定的预测。当然,这是有一定误差的。但现实生活中,由于拿到全部数据的成本太高,总体包括了未来还没有发生的数据等多种原因,我们只能退而求其次做抽样,通过研究样本来估算总体。

为了进一步说明总体和样本的关系,下面举两个例子,不同情况下总体和样本的定义是有差异的。

例1:先讨论简单的情况。

在分析信息流广告创意的转化效果时,选取某天、某周、某月这类时间段的数据为分析对象,即为样本;如果把统计周期拉长,从该广告创意的首次投放到完全废弃,这样一个全生命周期内的数据作为分析对象,即为总体。

这里的总体,就是前面提到的总体,包括了未来还没有发生的数据。广告投放是一个相对稳定的过程,尤其当预算和流量达到一定量级时,稳定性就会越好。怎么理解这个稳定性呢?假设我们研究近一周的数据,算出日均获取流量、获客成本等多个数据指标,可以预见的是,如果我们什么都不做,未来短时间(1~2周)内,这些数据指标都是相对稳定不变的,而从未来长时间来看,由于受到媒体广告后台的规则限制、流量大盘变化等多因素影响,广告效果会越来越差。相信只要从事过一线广告数据优化的朋友,对这段话都会深有体会,这也是广告效果优化的立足基础,也是广告数据定量分析的价值所在。

例2:在例1的基础上,讨论较为复杂的情况,如图2-1所示。图2-1 广告数据分析中的总体和样本

在分析我们的优化策略是否有效时,通常会选取一条广告创意,分析在优化前后的转化效果是否有显著优化。如例1中所说,该广告创意的全生命周期内的数据为总体,但由于优化策略的执行,原来的总体可能发生了质的变化,此时应以“优化操作”为分界线,将原来的总体一分为二,广告创意首次投放(或者是上一次优化)到本次优化操作前的全部数据为一个总体,优化操作后到广告创意完全废弃这段时间的数据为另一个总体。而在优化操作前后各选取的用来做对比分析的数据,即为样本。

这里选取的样本,分别代表了优化操作前后的总体的广告效果。对比结果大致有三种可能,优化操作后广告效果没有显著变化、显著变好、显著变差。怎样才算达到“显著”的程度,将在2.5节具体介绍。无论结果如何,我们做广告数据分析的总体已经重新确定,即优化操作后到广告创意完全废弃这段时间的数据,而且我们观测的仍旧是样本数据。如果以后有新的优化操作,则总体又将被分割为两部分,如此循环。

抽样误差:是指用样本统计值与被推断的总体参数出现的偏差。

只要是样本数据,就会存在抽样误差。抽样误差的大小依赖于得到样本的方式和样本中包含的观测个数。样本越大,误差越小。如果样本等于整个总体,则样本比例就等于总体比例。

所以,在公布任何一次基于样本数据得到的结论前,都应说明抽样误差的大小,无论是比例、均值还是其他形式。

例如,某条信息流广告创意有36432的曝光量,1128的点击量,计算的点击率为3.1%(±0.18%),这里的±0.18%即为抽样误差,差不多是3.1%的1/20。抽样误差具体怎么计算的,在2.4的参数估计部分再作介绍。

抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性,那么以样本对总体进行估计就没有逻辑基础。

试想,如果我们对比优化操作前后的广告效果时,优化操作前的样本数据不能代表历史的广告效果,或者优化操作后的样本数据不能代表未来的广告效果,那么数据分析的结论与真实情况将会有较大的偏差,对下一步的优化策略来说可能不是指导而是误导了。

于是,我们在选取样本数据时,应注意下面几点:

第一,应尽可能选取优化操作前后相邻的数据。

这里,其实是有一个广告数据分析的前提假设,假设其他条件不变(或者说是相对稳定),优化操作则是唯一的变量,对比前后的数据即可判断优化是否有显著效果。取优化操作前后越近的数据,就越能保证假设的准确性。比如,优化操作前一周的数据和优化操作后一周的数据。

第二,样本数据的积累不仅要看时间长短,更要看样本量的大小。

比如,只对比优化操作前一天和后一天的数据,受偶然性的影响效果会比较大,以优化操作后第一天的数据作为样本,对总体的代表性也会差很多。另一方面,无论任何抽样方式,抽样误差都是难以避免的,只有当样本量足够大,抽样误差才相对稳定、相对较小,对于总体的代表性也较好。

第三,如果样本数据中出现某些特别高或特别低的奇异值,应将其剔除。

如表2-1所示,我们选取优化操作后一周的数据作为样本。表2-1 优化操作后一周的样本数据

从表中不难看出,第一天至第七天的展现量是相对稳定的,但第六天的点击率是明显偏高的,这个数很可能是奇异值,应从样本数据中剔除,剔除之后展现量累计不够的话,则可以顺延至第八天。

一般来说,广告数据是相对稳定的,如果出现这种奇异值,多是受到大盘流量、竞争对手的广告投放等多因素影响。而这些因素恰恰是我们做广告数据定量分析前假设相对稳定不变的,一旦出现这样的情况,说明分析的前提是不存在,得到的样本数据自然也是没有代表性的,应作相应的数据处理。2.2 概率

如上一章提到的,概率简单来说就是一个数。更确切地说,它是一个0和1之间的数,用来描述一个事件发生的经常性。小概率(接近0)的事件很少发生,而大概率(接近1)的事件经常发生。

为了说明统计的基本观念,如果我们对某事物进行多次观测,大多数情况下会得到不同的结果。例如:同一SEM账户,昨天账户整体CTR是一个2.8%,今天的CTR则是3.0%,明天可能又会是3.1%,这种小幅度的波动是因为这个变量(即CTR)具有随机性。概率的统计定义①

在相同的条件下随机试验n次,某事件A出现m次(m≤n),则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率,记为:

P(A)=n/m=p

在广告数据分析中,一些常见的数据指标,包括点击率、转化率、流失率等都是统计意义上的概率,都是通过对一定量的样本观测得到的。

注意:①在相同的条件下。这一点在广告优化实践中是很难做到的。以手机百度这一媒体为例,MAU高达5亿多,DAU是1亿多,这意味着,除少部分重度用户每天都在使用外,大多数用户一个月内只有可能不到一半的时间能看到某个广告主的广告。所以我们的总体是不变的,但每天观测得到的样本都不一样了。所以,广告优化实践中我们只能尽力保证能控制的部分保持稳定,比如落地页、广告创意、定向等,以此来观测样本、统计概率,进行数据分析。2.3 概率分布

大部分用于统计分析的数据来自于连续变量,即在任意两个值间还有其他的值,故这里只讨论连续变量的概率分布。

最重要的是标准正态分布(z变量),t分布(t变量),图2-2以标准正态分布为例,具体阐述一下。图2-2 正态分布2.3.1 正态分布

正态分布,也称“常态分布”,又名高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

请不要被公式吓到,简而言之,正态描述的是某一变量v的概率分布,又因为概率的统计定义,通常以分布占比替代概率分布。横坐标上的X就是变量v的取值,f(x)就是对应变量不同取值(即x)的占比。

当随机变量X服从正态分布时,我们用X~N(μ,σ^2)表示,其中μ为变量X的均值,σ为变量X的标准差。

如图2-3所示,正态分布中大部分数据集中在平均值附近,小部分在两端。均值±3个标准差已经可以包括99.7%的情况了。图2-3 正态分布的置信区间

对于我们做广告数据分析,最重要的是均值,不论是平均点击量、平均点击率,还是平均转化量、平均转化率。

举个例子,图2-4是某SEM广告各关键词CPC分布占比,大致上符合正态分布,大多数关键词的CPC处于中间均值附近水平,不过集中度相对较低。图2-4 某SEM广告各关键词CPC分布

同理,各关键词的转化成本、广告目标受众的转化可能性等分布基本也符合正态分布。2.3.2 标准正态分布

标准正态分布实际上是在正态分布基础上,经过一些较为复杂的数学计算,将均值处理为0,标准差处理为1的正态分布。

标准正态分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。

例如,X~N(μ,σ^2),则Z=(X-μ)/σ~N(0,1),这也是将一般正态分布转化为标准正态分布的公式。

如图2-5所示。我们可以看到,大部分z变量的值在-2.00到2.00之间变动;特别是,95%的z变量的值在-1.96到1.96之间变动。这个值很重要,后文会用到。图2-5 标准正态变量z的分布

正态分布应用有多广泛?或者说,为什么我们可以假设这些数据都基本符合正态分布。这里需要介绍一个统计学的重要理论:中心极限定理,它也是很多统计分析的理论基础。2.3.3 中心极限定理

中心极限定理其实就是下面两句话:

1)任何一个样本的平均值将会约等于其所在总体的平均值。

2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。

请不要小看这么简单的两句话,这对于帮助我们理解整个广告数据定理分析的理论基础有着至关重要的价值。基于中心极限定理,在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。而且不用计较样本数据是什么分布,多组样本的平均值的分布是近似正态分布的。

换句话说,因为广告创意在未来还将继续投放,在没有拿到全部数据之前,我们不知道总体的广告效果会是什么样的,那我们怎么判断是否应该继续投放呢?对于大多数广告优化从业人员来说,这是一个无需思考的问题,但实际上蕴含着丰富的分析价值。大多数人的答案都会是,看历史数据就可以判断。如果继续追问,为什么历史数据就可以判断呢?很多人就答不上来了。

之所以我们可以根据历史数据(样本)来估算未来的广告效果,就是因为中心极限定理的存在。只要我们在选取样本数据时严格遵循2.1节中的3点规范,同时样本量足够大,它的分布都是近似正态分布的,都是可以用同一个公式来计算的。

比如,广点通渠道某广告创意的点击量是11076,转化率是8.4%(±0.52%);今日头条渠道某广告创意的点击量是8659,转化率是6.3%(±0.51%)。虽然是不同的渠道,不同的广告位,但统计指标的计算逻辑是一样的,转化率的抽样误差也是可以用同一个公式计算的,两个渠道的转化率是可以做对比分析的。这一点,对于多广告渠道的综合效果评估有非常重要的价值。2.4 统计推断:估计

超越实际数据是统计学的一个分支,被称为统计推断。它由估计和假设检验组成。

本节讨论的是参数估计,假设检验会在下一节中讲解。

我们进行数据分析时,之所以用样本替代整体,主要原因是:在一般情况下,没有办法收集到总体中的全部个体数据,即便能,所需的时间也会比较长,花费也是高昂的。

尽管样本中的信息并不完全,抽样误差也无法避免,我们依旧要重视样本数据的分析。同时,为了弥补样本结果的不准确性,我们需要计算抽样误差。2.4.1 估计:用样本数据预估总体

这里要介绍两个新概念。

样本统计量:是从样本数据中计算出来的数。

比如样本均值、样本百分比等。

总体参数:是在原理上可以从整个总体中计算出来的数。

比如总体均值、总体百分比等。“估计”做的事情就是,通过样本统计量去估计对应的总体参数。

大家不用纠结于新概念的理解,它本质上还是用样本数据去估算总体的情况,只不过明确了到底是用样本数据中的哪一指标。例如,我们以某广告创意的历史一周的点击率数据,可以预估未来一周的点击率情况;此时,历史这一周的平均点击率即为样本统计量,历史和未来整体的平均点击率即为总体参数。2.4.2 区间估计

统计学上常用的估计方法论有两种:点估计和区间估计。

点估计:是一个用来估计总体参数的数。

区间估计:又称为置信区间,是用来估计参数的取值范围的。

点估计应该是我们最常用的方法,无论媒体广告后台的数据,还是我们平时做广告数据分析,计算点击率、转化率、转化成本的时候,用到的几乎都是点估计。

点估计的优点显而易见:

·逻辑清楚,容易理解;

·使用方便,哪怕需要二次计算也很简单;

·业内已形成标准,接受度高。

但点估计也有其天然的局限性,它是以一种静态的视角看数据指标,所以解释不了诸如下面的问题:

1)数据量小的时候,各种指标波动程度较大。要等数据积累到一定量的时候,数据指标相对稳定了,才能开始做数据分析。优化人员常常面临“两难”的境地,数据积累不够,做分析容易被误导,而积累过多又会导致预算的部分浪费,所以应该待数据积累到多少时,恰好足够数据分析所用?

2)一个优化策略的执行,使得转化率从5.6%提升至6.1%,转化成本从32.5元下降至29.7元,这次的优化算不算是成功的?

这时就需要用到区间估计了。无论是点估计,还是区间估计,理论基础其实还是抽样,根据抽样取得的样本直接计算的概率,其实就是点估计。如果同时考虑抽样误差,就是区间估计。区别于点估计,区间估计是以一种动态的视角看数据指标的,此刻的指标不再只是一个数,而是一个取值范围(点估计±抽样误差)。

如此一来,刚才提出的两个问题也有了很好的解释。

1)随着数据的不断积累,抽样误差会趋于稳定,且抽样误差的相对占比会趋于变小,当小到一定程度(5%或者3%,根据数据分析需求自定义)时,再开始数据分析是比较合适的。

2)转化率5.6%、6.1%,都需要加上一个抽样误差,即数据波动的范围,假设这个抽样误差都是0.2%,那优化前的转化率区间为[5.4%,5.8%],优化后的转化率区间为[5.9%,6.3%]。简单来看,优化后的最低水平5.9%仍高于优化前的最高水平,因此可以得出这次优化是成功的结论。

讨论完区间估计的现实价值,接下来介绍其计算方法。

对于大多数总体参数来说,估计区间是用如下方法得到的:

·找到样本统计量,如均值或者比例,这一步骤相当于是点估计的计算;

·从数据中计算出抽样误差;

·用样本统计量加、减抽样误差就得到了区间估计的两个端点。

回到前文的例子,某条信息流广告创意有36432的曝光,1128的点击。点估计可得点击率为3.1%;置信水平为95%的情况下,区间估计得到的点击率则是一个范围,即2.92%~3.28%。这里的95%指的是我们有95%的把握相信这条信息流广告创意总体的真实点击率在2.92%~3.28%。

例子中提到95%的置信水平,是与区间估计绑定的一个概念。如果我们收集了多组不同的样本,并对每个样本都构造了一个置信区

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载