读懂你的客户:基于大数据的消费者战略(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-22 18:56:42

点击下载

作者:(英)科林·斯特朗(Colin Strong)

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

读懂你的客户:基于大数据的消费者战略

读懂你的客户:基于大数据的消费者战略试读:

前言

、致谢),方思(第1章、第2章、第3章、第4章),陶名舟、陆阳苗、孙亦伟(第5章),周岩、宗奕萱、孟佳云(第6章),张曌、谢兴悦、马婷(第7章),虞晓双(第8章),杨媚(第9章、第10章),陈瑛、高晓倩、李宁(第11章),谢兴悦、马婷(第12章)、宗奕萱、孟佳云(第13章)、周岩(结语)。参与翻译初稿校对的有虞晓双(第5章、第6章)、陈瑛(第12章、结语)、高晓倩(第13章)。吴振阳负责全书翻译的统稿和最终修改核定。在此真诚感谢上述各位老师和同学为本书翻译所付出的诸多辛苦和努力!在本书翻译过程中,本书作者科林·斯特朗和浙江师范大学经济与管理学院祝亚雄老师给予了各种帮助与支持,在此也一并致以诚挚的谢意!

本书涉及了大量最新的大数据及营销方面的知识和丰富有趣的研究案例,在翻译过程中,译者颇受教益,但也感受到了很大的挑战,因此,敬请专家读者对翻译中存在的各种问题进行批评指正!吴振阳2017年9月于浙江师范大学前言

只要涉及大数据,无论是谁都会注意到与之相关的争论已日益两极化。一方面,热情倡导大数据价值的人认为,大数据不仅彻底改变了我们的经营方式,而且还从根本上改变了科学和我们实际生活世界的组织方式;而另一方面,怀疑论者认为,大数据的宣传言过其实,它并没有从根本上改变什么东西。

本书关注的是,在营销方面企业该如何利用大数据,并从这方面对两极化的争论提出自己的见解。因此,本书阐述的是,我们人类理解数据并从中获取意义和生活在数据媒介世界的体验。虽然我们会不可避免地涉及其他一些方面,但这是本书的核心所在。本书所阐述的大部分内容也适合非营利组织和政府机构,但为了简化起见,还是把企业作为主要参照对象。

当然,大数据有时不免会被夸大其词。在这一点上,技术专家通常需要负主要责任。他们经常会让我们认为,只要把各种人类行为简化成一系列数据点,那么就能够预测未来的大部分活动。这种人类行为的简化主义观点没有认识到我们生活的世界、居住的微妙生态系统和行为发生的环境条件的复杂性。简单地利用大数据(指个人数据),意味着营销人员降低了大数据的作用,使之成为组织的战术而不是战略组成部分。

怀疑论者则没有看到大数据的潜在价值。我们非常全面、密切和连续一致地追踪我们的行为,可以获取极为丰富的资源,不可能看不到在这些“山里”确实有大量的“金子”。问题是,这是什么东西?如何才能找到?

本书要阐述的是,营销人员如何从技术专家那里重新夺回大数据的控制权和如何更多地从战略角度来重审大数据的意义。这样做势必会使营销职业重焕生机活力。理解人类行为的数据是营销人员和社会科学家的一项长期有效的技能。我们开始看到,在大数据领域,他们的很多专业技能可以帮助我们有效理解和解释数据。当然,新的挑战也日益明显,而这恰恰意味着我们需要用原始的方式来考虑这些问题。

我们能够从数据痕迹中获取很多有价值的东西,但许多分析和解释仍然停留在很基本的行为层面上。企业力图差异化,但技术削弱了企业在竞争中脱颖而出的能力,而这就创造了一个机会。人类的行为是复杂的,但大数据提供了理解复杂性的新方式。复杂性应该是营销人员的朋友,因为复杂性提供了寻求差异化的机会。

在开发利用大数据带来的机会方面,社会科学家通常都走在企业的前面。诸如网络心理学(cyber psychology)、计算社会学(computational sociology)、文化分析(cultural analytics)之类的新领域正方兴未艾。因此,我们可以充分利用大数据和提高信息处理能力,对人类行为形成新的认识。通过这些新的领域,企业可以找到探索隐藏在数据泥沼中的意义的新方法。

在所有这些当中,我们不能忘记消费者体验。这是因为是消费者产生了这些数据,而且他们还是这些数据所产生的活动的接受者。消费者愿意参与其中吗?我们需要探索消费者理解其体验的方式,因为诸如隐私和授权之类的问题本身正在迅速成为企业差异化的来源。

虽然书中有很多有用的指导原则,但本书并不是详细的使用方法手册。本书号召组织抓住机会,了解如何以令人激奋的新方式利用大数据更好地理解消费者。本书的核心是,为了明智应对大数据,我们确实需要深入理解人类本身。如果我们不能了解在此过程中可能陷入的陷阱,也就不能解释数据。我们需要行为框架模式来帮助我们探索数据集。为了理解企业如何能够最有效地执行数据战略,我们需要理解人类如何应对数据媒介环境。

本书旨在帮助企业以独特的方式来分析思考数据。在这一过程中,你可能会开始以不同的方式来观察人类。作者希望本书能够激发大家的思考和辩论。感谢你阅读本书并加入其中。致谢

在本书的写作和出版过程中,作者有幸得到了许多个人和组织的鼎力相助,在此表示诚挚的谢意!首先,我要感谢我的妻子Joanne,在本书的各个方面,她都给了我非常热情的鼓励和支持。其次,我要感谢同事和朋友,他们和我一起仔细思考、分析讨论和查核了各种资料。我还要特别感谢Guy Champniss博士、Stuart Crawford Browne、Ryan Garner、Alan Mitchell、Corrine Moy、Anders Nielsen、Simon Pulman Jones和Iain Stanfield。

我也非常感谢亨利·斯图亚特出版社(Henry Stuart Publications)能让我在本书第12章引用发表在《应用营销分析》(Applied Marketing Analytics)上的一篇论文。我同样感谢IOS出版社(IOS Press)能让我在本书第11章引用发表在《数字启蒙年鉴2014》(Digital Enlightenment Yearbook 2014)上的一篇论文。我要感谢Simon Pulman Jones允许我引用我们在2013年市场研究协会会议(Market Research Society Conference)上共同发表的题为“视觉意识:在市场研究中运用图像语言的宣言”(Visual Awareness:A Manifesto for Market Research to Engage with the Language of Images)的论文,并以此为基础来撰写本书第9章的部分内容。我还要感谢Stuart Crawford Browne在本书前期写作中所做出的贡献。第1章 这改变了一切

纵观历史,正是我们开发新技术的能力推动了人类的进步。农业就是一个很好的例子。在公元8~18世纪,农业技术停滞不前,几乎没有取得任何新的进展,因此,18世纪的英国农民实际上仍在使用尤利乌斯·恺撒(Julius Caesar)时代的工具。

到了18世纪中叶,詹姆斯·斯莫尔(James Small)才发明了首架可用的单铧马拉犁,极大地提高了效率。当时还取得了许多其他方面的发展,如杰思罗·塔尔(Jethro Tull)发明的种子条播机。英国之所以能够满足当时前所未有的人口增长的需求,在很大程度上,要归功于这些技术进步。同时,这又刺激了人们对产品和服务的更大需求,催生了新的失地劳工阶层,从而为工业革命创造了有利条件。

正如尼古拉斯·卡尔(Nicolas Carr)在他的杰作《浅薄》(The 1Shallows)一书中所指出的那样,科技反映并塑造了我们理解世界的方式。例如,机械钟表改变了我们看待自我的方式。钟表以间隔相同的单位划分时间,由此,我们才能够开始理解划分和测量的概念。在我们所处的世界,我们开始看到整体如何划分成各个不同的部分,而这些不同部分又如何进一步划分成不同的子部分。我们开始认识到,具体可见的物质世界表象背后还隐藏着抽象的规律。正是这样的思维方式驱使我们走出中世纪,迈向文艺复兴及后来的启蒙运动。

我们使用的工具一直都在促进和形成我们的认知,因此,一旦这些工具获得了突破性的进展,我们认识世界的能力也会随之变化发展。虽然我们还未能真正了解信息技术将使我们理解世界的方式发生怎样的变化,但其确实正在发挥这种巨大的影响。现在,技术可让我们以一种以前难以想象的简单方式衡量世界。

正如肯尼斯·库克耶(Kenneth Cukier)和维克托·迈耶-舍恩伯格(Viktor Mayer-Schnberger)在《大数据时代:生活、工作和思维的大变革》(Big Data:A revolution that will transform how we live,2work and think)一书中所指出的那样,世界正在日益“数据化”,即将自然现象进行量化,使之表格化并进行分析的过程。我们一直都在力图数据化世界——如思维导图(think mapping)、科学实验、天气预报和人口普查等。然而,与以前不同的是现代信息技术推动这一进程的程度。信息技术让我们不仅能够有效地将现象转化成数据,而且还提高了我们储存和理解数据的能力,从而从根本上改变了我们量化世界的能力。

到目前为止,虽然在很大程度上数据化还只停留在自然界,但我们现在正处于大多数人类行为也被“数据化”的时代。我们可能还没弄明白,对于我们理解人类行为来说,这意味着什么,但可以肯定的是,其意义是巨大的。在这之前,为了衡量和认识人类行为,我们不得不依赖各种干预手段。我们将人们带到实验室,观察他们在受控条件下如何表现;我们向人们提出调查问题,弄清楚他们对其行为和态度的认识看法;我们设置电极以追踪研究人大脑内部的活动;我们提供生活记录工具来记录人们每天的活动;我们访问人们的家庭,从而更好地了解他们的生活方式;我们将人们召集到观察室来讨论他们的经历。我们可以通过无数巧妙的方式来更好地了解自己及人类同胞。

现在我们有了一套新的工具。随着生活日益数据化,我们已经能够直接探究人们的实际行为,而非他们所说的行为。新的数据来源以一种令人难以置信的个性化(颗粒化)且私密的方式告诉我们人们在做些什么。不仅如此,我们在后面将会看到,这种数据还揭示了人们3的想法和行为动机。相比汉斯·艾森克(Hans Eysenck)等早期心理学家当时所能利用的粗浅简陋的材料,我们现在的数据来源非常丰富。以第二次世界大战中受伤的士兵为对象,汉斯·艾森克研究了人类的性格。要是现在他还健在,看到如今的研究可以运用如此丰富的数据来源,他一定会激动不已。大量新的数据来源不仅大幅降低了研究的难度,而且还为我们从全新的视角研究人类行为提供了机遇。

学术界非常及时地认识到了这种潜力。正如新型计算社会学家(computational sociologist)斯科特·戈尔德(Scott Golder)所说的那

4样:

数据展现了新气象:宏观上,数据来源于全球;微观上,数据包含了大量行为。这些数据正广泛应用于社会和行为科学领域。我们在网络上能够看到各种数据,网络也不会遗忘任何数据。每一次点击数据库,都可能挖掘出对人类行为的新认识。

当然,我们也不会短缺可用来进行分析研究的数据。随着21世纪的到来,“千年虫”终究没让信息技术系统崩溃,人类收集的数据数量开始急剧增长。保尔·兹柯普洛斯(Paul Zikopoulos)等人的报5告指出,2000年,全世界的数据存储量为80万拍字节(petabyte)。未来存储量还将激增,据预测,到2010年,“全球企业在磁盘驱动器中存储的新数据将超过7艾字节(exabyte)……消费者在个人电脑和6笔记本电脑等设备上存储的新数据将超过6艾字节”。据谷歌首席经济学家哈尔·瓦里安(Hal Varian)预测(2012年Smolan和Erwitt引7用),现在人类两天内产生的数据相当于2003年以前人们产生的全部数据之和。现在根本不缺数据。

本书旨在为那些想要利用大数据资源深入了解人类行为的企业阐述各种机会。毫无疑问,很多组织都在越来越频繁地利用大数据来全8面改造业务,包括运作流程、客户体验,并最终改变其商业模式。本书特别关注的是企业应该如何运用数据理解消费者行为,从而真正形成自己的竞争优势。

现在,即使是新创的小企业,通过运用数字技术,也能迅速成为大企业强有力的竞争对手。电脑制造商华硕就是个很好的例子。在9《绝对价值》(Absolute Value)一书中,伊塔马尔·西蒙森(Itamar Simonson)和艾曼纽·罗森(Emanuel Rosen)介绍了企业无须投入巨额广告费,只要巧妙地运用社交媒体就可以将价格合理的好产品成功推销出去的方法。此外,有了数字技术,企业对离岸生产、销售和客户服务等的管理无疑比以往更简单轻松。总而言之,多种因素导致了业务同质化现象的日益加剧,而对消费者的理解日益成为差异化的来源之一。一方面,数据提供了公平的竞争环境,降低了准入门槛,这使小企业在与知名企业竞争中能够迅速形成自己的竞争优势。另一方面,这也使小企业有了新的机会以新的方式了解消费者,从而制定出能够带来市场急需的差异化的竞争策略。数据化的广度和深度

我们的生活日益数据化的方式广泛多样。在这一过程中,我们在不经意间就泄露了大量的个人信息。下面列出了其中的几种方式。

情绪与情感的数据化

社交媒体上爆炸式增长的“自我报告”(self-reporting)泄露了我们许多极为私密的细节信息。例如,数以亿计的人正在使用脸谱(Facebook)和推特(Twitter),这是个令人难以置信的情感观念数据库。许多市场研究公司利用了这一平台,通过搜索网站来获取人们对一些特定问题,通常是某些品牌、产品和服务的详细情感信息。

互动/人际关系的数据化

现在我们不仅能够了解人们交往的方式,而且还能够了解他们交往的对象。因此,社交媒体又通过将职业和个人关系数据化的方式改变了我们对关系的理解。在此之前,我们只有通过直接接触才能获取关系数据,这使社交活动的研究通常只能局限在一些俱乐部、村庄等小团体之中。现在有了社交媒体,我们能够在全球范围内探究各类关系。

语音的数据化

数据化的范围并不局限于文字和各类关系。语音分析越来越普遍,尤其是在这种情况下:作为与客服中心互动的一部分,越来越多的交谈对话被录制并存储起来。随着语音识别技术的发展,以简易方式获取的语音数据会不断增加。客服中心无疑是语音分析的最大受益者,尤其是在结合其他数据的情况下。语音分析可以用来找出人们拨打电话的原因,提高分辨率,确保接电话的客服人员能够按照提纲进行标准化应对,提高客服人员的工作绩效,增加销量并确定问题所在。

传统线下活动的数据化

包括金融、医疗保健和电子商务在内的许多数据密集型行业,都掌握了个人行为和结果方面的海量数据。在传统的非数字领域,人们也逐渐意识到了大数据的潜力。例如,一些原先一直通过网上销售获取大量数据的零售商,已经尝试通过实体店获取数据了。

通过店内摄像机的图像分析来监测客流模式、根据手机信号追踪顾客的位置、购物车上的异频雷达收发机和无线射频识别技术(RFID)的运用,这些技术创新共同促成了这一转变。如果再结合交易和生活方式信息,这些技术创新就成了提高客户忠诚度和进行定向促销的基础。

人脸识别软件也日趋成熟完善。例如,一些公司开发了能够比以10前更灵敏地绘制情绪反应的软件。英国超市巨头乐购一直尝试在其旗下加油站的收银台上方安装电视屏幕型扫描仪。通过扫描顾客的双眼来确定顾客的年龄和性别,从而有针对性地向顾客进行广告宣传。这项技术也可以根据日期和时间,以及通过监视顾客的购买活动来调11整所提供的广告信息。

文化的数据化

随着我们将文化产品数据化的能力不断提高,我们对文化是如何随着时间的推移而改变的方式提出了新的看法。“文化分析学”这门新学科通常运用数字化图像处理和可视化技术对图像和视频集合进行分析,从而探索文化趋势。谷歌推出的书籍词频统计器(Ngram)可能是此类项目中规模最大的,它对1800~2000年世界上的520多万本书籍进行了数据化。

在过去,我们的许多行为都不能用大数据分析法来进行分析。现在,我们已经能够用一些前人难以想象的新方式对这些行为进行测量和分析。但是,我们或许需要花点时间来回顾过去并进行思考:实际上我们究竟收集到了什么?“数据”究竟包含哪些内容?“数据”这个词用起来容易,但对它下定义不容易。什么是数据

实际上,“数据”的英文“data”来源于拉丁文“dare”,意为“给予”。因此,数据的本意为某种现象所能“给予”的东西。然12而,正如评论家罗布·基钦(Rob Kitchin)所指出的那样,“数据”13通常指那些通过观察、计算、试验和记录来获取和提炼的要素。

因此,我们所理解的数据实际上是“capta”(来源于拉丁语capere,意为“获取”),即从所有潜在数据集中选择和收获的数据单位。正如基钦所说,人们用“datum”而非“captum”来表示这一科学单位或许是个历史意外。从这一点上讲,科学并非处理自然界“给予”科学家的东西,而是那些“已经获取”的东西,即科学家根据需要从自然界中挑选出来的东西。

这一小段论述想要强调的是,通过测量获得的数据都是从所有可获取数据中挑选出来的,也就是我们从所有被给予的数据中选择出来的。因此,数据本身就具有局部性、选择性和代表性。

这是本书的关键问题之一,之后我们还将反复提及。数据不会“自己说话”,所以我们运用数据的方式必须经过一系列的选择。如果想要理解所有这些数据,就需要理解我们借以观察数据的透视镜。定义大数据

有关大数据方面的著述可谓是汗牛充栋,因此,花时间定义大数据似乎就显得无足轻重了。但是,构成我们对大数据的共识的不同要素有助于我们对人类行为的进一步认识,因此,这一点仍值得一提。

无论在学术界还是商界,大数据都没有统一的定义,但是,在新14知识的一项调查中,罗布·基钦确定了大数据的一些关键特征:

·数量巨大——使我们能够广泛探索人类行为;

·速度快,实时或近乎实时产生——使我们能够了解行为在当时是如何产生的;

·类型多,包括结构化和非结构化数据——反映了我们如何运用各类数据集来揭示人类行为背景情况的多样性;

·范围广,通常囊括了整个总体或系统——便于我们理解人类行为的多样性;

·分辨率高——使我们可以了解非常个性化(颗粒化)的私密行为;

·关联性——我们的行为都有特定的情景,这能够促进新观点的产生;

·灵活性——因此,我们很容易拓展新领域,快速扩大范围,从而使资源能够不断得到开发利用,产生新的认识。大数据的特性

大数据为营销人员,更有可能是市场研究人员,带来了前所未有的机遇。在这样的背景之下,大数据的特性就更值得我们深入思考,也正是这一点促使组织设立相应的大数据职能部门。根据斯科特·戈15尔德和迈克尔·梅西(Michael Macy)的观点,大数据能够带来以下新机遇。

社交数据

生活是难以观察的,特别是我们想要了解的社交方面的情况。在过去,如果想要了解人际关系的运作情况,我们就必须向个人询问其家庭和朋友。这必然存在很大的局限性,所以我们只能研究一些小群体或社区中的社会关系,而且研究时间也很有限。研究人员别无他选。一方面,如果要进行有很强代表性的研究,就需要从总体随机抽取个体样本,以期充分代表总体。但这对于我们了解研究对象的社会关系的影响,而不是他们的个体特征的影响,并没有什么帮助。

另一方面,还有其他研究方法。例如,滚雪球抽样法,运用这种方法,我们能够从最初的研究对象那里找到研究对象之间的关系,但缺点在于运用这种抽样法,研究人员很难获得样本来适当公正地代表总体。

如果能够获取大数据,就有可能克服以前方法的局限,相对公正地研究社会关系了(以前的研究方法默认了这一隐含假设的影响:个体特征是人类行为的基本决定因素)。现在我们可以很幸运地通过数据追踪分析来确定社会关系的性质。社会关系的频率和强度正以一种前所未有的方式展现在我们眼前。

纵向数据

纵向数据是所有社会科学研究人员的黄金标准。了解消费者在不同时间和环境下的行为是十分重要的。但要获取相关数据的代价不菲。市场研究机构通常会大规模招募消费者群组,广泛跟踪与消费者相关的活动、态度和意向。政府也会在收集时间序列数据方面投入资金,以研究健康和财富方面的状况,并且为了解决这项任务中艰巨的后勤保障问题,政府、市场研究和学术团体会进行一系列的协作。收集纵向数据的成本仍旧很高。但现在,借助大数据,我们能够研究个人的行为方式(和思维方式,后面会谈到这一点),研究什么样的活动会导致我们感兴趣的特定事件的发生,以及一些行为在何时不会产生我们感兴趣的结果。大数据具有改变我们研究人类行为能力的潜力。

数据的广泛性

斯科特·戈尔德和迈克尔·梅西指出:“我们在网络上能够看到各种数据,网络也不会遗忘任何数据。”我们使用“大数据”而非“网络”一词意味着在当今世界,互联网以及政府和企业的数据库中关于人们生活的信息已经非常个性化(颗粒化),而这些信息是我们用其他任何方式都无法收集到的。因此,我们不仅能够接触到一些重大事件(例如,一些社会效应是如何影响社会稳定的),而且能够接触到生活中私密和个性化(颗粒化)的片段(例如,我们喝水或者做家务的频率)。

实时数据

我们现在能够获取实时记录的信息,不再需要像以前那样依靠事后追溯的方式来收集数据。我们知道,通过听取受访者对过去活动的回忆来获取信息的方式有时会存在很大的局限性。例如,对于过去经历中非常细节的信息,受访者的回答就不一定完全准确。大数据使我们能够准确地了解每个活动是在何时发生的,哪些是相关的以及和谁沟通了什么信息。调查数据依然很重要,但是我们已经开始意识到,它在大数据时代所扮演的角色已经不同了。

非引人注目的数据

大数据是“被动”收集来的,以研究调查为例,即受访者无须参与其中。因此,这就减少了由于介入干涉而使受访者改变其行为的设计影响。例如,这种设计影响可能是受访者会按照他们想让我们相信的那样进行活动或报告情况,也可能是他们认为自己的确会那么做——但不一定能反映他们真实的日常习惯。

追溯性数据16

在线互动被称为“持续对话”。因此,不同于面对面的对话和交易,数字化的活动能够被非常准确地记录下来,并永久保存。所以,虽然我们应该留意理解对话发生的情景,但(要是的确没有留意的话)我们依然可以重新构建那些情景,相对于其他追溯性分析的方法,正是这一点使追溯性分析更加完整、准确。

总而言之,这些新的数据来源以多种方式为营销人员提供了获得新洞见的全新机会。由于通过这些方式与通过调查等其他方式得出的信息可以相互补充印证,所以,这并不意味着前者应该取代后者。例如,虽然调查能够提供总体的态度分布的可靠估计,但通常只能提供追溯性的结果(即使现在可以采用更多的实时方案),而无法让我们正确理解社会关系的影响,并且不可避免地会受到受访者对自身情况的报告能力的影响。本书简介

数据似乎给很多人留下了奇怪的印象。人们怀着一定的敬畏之心处理数据,就好像它们揭示了不容置疑的永恒真理。本书旨在对这一思维定式提出质疑,并侧重于积极探索如何通过数据获得对人类境况的深入了解。

本书的第一部分探讨了我们应该如何看待数据,实际上是在呼吁人们要运用批判性思维看待我们从信息系统中获取的数据。数据本身并没有错,但是我们收集、审视和理解这些数据的方式可能出错。考虑到大数据在预测和广告宣传两个关键领域具有重要意义,所以第一部分对这两个领域进行了批判性的讨论。第一部分的各章并不是为了说明数据的获取对预测和广告宣传毫无帮助,而是为了说明,如果在使用数据时缺乏批判性思维,我们就可能掉进各种陷阱。

第二部分为大数据会“自己说话”这一广为流传的假设提供了一种替代方案,也就是说,为了真正洞察数据,我们只需要置身事外,让数据来揭示其本质。正如读者在第一部分将会看到的那样,我们不能仅仅依靠关联性,我们需要运用人类行为的框架来改进我们探索数据的方式。我们现在的处境相当怪异:通常是由技术专家而非社会科学家来运用大数据对消费者认知进行分析。考虑到我们使用的工具是由科技驱动的,这一点是无可厚非的。但是,这样的解释总显得有些苍白,无法建立全面、深刻的人性模式。人类行为的简化模型比比皆是。营销人员重新收回自己的领域,与技术专家共同改进企业,获得对人类行为的不同理解方式的时候到了。这一部分还将涉及如何运用技术呼吁更多的人加入到这项活动中来。数据分析不再是技术专家、社会科学家等少数精英的专利。它寻求多种观点和技能,以便更好地服务组织。现在的新技术平台为此提供了便利。

本书的最后一部分是关于消费者在以数据为媒介的世界中的体验。随着企业逐渐向“数据化转变”,企业和消费者之间日益通过数据进行联系了。因此,企业可以通过数字广告瞄准消费者,让其在网上进行商品的浏览查看和购买,通常可以通过数字创新活动建立组织的客户接触点,甚至这些服务本身都可能是数字化服务。

消费者如何看待这一点?人们普遍认为,以这样的方式管理客户17关系是件好事情,一定能促进业务的发展。凯捷咨询公司的调查发现,许多业务主管认为,在三年内大数据能使业绩增长41%,这说明大数据的前景是备受看好的。但生产力和大数据之间一直都呈线性关系吗?在第三部分,我们将会指出,它们之间的关系并非总是如此,实际情况要复杂得多。例如,一旦消费者体验了过多的数据驱动型个性化广告,他们就会产生“恐怖谷”(uncanny valley)心理。

数据的使用迫使企业开始考虑消费者授权、隐私和个性化这些重大问题。这些问题可能与流行的大数据观点相悖。认为大数据无所不能的初始狂妄心理开始逐渐消退,我们正在进入现实主义的新阶段,我们对大数据的潜力逐渐现实起来了。更令人振奋的是,在理解消费者方面也是如此,企业考虑得更加周到和细致入微了。

对于企业而言,现在正是运用大数据的大好时机。但它们还需要转变观念。在探讨大数据的潜力方面,还有很多既得利益问题,习惯于以过分简单的方式来理解消费者:让数据“自己说话”,而不去思考它的含义;接受关于人类行为的简化论,而没有认识到进一步解释的必要;只是因为你会使用一系列的数据指标,而不是因为它们有什么意义;执行高效的客户管理方案只是因为它们是以数据为媒介的,而不考虑它们对企业造成的影响。这样的例子不胜枚举。决定着手解决本书中提出的挑战性问题的企业会发现,实现数据化的转变过程不一定需要千篇一律,而应该开始考虑其中的细微区别,从而实现差异化。第一部分  当前思维第2章 观点会凭空而来吗

规模代表一切是大数据狂热支持者的一个重要观点。换句话说,随着数据量呈指数级急剧增长及我们转换、储存和分析数据能力的提高,我们的洞察力也在提高,这是传统方式无法实现的。不同于随机抽样的传统统计方法,有人认为,现在我们已经能够根据所有而非仅仅部分具有代表性的数据来做出判断。1

迈耶-舍恩伯格和库克耶指出,因为随机抽样能够降低大规模数据收集的难度,更易操作,所以随机抽样一直是大规模测量的主要方法。但在大数据时代,有人认为,这一方法就成了“次优”的方法。我们如今生活在大数据的世界,既然能够掌握整个总体,那么为何还要采用样本呢?

虽然大数据的确为企业从其传递的知识中获利创造了许多新的机会,但大数据时代的到来难免会伴随着一些夸大其词的说法,例如,认为所有数据无论如何都是客观且绝对可靠的。本章将分析大数据是否真的超越了科学的传统局限。讨论的对象

在数据收集方面,有个根深蒂固的迷思:样本越大越具代表性。这在历史上有个知名的例子。1936年10月,即美国大选前夕,《文学2摘要》(The Literary Digest)对总统候选人进行了民意调查。杂志社向预期选民一共寄出了1000万份明信片调查问卷,其中回收了230万份。调查对象是杂志社从杂志的订阅名单、汽车登记名单、电话号码本和俱乐部会员名单中选取的。

有趣的是,该杂志社运用这种方法成功预测了此前四届总统大选的结果。然而,事实证明,这一次做出的预测——共和党候选人阿尔夫·兰登(Alf Landon)将击败当时的总统富兰克林·罗斯福(Franklin Roosevelt)是一次重大失误,罗斯福以压倒性多数获胜。两年之后,该杂志社宣告破产。

有分析认为,许多原因导致了那次重大失误,而其主要原因之一是当时的经济状况——美国当时正在遭受历史上最严重的经济危机。(昂贵的)杂志的订阅名单、汽车登记名单、电话号码本和俱乐部会员名单上的民众,显然大多是支持共和党候选人的上层社会的选民。虽然在过去的选举中收入差距并不会导致多大误差,但在大萧条时期,这显然是个重要因素。

另一个问题就是自我选择。和没有寄回调查问卷的选民相比,那些愿意花时间寄回调查问卷的选民的投票意向很可能是不一样的。样本误差的来源

在研究样本时,研究人员当然应该将误差考虑在内。事实上,对如何才能保证误差降至最低这一问题,研究人员已经探索了很长时间。下面简要分析一下几种可能出现的误差类型。

1.自我选择误差(self-selection bias)。如果个体将自己划归为某一群体而进行了自我选择,那么这部分人可能会在一些重要方面不同于研究人员想要分析的总体,就会出现这种偏差。那些寄回《文学摘要》问卷的选民显然受到了自我选择因素的影响。

2.覆盖不全误差(under-coverage bias)。这种误差出现在抽样忽略了总体的相关部分的情况下。《文学摘要》的调查也没有考虑经济状况较差的人群,这部分人倾向于支持时任总统的民主党候选人罗斯福,而非他的对手。

3.幸存者误差(survivorship bias)。这种误差出现在只关注从某一过程中“幸存”下来的人或物,而在无意之中忽略了那些没能“幸存”下来的人或物的情况。例如,那些因为已不复存在而被排除在绩效研究之外的企业。

除了样本选择本身之外,其他误差的来源也值得一提,包括研究对象不愿意说出实情(饮酒习惯就是个很好的例子)、过低的反馈率、调查中问题的措辞和顺序等。

根据古德(Good)和哈丁(Hardin)得出的结论,勤奋细致能3够帮助我们克服大多数抽样问题:

如果做好周密的长期规划,我们是能够减少甚至消除大多数潜在误差的,但全部消除则几乎是不可能的。我们应该接受误差必然存在这一事实,然后尽力识别和报告“漏网之鱼”。抽样的优点

普查统计的方式(即获取整个总体的信息用于分析)显然很受研究人员的欢迎。但是,抽样仍占据着主导地位,原因如下。

·控制成本:很多企业都有庞大的交易数据库,但它们通常只会挑选10%的记录进行分析,以免处理的时间和成本过多。企业之所以这么做,一方面是为了确保有充足的数据来提供充分的代表性,另一方面是为了能够探究特定的人口统计特征或细分市场。

·保证质量:统计学家威廉·爱德华·戴明(William Edwards 4Deming)对质量测评运动影响巨大。他指出,抽样研究的质量要优于普查统计研究:“比起完全覆盖的普查统计方法,抽样具有更好的访谈(测试)可能性,对遗漏、错误或可疑信息的调查可能更全面彻底,监管可能更为严格,数据处理也可能更加到位。”许多研究结果也证实了这一点。研究中超过90%的调查误差来源于非抽样误差,只5有10%来源于抽样误差。

·加快速度:由于组织收集、处理和分析大规模数据集需要花费大量时间,而抽样能够更快地获取相关信息。样本并非总是越大越好

随着样本规模的增加,误差幅度会减小,这是市场研究人员十分熟悉的一个重要现象。然而,值得注意的是,这并不是无限的。如表2-1所示,样本规模在200~1500时,误差幅度的减小量是很显著的,然后误差幅度的减小量开始趋于平稳。表2-1 误差幅度随样本规模的变化

因此,虽然大规模样本的确能够提高准确性,但是改善率也下降得很快。此外,每挑选一次子样本,都必须重新调整确定误差幅度,这就是市场调研人员抽取尽可能大样本的原因。大数据和抽样

大数据通常都有个隐性假设:我们能够获取所有的数据记录,因此,我们的研究对象是整个总体,而不是其中的某个样本。根据迈耶-舍恩伯格和库克耶的观点,获取全部数据具有以下优点:

·研究人员不仅能够更自由地进行探索,而且还能深入以前接触不到的细节层面;

·得益于数据收集的方式,数据能够较少受到与抽样相关的偏差污染;

·数据的规模可使研究人员发现在小规模样本中不可能发现的关系,这也有助于发现以前隐藏的信息。

我们不妨以谷歌的流感趋势(Google Flu Trends)调查为例来进行说明。谷歌利用汇总搜索关键词来预测流感,分析结果可以反映出流感在城市中的传播情况(第6章有该服务作用的更详细介绍)。另一个例子是网络科学研究领域的权威艾伯特-拉斯洛·巴拉巴西(Albert-Laszlo Barabási)所做的研究。他花了4个月的时间对某无线运营商提供的匿名手机用户的日志进行了研究,而该运营商为近1/5的欧洲人口提供无线服务。运用“每个人”的数据集,他和他的团队6能够解释人类的许多行为。他认为,这是运用小样本无法做到的。

按照这一思维,大数据正是人类行为研究者长期以来梦寐以求的东西。但是,正如下文所述,大数据的使用仍面临诸多挑战。

大数据的抽样

虽然可能有些违背常理,但通常避免运用全部数据集才是更加可行的做法。随着大数据的发展势头不断加快,在2010年,教育和政7策研究机构阿斯彭研究所(Aspen Institute)曾发表过一份报告,其中提出了一个问题:“是否多即是少?”

该报告引用谷歌首席经济学家哈尔·瓦里安的观点,讨论了小规模数据永远无法代替大数据这一前提假设:

谷歌的工程师会将日常数据总量的1/3作为样本,然后根据我的代表样本进行汇总统计……通过随机抽样得出的结果一般和普查统计得出的结果一样精准。

研究的对象

大数据的支持者认为,丰富的数据不仅能够使我们发现那些我们自己都尚未意识到自己在寻找的东西,而且还能产生许多有用的新见解。只要我们在寻求有意义的答案的过程中问对了问题,这是可以实现的。为此,我们必须确保可用大数据能够代表感兴趣的整个总体,并且其来源也必须具有代表性和准确性。

回顾巴拉巴西和网络运营商一起进行的研究。其确实代表了无以计数的个体。但为了了解背景和环境,在做出一般性假设之前,我们还必须了解更多有关运营商的信息。例如,该运营商的商业客户是否占了更高的比例?如果是,它是否考虑了这部分客户?客户的年龄是否偏大,是否以家庭为主?只有了解这些之后,我们才能知道将会出现的误差类型。

麻省理工公民媒体中心(MIT Center for Civic Media)的凯特·克劳福德(Kate Crawford)并不确定大数据是否真如看上去那般神

8奇:

数据和数据集并不是客观的,它们是人为设计出来的。我们让数字“发声”,根据它们得出结论,并根据我们的理解给它们下定义。隐藏在收集和分析阶段的误差具有相当高的风险。对于大数据而言,这和数字本身一样重要。

她研究过一些在社交网络中由于缺乏代表性而产生误差的例子。对于许多研究人员而言,这正是大数据的主要来源之一。她强调了所谓的“信号问题”。2012年,在破坏力惊人的飓风桑迪横扫美国东北部期间,人们从10月27日到11月1日共发了2000多万条推特。有研究将这些推特和四方网(Foursquare)上的数据进行了合并。在得出的结果中,有的是符合预期的,比如在暴风雨前的夜晚去超市购物的人是最多的;有的则出乎意料,比如人们的夜生活在暴风雨过后的第一天就恢复了。然而,她还提到,其中很大一部分推特都来自曼哈顿市,而曼哈顿受到的影响比其他受灾地区都要小。因此,这一总体情况是一种误导。要知道,那些重受灾区的供电是中断的,手机根本无法使用。

穴居人效应

另一种误差产生于这一事实:选择你要研究的数据这一简单的行为本身就是一种约束。你会认为,在原则上,大数据要能避免调查问卷设计中固有的误差。然而,实际获取什么数据和数据代表什么意义对结果产生的影响是完全不同的。9

很多文献都曾详细介绍过“穴居人效应”(caveman effect)。我们对史前祖先的了解来自于我们在洞穴中发现的历经数千年后保存下来的东西,例如,4万年前的画、火山坑、堆积土(生活垃圾)和墓地;但也可能有除洞穴之外的其他史前生活的例证,例如,木画和兽皮等,只是这些在很早之前就消失了。我们的祖先之所以和洞穴有关,是因为这些数据仍然存在,而不是因为他们的确主要生活在洞穴中。

移动网络运营商掌握的数据也是同样的道理。运营商通常只会留下那些和计费相关的数据,包括通话时长、发送的信息内容和数据记录(data minutes)这些细节,而不会保留通过脸谱等第三方网站进行的其他活动。所以,虽然记录可能有成千上万条,但并不一定能够代表所有活动,这也决定了分析的性质。

此外,我们还需考虑哪些变量需要研究。杰斯珀·安德森(Jesper Andersen)是名统计学家和计算机科学家,同时也是无风险10公司(Freerisk)的联合创始人。他曾警告,“清理数据”,或者决定哪些特性和变量是重要的,而哪些是可以忽略的,这都是不太可靠的提议,理由如下:

这样会使数据不再客观。决定哪些是重要的变量是一个非常主观的过程。人们会认为你是在以一种确定的方式处理数据,但实际上,在你接触数据的瞬间,它们就已经被污染了。你所做的任何操作都会破坏数据的客观基础。

从本质上说,“穴居人效应”同样适用于大数据领域中的调查问卷误差。规模不能代表一切。我们获得了大规模数据,并不意味着我们找到了通往真相的捷径。这一过程并不是客观的。我们做出决定,这些决定就会导致误差。所有方式都会导致误差。这是不可避免的。问题在于我们在确定了这些误差的性质之后,是将它们改正还是允许它们存在于解释数据的过程之中。

凯特·克劳福德还举了另一个例子。她提出,数据集和物理空间以及人类文化之间存在着复杂的关系。波士顿政府曾开发过一款应用程序来帮助市民发现路上的坑洞(坑洞是城市道路的一大问题)。结果发现,大部分的警报都来自智能手机用户。然而,这些并不能代表低收入群体的意见。因此,波士顿市在分配资源时还应将这一点考虑在内。

线上和线下世界的区别

北卡罗来纳大学的教授泽伊内普·图菲克希(Zeynep Tufekci)和普林斯顿信息技术政策中心(Princeton’s Center for Information Technology Policy)的一位研究人员把推特的使用和对果蝇的生物实11验进行了比较。由于这些昆虫对环境的适应性强,繁殖快,生命周期短暂、固定并且成虫的体积足够小,便于研究,所以它们常被选为研究对象。

对果蝇的研究发生在实验室,而非现实生活中。她进行这一比较是因为推特就像大数据分析中社交媒体的“模式生物”(model organism)。虽然使用推特的人数占美国人口的10%,但仍旧有部分人和团体是被排除在外的。结果会如何?她说,数据的规模大,并不表示我们就能够获得更多的洞见,因为它们并不一定能够反映现实生活。

这是公平的挑战,因为我们在线上的操作方式和在线下的操作方式也许是截然不同的。这不仅适用于社交网站,还适用于我们与某个在线企业交易的方式。在某些方面,这很好理解。例如,我们在网络世界中不会受到地理位置的限制。我们即使身处英国也能和身处澳大利亚的人交谈,就像和坐在我们身边的人交谈一样容易。网络世界也没有时间限制,这使我们可以缓一缓再回复邮件、状态更新(status update)或者营销信息,而社会规范不允许我们在面对面交流中这么做。显然,这会使我们在表现自己时更加谨慎。

另一个重要的不同之处在于在线交易的匿名性。在网上我们可以给自己创造很多新角色,并且表现得和在面对面交流时完全不同。一些出现在社交网站上的刻薄对话就证明了这一点。

虽然很多研究倾向于关注线下交流的相对丰富性,但戈尔德和梅12西在关于线上和线下环境比较的评论中指出,个人现有的历史记录(不管是在社交历史还是在客户关系管理系统中)和媒体的新用途(比如表情符号的使用和推特@回复)都可能使媒体的功能比我们原先认可的还要丰富。

当然,有人质疑从线上总体推广到线下总体的泛化价值。网络用户通常比人口总体更年轻,受教育程度更高,并且更富有。网络环境中的代表性也存在偏差,所以,虽然这包括了总体中的一部分,但其涉及的广度和深度与一般的网络用户是截然不同的。

此外,我们认为,在代表性方面,任何形式的研究都存在问题。现在大多数的市场研究都在网上进行,挑选具有代表性的样本作为网上调查的研究对象。虽然这些研究对象的代表性能够满足大部分的研究需要(并证明能显著减少成本),但不一定就是黄金标准。政府更倾向于概率抽样,因为这样抽取的样本最具代表性(普查除外),但即使是这样的情况,我们也必须考虑那些拒绝参与调查的人口的比例。从事实验研究的学者也质疑其参与者的代表性,亨里希13(Henrich)等人称之为“怪异”(WEIRD)的研究对象。“怪异”(WEIRD)是western、educated、industrialized、rich和democratic四个单词的首字母,所以WEIRD指的是西方、受过教育、工业化、富裕和民主社会中的人。

所有的研究方法都各有利弊。正如戈尔德和梅西所说,线上世界虽然不同于线下世界,但还是真实存在的。那些追求地位、社会认同和关注的人会带着这些动机参与线上活动。无论是在线上还是线下,当和企业打交道、搜索信息、寻求友谊或者浪漫感情时,我们仍旧得跨过许多障碍。另外,正如我们从第1章中所了解到的那样,随着世界日益数据化,我们获取那些曾经是线下,然后突破限制(成为线上)的数据的能力正在迅速增强。小结

本章想要指出的是,完全客观有时是不切实际的。研究总要进行取舍。研究不是收集没有误差的数据,而是要知道你愿意接受数据中的哪些误差。当然,其中有些误差可能与你要研究的问题并无关联,另一些的影响可能很小,但进行纠正要花费大量的资金和时间,所以并不值得。值得思考的是,抽样既是一门艺术,也是一门科学,在降低误差影响的长期努力下,得到了显著的改善。我们开始认识到,大数据并不完美(在这里,完美是指能够涵盖整个总体),对于大数据分析而言,如果开始思考在这一截然不同的背景下如何运用最佳的抽样方法,那么或许这并不是件坏事。不幸的是,通常很少有人会认真思考这些问题,因此,这样的分析很快就会遭到质疑。这就启发我们应该确定自己的能力范围,在能够减小误差的地方就要减小误差,但也要知道那些不能减少误差的地方。第3章 选择工具

组织离不开测量。测量能够确定企业的历史、现在和未来。测量能使企业确定绩效状况、预警潜在的危险并发现新的机会。

大数据时代似乎为测量带来了更多的机会。然而,数据太多引起的问题,也许并不比数据太少带来的问题少:因为数据太多,所以我们只能重点选择其中的一部分进行处理,而并非因为这么做是“正确的”。

这样一来,我们会假设,分析大量数据所得出的结论都是基于事实的,但这十分危险。这就是已故的诺贝尔奖获得者——物理学家理查德·费曼(Richard Feynman)提出的“货物崇拜”(cargo cult)1理论:有些事情即使没有什么事实根据,也会被认为是科学的假象。据他描述,在第二次世界大战期间,为了抵御在珍珠港事件之后日军发动的袭击,美军在南太平洋的岛上建立了基地。岛上的一群土著目睹了美军忙忙碌碌地建造和维护简易机场的情况。

第二次世界大战结束后,美军便撤离了。为了继续享受飞机带来的物质利益——“来自天空的货物”,这些土著不断建造飞机跑道的复制品、临时木屋营地和为他们所谓的空中交通管制员制作木质耳机,甚至发展出了一套宗教仪式,希望这一切能够重新恢复。当然,虽然这些土著的做法是“严谨的”,但是那些飞机再也没有回来。换句话说,他们输入的数据本身就存在缺陷。

现在的企业比以往更具优势,这自然是毋庸置疑的:即使是很简陋的企业,其所能获取的庞大数据量也都是几年前所无法比拟的。然而,虽然有了大量的数据,但它们仍然没有明确以下几个方面的指导原则:

·采用何种指标?

·需要测量什么?

·现在的形势如何?

·从哪里开始?

·如何理清思路?

因此,选择指标绝非简单直观。一旦选择了错误的指标,用来改变人们行为的方法就是错误的,并且还会带来一些意想不到的后果。无效指标的危害

如果我们忽视了收集统计数据的原因,对背景情况产生错误的判断,或没有弄清我们想要解答的问题,那么指标常常就是毫无意义的。随着网络分析的出现以及网络活动产生的数据如雪崩般涌现,衡量错误对象的倾向愈发普遍。现在,组织都在想方设法弄清一个问题:在大量的衡量指标中,应该关注哪些?

正如阿利斯泰尔·克罗尔(Alistair Croll)和本杰明·尤科维奇2(Benjamin Yoskovitz)在《精益数据分析》(Lean Analytics)一书中所指出的那样,我们极易落入他们所谓的无效指标(vanity metrics)陷阱,即那些不断增多,让我们感觉良好,但实际上并不能帮助我们做出提高绩效的决策指标。

克罗尔和尤科维奇列出了8大无效指标:

·点击量:这一指标出现在互联网“愚昧”的发展初期,但实际上是毫无意义的。我们应该用统计人数来加以取代。

·网页浏览量:再次指出,除非商业模式是基于网页浏览量的,否则统计人数更合理。

·访问人数:我们怎么知道是同一个人访问了多次,还是很多人访问一次?

·独特访客数(number of unique visitors):这一指标根本无法解释访客访问、逗留和离开的原因。

·粉丝/好友/“赞”的数量:除非能让他们做些有意义的事情,否则,这只是人气比拼。

·网站停留时间/网页数:除非该指标的确与业务相关,否则这并不能代表真实的参与度和活跃度。只有在显示访客在投诉或者支持页面停留时间的情况下,你才能从中了解到一些有用信息。

·收到的邮件数量:该指标的数量可能十分可观,但需要再次指出的是,能从中获得的有用信息是十分有限的。

·下载量:这虽然能够提升你在应用商店的排名,但是这些数字本身并不能创造任何实际价值。

当然,只有认为指标是正确的,我们才会选择它们,而不是故意要选择错误的指标。然而,营销人员塞思·戈丁(Seth Godin)指出,这是十分危险的:“我们一旦沉迷于代理指标,就会把时间花在3提高指标上面,而不再专注于实现最初的(更为重要的)目标。”4

埃里克·莱斯(Eric Ries)是《精益创业》(The Lean Startup)一书的作者。他认为,无效指标不能通过他所称的“那又怎样”(so what)的测试。他支持真正有助于改进业务的可靠指标(solid metrics),例如,收益、销量、客户保持率以及可揭示现有客户能够创建新客户的可追踪行为模式的指标。了解注册会员的人数和脸谱网上的好友人数没有多大效果,只有了解那些能够告诉我们非常有用信息的指标,例如,监测忠实客户,以便与他们建立良好的关系,才能真正提高业绩。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载