数据挖掘与数据化运营实战:思路、方法、技巧与应用(txt+pdf+epub+mobi电子书下载)


发布时间:2021-04-02 23:27:07

点击下载

作者:卢辉

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据挖掘与数据化运营实战:思路、方法、技巧与应用

数据挖掘与数据化运营实战:思路、方法、技巧与应用试读:

前言

为什么要写这本书

自从2002年第一次接触“数据挖掘”(Data Mining)这个新名词以来,转眼之间我已经在数据挖掘商业应用相关领域度过了11年。这11年里我既见识了国外数据挖掘商业应用如火如荼地开展;又经历了从21世纪开始,国内企业在数据挖掘商业应用中的摸索起步,到如今方兴未艾的局面;更有幸在经历了传统行业的数据挖掘商业应用之后,投身到互联网行业(当今数据分析商业应用热火朝天、发展最快,并且对数据和数据挖掘的商业应用依赖性最强的行业)的数据挖掘商业实践中。这11年是我职业生涯中最为重要的一段时光,从个人生存的角度来说,我找到了谋生和养家糊口的饭碗——数据挖掘工作;从个人归属的角度来说,我很幸运地碰到了职业与兴趣的重合点。

在国内,“数据挖掘”作为一门复合型应用学科,其在商业领域的实践应用及推广只有十几年的时间,在此期间,国内虽然陆续出版了一些相关的书籍,但是绝大多数都是基于理论或者国外经验来阐述的,少有针对国内企业相关商业实战的详细介绍和分享,更缺乏从数据分析师的角度对商业实战所进行的总结和归纳。因此,从商业应用出发,基于大量的商业实战案例而不是基于理论探讨的数据挖掘应用书籍成为当今图书市场和广大“数据挖掘”学习者的共同需求。

同时,在有幸与数据挖掘商业实践相伴11年之后,我也想稍微放慢些脚步,正如一段长途跋涉之后需要停下脚步,整理一路经历的收获和感悟一样,我希望将自己一路走来的心得与体会、经验与教训、挫折与成绩整理出来。

基于以上原因,我决定从数据挖掘的商业需求和商业实战出发,结合我10多年来在不同行业(尤其是最近4年在互联网行业)的大量数据挖掘商业实战项目,将自己这些年来积累的经验和总结分享出来,希望能够起到抛砖引玉的作用,为对数据挖掘商业实践感兴趣的朋友、爱好者、数据分析师提供点滴的参考和借鉴。同时,鉴于“数据化运营”在当今大数据时代已经成为众多(以后必将越来越多)现代企业的普遍经营战略,相信本书所分享的大量有关数据化运营的商业实践项目也可以为企业的管理层、决策层提供一定程度的参考和借鉴。

我相信,本书总结的心得与体会,可以推动自己今后的工作,会成为我的财富;同时,这些心得与体会对于部分数据分析师来说也可以起到不同程度的参考和借鉴作用;对于广大对数据挖掘商业应用感兴趣的初学者来说也未尝不是一种宝贵经验。

我是从机械制造工艺与设备这个与“数据挖掘”八竿子打不着的专业转行到数据挖掘商业应用行业的,这与目前国内绝大多数的数据分析挖掘专业人士的背景有较大差别(国内绝大多数数据分析挖掘专业人士主要来自统计专业、数学专业或者计算机专业)。我的职业道路很曲折,之所以放弃了自己没兴趣的机械制造工艺与设备专业,是因为自己喜欢市场营销。有幸在国外学习市场营销专业时了解并亲近了国外市场营销中的核心和基石——市场营销信息学(Marketing Informatics)。当然,这是国外10多年前的说法,换成行业内与时俱进的新说法,就是时下耳熟能详的“数据分析挖掘在市场营销领域的商业实践应用”)。说这么多,其实只是想告诉有缘的对数据挖掘商业实践感兴趣的朋友,“以业务为核心,以思路为重点,以挖掘技术为辅佐”就是该领域的有效成长之路。

很多初学者总以为掌握了某些分析软件,就可以成为数据分析师。其实,一个成功的数据挖掘商业实践,核心的因素不是技术,而是业务理解和分析思路。本书自始至终都在力图用大量的事实和案例来证明“以业务为核心,以思路为重点,以挖掘技术为辅佐”才是数据挖掘商业实践成功的宝典。

另外,现代企业面对大数据时代的数据化运营绝不仅仅是数据分析部门和数据分析师的事情,它需要企业各部门的共同参与,更需要企业决策层的支持和推动。

读者对象

❑对数据分析和数据挖掘的商业实践感兴趣的大专院校师生、对其感兴趣的初学者。

❑互联网行业对数据分析挖掘商业实践感兴趣的运营人员以及其他专业的人士。

❑实施数据化运营的现代企业的运营人员以及其他专业的人士,尤其是企业的管理者、决策者(数据化运营战略的制定者和推动者)。

❑各行各业的数据分析师、数据挖掘师。

勘误和支持

由于作者水平和能力有限,编写时间仓促,不妥之处在所难免,在此恳请读者批评指正。作者有关数据挖掘商业实践应用的专业博客“数据挖掘 人在旅途”地址为http://shzxqdj.blog.163.com,欢迎读者和数据挖掘商业实践的爱好者不吝赐教。另外,如果您有关于数据挖掘商业实践的任何话题,也可以发送邮件到邮箱chinadmer@163.com,期待你们的反馈意见。

如何阅读本书

本书分为19章。

第1~4章为基础和背景部分,主要介绍数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的本质,以及实践中常见的分析项目类型。

第6~13章是数据分析挖掘中的具体技巧和案例分享部分,主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示。

第5章,第14~19章是有关数据分析师的责任、意识、思维的培养和提升的总结与探索,以及一些有效的项目质控制度和经典的方法论。

本书几乎每章都会用至少一个完整翔实的实战案例来进行说明、反复强化“以业务为核心,以思路为重点,以挖掘技术为辅佐”,希望能给读者留下深刻印象,因为这是数据挖掘商业实践成功的宝典。

致谢

首先要感谢机械工业出版社华章公司的杨绣国(Lisa)编辑,没有您的首倡和持续的鼓励,我不会想到要写这样一本来自实践的书,也不会顺利地完成这本书。写作过程中,您的帮助让我对“编辑”这个职业有了新的认识,编辑就是作者背后的无名英雄。在本书出版之际,我向Lisa表达我深深的感谢和祝福。同时感谢朱秀英编辑在本书后期编辑过程中付出的辛劳,您的专业、敬业和细心使得书稿中诸多不完善之处得以修正和提高。

作为一名30多岁才从机械工程师转行,进入数据挖掘及其商业实践的迟到者,我在数据挖掘的道路上一路走来,得到了无数贵人的帮助和提携。

感谢我的启蒙导师,加拿大Dalhousie University的数据挖掘课程教授Tony Schellinck。他风趣幽默的授课风格,严谨扎实的专业功底,随手拈来的大量亲身经历的商业实战案例,以及对待学生的耐心和热情,让我作为一名外国学生能有效克服语言和生活环境的挑战,比较顺利地进入数据挖掘的职业发展道路。

感谢回国后给我第一份专业工作机会的前CCG集团(Communication Central Group)商业智能应用事业部总经理Justin Jencks。中国通Justin在我们一起共事的那段日子里,果敢放手让我尝试多个跨行业的探索性商业应用项目,给了我许多宝贵的机会,使我迅速熟悉本土市场,积累了不同行业的实战案例,这些对我的专业成长非常重要。

感谢4年前给我机会,让我得以从传统行业进入互联网行业的阿里巴巴集团ITBU事业部的前商业智能部门总监李红伟(菠萝)。进入互联网行业之后,我才深深懂得作为一名数据分析师,相比传统行业来说,互联网行业有太多的机会可以去尝试不同的项目,去亲历数不清的“一竿子插到底”的落地应用,去学习面对日新月异的需求和挑战。

在本书的编写过程中,得到了淘宝网的商品推荐高级算法工程师陈凡(微博地址为hppt://weibo.com/bicloud)和阿里巴巴B2B的数据仓库专家蒿亮(微博地址为http://weibo.com/airjam;E-mail:airjam.hao@gmail.com)热情而专业的帮助和支持。陈凡友情编写了本书的3.11节,蒿亮友情编写了本书的1.4.1节和13.1节。

感谢一路走来,在项目合作和交流中给我帮助和支持的各位前辈、领导、朋友和伙伴,包括:上海第一医药连锁经营有限公司总经理顾咏晟先生、新华信国际信息咨询北京有限公司副总裁欧万德先生(Alvin)、上海联都集团的创始人冯铁军先生、上海通方管理咨询有限公司总经理李步峰女士和总监张国安先生、鼎和保险公司的张霖霏先生、盛大文学的数据分析经理张仙鹤先生、途牛网高级运营专家焦延伍先生,以及来自阿里巴巴的数据分析团队的领导和伙伴(资深总监车品觉先生、高级专家范国栋先生、资深经理张高峰先生、数据分析专家樊宁先生、资深数据分析师曹俊杰先生、数据分析师宫尚宝先生,等等,尤其要感谢阿里巴巴数据委员会会长车品觉老师在百忙中热情地为本书作推荐序,并在序言里为广大读者分享了数据分析师当前面临的最新机遇和挑战),以及这个仓促列出的名单之外的更多前辈、领导、朋友和伙伴。

感谢我的父母、姐姐、姐夫和外甥,他们给予了我一贯的支持和鼓励。

我将把深深的感谢给予我的妻子王艳和女儿露璐。露璐虽然只是初中一年级的学生,但是在本书的写作过程中,她多次主动放弃外出玩耍,帮我改稿,给我提建议,给我鼓励,甚至还为本书设计了一款封面,在此向露璐同学表达我衷心的感谢!而我的妻子,则将家里的一切事情打理得井井有条,使我可以将充分的时间和精力投入本书的写作中。谨以此书献给她们!卢辉中国杭州第1章什么是数据化运营

21世纪核心的竞争就是数据的竞争,谁拥有数据,谁就拥有未来。——马云

1.1 现代营销理论的发展历程

1.2 数据化运营的主要内容

1.3 为什么要数据化运营

1.4 数据化运营的必要条件

1.5 数据化运营的新现象与新发展

1.6 关于互联网和电子商务的最新数据

数据化运营是当前企业管理和企业战略里非常热门的一个词汇。其实施的前提条件包括企业级海量数据存储的实现、精细化运营的需求(与传统的粗放型运营相对比)、数据分析和数据挖掘技术的有效应用等,并且还要得到企业决策层和管理层的支持及推动。

数据化运营是现代企业从粗放经营向精细化管理发展的必然要求,是大数据时代企业保持市场核心竞争力的必要手段,要进行数据化运营,必须要企业全员的参与和配合。本书讨论的数据化运营主要是指互联网行业的数据化运营,所以,除非特别申明,本书所有的“数据化运营”专指互联网数据化运营,尽管本书涉及的分析挖掘技术同样也适用于互联网行业之外的其他行业。

数据化运营来源于现代营销管理,但是在“营销”之外有着更广的含义。1.1 现代营销理论的发展历程1.1.1 从4P到4C

以4P为代表的现代营销理论可以追溯到1960年出版的(《基础营销》英文书名为Basic Marketing)一书,该理论是由作者杰罗姆·麦卡锡(E.Jerome McCarthy)在该书中提出的。到了1967年,“现代营销学之父”菲利普·科特勒(Philip Kotler)在其代表作《营销管理》(Marketing Management:Application,Planning,Implementation and Control)第1版里进一步确认了以4P为核心的营销组合方法论。随后,该理论风靡世界,成为近半个世纪的现代营销核心思想,影响并左右了当时无数的企业营销战略。

4P指的是Product(产品)、Price(价格)、Place(渠道)和Promotion(促销),如图1-1所示。4P的内容简要概括如下。图 1-1 4P理论结构图

❑Product:表示注重产品功能,强调独特卖点。

❑Price:指根据不同的市场定位,制定不同的价格策略。

❑Place:指要注重分销商的培养和销售网络的建设。

❑Promotion:指企业可以通过改变销售行为来刺激消费者,以短期的行为(如让利、买一送一、调动营销现场气氛等)促成消费的增长,吸引其他品牌的消费者前来消费,或者促使老主顾提前来消费,从而达到销售增长的目的。

4P理论的核心是Product(产品)。因此,以4P理论为核心营销思想的企业营销战略又可以简称为“以产品为中心”的营销战略。

随着时代的发展,商品逐渐丰富起来,市场竞争也日益激烈,尤其进入21世纪后,消费者已成为商业世界的核心。在当今这个充满个性化的商业时代,传统的4P营销组合已经无法适应时代发展的需求,营销界开始研究新的营销理论和营销要素。其中,最具代表性的理论就是4C理论,这里的4C包括Consumer(消费者)、Cost(成本)、Convenience(方便性)和Communication(沟通交流),如图1-2所示,4C的内容简要概括如下:图 1-2 4C理论结构图

❑消费者的需求与愿望(Customer's Needs and Wants)。

❑消费者得到满足的成本(Cost and Value toSatisfy Consumer's Needs and Wants)。

❑用户购买的方便性(Convenience to Buy)。

❑与用户的沟通交流(Communication with Consumer)。

4C理论的核心是Consumer消费者。因此,以4C理论为核心营销思想的企业营销战略又可以简称为“以消费者为中心”的营销战略。1.1.2 从4C到3P3C

4C理论虽然成功找到了从“以产品为中心”转化为“以消费者为中心”的思路和要素,但是随着社会的进步,科技的发展,大数据时代的来临,4C理论再次落后于时代发展的需要。大数据时代,日益白热化的市场竞争、越来越严苛的营销预算、海量的数据堆积和存储等,迫使现代企业不得不寻找更合适、更可控、更可量化、更可预测的营销思路和方法论。于是在基本思路上融合了4P理论和4C理论的nPnC形式的理论出现了。

具体到典型的互联网行业,虽然学术界对于到底是几个P和几个C仍存在着争议,没有定论,但是这并不妨碍企业积极探索并付诸实践应用,本书姑且以3P3C为例,如图1-3所示,概述互联网行业运营的典型理论探索。图 1-3 3P3C理论结构图

在3P3C理论中,数据化运营6要素的内容如下。

❑Probability(概率):营销、运营活动以概率为核心,追求精细化和精准率。

❑Product(产品):注重产品功能,强调产品卖点。

❑Prospects(消费者,目标用户)。

❑Creative(创意,包括文案、活动等)。

❑Channel(渠道)。

❑Cost/Price(成本/价格)。

而在这其中,以数据分析挖掘所支撑的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环节和要素,共同促使数据化运营持续完善,直至成功。

需要指出的是,这里的目标响应概率(Probability)不应狭义理解为仅仅是预测响应模型之类的响应概率,它有更宽泛的含义,既可以从宏观上来理解,又可以从微观上来诠释。从宏观上来理解,概率可以是特定消费群体整体上的概率或可能性。比如,我们常见的通过卡方检验发现某个特定类别群体在某个消费行为指标上具有的显著性特征,这种显著性特征可以帮助我们进行目标市场的选择、寻找具有相似特征的潜在目标用户,制定相应的细分营销措施和运营方案等,这种方法可以有效提升运营的效率和效果;从微观上来理解,概率可以是具体到某个特定消费者的“预期响应概率”,比如我们常见的通过逻辑回归算法搭建一个预测响应模型,得到每个用户的预计响应概率,然后,根据运营计划和预算,抽取响应概率分数的消费者,进行有针对性的运营活动等,这种方法也可以有效提升运营的效率和效果。

宏观的概率更加有效,还是微观的概率更加有效,这需要结合项目的资源计划、业务背景、项目目的等多种因素来权衡,不可一概而论。虽然微观的概率常常更为精细、更加准确,但是在实践应用中,宏观的群体性概率也可以有效提升运营效果,也是属于数据化运营的思路。所以在实践过程中如何选择,要根据具体的业务场景和具体的数据分析解决方案来决定。更多延伸性的分析探讨,将在后面章节的具体项目类型分析、技术分享中详细介绍。

上述3P3C理论有效锁定了影响运营效果的主要因素、来源,可以帮助运营人员、管理人员、数据分析人员快速区分实践中的思考维度和着力点,提高思考效率和分析效率。1.2 数据化运营的主要内容

虽然目前企业界和学术界对于“数据化运营”的定义没有达成共识,但这并不妨碍“数据化运营”思想和实践在当今企业界尤其是互联网行业如火如荼地展开。阿里巴巴集团早在2010年就已经在全集团范围内正式提出了“数据化运营”的战略方针并逐步实施数据化运营,腾讯公司也在“2012年腾讯智慧上海主题日”高调宣布“大数据化运营的黄金时期已经到来,如何整合这些数据成为未来的关键任务”。

综合业界尤其是互联网行业的数据化运营实践来看,尽管各行业对“数据化运营”的定义有所区别,但其基本要素和核心是一致的,那就是“以企业级海量数据的存储和分析挖掘应用为核心支持的,企业全员参与的,以精准、细分和精细化为特点的企业运营制度和战略”。换种思路,可以将其浅层次地理解为,在企业常规运营的基础上革命性地增添数据分析和数据挖掘的精准支持。这是从宏观意义上对数据化运营的理解,其中会涉及企业各部门,以及数据在企业中所有部门的应用。但是必须指出,本书所要分享的实战项目涉及的数据化运营,主要落实在微观意义的数据化运营上,即主要针对运营、销售、客服等部门的互联网运营的数据分析、挖掘和支持上。

注意:这种宏观和微观上的区别在本质上对于数据化运营的核心没有影响,只是在本书的技术和案例分享中更多聚焦于运营部门、销售部门、客服部门而已,特此说明。

针对互联网运营部门的数据化运营,具体包括“网站流量监控分析、目标用户行为研究、网站日常更新内容编辑、网络营销策划推广”等,并且,这些内容是在以企业级海量数据的存储、分析、挖掘和应用为核心技术支持的基础上,通过可量化、可细分、可预测等一系列精细化的方式来进行的。

数据化运营,首先是要有企业全员参与意识,要达成这种全员的数据参与意识比单纯地执行数据挖掘技术显然是要困难得多,也重要得多的。只有在达成企业全员的自觉参与意识后,才可能将其转化为企业全体员工的自觉行动,才可能真正落实到运营的具体工作中。举例来说,阿里巴巴集团正在实施的数据化运营,就要求所有部门所有岗位的员工都要贯彻此战略:从产品开发人员到用户体验部门,到产品运营团队,到客户服务部门,到销售团队和支持团队,每个人每个岗位都能真正从数据应用、数据管理和数据发现的高度经营各自的本职工作,也就类似于各个岗位的员工,都在各自的工作中自觉利用或简单或复杂的数据分析工具,进行大大小小的数据分析挖掘,这才是真正的数据化运营的场面,才是真正的从数据中发现信息财富并直接助力于企业的全方位提升。也只有这样,产品开发人员所提出的新概念才不是拍脑袋拍出来的,而是来自于用户反馈数据的提炼;产品运营人员也不再仅仅是每天被动地抄报运营的KPI指标,通过数据意识的培养,他们将在运营前的准备,运营中的把握,运营后的反馈、修正、提升上有充分的预见性和掌控力;客户服务部门不仅仅满足于为客户提供满意的服务,他们学会了从服务中有意识地发现有代表性的、有新概念价值的客户新需求;销售部门则不再只是具有吃苦耐劳的精神,他们可通过数据分析挖掘模型的实施来实现有的放矢、精准营销的销售效益最大化。而企业的数据挖掘团队也不再仅仅局限于单纯的数据挖掘技术工作及项目工作,而是肩负在企业全员中推广普及数据意识、数据运用技巧的责任,这种责任对于企业而言比单纯的一两个数据挖掘项目更有价值,更能体现一个数据挖掘团队或者一个数据挖掘职业人的水准、眼界以及胸怀,俗话说“只有能发动人民战争,才是真正的英雄”,所以只有让企业全员都参与并支持你的数据挖掘分析工作,才能够真正有效地挖掘企业的数据资源。现代企业的领导者,应该有这种远见和智慧,明白全员的数据挖掘才是企业最有价值的数据挖掘,全员的数据化运营才是现代企业的竞争新核心。

数据化运营,其次是一种常态化的制度和流程,包括企业各个岗位和工种的数据收集和数据分析应用的框架和制度等。从员工日常工作中所使用的数据结构和层次,就基本上可以判断出企业的数据应用水准和效率。在传统行业的大多数企业里,绝大多数员工在其工作中很少(甚至基本不)分析使用业务数据支持自己的工作效率,但是在互联网行业,对数据的重视和深度应用使得该行业数据化运营的能力和水平远远超过传统行业的应用水平。

数据化运营更是来自企业决策者、高层管理者的直接倡导和实质性的持续推动。由于数据化运营一方面涉及企业全员的参与,另一方面涉及企业海量数据的战略性开发和应用,同时又是真正跨多部门、多技术、多专业的整合性流程,所有这些挑战都是企业内部任何单个部门所无法独立承担的。只有来自企业决策层的直接倡导和实质性的持续推动,才可以在企业建立、推广、实施、完善真正的全员参与、跨部门跨专业、具有战略竞争意义的数据化运营。所以,我们不难发现,阿里巴巴集团也好,腾讯也罢,这些互联网行业的巨人,之所以能在大数据时代如火如荼地进行企业数据化运营,自始至终都离不开企业决策层的直接倡导与持续推动,其在各种场合中对数据的重要性、对数据化运营的核心竞争力价值的强调和分享,都证明了决策层是推动数据化运营的关键所在。2012年7月10日,阿里巴巴集团宣布设立“首席数据官”岗位(Chief Data Officer),阿里巴巴B2B公司的CEO陆兆禧出任此职位,并会向集团CEO马云直接汇报。陆兆禧将主要负责全面推进阿里巴巴集团成为“数据分享平台”的战略,其主要职责是规划和实施未来数据战略,推进支持集团各事业群的数据业务发展。“将阿里巴巴集团变成一家真正意义上的数据公司”目前已经是阿里巴巴集团的战略共识,阿里巴巴集团旗下的支付宝、淘宝、阿里金融、B2B的数据都会成为这个巨大的数据分享平台的一部分。而这个战略的核心就是如何挖掘、分析和运用这些数据,并和全社会分享。1.3 为什么要数据化运营

数据化运营首先是现代企业竞争白热化、商业环境变成以消费者为主的“买方市场”等一系列竞争因素所呼唤的管理革命和技术革命。中国有句古语“穷则思变”,当传统的营销手段、运营方法已经被同行普遍采用,当常规的营销技术、运营方法已经很难明显提升企业的运营效率时,竞争必然呼唤革命性的改变去设法提升企业的运营效率,从而提升企业的市场竞争力。时势造英雄,生逢其时的“数据化运营”恰如及时雨,登上了大数据时代企业运营的大舞台,在互联网运营的舞台上尤其光彩夺目。

其次,数据化运营是飞速发展的数据挖掘技术、数据存储技术等诸多先进数据技术直接推动的结果。数据技术的飞速发展,使得大数据的存储、分析挖掘变得成熟、可靠,成熟的挖掘算法和技术给了现代企业足够的底气去尝试海量数据的分析、挖掘、提炼、应用。有了数据分析、数据挖掘的强有力支持,企业的运营不再盲目,可以真正做到运营流程自始至终都心中有数、有的放矢。比如,在传统行业的市场营销活动中,有一个无解又无奈的问题:“我知道广告费浪费了一半,但是我不知道到底是哪一半”。这里的无奈其实反映的恰好就是传统行业粗放型营销的缺点:无法真正细分受众,无法科学监控营销各环节,无法准确预测营销效果;但是,在大数据时代的互联网行业,这种无奈已经可以有效地降低,乃至避免,原因在于通过数据挖掘分析,广告主可以精细划分出正确的目标受众,可以及时(甚至实时)监控广告投放环节的流失量,可以针对相应的环节采取优化、提升措施,可以建立预测模型准确预测广告效果。

数据化运营更是互联网企业得天独厚的“神器”。互联网行业与生俱来的特点就是大数据,而信息时代最大的财富也正是海量的大数据。阿里巴巴集团董事局主席兼首席行政官马云曾经多次宣称,阿里巴巴集团最大的财富和今后核心竞争力的源泉,正是阿里巴巴集团(包括淘宝、支付宝、阿里巴巴等所属企业)已经产生的和今后继续积累的海量的买卖双方的交易数据、支付数据、互动数据、行为数据等。2010年3月31日,淘宝网在上海正式宣布向全球开放数据,未来电子商务的核心竞争优势来源于对数据的解读能力,以及配合数据变化的快速反应能力,而开放淘宝数据正是有效帮助企业建立数据的应用能力。2010年5月14日阿里巴巴集团在深圳举行的2010年全球股东大会上,马云进一步指出“21世纪核心的竞争就是数据的竞争”,“谁拥有数据,谁就拥有未来”。企业决策者对数据价值的高度认同,必然会首先落实在自身的企业运营实践中,这也是“因地制宜”战略思想在互联网时代的最新体现,我们也可以理解成“近水楼台先得月”在互联网时代的最新诠释。1.4 数据化运营的必要条件

虽然从上面的分析可以看出,数据化运营有如此多的优越性,但并不是每个企业都可以采取这种新战略和新管理制度,也不是每个企业都可以从中受益。个中原因在于成功的数据化运营必须依赖几个重要的前提条件。[1]1.4.1 企业级海量数据存储的实现

21世纪核心的竞争就是数据的竞争,2012年3月29日,美国奥巴马政府正式宣布了“大数据的研究和发展计划”(Big Data Research and Development Initiative),该计划旨在通过提高我们从大型复杂数据集中提取知识和观点的能力,承诺帮助加快在科学和工程中探索发现的步伐,加强国家安全。从国家到企业,数据就是生产力。但是,具体到某一个企业,海量数据的存储是必须要面对的第一个挑战。数据存储技术的飞速发展,需要企业与时俱进。根据预测到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。而在2010年年底,根据IDC的统计,全球数据量已经达到了1 200 000PB或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球到月球打一个来回(单程约24万英里,即386 242.56千米)。海量的数据推动了数据存储技术的不断发展与飞跃。

我们一起来回顾一下数据存储技术的发展历程:

1951年:Univac系统使用磁带和穿孔卡片作为数据存储。

1956年:IBM公司在其Model 305 RAMAC中第一次引入了磁盘驱动器。

1961年:美国通用电气公司(General Electric)的Charles Bachman开发了第一个数据库管理系统——IDS。

1969年:E.F.Codd发明了关系数据库。

1973年:由John J.Cullinane领导的Cullinane公司开发了IDMS——一个针对IBM主机的基于网络模型的数据库。

1976年:Honeywell公司推出了Multics Relational Data Store——第一个商用关系数据库产品。

1979年:Oracle公司引入了第一个商用SQL关系数据库管理系统。

1983年:IBM推出了DB2数据库产品。

1985年:为Procter&Gamble系统设计的第一个商务智能系统产生。

1991年:W.H.BillInmon发表了文章《构建数据仓库》。

2012年:最新的存储技术为分布式数据仓库、海量数据存储技术和流计算的实时数据仓库技术。

回首中国企业的数据存储之路,国内的数据存储技术的发展经历了将近30年,而真正的飞速发展则是最近10年。

国内的数据存储的先驱是国有银行,在21世纪初,四大国有银行的全国数据中心项目(将分布在全国各个省行和直属一级分行的数据集中到数据中心)拉开了数据技术飞速发展的帷幕。

以发展最具代表性的中国工商银行为例,中国工商银行从2001年开始启动数据集中项目,刚开始考虑集中中国北部的数据到北京,中国南部的数据到上海,最终在2004年将全部数据集中到了上海,而北京则作为灾备中心,海外数据中心则安置在深圳。中国工商银行的数据量在当时是全中国最大的,大约每天的数据量都在TB级别。由于银行业存在一定的特殊性(性能要求低于安全和稳定要求),又因为当时业内可选的技术不多,因此中国工商银行选择了大型机+DB2的技术方案,实际上就是以关系型数据库作为数据存储的核心。

在3年的数据集中和后续5年基于主题模型(NCR金融模型)的数据仓库建设期间,中国工商银行无论在硬件网络和软件人力上都投入了巨大的资源,其数据仓库也终于成为中国第一个真正意义上的企业级数据中心和数据仓库。

其他银行和证券保险,甚至电信行业以及房地产行业的数据仓库建设,基本上也都是采用与工商银行相似的思路和做法在进行。

不过,随着时间的推移,数据量变得越来越大,硬件的更新换代也越来越快,于是,这类数据仓库逐渐显现出了问题,主要表现如下:

❑少数几台大型机已经无法满足日益增加的日终计算任务的执行需求,导致很多数据结果为T-2(当天数据要延后2天才完成),甚至是T-3(当天数据要延后3天才完成)。

❑硬件升级和存储升级的成本非常昂贵,维护、系统开发以及数据开发的人力资源开支也逐年加大。

❑由于全国金融发展的进程差异很大,数据需求各不一样,加上成本等原因,不得不将一些数据计算任务下放到各个一级分行或者省分行进行,数据中心不堪重负。

随着互联网行业的逐渐蓬勃兴盛,占领数据存储技术领域巅峰的行业也从原有的国有银行企业转移到了阿里巴巴、腾讯、盛大、百度这样的新兴互联网企业。以阿里巴巴为例,阿里巴巴数据仓库也是经历了坎坷的发展历程,在多次重建后才最终站在了中国甚至世界的顶峰。

最开始的阿里巴巴互联网数据仓库建设,几乎就是中国工商银行的缩小版,互联网的数据从业人员几乎全部来自国内各大银行或电信行业,或者来自国外类似微软、yahoo这样的传统IT企业。

随着分布式技术的逐渐成熟和工业化,互联网数据仓库迎来了飞速发展的春天。现在,抛弃大型机+关系型数据库的模型,采用分布式的服务器集群+分布式存储的海量存储器,无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲,都是一次飞跃。更重要的是,解决了困扰数据仓库发展的一个非常重要的问题,即计算能力不足的问题,当100~200台网络服务器一起工作的时候,无论是什么样的大型机,都已经无法与之比拟了。

拿现在阿里云(阿里巴巴集团数据中心服务提供者)来讲,近1000台网络服务器分布式并行,支持着每日淘宝、支付宝、阿里巴巴三大子公司超过PB级别的数据量,随着技术的日益成熟和硬件成本的逐渐降低,未来的数据仓库将是以流计算为主的实时数据仓库和分布式计算为主流的准实时数据仓库。

[1]本节内容由阿里巴巴B2B的数据仓库专家蒿亮编写,蒿亮的微博地址为http://weibo.com/airjam,电子邮件为airjam.hao@gmail.com。1.4.2 精细化运营的需求

大数据时代的互联网行业所面临的竞争压力甚至已超过了传统行业。主要原因在于互联网行业的技术真正体现了日新月异、飞速发展的特点。以中国互联网行业的发展为例,作为第一代互联网企业的代表,新浪、搜狐、雅虎等门户网站的Web 1.0模式(传统媒体的电子化)从产生到被以Google、百度等搜索引擎企业的Web 2.0模式(制造者与使用者的合一)所超越,前后不过10年左右的时间,而目前Web 2.0模式已经逐渐有被以微博为代表的Web 3.0模式(SNS模式)超越的趋势。

互联网行业近乎颠覆性模式的进化演绎、技术的更新换代,既为互联网企业提供了机遇,又带给其沉重的竞争压力与生存的挑战。面对这种日新月异的竞争格局,互联网企业必须寻找比传统的粗放型运营更加有效的精细化运营制度和思路,以提升企业的效益和效率,而数据化运营就是精细化运营,它强调的是更细分、更准确、更个性化。没有精细化运营的需求,就不需要数据化运营;只有数据化运营,才可以满足精细化的效益提升。1.4.3 数据分析和数据挖掘技术的有效应用

数据分析和数据挖掘技术的有效应用是数据化运营的基础和技术保障,没有这个基础保障,数据化运营就是空话,就是无本之水,无缘之木。

这里的有效应用包括以下两层含义。

一是企业必须拥有一支能够胜任数据分析和数据挖掘工作的团队和一群出色的数据分析师。一名出色的数据分析师必须是多面手,他不仅要具备统计技能(能熟练使用统计技术和统计工具进行分析挖掘)、数据仓库知识(比如熟悉主流数据库基本技术,可以自助取数,可以有效与数据仓库团队沟通)、数据挖掘技能(熟练掌握主流数据挖掘技术和工具),更重要的是他还要具有针对具体业务的理解能力和快速学习能力,并且要善于与业务方沟通、交流。数据分析挖掘绝不是数据分析师或团队的闭门造车,要想让项目成功应用,必须要自始至终与业务团队并肩作战,从这点来看,业务理解力和沟通交流能力的重要性甚至要远远超过技术层面的能力(诸如统计技能、挖掘技能、数据仓库的技能)。从之前的分析可以看出,一名出色的数据分析师是需要时间、项目经验去磨砺去锻炼成长的,而作为企业来说,如何选择、培养、配备这样一支合格的分析师队伍,才是数据化运营的基础保障。

二是企业的数据化运营只有在分析团队与业务团队协同配合下才可能做出成绩,取得效果。分析团队做出的分析方案、数据模型,必须要在业务应用中得到检验,这不仅要求业务方主观的参与和支持,也要求业务方的团队和员工同样要具有相应的数据化运营能力和水平,运营团队的人员需要具备哪些与数据化运营相关的技能呢?这个问题我们将在第4章阐述。

无论是数据分析团队的专业能力,运营团队的专业能力,还是其他业务团队的专业能力,所体现的都是互联网企业的人才价值,这个人才价值与数据的价值一样,都是属于互联网行业的核心竞争力,正如阿里巴巴集团董事会主席兼CEO马云在多个场合强调的那样,“人才和数据是阿里巴巴集团最大的财富和最强大的核心竞争力”。1.4.4 企业决策层的倡导与持续支持

在关乎企业数据化运营的诸多必要条件里,最核心且最具决定性的条件就是来自企业决策层的倡导和持续支持。

在传统行业的现代企业里,也有很多采用了先进的数据分析技术来支持企业运营的,支持企业的营销、客服、产品开发等工作。但是总的来说,这些数据挖掘应用效果参差不齐,或者说应该体现的业务贡献价值在很多情况下并没有真正体现出来,总体的应用还是停留在项目管理的层面,缺乏全员的参与与真正跨部门的战略协调配合。这种项目层面的管理,存在的不足如下:

首先,由于参与分析挖掘的团队与提出分析需求的业务团队分属不同的职能部门,缺乏高层实质性的协调与管理,常会出现分析建模工作与真正的业务需求配合不紧密,各打各的锣,各唱各的歌。由于各部门和员工KPI考核的内容不同,数据分析团队完成的分析方案、模型、建议、报告很多时候只是纸上谈兵,无法转化成业务应用的实际操作。举个简单的例子,销售部门的年度KPI考核是销售额和付费人数,那么为了这个年度KPI考核,销售部门必然把工作的重心放在扩大销售额,扩大付费人数,维护续费人数,降低流失率等关键指标上,他们自然希望数据分析部门围绕年度(短期的)KPI目标提供分析和模型支持,提高销售部门的业绩和效率。但是数据分析部门的年度KPI考核可能跟年度销售额和付费人数没有关系,而跟通过数据分析、建模,完善产品开发与优化,完善销售部门的业务流程与资源配置等相关。很显然,这里数据分析团队的KPI考核是着眼于企业长期发展的,这跟销售部门短期的以销售额为重点的考核在很大程度上是有冲突的。在这种情况下,怎么指望两者的数据化运营能落地开花呢?

其次,因为处于项目层面的管理,所以数据分析挖掘的规划也就只能局限在特定业务部门的范围内,缺乏真正符合企业发展方向的数据分析挖掘规划。俗话说得好站得高,方能看得远,起点低,视野浅,自然约束了数据分析的有效发挥。

无论是组织架构的缺陷,还是战略规划的缺失,其本质都能表现出缺乏来自企业决策层的倡导和持续支持。只有得到企业决策层的倡导和支持,上述组织管理方面的缺陷和战略规划的缺失才可以有效避免。如前所述,2012年7月10日阿里巴巴集团宣布设置首席数据官的岗位,并将其作为企业的核心管理岗位之一,其目的就是进一步夯实企业的数据战略,规划和实施企业整体的数据化运营能力和水平,使之真正成为阿里巴巴集团未来的核心竞争力。1.5 数据化运营的新现象与新发展

时代在发展,技术在进步,企业的数据化运营也在不断增添新的内容、不断响应新的需求。目前,从世界范围来看,数据化运营至少在下列几个方面已经出现了实质性的新发展,这些新发展扩大了数据化运营的应用场景、扩充了数据化运营的发展思路、也给当前(以及未来)数据化运营的参与者提供了更多的发展方向的选择。这些新发展包括的内容如下:

❑数据产品作为商业智能的一个单独的发展方向和专业领域,在国内外的商业智能和数据分析行业里已经成为共识,并且正在企业的数据化运营实践中发挥着越来越大的作用。数据产品是指通过数据分析和数据模型的应用而开发出来的,提供给用户使用的一系列的帮助用户更好理解和使用数据的工具产品,这些工具产品的使用让用户在某些特定场景或面对某些特定的数据时,可以独立进行分析和展示结果,而不需要依赖数据分析师的帮助。虽然在多年以前,类似的数据产品已被开发并投入了应用,但是在数据分析行业世界范围内达成共识,并作为商业智能的一个独立发展方向和专业领域,还只是近一两年的事情。淘宝网上的卖家所使用的“量子恒道”就是一个非常不错的数据产品,通过使用量子恒道,淘宝卖家可以自己随时监控店铺的流量来源、买家逗留的时间、买家区域、浏览时间、各页面的流量大小、各产品的成交转化率等一系列跟店铺的实时基础数据相关的数据分析和报告,从而有效帮助卖家制定和完善相应的经营方向和经验策略。数据产品作为数据分析和商业智能里一个专门的领域得以确立和发展,其实是跟数据化运营的全民参与的特征相辅相成的。数据产品帮助企业全员更好、更有效地利用数据,而数据化运营的全民参与也呼唤更多更好的数据产品,企业成功的数据化运营建设一定会同时产生一大批深受用户欢迎和信赖的数据产品。

❑数据PD作为数据分析和商业智能的一个细分的职业岗位,已经在越来越多的大规模数据化运营的企业得以专门设立并日益强化。与上述的数据产品相配套的,就是数据PD作为一个专门的细分的职业岗位和专业方向,正逐渐为广大的数据化运营的企业所熟悉并采用。PD(Product Designer)是产品设计师的英文缩写,而数据PD,顾名思义就是数据产品的产品设计师。数据PD作为数据分析和商业智能中一个新的职业方向和职业岗位,需要从业者兼具数据分析师和产品设计师双重的专业知识、专业背景、技能和素质,有志从事数据PD工作的新人,可以抓住这个崭新的职业,几乎还是一张白纸的无限空间,快速成长,迅速成才。

❑泛BI的概念在大规模数据化运营的企业里正在越来越深入人心。泛BI其实就是逐渐淡化数据分析师团队作为企业数据分析应用的唯一专业队伍的印象,让更多的业务部门也逐渐参与数据分析和数据探索,让更多业务部门的员工也逐渐掌握数据分析的技能和意识。泛BI其实也是数据化运营的全民参与的特征所要求的,是更高一级的数据化运营的全民参与。在这个阶段,业务部门的员工不仅要积极参与数据分析和模型的具体应用实践,更要求他们能自主自发地进行一些力所能及的数据分析和数据探索。泛BI概念的逐渐深入普及,向数据分析师和数据分析团队提出了新的要求,数据分析师和数据分析团队承担了向业务部门及其员工指导、传授有关数据分析和数据探索的能力培养的工作,这是一种授人以渔的崇高行为,值得数据分析师为之奉献。1.6 关于互联网和电子商务的最新数据

2012年12月3日,阿里巴巴集团在杭州宣布,截至2012年11月30日21:50,其旗下淘宝和天猫的交易额本年度突破10 000亿元。为支撑这巨大规模业务量的直接与间接的就业人员已经超过1000万人。

根据国家统计局的数据显示,2011年全国各省社会消费品零售总额为18.39万亿元,10 000亿元相当于其总量的5.4%,而根据国家统计局公布的2011年全国各省社会消费品零售总额排行,可以排列第5位,仅次于广东、山东、江苏和浙江。电子商务已经成为一个庞大的新经济主体,并在未来相当长的时间里依然会高速发展,这意味着过去的不可能已经成为现实,而这才是刚刚开始。

阿里巴巴集团董事局主席马云表示:“我们很幸运,能够适逢互联网这个时代,一起见证并参与互联网及电子商务给我们社会带来的一次次惊喜和改变。10 000亿只是刚刚开始,我们正在步入10万亿的时代,未来电子商务在中国,必将产生1000万个企业,具备服务全球10亿消费者的能力。”第2章数据挖掘概述

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等。

2.1 数据挖掘的发展历史

2.2 统计分析与数据挖掘的主要区别

2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.4 互联网行业数据挖掘应用的特点

在第1章中介绍了什么是数据化运营,为什么要实现数据化运营,以及数据化运营的主要内容和必要条件。我们知道数据分析和数据挖掘技术是支撑企业数据化运营的基础和技术保障,没有有效的数据挖掘支持,企业的数据化运营就是无源之水,无本之木。

本章将为读者简单回顾一下数据挖掘作为一门学科的发展历史,并具体探讨统计分析与数据挖掘的主要区别,同时,将力求用简单、通俗、明了的文字把目前主流的、成熟的、在数据化运营中常用的统计分析和数据挖掘的算法、原理以及主要的应用场景做出总结和分类。

最后,针对互联网数据化运营中数据挖掘应用的特点进行梳理和总结。2.1 数据挖掘的发展历史

数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。同时,这期间计算机领域的人工智能(Artificial Intelligence)也取得了巨大进展,进入了机器学习的阶段。因此,人们将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases,KDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了知识发现(KDD)这个术语,到目前为止,KDD的重点已经从发现方法转向了实践应用。

而数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来。

总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对人类产生重大影响的十大新兴技术之一。2.2 统计分析与数据挖掘的主要区别

统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析师分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题。从两者的理论来源来看,它们在很多情况下都是同根同源的。比如,在属于典型的数据挖掘技术的决策树里,CART、CHAID等理论和方法都是基于统计理论所发展和延伸的;并且数据挖掘中的技术有相当比例是用统计学中的多变量分析来支撑的。

相对于传统的统计分析技术,数据挖掘有如下一些特点:

❑数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。

❑数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,需要强调的是基本的统计知识和技能是必需的。

❑在信息化时代,数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析,所以数据挖掘工具的应用更加符合企业实践和实战的需要。

❑从操作者来看,数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测。

更主流的观点普遍认为,数据挖掘是统计分析技术的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与统计分析形成了比较明显的差异:

❑统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

❑统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。不过,如果能换种思维方式,从实战的角度考虑,只要模型能正确预测客户行为,能为精细化运营提供准确的细分人群和目标客户,业务部门、运营部门不了解模型的技术细节,又有何不可呢?

❑在实践应用中,统计分析常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。

虽然上面详细阐述了统计分析与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,也无法割裂,在实践应用中,没有哪个分析师会说,“我只用数据挖掘技术来分析”,或者“我只用统计分析技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

鉴于实践应用中,统计分析与数据挖掘技术并不能完全被割裂开来,并且本书侧重于数据化运营的实践分享。所以在后续各章节的讨论中,将不再人为地给一个算法、技术贴上“统计分析”或“数据挖掘”的标签,后续各章节的技术分享和实战应用举例,都会本着针对

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载