网站数据挖掘与分析:系统方法与商业实践(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-04 06:50:26

点击下载

作者:宋天龙

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

网站数据挖掘与分析:系统方法与商业实践

网站数据挖掘与分析:系统方法与商业实践试读:

前言

为什么要写这本书

随着中国商业精细化运营价值的凸显以及企业对数据价值认可度的提高,网站数据分析正变得炙手可热,尤其在互联网企业中,网站数据分析已经成为从业人员必备的一项职业技能。

但在对网站数据进行分析的过程中,我发现企业中普遍存在三类问题,本书就致力于帮助读者解决这三类问题。

第一类是数据工作者的认知问题。

纵观当前与网站数据相关的从业者,或多或少都会存在以下两种认知:第一种是技术论,这种观点的核心是关注数据部署和采集、数据工具、技术、模型的重要性而忽略了应用场景;第二种是业务论,这种观点只关注应用层面的业务问题,由于缺乏对数据前端处理的把握和专业技术、工具的支持,导致后期数据质量和应用都缺乏可靠依据,最终影响了数据价值的提炼及应用效果的提升。

以数据价值为导向的数据分析师应该具备以下素质,这也是贯穿本书的核心思想:

·一是立足于数据本身的追本溯源。数据分析师需要了解数据的整个工作链,从数据的产生、采集、存储、提取、挖掘、分析、展现到集成应用,并能在各个环节有独到的见解。

·二是着眼于数据应用价值的研究。研究数据如何能更智能化、可视化、自动化,以及如何更有价值地解决业务问题并带来业务价值的直接提升。

不得不说,技术是实现商业理解的必要保证。网站数据分析的传统方法是趋势、细分和转化,但仅有这些方法还不够,很多深层次的问题需要借助其他方法来实现,例如数据挖掘、统计学、人工智能、商业智能等。我从来不认为网站数据分析与数据工作是割裂的,它是数据工作的一部分,所有关于数据的工作方法都可以和网站数据结合使用。但可惜的是,当前将网站分析与其他数据工作方法结合起来的较少,因此,我在本书中用大量的篇幅介绍数据挖掘在网站分析中的应用案例。

第二类是数据价值的认知问题。

对于任何一个企业来说,数据工作都不是企业发展的必需条件,最起码在企业运作初期没有大量数据的情况下企业同样可以快速发展。这时我开始思考数据的价值到底是什么?数据到底能给企业带来什么?如果没有数据企业又会损失什么?归根结底,数据存在的意义是用来解决商业问题的,换句话说数据能给企业带来多少价值,以及这些价值是如何体现在企业的利润报表里面的。作为网站数据分析应该如何带动企业的业务成长,或者如何以单独的形态与业务结成依存关系最终实现自我价值。这些问题是需要讨论的。未来,数据的作用将主要着眼于基于数据驱动和系统智能工作机制,而辅助决策工作将成为数据的一个非主要应用。所以本书在案例篇中重点介绍了基于数据驱动的营销和运营应用,其目的便在于此。

第三类是如何从企业的角度做数据工作管理的问题。

作为初、中级分析师,主要工作职责是把数据本身或数据项目工作做好;但作为管理层的高级分析师或管理者,需要思考的问题不仅是如何完成工作,还包括如何建立企业数据架构、数据工作流程、数据应用体系、数据风险以及质量管理体系,这是站在企业的高度来思考数据的定位及布局的必经之路。

基于以上三类问题,我萌生了写本书的想法,目的是希望读者能够放开眼界,首先破除网站数据的局限性,其次破除数据的局限性,最终站在企业的角度思考问题。作为一本接地气的书,书中列举了大量案例并通过对每个案例的详细介绍来帮助读者进行案例式的学习,希望能带给读者一些新的理解、观念和应用思路,使其无论是在工作机会的选择上还是收入上都能获得较大的帮助。读者对象

本书适合以下几类从业者阅读。

·对数据研究感兴趣的在职人员。无论你从事什么工作,如果你能够将数据的思路、价值和应用方法结合到你的工作实践中,一定会对你现有的工作有所帮助。数据化思维和工作能力已经成为每个在职人员的加分项。

·刚入数据行业的新人。如果你是一位刚入行的新人,一定希望能够有一本兼具实战和理论高度的书籍,从全局到局部的每个细节为你理清工作思路并明确职业成长方向。如果你要了解数据在企业内的价值、工作流程,同时想快速融入企业并得到领导的赏识,那么本书绝对适合你。

·已经具备一定实践经验的数据从业者。对于已经在数据方面工作1~3年的从业者,相信你们会面临一些瓶颈,并想要在原有数据思维的基础上获得更有效的工作方法和工作价值的提升。本书中丰富的应用案例可以帮助你拨开云雾见青天。

·已经具有丰富工作经验的数据从业者。当数据从业者工作3年或3年以上时,就已经有机会从执行层走向管理层了。机会总是留给有准备的人的,作为管理者如何从数据工作流程、制度、风险和绩效方向进行思考并开展工作呢?相信本书会给你满意的答案。如何阅读本书

本书的正文内容分为四篇,按照数据工作的成长思路来撰写,每篇都对应着一个成长阶段。

认知篇,介绍网站数据分析在企业内的价值体现,以及如何建立个人的数据成长体系、企业数据职能架构与数据价值最大化的定位。本篇的目的是帮助读者快速了解企业内部的整体数据架构、网站数据分析所扮演的角色以及个人在企业中如何进行自我定位和发展。

基础篇,分别介绍了网站数据的采集和配置、网站分析工具的选择、网站数据整合的方法、数据监测与评估指标以及数据分析场景和方法。这些知识是进行数据分析的基本前提,其中的第7章和第8章直接以业务场景为切入点,这部分知识可直接应用到实际工作中。

案例篇,以与网站分析结合最为紧密的营销和网站运营为例,分别介绍了网站数据的辅助决策以及数据驱动的工作内容,通过十多个案例还原数据分析的实际场景,这些案例可以套用到实际工作中并直接发挥作用。

提高篇,从数据管理者和领导者的角度介绍数据风险、数据质量、数据投入与产出、数据流程与落地管理,这些都是作为数据管理者自我提升的必备知识。

除正文内容外,本书还提供了两个附录。

附录A是关于网站分析工具中三个典型工具的特性的具体介绍,包括Webtrekk(主要是Q3)和Adobe Analytics(主要是Sitecatalyst)的默认报表和指标,以及Universal Analytics的通用和自定义代码的部署示例。

附录B总结了关于网站数据工作的局限与发展,从网站数据的价值、认知和技术局限性来阐述其所面临的挑战,展望了未来数据发展的三个方向:整合化、智能化、可视化。勘误和支持

由于作者的水平有限以及编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。为此,作者特意创建一个QQ群以方便大家讨论与沟通(群号:127586352),读者可以将书中的错误发布到群中;如果你遇到任何问题,也可以访问http://www.searchmarketingart.com/并在“书籍讨论区”进行提问,我将尽量在线上为读者提供最满意的解答。书中的全部源文件除可以从该网站“书籍讨论区”下载外,还可以从华章网站(www.hzbook.com)下载,我会将相应的功能更新及时在该网站发布出来。如果你有更多的宝贵意见,还欢迎发送邮件至邮箱:beijingtl@gmail.com,期待能够得到大家的真诚反馈。致谢

首先要感谢机械工业出版社华章公司的杨福川老师,是他鼓励我写这本书并给予了详细的思路和专业指导,其次感谢全程参与审核、校验等工作的姜影编辑以及其他支持本书出版的相关工作者。

感谢我的领导彭亮以及我的良师益友田学峰,是他们在我的职业生涯中给我非常多的启发和知识拓展的机会,我在工作过程中接触到的各个世界级的网站数据解决方案以及数据工作知识都是基于前辈们已有的宝贵经验。另外,在从网站数据到企业级数据的角色转变过程中,我的几个好朋友、好同事提供了许多帮助,在他们的共同努力下,我才能获得较多关于企业级数据价值的资料,在此对他们也表示感谢,他们是姜继浩、庞程程、吕兆星、赵光娟、郑传峰等。除此之外,还有很多一起奋斗过的小伙伴,如徐子东、陈林、郭靖等,在此就不一一列举了,同样感谢他们对我工作的支持。

感谢我的领导Webtrekk亚太区总监张姝,是她给了我更多学习世界级网站数字智能解决方案的机会并支持我撰写关于Webtrekk的相关内容。

最后感谢我的爸爸、妈妈将我培养成人,并教我正确做人、做事的方法!感谢我的夫人,是她在我写作本书期间默默打理着家里的一切事务,使我有精力、有时间完成本书的全部撰写工作。

谨以此书献给我最亲爱的家人,以及众多热爱数据工作并努力为之奋斗的朋友们!宋天龙(Tony Song)北京认知篇

·第1章 科学地认识网站的数据分析

·第2章 从零开始建立企业数据体系

·第3章 从零开始建立数据分析师个人成长体系第1章科学地认识网站的数据分析

网站数据分析的相关话题正随着中国互联网的发展被越来越多的人讨论着,但其中关于网站数据分析基本认知层面的讨论较少。实际上国内对网站分析的认知水平仍然处于较低的层次,表现在把网站数据分析当做万能钥匙,期望它能解决任何的业务问题;或者对网站数据分析不屑一顾,忽视数据在业务优化中的辅助甚至是驱动作用。

本章旨在引领大家建立一个全面的网站数据分析观,向大家介绍网站数据分析到底是什么,为什么企业需要网站数据分析,它能解决和不能解决的问题;同时就大家经常谈论的“数据驱动”问题展开讲解,使大家了解到底什么才是真正的数据驱动。1.1 企业为什么要对网站的数据进行分析1.1.1 网站数据分析能为“谁”解决问题

网站数据分析面向的对象是公司内部的整体运营体系,可以涵盖公司内部所有的以网站为核心的上下游相关业务主体。

1.网站数据分析能为公司整体运营提供战略支持

网站数据分析的支持对象首先是公司整体。网站数据分析在战略支持过程中围绕网站,重点围绕网站营销、网站运营、网站用户、网站产品销售等业务进行趋势和战略规划,它是线上的数据核心。通过对网站本身整体的营销情况、流量情况、销售情况和用户情况的挖掘分析,并结合财务数据、CRM数据、ERP数据、OA数据等数据形成整体数据体系和关键度量,为公司高层战略决策的制定提供基本的数据支持。

另外,网站数据分析还能通过特定的方法获取整个行业及其竞争对手的相关信息,这对于获取关键的竞争情报,如营销推广动向、产品销售策略、网站设计趋势和用户组成结构等都有至关重要的作用。因此,它也是战略竞争分析的重要组成部分,能为公司高层战略决策的制定提供行业视角和竞争情报。

通过对公司内外部数据的收集和整合应用,结合公司的内部运营和外部行业环境,网站数据分析能为企业的战略制定和执行优化提供较为全面的数据视角。

2.网站数据分析能为各业务点提供数据支持

网站数据分析面向的业务对象是公司内部与网站有关的支持、生产、运营、发布和优化等部门。按照公司内部的职能划分,直接支持的对象通常是业务类部门,包括营销相关、运营相关、销售相关、产品设计、用户体验、会员相关等;间接支持的对象通常是职能类部门,包括HR、财务、行政管理、稽查等。无论是业务类部门还是职能类部门,网站数据分析的作用都是为公司提供评估、优化、审核、校验、稽查等相关价值点,数据结果会反馈给相关部门和管理人员进行公司流程梳理、部门执行优化、个人发展绩效等环节。1.1.2 网站数据分析能解决哪些问题

网站数据分析的载体是网站,因此所有的数据都来自于网站本身。而数据在反馈到业务的过程中,能解决的问题集中在与网站相关的课题上。网站数据分析可以提供多平台(不同形式的网站和应用)、多渠道(不同的营销和推广渠道)、多终端(不同的访问终端)下多数据体系的数据整合分析,为与网站整体营销相关、运营相关、用户相关和销售相关的业务提供洞察支持。

1.多数据平台的数据整合分析

大多数企业都有多个企业级的应用平台,包括WAP网站、APP应用和Web网站。这三种平台产生的数据可以通过网站分析系统直接进行整合分析,以便评估不同平台上的业务效果;同时,网站分析系统还可以通过整合数据集进行用户识别和关联,提供跨平台、多渠道和跨终端的效果分析,打通不同平台间的运营通路。比如,线下电视媒体的标版广告是如何对线上的流量产生影响的、APP上的移动广告对Web网站的销售影响如何,以及用户是如何在三个企业级的应用平台之间进行切换等。

随着用户访问碎片化特征的加深,跨平台、多渠道和跨终端的访问越来越明显,尤其是对于决策周期较长的电商类、保险类、金融类企业而言,复合型推广、整合性传播、全方位维护已经成为重要的战略方向,而针对这种复杂行为的数据必须通过网站数据分析中独有的工具和方法进行跟踪、整合与分析。

另外,在整合网站数据进行分析的过程中,由于网站中大部分用户采用的是匿名访问的方式,因此传统的以CRM用户ID等为主键的关联方法将很难大规模的被适用,这种方法只能针对已经登录或注册的用户进行行为分析。因此,占绝对数量的匿名访问以及基于Cookie的唯一访客ID的网站数据分析将得到更大规模的应用。这种数据整合分析可以为企业由原来从已知用户行为数据中提炼关键价值点演进到依据未知的用户推导结论辅助已知的业务进行优化。

2.多业务对象的辅助数据支持(1)营销类数据支持

营销类数据支持是指通过数据提炼相关的业务观点,为营销决策、营销实施、营销优化和评估等提供数据驱动建议的过程。营销类数据支持的对象主要是品牌部或市场部,其下属细分业务包括:媒介(品牌)、SEM、CPS(按销售付费)、SNS(新媒体)、EDM、PR、BD(商务拓展)等。

营销类数据支持是最常见的网站数据分析需求,一方面由于所有的营销推广渠道效果都可以直接或间接地反馈到线上(纯线下的业务经营除外),因此,效果更容易量化评估;另一方面由于营销费用是公司重要的费用支出项目,因此公司更加关心巨额广告费投入之后的营销产出。因此,营销类分析是网站数据分析的重要课题,也是结合最紧密的一类业务需求。

营销类网站数据分析需求通常包括:前期整体营销策略组合和媒体策划、中期渠道推进和优化执行、后期渠道效果评估等,网站数据分析都要结合特定的数据分析和挖掘方法针对这些需求提供服务。另外,结合适当的追踪方式和分析方法,网站数据分析还能解决传统线下投放浪费的“另一半”广告费的效果评估问题,使每次的广告投放有的放矢,效果评估更加科学、全面。

营销类数据支持常见的课题包括:渠道投放效果评估、跨渠道访问特征分析、营销组合分析、渠道最佳费用和效果产出点分析、渠道作弊分析、广告和社会化媒体的销售贡献分析、渠道生命周期分析、渠道画像和价值模型分析等。(2)运营类数据支持

运营类数据支持指的是狭义的运营,即以网站为载体的,包括网站运维支持、内容优化、功能设计和业务操作为核心的业务体系。该体系包含的相关部门主要是网站运维、页面运营、功能优化、用户体验等。

运营类数据需求也是常见的网站数据分析需求,由于是围绕网站开展的业务动作,因此业务效果更容易直接反馈和作用于线上,形成从前期策划设计、中期落地执行、后期优化改进到再评估优化业务流程闭环。

运营类数据支持的常见课题是围绕网站相关的数据需求,包括网站整体设计和组织策略、网站诊断及整体优化、网站资源位或坑位最佳优化组合、促销活动组织策略、页面产品功能喜好、整体用户体验度、站内促销流程分析、页面布局和最佳组合分析、站内广告位挖掘和定价分析等。(3)用户类数据支持

用户类数据支持是指以用户为核心的数据支持体系,其效果直接作用于会员或客户维系的相关部门。用户根据登录状态分为匿名用户和实名用户两种。

网站分析的整体设计逻辑是为用户分析而服务的,因此用户类数据支持是整个网站数据分析的重要组成部分。网站用户分析是用户整体数据分析的重要节点,因为网站端提供了传统线下在购买或转化之前的所有属性和行为记录,为对用户进行360°认知提供了关键的“事前”视角。另外,由于实际工作中可能有超过10%甚至更高比例的用户是匿名状态,该状态下的用户是网站的潜在和目标客户,分析其行为对整个网站的优化改进能起到重要的参考作用。

用户类数据分析点通常包括用户基本属性、用户基本行为和转化行为的分析与挖掘。

·用户基本属性:人口社会属性、地理位置属性、访问环境、终端属性、来源属性等。

·用户基本行为:浏览、查看、搜索、点击、事件。

·用户转化行为:试用、下载、表单、注册、登录、订单。

用户类数据支持常见的课题包括典型用户特征提取、特殊类别用户行为挖掘(如购买了A类产品的购物路径、高活跃度用户站内行为轨迹)、用户忠诚度分析、用户活跃度分析、用户流失和预流失分析、用户广告偏好度分析等。(4)销售类数据支持

销售类数据支持是电子商务类企业的核心数据应用之一,直接作用于线上相关采购和销售类部门,间接作用于线下采购、仓储、物流配送等部门。

网站数据分析支持可以直接为线上相关采销和销售类部门提供产品销售前和产品销售中的业务洞察,包括从产品被检索、查看、加入购物车,直至提交订单的整个动作链条结束时所有的细节数据,能为采销业务趋势的把握和症状诊断提供最直接的一手资料和数据支持。

同时,线上的产品检索、查看、加入购物车的趋势可以直接映射到线下,如根据线上产品需求规划、采购方案和商品组合,利用线上需求预测产品库存和周转策略;根据线上用户产品订货特征做仓库最佳分拣路线制定和调整;根据各品类销售预测结果提前制定物流和配送方案等。

销售类数据支持常见的课题包括:销售废单率分析、站内商品销售漏斗分析、产品关联和交叉销售分析、商品最佳投放渠道分析、商品站内资源位推荐分析、产品打包销售策略分析、产品需求与销售预测供应分析、产品关注周期分析、产品季节性分析、恶意订单分析、价格敏感度分析等。1.1.3 常见的几种“分析”概念

在业务实践中,有很多“分析”概念会让大家感到疑惑,从而直接影响从业者的职业规划,其包括职业定位、发展路线等。因此有必要将几种最常见的“分析”概念进行介绍,为大家今后的职业定位和发展提供帮助。

1.数据统计

数据统计是对最初级的数据从业者的定位,其含义如其字面意思——统计,具体工作是从海量数据中进行数据提取、数据清洗、数据汇总和基本输出工作。数据统计是所有公司必不可少的工作内容,由于该工作不需要具有太高的技术含量,因此其替代性非常强,通常该工作会通过数据产品自动化来实现。

数据统计要求从业者具有良好的数据提取和处理能力,核心需求能力是能熟练掌握SQL的使用技能及Excel的使用技能,这是从业者职业发展的开始。

统计类工作的定位一般是初级分析师或数据分析员。我们常见的统计工作如日报、周报、月报、季报、年报等,直接陈列数据、报表等类型的报告皆属于此类工作的典型内容。

2.数据分析

数据分析是在数据统计基础上的必要延伸,也是数据从业者的必经阶段。数据分析的基本流程通常包括需求收集、需求处理、需求评估、数据准备、数据分析、数据展现,除了基本流程外,通常还会包括业务沟通、业务优化等过程。数据分析的需求常见于大中型公司,小型公司的分析类需求较少,更多的是侧重于统计需求。

数据分析对从业者的要求较数据统计高,需要从业者具备良好的数据处理和分析能力,同时由于数据要符合落地性的需求,要求从业者需要具备基本的业务常识和经验,以保证数据分析的结果有用、可用、易用,进而推动业务人员理解数据、分析业务、优化业务。

分析类工作根据从业者的层次不同,通常会分为中级分析师、高级分析师、首席分析师等,不同公司对分析师的级别定义不同,但作为中高级分析师,其关注点不仅是数据本身,而是更侧重于从数据中挖掘价值、发现业务,进而优化其可优化的节点。常见的分析类工作包括专项类分析、市场类分析、项目类分析等。

3.数据挖掘

数据挖掘严格意义上属于数据分析的一部分,但由于其独特的技术技能要求及应用领域,已经从数据分析中脱离出来形成单独的数据职业。数据挖掘是指从海量的数据中挖掘其隐含的、潜在的数据价值的过程,侧重点是针对未知知识的探索。

数据挖掘要求从业者在人工智能、机器学习等挖掘技术中至少掌握一门数据挖掘技术,并且需要特定程序和语言进行输出,展示层面需要具有一定的可视化技术来解释挖掘结果和价值,因此具有较高的数据从业要求。

数据挖掘从业者的公司定位,根据面向对象的不同可分为以下两种。

·业务类数据挖掘工程师:其侧重点是运用数据挖掘算法为业务提供数据分析和挖掘价值点,直接优化业务运作。

·技术类数据挖掘工程师:其侧重点是通过数据挖掘算法的优化和改进,为数据产品如DSP、RTB、个性化推荐等提供算法支持,是整个数据产品的重要环节。

4.网站分析

网站分析是数据分析的一个分支,其在数据分析的基础上拓展了数据的上下游工作,上游包括数据采集、数据存储、数据处理,下游包括数据展示、数据优化。因此网站分析相对于其他“分析”类概念具备相对完整的数据生态环境,即网站分析涵盖了整个数据从采集、存储、处理、分析、展现和应用优化的全过程。

网站分析要求从业者了解互联网运行的基本机制,掌握网页设计的相关技术,作为网站分析的工具载体——网站分析系统,也需要熟练掌握和应用,网站分析的基本方法、概念和定义也需要熟稔于心,当然,最重要的还是要具备商业意识,要把数据的价值应用到业务中实现其价值。

网站分析作为一个特殊的职业,通常定位于与流量相关的业务体系中,如营销中心、品牌中心、推广中心等,公司人员定位包括初级网站分析师、中级网站分析师和高级网站分析师。网站分析工作的核心是围绕网站数据的产生、优化和落地,因此更多侧重于营销、网站运营、用户体验和在线销售的数据支持。1.2 网站数据分析的5个误区

网站数据分析能实现对所有在线活动的数据洞察,通过数据我们可以总结规律、挖掘价值、剖析原因,甚至可以优化企业的战略和战术并确定其发展方向,使其直接服务于决策者和执行者,因此它是企业日常运营和发展的必要组成部分。但仔细审视数据本身,我们会发现隐匿于美好之下的残缺,这些残缺是由于信息的不对称、价值观的指向、个人能力的不足,甚至是公司的流程和体制等原因而产生的。误用数据不但对公司业务发展没有正向帮助,反而会为业务团队带来决策风险。

1.网站数据的价值真的有那么大吗

作为网站数据分析的从业者,是否问过自己这样一个问题:网站数据分析可以为公司网站端运营活动提供决策支持,但价值真的有那么大吗?假如公司没有网站数据分析,各项业务运作体系是否会受到影响?如果你的回答是不确定甚至是确定没有影响,那足以证明你在整个公司流程中所从事的网站数据分析工作没有多少价值。对于不同类型的公司,网站数据分析工作的价值大小有所差异。

在线营销类或服务类广告公司的业务核心是通过为广告主提供广告投放、评估和优化业务,从而获得费用差价、佣金返点、服务费等,由此形成公司的核心利润业务。网站数据分析所处的角色是对这些业务体系提供数据评估和优化,此时由于从业者的工作与公司核心业务结合紧密,因此其职业价值会比较高。

线下苏宁、国美的大卖场能为其各自集团的销售类业务贡献90%以上的利润,而线上的电商业务体系分割了不到10%甚至需要利润补贴进行运作,此时针对线上业务的网站分析体系的价值在整个苏宁和国美集团中显得微不足道。此时由于从业者的工作与公司核心业务所创造的价值相差较大,因此其职业价值会比较低。

上述两大卖场的例子阐述了网站数据分析在不同公司的不同存在意义,从本质上讲网站数据分析价值的外部环境取决于公司的运营架构,即公司的核心业务模式是否与网站分析相关以及相关性的强弱。注意 在所有公司的运营体系中,网站数据分析只能满足业务类的数据分析需求(如营销分析),职能类的分析需求(如财务分析)是无法通过网站数据分析解决的。因此,网站数据分析需要与公司整体数据整合,形成企业大数据支持下的商业智能,从全局性的角度建立数据运营支持体系。

2.网站数据的质量真的那么好吗

数据的质量是所有数据工作中最基础但也是最容易被忽视的一个环节,如果你对数据的质量没有概念,看下面列举的几种简单的数据情况:

·三个数据系统中同样定义的“销售额”指标数据不一致。

·数据库中的“邮箱”字段80%为空。

·数据库的“性别”字段中某些值为10。

·数据库中“产品名称”字段出现乱码。

以上问题的出现就是数据质量差造成的,出现这些情况既有公司内部原因又有外部原因。内部原因包括数据采集方式错误、数据验证机制不全面、数据同步不及时、ETL过程错误、数据提取错误等;外部原因包括用户填写的信息不规范、用户数据采集环境存在客观差异等。

在网站数据分析师或数据分析师接触到所要分析的数据之前,这些数据会经过数据采集(包含异常值处理和采集入库)、数据存储(主从备份和不同库表间数据同步)、数据提取(ETL、SQL取数)三个阶段,如果事先不对数据进行质量校验,会因为基本数据问题导致后期数据分析和挖掘无法进行,甚至会在分析数据后才发现整个结果都是错的——用错误的数据进行分析必然会导致错误的结论。

在大多数情况下,数据质量由于其隐秘性以及难以产生业务和技术应用价值而不被公司重视,但作为数据分析师需要具有数据质量意识,拒绝“Rubbish in rubbish out”!注意 数据质量校验是所有数据预处理的第一步,因此数据分析师一定要养成习惯,在做数据分析之前应进行数据质量验证,下文会讲到如何进行数据验证。

3.数据需求不总是与业务需求相吻合

要进行分析挖掘的数据必须具备一定的前提条件,即符合数据规律且符合业务需求的数据才能用来为业务服务,但在很多情况下数据自身的这种严谨性要求会与业务分析需求产生冲突。业务方通常需要快速、及时、正确、全面地给出结论、做出反馈意见,进而落地执行优化,但这种需求与数据的严谨性通常是冲突的,这种冲突的本质是数据需求的严谨性要求数据是稳定的、全面的、长期的、及时的,因此通常需要有一定的周期和时间才能产生数据价值。

数据需求的严谨性主要体现在数据采集阶段。在数据采集阶段要求数据样本量必须具备在一定周期内相对稳定的特征,并且这种特征能在后期的数据处理中排除异常值波动的影响,进而得到完整、真实反馈业务效果的数据。

数据采集通常会受两方面因素的影响,一是数据采集单位效率,即每天能采集多少数据;二是周期,即使数据单位采集的效率很高,也不能只使用一天的数据进行分析,因为当天的数据可能存在异常值,而且该异常值不通过数据对比分析是无法进行验证和剔除的。因此,数据采集阶段通常至少需要采集一周的数据,如果采集效率低,则需求时间会更长。

但在业务方看来,如此“长”的时间通常是无法忍受的。业务方通常想要在较大业务完成后立即反馈结果进行优化矫正,但我们看到业务方的这种“短、快、全”的需求直接与数据需求的严谨性产生冲突。这种冲突的场景包括:

·某站内广告在首页焦点图的A位置只放3天,3天后马上下架换新素材。

·某站内UED部门做产品体验提升,每周进行一次产品方案优化。

以上两种业务场景从客观上直接导致数据需求严谨性的缺失,因此会对数据质量和后期的分析挖掘产生一定的影响。注意 数据需求的严谨性并不意味着数据结果的产生一定需要很长的时间,时间长短取决于业务需求中数据需求对时间和数据样本的要求。通常实时数据、即席报表都能以很快的速度反馈业务关键节点的效果,以帮助业务做及时调整,比如某渠道推广效果、站内某活动实时效果等。但某些长期、对全局性有影响的关键业务节点需要更慎重的决策支持以避免数据决策失误,比如首页改版、购物车改进等。

4.数据能帮你分析问题吗

通常数据在相关系统和工具的预设工作机制下,会自动呈现出我们想要看到的关键KPI,甚至在我们把一些数据分析和挖掘算法模式化后,数据可直接通过自动化的流程产出我们想要的价值结果。

实际上,数据作为一种客观实体,其本身并没有价值,它并不能帮助我们分析问题,而只是提供了数据分析的“素材”。唯一能让数据发挥作用的是人,包括数据分析师、挖掘工程师等数据从业者,因此大多数企业的现状不是缺少数据,而是缺少能将数据价值活用出来为企业提供辅助决策甚至是数据驱动能力的“人才”。

不过,即使有了“人才”,数据就能发挥作用、帮助我们解决所有的问题吗?在数据从业者的工作环境中,永远都会涉及两种人:数据从业者和业务人员。即使数据从业者的能力再强,仍然无法完整重现业务场景,但这种场景恰恰是业务人员自身的经历,他们的这种经历是数据分析和挖掘的宝贵财富,甚至很多数据结果只需要凭借他们的经验就可以解释清楚,举例如下。

某公司要进行妥投率的分析,调用了所有的从订单、分拣、出库、配送到收货的数据,发现某个配送节点的妥投率较低。数据分析师使用各种算法和模型进行分析都百思不得其解,而其配送站点的物流经理的一句话让整个数据分析的难点迎刃而解——该配送站的某快递员请假导致货物没有及时发出。提示 数据从业人员一定要多与业务人员沟通,从需求发起到报告落地验证和再优化的整个过程,业务人员都是必不可少的环节,他们的很多业务经验和常识往往能为数据从业者指明方向并降低数据项目的失败概率。

5.数据真的是公正客观的吗

数据有没有立场吗?

数据的公正客观在大多数人看来是与生俱来的,因为数据的存在就是客观的。数据的存在的确是客观的,但数据的应用主体是“人”,不同人对同一数据的分析结果会有所不同,这取决于数据从业者的立场。

这会影响什么?

我们对数据存在的初始期望是希望数据能客观的反馈业务结果,并服务于业务,从而对其进行优化和改进。如果对数据的分析和解读不客观、不公正,那么结果必然有失公允,基于数据的决策将会面临风险。

为什么会这样呢?

数据从业者的立场决定了数据的立场,这种立场受以下两方面因素的影响:

一是数据从业者在公司所处的角色。如果数据从业者在企业组织架构中位于采销中心,在对公司级数据进行整理并汇报采销相关数据时,出于对采销中心或其他因素的保护意识,可能会出现不客观的结果,比如只报喜不报忧,甚至会颠倒是非。

二是数据从业者基本的价值观。任何人都有基本的认知价值观,对于数据从业者而言,如果在拿到一个案例之后,先有了结果偏向,那么整个分析和挖掘过程必然会只选择与其结果一致性的样本和方法进行验证,这可能会直接导致对客观数据分析结果的扭曲。注意 客观、公正是数据从业者的职业要求和个人素质之一,任何基于数据的决策项目都要求从业者秉着客观、公正的态度去对待。1.3 识别网站数据具有欺骗性的3种形态

辨别数据欺骗性是避免数据决策失误的重要环节。在很多情况下我们看到的都是经过加工的数据,数据一定是“眼见为实”吗?数据是如何“说谎”的呢?

1.数据展示的欺骗性

数据可视化通常可以帮助读者更好地理解数据,常见的载体是图表或图形。数据展示的欺骗性是指利用数据可视化的方法,对特定图表或图形的展示进行特殊处理,从而使数据解读者产生视觉上的错误认识。(1)图表拉伸

图表拉伸是指图表的高和宽不符合正常比例,通过刻意拉伸高或宽等途径人为形成某种假象。在正常情况下,图表宽(横轴)与高(纵轴)的比例为1:1到1:2之间,如果在这个范围之外,数据显示结果会过于异常。如图1-1所示,在正常情况下订单量走势平缓,但缩短横轴之后的订单量走势显得更加陡峭,会让人误认为效果非常显著。图1-1 同样数据在不同拉伸程度下的对比(2)坐标轴的特殊处理

坐标轴的特殊处理是指数据排列非正常展示,包括数据单位设置、取对数,甚至是逆序排序等,这些操作直接影响了数据的正常展示,甚至会带来相反的错觉。如图1-2所示,在正常情况下不同省份的数据差异非常大,但在取对数处理之后由于数据都落在相对较小的区间内,导致各省份差异非常小,这就是同样的数据,不同的结论。(3)数据标准化

数据标准化的本质是对绝对值较大的数据进行处理,使其在保持自身数据相对性的前提下,将不同的数据落到相同的数据区间,以便更好地进行不同数据间趋势、相关性等结果分析。常用的数据标准化方法包括Z标准化和0-1标准化。如果数据从业者不提前告知,可能会让业务人员误以为两种数据的结果值异常,不符合实际业务场景。图1-2 数据经坐标轴处理后的展示对比

对于如表1-1所示的数据,如果直接在此基础上进行展示订单量和跳出率关系,则很难发现数据价值。为了更好地说明问题,通常我们会把两个数据经数据标准化后放到一个数据区间内,在表1-1中使用0-1标准化来对订单量和跳出率进行处理。表1-1 某周期内订单量和跳出率的数据

处理之后的数据会更具备展示和解读性,如图1-3所示。图1-3 订单量与跳出率关系图提示 数据标准化是分析不同量级数据间关系的常用方法,掌握标准化不仅有利于数据从业者进行数据分析,更容易让业务人员从感性的角度直接发现两种数据间的相互关系,对理解数据有很大的帮助。

对于该类数据展现的欺骗性,需要数据从业者在进行数据分享和沟通时先介绍图形展示时进行的数据处理步骤、方法和目的,以避免业务人员误解数据。同时,作为业务人员需要掌握以下基本的数据理解常识和图表理解步骤。

步骤1 看标题,了解图表要表达的基本含义。

步骤2 看坐标轴,包括横轴和纵轴,看图表是否存在使用双坐标轴、纵轴特殊处理和排序等问题。

步骤3 看示例,如果图表中有多个数据,需要了解每个数据的含义。

步骤4 看注释,通常分析师会将图表的样本、时间、处理方法等一并写到注释中。

2.数据处理的欺骗性

数据处理过程中的欺骗性是较难被察觉的一类欺骗方法,由于数据在进行结论展现前会经过取样、清洗、模型和分析方法选择以及应用等过程,每个过程都有可能存在问题。(1)数据样本问题

在进行数据分析之前可能存在需要抽样的问题,并且在数据量越大的情况下出现抽样的概率越大。合理的抽样有助于提高数据分析和挖掘的效率,能在保证数据质量的前提下减少人力和时间成本,因此抽样是大数据分析和挖掘的必要步骤。

数据抽样的方法因人而异,只要能代表全部样本特征的抽样方法都可用,因此不存在最好的抽样方法,只有最适合的抽样方法。如果抽样过程中出现问题,会直接影响后期所有的数据工作,恶意的抽样方法甚至会直接导致数据结论的错误。常见的数据抽样问题是抽样主体不同和抽样样本量不同。

抽样主体不同。相同的样本,在所有条件都相同的情况下,哪怕只有一个抽取逻辑不同,就可能导致后期的结果更符合或不符合“预期”。比如要执行用户挽回业务的动作,需要提炼出更具备挽回可能性的用户,假如抽样样本分别是最近6个月未访问和最近6个月未购物但有访问行为的用户,几乎可以不用做业务测试和效果分析,最终的结果必然是最近6个月有过访问行为的用户具备更高的挽回概率。

抽样样本量不同。严格来说样本量不同并不一定是故意欺骗,因为受客观环境的影响确实存在具备某些特征的用户样本很少,比如有年龄信息的用户在互联网公司的CRM系统中的比例占比很低,这是无法改变的。但即使是这样的客观情况,基于较大差异的样本量分析和挖掘的数据结果也很可能具备一定的偶然性,可信度较低。提示 当某种数据因为客观环境导致样本量较少时,可以采用数据欠抽样和过抽样的方法进行平衡。(2)数据处理问题

数据处理指的是在开始分析数据之前的清洗工作,通常需要对样本进行整体数据观察,以确认样本数量、均值、极值、方差、标准差及数据范围等。数据在应对异常情况的处理时也会存在故意“说谎”的问题,最常见的异常情况包括极大值和极小值、缺失值、错误值等。每种异常值的处理方法都不同会对数据处理结果产生直接影响,并且异常值的样本数量越多,对数据处理结果的影响就越大。

举例:某公司一天的销售数据显示,当天的销售额异常高。在对数据进行整体观察后发现当天存在异常离群值——极大值,该值直接将当天的整体数据拉升到一个不可信的高度。该异常值可能是恶意下单、行单、测试订单,甚至是系统问题引起的,无论是哪种原因,都直接导致了销售额异常。如果忽视该异常值的处理,直接对包含异常值的数据样本进行分析与挖掘,结论就是利好的,但并不符合实际。(3)数据分析问题

在数据分析和挖掘的过程中,同一种目标下都存在多种可供选择的分析方法与挖掘模型。不同的方法和模型产生的结果未必相同,尤其是具有定性分析的对比类分析,所对照的样本不同,结果就不一样。

举例:某公司一天的销售额是1000万元,该销售额是多是少?对比昨日、上周同期、上月同期、去年同期,甚至是随便选择一天的销售数据,结果可能都会存在很大的差异。这就意味着不同的对比对象决定了数据解读的方向。

对于该类数据取样、处理和分析的欺骗识别,在业务人员与数据分析师沟通的过程中,双方都要把基本的数据选取规则、处理方法沟通清楚,对其中明显的错误或失误进行及时纠正。

3.数据意识欺骗

数据意识欺骗是隐藏等级最高、最严重的欺骗和错误,通常在数据从业者进行数据分析和挖掘之前就已经有了结论,在数据抽取、分析处理、后期展现等环节中只选取有利于证明其论断的方法和材料,因此会产生严重的误导行为,如果是辅助高层作出决策,甚至会带来严重的决策失误!因此,数据从业者一定要保持中立的立场、客观的态度。

在与数据从业者沟通的过程中,如果发现确实存在某种固定的倾向性,就需要引起注意。另外,对于以下相关情形,也需要引起警惕:

·在数据报告中刻意隐藏数据提取细节。从来不注明数据出处、数据取样时间、数据取样规则、数据处理和分析挖掘方法等,这通常意味着该报告刻意隐藏数据提取细节,需要引起重视。

·数据报告样本过少的问题。比如样本共1000个,其中北京提供的可能只有100个,其余900个是其他省份提供的,基于100个样本分析出与北京相关的数据结论显然可信度较低。

·数据报告存在明显的倾向性。任何事物都有正反两方面,对事物进行分析,如果只分析其优势或劣势,结果必然不全面、不客观。1.4 辅助决策与数据驱动的争议

辅助决策和数据驱动是数据发挥作用的两种形式,但大家对于两者的区别不甚了解,甚至有很多人误以为自己做的统计类工作就是数据驱动。1.4.1 辅助决策

1.含义

辅助决策即决策支持,它是以决策主题为中心,借助计算机相关技术辅助决策者通过数据、模型、知识等进行业务决策,起到协助决策者进行决策的作用。

2.分类

根据数据建议的明确性不同,辅助决策可分为执行性辅助决策和启发性辅助决策。(1)执行性辅助决策

执行性辅助决策是指面对某一决策主题,可以用确定的语言进行描述,并通过特定的方法和模型进行分析挖掘,以直接的数据记录、行动规则等辅助决策方开始业务动作。

执行性辅助决策的特征是:具有明显的决策目的,数据结果明确且直接,业务决策方可直接采用其结果并落地到业务执行。

举例:某业务需要针对部分客户进行大型活动以实现促销,此时需要确定促销客户的名单,如果数据从业者提供了客户名单、样本抽取规则等,可以直接帮助业务确定发送对象。(2)启发性辅助决策

启发性辅助决策相对于执行性辅助决策而言,可能没有面对某一决策主题,也可能是面对某一决策主题时没有明确的结果论断,但提供了间接的数据相关论证、规则、描述等,需要业务自身根据这些信息进行自我判断和决策。

启发性辅助决策的特征是:决策主题不明确或在明确的决策主题下没有明确的业务落地点,决策方无法直接开展业务活动。

举例:日常的统计性数据报告、面向市场研究类的宏观报告都属于此类范畴。

3.步骤

辅助决策的步骤通常分为4步:

1)建立决策主题。业务方基于需求或问题形成决策主题,包括问题组成、决策方向、决策方法、实施周期、效果评测等,这是决策活动的起点。

2)分析决策主题。数据从业者利用相关数据知识、工具、技能来定性分析和挖掘决策主题,并得出可供决策方应用的描述或结果。

3)评估决策建议。决策方根据个人才能、经验、流程以及所处环境的条件等因素对描述或结果进行评估,从而确定最优方案。

4)决策实施。决策方落地决策建议并开展业务动作。

辅助决策往往不是一次性工作,而是一个迭代优化的过程。每一次决策实施既是上一次辅助决策的终点又是下一次辅助决策的开始。1.4.2 数据驱动

1.含义

数据驱动是指整个业务运作流程以数据结果为运作目标,以关键数据为触发方式,借助计算机相关技术结合企业内部流程和机制形成数据一体化的工作流程。

2.分类

按照自动化程度的不同,数据驱动分为自动化数据驱动及半自动化数据驱动。(1)自动化数据驱动

自动化数据驱动指数据业务流程,从确定决策目标、决策分析、决策评估到决策执行过程都是完全自动化的驱动方式。自动化数据驱动的核心是整个过程除了人为调参优化或加入人工干预规则之外,不需要借助其他业务方的参与。

举例:常见的站内个性化推荐系统是自动化数据驱动的典型应用,站内个性化推荐系统实现了数据自我决策实施的整个过程,除了调优和人工干预规则外,无须人工介入执行。(2)半自动化数据驱动

相对于自动化驱动过程,半自动化数据驱动需要人工介入,主要介入点是人工代替机器或系统触发业务动作,但业务方的角色是仅作为实施方介入,不参与决策过程。

举例:大多数电子商务网站都有基于加入购物车事件的触发机制,当登录或注册的用户将商品加入购物车但放弃购买后,会自动发送短信或邮件提醒用户继续购买,并附以折扣、限时、优惠券等措施刺激用户完成订单。部分公司由于整个系统并未完全打通,因此其中的客户名单需要人工梳理后录入发送平台,进而完成整个提示过程。

3.步骤

数据驱动的步骤与辅助决策相同,只不过在建立决策主题、分析决策主题、评估决策建议和决策实施过程中都是由配合数据开发的自动化系统来完成的,整个决策的载体是自动化系统,核心是数据本身。1.4.3 辅助决策与数据驱动差异点

辅助决策和数据驱动是两个层次的数据应用,数据驱动相对于辅助决策的实现难度更高、数据价值体现更大。

·辅助决策为业务决策方服务,整个过程都由业务人员掌控,数据是辅助角色。

·数据驱动的过程由数据掌控,数据是主体,实现该过程需要自动化系统、算法等支持。因此,数据驱动具有自主导向性、自我驱动性和效果导向性的特征。由于数据本身会存在缺陷以及业务需求,需要在数据的运作过程中加入人工干预因素。但数据作为数据驱动的核心不变,数据即决策本身。1.5 本章小结

本章围绕网站数据分析的认知话题,全面介绍了网站数据分析观。其中需要读者重点掌握的知识点如下:

·网站数据分析不只是网站数据的输出,更是为企业整体及所有网站上下游业务提供数据洞察的支持载体;

·科学认识网站数据分析,其存在价值受数据特点、业务需求及其他客观因素的影响;

·识别网站数据的三种欺骗形态,尤其要重视第三种,否则数据产生的消极作用可能会大于积极作用。

此外,希望读者能进一步思考以下问题:

·网站数据服务的对象是否比较单一,如果是,应如何改善并扩展网站数据发挥价值的领域和方式?

·网站数据分析是否存在欺骗的场景,如果是,应如何尽量避免并弥补这种问题?

·企业数据的角色到底是辅助决策还是数据驱动,有哪些方法让数据从“后台”的辅助角色转变为“前台”的驱动角色?第2章从零开始建立企业数据体系

完善的数据工作体系是数据在企业内发挥价值的基本前提,很多企业往往缺乏正确的认知和明确的体系方法论,认为招几个分析师就能建立数据工作体系。这种错误认知会直接导致整个数据体系的不完善性,导致数据工作过程中问题百出,从而影响数据价值的体现,甚至会导致企业数据泄露,影响企业数据的安全。

企业数据体系由企业职能架构保障,通过职能架构与技术架构协同发挥作用。本章将介绍企业如何定位数据体系,如何建立完善的数据智能与数据技术架构体系。另外,企业在建立数据体系之初通常需要引入外部公司协助工作,部分公司也会采用SAAS的服务模式,因此本章也将介绍不同模式的优劣及如何选择服务供应商。2.1 数据价值最大化的定位2.1.1 数据价值定位的基本原则

数据价值定位即定位数据在企业内部的角色,其决定了后期整个数据体系的工作方向和价值方向。

1.拒绝“鸡肋”工作

所谓“鸡肋”工作就是业务方懒得执行的工作,特点是需要消耗大量时间、工作内容较为初级、无技术含量仅靠体力完成。此类工作通常是业务与数据分工的交叉点,即业务方和数据方都可以执行,常见的工作包括数据清洗、数据提取、数据汇总等。

此类工作严格意义上属于基本的数据统计范畴,很多公司已经通过自动化报表工具或智能系统实现这类工作而无须人工参与。但对于未实现自动化和智能化的公司,只能人工实现。如果仅将数据价值定位于此,数据工作其实是低价值工作的外包承接者,毫无意义可言。

但从企业分工的角度来看,数据统计类工作是数据工作的“分内之事”,并且是每个公司的基本工作之一,那么作为与数据相关的部门应如何处理此类工作呢?

·时间把控。此类工作占用的整体数据工作时间不宜超过20%,否则数据工作将被大量初级工作束缚,此时需要借助技术手段实现自动化。

·需求过滤。不是所有的数据需求都是有价值的,部分业务的数据需求可能只是“拍脑袋”提出而无实际价值,对于此类需求可以考虑驳回,把时间留给具有明确目的导向和高价值回报意义的需求。

·流程建设。在企业内部需要建立数据工作流程和机制,不同的需求如何流转、审批,权限如何申请需要有规可依,很多零散需求可以通过流程化管理加以避免。

·培训建设。对于很多具有明确意义的基础需求,可能由于业务方不具备数据能力而无法完成。因此数据体系的重要工作之一是建立企业内部数据培训和沟通体系,真正帮助业务人员提高基本数据素质和数据能力。数据培训建设是数据发挥价值的重要方式,真正的数据驱动型企业必定是每个业务人员都具有数据意识和数据能力。

2.适度“放权”

很多公司都有这样一个部门:专门负责管理用户数据权限,根据用户需求提取数据。这个部门通常属于技术中心的下属部门,以公司的名义管理公司数据。

这种工作源于企业内部数据安全性的需要,企业试图通过严格的数据权限管理来把控数据输入和输出,以保证数据质量稳定和内部数据不被泄露。对于很多公司尤其是大型公司或上市公司,数据安全是开展所有数据工作的先决条件,在无法保证数据安全的前提下,任何数据权限都不开放。没有数据,数据工作就是无源之水、无本之木,数据工作无从谈起。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载