R语言数据挖掘方法及应用(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-06 07:18:47

点击下载

作者:薛薇

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

R语言数据挖掘方法及应用

R语言数据挖掘方法及应用试读:

前言

大数据时代不仅仅意味着数据的积累、存储与管理,更意味着对数据的建模与分析。数据挖掘无可争议地成为当今大数据分析的核心利器。

尽管早在20世纪末数据挖掘的概念就被提出来,但数据挖掘的蓬勃应用其实才刚刚起步。这不仅得益于数据挖掘不断汲取并集成机器学习、统计学和可视化等学科领域的研究成果,理论日趋成熟,得益于大数据环境基础和大数据分析需求,更得益于开放性的数据挖掘应用实施平台。

因采取彻底的开放性策略,R语言已成为近年来出类拔萃的数据挖掘工具之一。其特点主要是:开源性,即可以免费下载并升级;全面性,即数据挖掘方法丰富全面,覆盖面广;操作简便性,即直接采用函数调用相关算法,且通过简单编程可完成复杂的数据处理和方法拓展;可扩展性,即R语言通过网络社区平台,吸引越来越多的专家学者和应用人员成为R的开发者,为R语言不断增添更有效、更前沿的数据挖掘方法。所以,R语言是一款应用前景广阔的数据挖掘工具。

本书以“R语言数据挖掘入门并不难”为起步篇,总览了数据挖掘的理论轮廓,厘清了相关概念,明确了R语言入门的必备知识和深入学习路线,并给出了对数据的直观印象这个R语言数据挖掘的初步成果。旨在使读者在没有相关知识储备的情况下,也能够快速起步数据挖掘实践。后续,本书围绕数据挖掘应用的四大核心方面,安排了数据预测篇:立足数据预测未知;数据分组篇:发现数据中的自然群组;数据关联篇:发现数据的内在关联性;离群数据探索篇:发现数据中的离群点。每篇下各设若干章节,每个章节从简单的案例问题入手,剖析理论方法原理,讲解R语言实现,给出案例的R语言数据挖掘代码和结果解释。覆盖内容之广泛,R实现步骤之详尽,都是国内外同类书籍中不多见的。这是本书的特点之一。

我们认为“道”和“术”的结合,无论对数据挖掘的初学者还是应用实践者都是必要的。“道”是数据挖掘方法,“道”是原理,此原理不是数学公式的简单罗列,而是透彻的知识认知。所以,本书希望努力给出“道”的直观阐述,并以尽量准确、简短和通俗的语言,将“道”体现在章节的主副题目上,使读者一目了然。“术”是数据挖掘的R代码,“术”是操作,此操作不是R函数的简单呈现,而是算法实现和应用的通用模板,是帮助读者实现数据挖掘实践的有效工具。所以,本书力图利用R语言模拟充分直观展现“道”,并通过有代表性的数据案例,画龙点睛地阐明R的“术”。每章都配有案例数据和R程序代码,使读者不但知其然,更知其所以然和如何然。此外,各章均以附录形式给出本章涉及的R函数列表,方便读者查阅。这是本书的特点之二。

进一步,目前R语言包的数量已多达7000多个,且还在快速增长。R的开放性决定了可能有诸多包都可以实现相同的数据挖掘算法。对此,本书选择R中主流的且被有效验证和广泛使用的包,既保证经典性也兼顾有效性,同时也解决了初学者因陷于众多R的“包”围中而无从下手的问题。这是本书的特点之三。

最后,对R语言数据挖掘的初学者,建议按照本书章节结构,循序渐进地学习,并参照书中示例,边学边做,加深概念理解和提升R语言熟练度。对有一定R语言基础或数据挖掘应用经验的学习者,因本书各篇和章节具有相对独立性,采用“以数据为导向”和“以问题为导向”的有针对性的R语言数据挖掘学习策略均是可行的。

说明:因R软件界面显示为彩色,而本书印刷为黑白二色,故以灰度深浅来代表软件中的不同颜色。

本书适合高等院校相关专业的本科生和研究生学习使用,也适合商业企业、科研机构、政府管理部门等相关人员阅读参考。

感谢付强、高峰、何建成、王晓静、肖伟、黄玉婷、陈笑语等同人、同学对本书的贡献和宝贵建议。书中不妥和错误之处,诚望读者不吝指正。薛薇于中国人民大学统计学院第1篇起步篇:R语言数据挖掘入门并不难第1章数据挖掘与R语言概述【本章学习目标】

理论方面,了解数据挖掘的概念,掌握数据挖掘的结果及展示方式,明确数据挖掘能够实现哪些分析目标,领会数据挖掘方法的主要思路,总览数据挖掘的典型商业应用。

实践方面,了解R语言的相关概念,掌握R语言入门必备知识,熟悉R语言的基本操作。1.1 为什么要学习数据挖掘和R语言

蓬勃发展的互联网(移动互联网)技术、物联网技术和云计算技术,不但将人类社会与物理世界有效地连接起来,更是创造性地建立了一个数字化的网络体系。运行于其中的搜索引擎服务、大型电子商务、互联网金融、社交网络平台等,不断改变着人们生活与生产的方式。同时参与其中的个人、企业和组织每时每刻都在释放出巨大的比特数字流,从而造就了一个崭新的大数据时代。

人类的数据生产能力达到空前。2009年IBM的一项早期研究结果显示,人类文明诞生以来,其数据总量的90%是在过去两年内产生的。2020年全世界所产生的数据规模预计将达到今天的45倍。其规模已远远超出了传统的G或T的量级,而达到以P(1000T)、E(100万T)或Z(10亿T)为单位的水准。

通常人们总结大数据有4V的特点,即大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)。那么如何采用有效的方法,才能快速分析这些大量和多样化的数据,并挖掘出其内在的价值呢?我们说,大数据分析一般需要四个核心要素:基于云计算的基础设施、分布式的大数据体系、数据分析方法与算法、行业应用知识与经验。

沿着这个思路,一名大数据分析的初学者应如何寻找合适的突破口,并通过渐进的学习,成为理想中的数据分析师或数据科学家?我们认为,从数据挖掘方法入手,无疑是最佳选择。这个学习方案,一方面可保证初学者在一开始就可以持续进行一般的数据分析,并通过增加数据量、引进新方法,提高自己的分析能力,并逐步成为一名方法应用与算法研究的专家;另一方面,当达到一定水平之后,向下可以进一步研究大数据的分布式计算环境与计算方法,并深入学习云计算的基础知识,成为大数据系统建设方案的高手;向上也可以结合自己所从事行业的实际问题,通过具体实战,积累应用经验,成为该领域大数据分析的翘楚。

R语言正是目前应用最为广泛的数据挖掘与分析工具。R的突出特点表现为:第一,共享性。使用者可以到相应的网站上免费下载和使用。第二,分析方法丰富。R不仅包括众多经典通用的统计和数据挖掘方法,还拥有大量面向不同应用领域问题的前沿和专用的模型算法。第三,操作简便性和灵活性。R支持计算机编程。用户可以通过编程实现数据整理的自动化和批量化,可以通过调用R的现成模型和算法解决一般性的数据挖掘问题,可以自行编写程序解决特殊性的数据挖掘问题。第四,成长性。R语言通过开放的网络社区化平台,不断吸引更多的专家学者和应用人员成为R的开发者,更多、更有效、更前沿的方法正不断融入R中。1.2 什么是数据挖掘

大数据对于数据挖掘,既是挑战更是机遇。褪去了发展初期的浮躁与喧哗,数据挖掘在理论方法与软件工具上都有了长足的进步,并在诸多领域积累了成熟的应用案例,取得了扎实的应用成果。人们曾经将数据挖掘形象地比喻为从数据“矿石”中开采知识“黄金”的过程,如今面对数据的“矿山”,数据挖掘充分汲取机器学习、统计学、分布式和云计算等技术养分,在方法研究、算法效率、软件工具集成环境和创新应用等方面不断开拓,正将昔日的数据“矿锤”升级为现代化的数据“挖掘机”,成为大数据时代最有效的数据分析利器。所以,数据挖掘具有多学科综合性、方法性与工具性的特征。对此,初学者应具有较强的数据操作能力和学习领会能力,能够举一反三,触类旁通,边学边做,边做边学。

数据挖掘的发展过程是一个兼容并蓄的成长过程。如图1.1所示,一般来说,数据挖掘经历了三个主要发展阶段,从初期局限于数据库中的知识发现(KDD:Knowledge Discovery in Database),发展到中期内涵不断丰富完善以及多学科的融合发展,乃至今天成为大数据时代的关键分析技术,数据挖掘已经取得了实质性的跨越。图1.1 数据挖掘发展历程示意图

目前,对数据挖掘的理解已达成如下共识:

首先,数据挖掘是一个利用各种方法,从海量的有噪声的各类数据中,提取潜在的、可理解的、有价值的信息的过程。这里,信息可进一步划分为两大类:一类是用于数据预测的信息,另一类是用于揭示数据内在结构的信息。

其次,数据挖掘是一项涉及多任务、多学科的庞大的系统工程,涉及数据源的建立和管理、从数据源提取数据、数据预处理、数据可视化、建立模型和评价以及应用模型评估等诸多环节,如图1.2所示。

针对复杂问题且涉及海量数据的数据挖掘任务,往往是一项大规模的系统工程。为更加规范地开展数据挖掘工作,NCR、SPSS和Daimler-Benz三家公司联合制定了跨行业数据挖掘标准CRISP-DM(CRoss Industry Standard Process of Data Mining),SAS公司也发布了相关数据挖掘标准SEMMA(Sample、Explore、Modify、Model、Assess)。这些标准希望对数据挖掘过程中各处理步骤的目标、内容、方法、应注意的问题等提出可操作性的建议,从而帮助学习者从方法论的高度深入理解并掌握数据挖掘的一般规律。图1.2 数据挖掘过程示例图

进一步,数据挖掘的诸多环节本质上可归纳为两个具有内在联系的阶段:数据的存储管理阶段和数据的分析建模阶段,涉及计算机科学和统计学等众多交叉学科领域。

当前,数据挖掘的对象是大数据系统。大数据往往来自不同的采集渠道以及不同的数据源,数据量庞大且杂乱有噪声。如何高效合理地存储数据,如何有效地保障数据的一致性等,在数据挖掘中尤为重要,也始终是数据挖掘的难点,涉及计算机学科中的数据库和数据仓库计算、分布式计算、并行处理等多个研究领域。大数据的存储管理有两个层面:一个是基础设施层面,包括对存储设备、操作系统、数据库、数据仓库、分布式计算等方面的整体评估,需求的客观理解,系统架构、技术和产品的选择,稳定、高效的数据基础设施体系的建立等一系列问题;另一个是数据管理工具层面,包括数据的抽取检索、集成清洗,以及其他预处理的软件、技术和管理等诸多方面。数据的存储管理是数据分析的基础和保障,也在某种程度上为采用怎样的数据分析方法提供依据。

数据挖掘中的数据预处理、数据可视化、建立和评价模型等环节,其核心目标是发现数据中隐藏的规律性,这是统计学和从属计算机科学的机器学习(Machine Learning)以及具有跨学科(统计和计算机)特点的可视化研究的主要任务,也是本书讨论的重点。事实上,从统计学视角看数据挖掘会发现,数据挖掘与统计学有着高度一致的目标:数据分析,正因如此,数据挖掘对统计学而言似乎并不陌生。然而,目标尽管一致但仍提出数据挖掘概念的重要原因是:数据分析对象是大数据。大数据特征决定了数据处理需要多学科的共同参与,数据分析需要一种集中体现多学科方法和算法优势的理论和工具,这就是数据挖掘。1.3 数据挖掘能给出什么

如果将数据挖掘视为一个系统,那么这个系统的输入是数据,系统的输出就是数据挖掘结果。先行从数据挖掘系统的输出入手,讨论数据挖掘结果的呈现方式和基本特征,是一种快速总览数据挖掘特点的有效途径,也是打开深入理解数据挖掘内涵之门的钥匙。1.3.1 数据挖掘结果有哪些呈现方式

数据挖掘系统的输出,其一般呈现方式主要有三类:第一,数学模型;第二,推理规则;第三,图形。(1)数学模型

数学模型即通过数学形式,定量反映变量之间的相关数量关系。0112233kk如最常见的一般线性回归模型y=β+βx+βx+βx+ …+βx+ε,就是一种典型的数学模型。(2)推理规则

推理规则,即通过一种逻辑表达式的形式反映变量之间的取值规律。规则集是多个推理规则的集合。推理规则由条件(IF)和结论(THEN)两部分组成。条件是变量、变量值以及关系运算符和逻辑运算符组成的式子。关系运算符包括等于、不等于、大于、大于等于、小于、小于等于,逻辑运算符包括并且和或者。结论是目标变量取值。

例如,IF(收入=3)并且(年龄小于44)THEN 购买行为=购买,就是一种常见的推理规则。

推理规则是基于逻辑表述的,直观且容易理解。(3)图形

图形也是一种直观呈现数据挖掘结果的主要方式。它既可用于直观展示变量间相关性的特征(如图1.3(a)所示)、数据分布的特征(如图1.3(b)所示),也可以是上述推理规则的图形表达(如图1.3(c)所示),抑或是无法以数学模型形式表达的其他复杂分析模型(如图1.3(d)所示)。

图1.3(a)展现了多个变量简单的相关性方向和强弱;图1.3(b)展示了一批文本中各词汇出现的频率;图1.3(c)为决策树分析结果,是一个推理规则集的图形表示;图1.3(d)为一个神经网络模型结果。图1.3(a) 相关系数矩阵示意图图1.3(b) 文本词云图示意图图1.3(c) 决策树结果示意图图1.3(d) 神经网络模型结果示意图1.3.2 数据挖掘结果有哪些基本特征

数据挖掘是一个从大数据中挖掘出有用信息的过程。如上所述,数据挖掘结果具有不同的呈现方式,这些是数据挖掘结果外在的特征,而对于其内在内容,数据挖掘结果(有用信息)还具有以下三个重要特征:潜在性、可理解性和有价值性,如图1.4所示。图1.4 数据挖掘结果示意图(1)潜在性

发现大量数据中隐含的变量相关性、数据内在结构特征等,是数据挖掘的重要任务,也是数据挖掘的核心成果。研究变量相关性以及数据内在结构特征是统计学的长项,其传统分析思路是:基于对研究问题的充分理解,依据经验或历史数据,首先预设数据中存在某种相关性假定,然后验证这种假定是否显著存在于当前数据中。这是一种典型的验证式分析思路。然而,大数据分析中的数据量庞大,变量个数多且类型复杂,以传统方式预设假定将非常困难,甚至不可能。所以数据挖掘通常会倾向采用一种归纳式的分析思路,即不事先对数据中是否存在某种关系做任何假定,而是通过“机械式”的反复搜索和优化计算,归纳出所有存在于数据中的规律。

这样的分析思路有优势也存在问题。优势在于它既可能找到隐藏于数据中的人们事先知道的规律,也可能发现那些人们事先未知的规律。存在的问题是由此得到的分析结果,一方面可能是类似传说中[1]“尿布和啤酒”的典型案例,另一方面也可能是令人无法理解和没有价值的。(2)可理解性

数据挖掘结果的可理解性是指分析结论具有符合研究问题的可解释性。例如,在消费者行为偏好的数据挖掘中,若分析结果是一段时间内顾客的消费金额与其身高有密切关系,那么这样的结论就不具有可解释性。事实上,数据挖掘揭示出的不可理解的相关性,一部分可能是一种虚假相关,另一部分可能是因其他相关因素传递而导致的表象。(3)有价值性

数据挖掘结果是否有价值体现在是否对决策有意义。对决策没有指导意义的结果是没有价值的。例如,在居民健康管理的数据挖掘中,若分析结论是90%的居民每日就餐次数是3次,且三餐的平均就餐时间是早上7点,中午12点,晚上7点。那么这种分析结论的价值很低,因为它是个常识。

谁是导致数据挖掘结果有可能无法理解和没有价值的“元凶”?答案是:海量大数据。事实上,发现海量大数据中隐藏的可理解的、有价值的信息,难度要远高于小数据集,会出现分析小数据集时不曾出现的诸多新问题。其中的一个主要问题就是“机械式的挖掘”给出的“信息”很可能只是数据的某种“表象”而非“本质”。用统计术语讲就是,很可能并不是数据真实分布或关系的反映,而仅是海量数据自身的某种无意义的随机性的代表。

为此,人们试图借助统计学对“表象”和“本质”加以区分。作为数据挖掘成员的一分子,统计学确实在区分信息是系统性的本质还是随机性的表象上可见一斑。其通常的做法是:以分析数据是随机样本为前提,采用统计推断式的假设检验。统计推断以随机样本为研究对象,通过找到样本的某些特征并计算这些特征将以多大的概率出现在总体中,进而判断它们是否具有统计上的显著性,即这些特征是系统性的还是样本的随机性所致。事实上,数据挖掘发展初期也确实采纳了这种方式,所以某些数据挖掘方法貌似就是统计方法也很正常。但问题在于随着大数据的出现以及数据挖掘应用的不断拓展,这样的思路出现了如下主要问题。

第一,大数据的海量特性极大限制了上述分析思路的可行性

若认为数据挖掘的数据对象是个样本,那么这个样本通常是大样本。对以小规模数据集为研究对象发展起来的统计推断而言,小样本表现出的某些特征,如果确实是由随机性导致的,那么在统计推断过程中,会因样本量小、在总体中出现的概率很小而被正确地确认为随机性。这种分析思路在小数据集上是可行的,但在数据挖掘中的海量大样本集上就不再奏效。因为任何统计不显著的随机性都可能因样本量大,而被倾向性地误断为显著,即误断为系统性的、有意义的,即使是“表象”也会被误判为“本质”。

第二,数据挖掘的研究对象往往是总体而非随机样本

数据挖掘对象一般是现有数据集,它们通常就是人们关注的总体而不是样本。从这个角度来讲,统计推断不再必要。当然,数据挖掘并不否认统计推断的重要作用。若将现有数据放到一个更大的时空中去,那么目前数据这个总体也可以视为更大时空中的一个样本。但问题是能否确保样本是个随机样本,否则统计推断还会因丧失原本的理论基础而不再适用。

另外,有些数据挖掘应用问题只能基于总体而不能基于样本来研究。例如,在信用卡欺诈甄别研究中,若确实存在极少数的恶意透支行为,这些交易数据会因数量很小而不易或无法进入随机样本。若以样本为研究对象,样本中的欺诈特征会变得不再明显甚至消失,从而得到不存在欺诈行为的分析结论。

基于上述原因,数据挖掘不再以统计推断方式验证数据挖掘的结果是否有意义,而是采用一种“退而求其次”的做法,即强烈要求行业专家深度参与数据挖掘过程,并由行业专家负责判断数据挖掘结果的意义和价值。例如,“所有前列腺癌患者都是男性”,“加油站的信用卡刷卡金额通常在个位为零上出现峰值”,这些结论是否可理解和有价值,完全由行业专家去评估。1.4 数据挖掘能解决什么问题

通常,数据挖掘可以解决四大方面的问题:第一,数据预测;第二,发现数据的内在结构;第三,发现关联性;第四,模式甄别。1.4.1 数据预测

顾名思义,数据预测就是基于对历史数据的分析,预测新数据的特征或数据的未来发展趋势等。例如,一份关于顾客特征和其近12个月的消费记录数据,包含诸如顾客的性别、年龄、职业、年收入等属性特征,以及顾客购买商品的种类、金额等消费行为数据。现希望依据该份数据,找到如下问题的答案:

●具有某种特征(如已知年龄和年收入)的新顾客是否会购买某种商品?

●具有某种特征(如已知年龄)和消费行为(购买或不购买)的顾客,其平均年收入是多少?

●某种商品在未来3个月将有怎样的销量?

上述问题均属数据预测的范畴,并有各自不同的应用特点。

第一个问题的答案无非是买或者不买。若将买或不买视为消费行为的两个类别(如图1.5左图中的圆圈和三角形,分别代表买和不买),则解决该问题的思路是:基于已有数据,研究顾客的属性特征与其消费行为间的规律,并借助某种数学模型或者推理规则等定量反映这一规律。进一步,依据该规律对新顾客(如图1.5左图中的菱形点)的消费行为(菱形点应归为圆圈还是三角形)进行预测。数据挖掘将这类对数据所属类别进行预测的问题,统称为分类问题。分类的目标是要找到某些可将两类或多类分开的数学模型或者推理规则,它们几何上对应着一条或若干条直线(平面或超平面),如图1.5左图所示的虚线。进一步,依据新数据与直线(平面或超平面)的位置关系,预测新数据所属的类别。

第二个问题是对顾客的平均年收入进行预测。目标是找到不同类别客户(购买或不购买),其年收入与年龄间的相关关系,并借助某种数学模型定量反映这种关系。进一步,依据这种关系对新顾客的平均年收入进行预测。该问题的研究思路与第一个问题基本类似,不同点在于该问题的答案是个数值。数据挖掘将这类数值预测问题统称为回归分析问题。回归分析的目标是找到可反映某个数值型变量与其他诸多变量间相关关系的数学模型,它们几何上对应着一条直线(或平面),称为回归直线或回归平面。如图1.5右图所示的两条虚线。图1.5 数据预测示意图

对于第三个问题,可以以该商品近12个月的销售量为研究对象,分析销售量随时间推移所呈现的变化趋势并进行预测。这类问题是单个时间序列的预测问题,属于统计学研究的范畴,这里不做讨论。

总之,这里讨论的数据预测主要包括数据分类、回归分析。但需要注意的是,数据预测是在上述数学模型或推理规则仍适用于新数据的假设前提下进行的。

事实上,完全可以采用统计学的建模思路解决这两个问题,而且统计学对此也早有极为成熟的分析逻辑,例如,Logistic回归和多元线性回归分析等。但正如前文提及的,传统统计以随机样本为研究对象的验证式分析思路,并不能很好地适应大数据背景下的数据挖掘。所以,按照一定策略的“机械式”归纳搜索是数据挖掘解决数据分类和回归问题的主要方式。由此需关注如下两个问题:

第一,用于预测的数学模型或推理规则,是否正确反映了变量间的总体相关性?是否是数据取值的主体且重要规律的反映?

数据挖掘的对象是海量大数据,大数据量是一把“双刃剑”。它既为探索事物规律、发现变量间相关性提供了数据支撑,同时也最大限度地掩盖了数据中最重要或最一般化的规律和相关性。数据量大导致数据挖掘发现的规律或相关性,很可能仅是大数据中的某个数据子集的局部特征,而数据预测要求预测依据应是一般化的和整体化的,因为只有这样才有预测的普适性。

为此,需探索规律或相关性是全局性的还是局部性的。一种常见的方法是视已有数据为总体,通过随机抽样大幅度削减数据量以得到一个小的随机样本,并探索其中的规律和相关性。若总体中的规律仍然存在于小样本中,则有理由认为这个规律是全局性的。因为,随机小样本中的规律和相关性通常不会是海量大数据总体中的局部特征,这是随机抽样本身所决定的。可见,统计学的随机抽样在数据挖掘中仍有非常重要的意义。

第二,用于预测的数学模型或推理规则,是否具有较高的预测普适性?

衡量模型是否具有较高的预测普适性,通常要看它对新数据的预测结果是否准确,在新数据集上的预测误差是否较低。所以,一般以预测误差作为测度模型预测普适性的依据。由于新数据预测结果是否准确无从得知,传统统计学的做法是计算模型对现有数据集的预测误差。预测误差可以是数据分类中的预测误差百分比,或者回归分析中的残差方差等,这都是数据挖掘可以直接借鉴的。

但问题是由此计算出的预测误差,很可能因数值偏低而放大模型对新数据预测的准确性,进而不能全面客观地测度模型的预测普适性。原因在于,无论统计方法还是数据挖掘方法,都是以最小化当前预测误差为前提,从最大化拟合数据角度建立(或搜索)预测模型(或推理规则)的。由于预测模型(或推理规则)通常是基于现有数据的全体的,它在当前数据全体上有最低的预测误差是必然的。但问题是无法得知它在其他数据集上是否仍有理想的表现,是否会因预测误差增加过大而无法用于新数据的预测。所以,找到有效的预测误差估计方法,是数据预测中的重要问题。后续章节将集中讨论此问题。1.4.2 发现数据的内在结构

大数据集中蕴含着非常多的信息,较为典型的是大数据集中可能包含着若干个小的数据子集。这些数据子集是在没有任何主观划分依据下“自然”形成的。数据子集“客观存在”的主要原因是:每个数据子集内部数据成员的整体特征相似,子集之间的整体特征差异明显。通俗讲就是,子集内部数据成员“关系紧密”,子集之间“关系疏远”。

例如,仍有一份关于顾客特征和当月消费记录的数据集,包含诸如顾客的性别、年龄、职业、年收入以及购买商品的种类、金额等数据内容。依据经验,通常具有相同属性的顾客(如相同性别、年龄、收入等),其消费偏好会较为相似,不同属性的顾客群(如男性和女性,演员、教师和IT人员等)的消费偏好可能差异明显。于是“自然”形成了在属性和消费偏好等整体特征上差异较大的若干个顾客群,即数据子集,如图1.6中的四个椭圆。图1.6 数据聚类示意图

数据挖掘将这些数据子集命名为“子类”、“小类”或“簇”等。发现数据的内在结构就是要找到数据中可能存在的“小类”,该过程称为聚类分析过程。对于上例,利用聚类分析找到顾客“小类”的意义在于可为实施有针对性的营销提供依据。

聚类分析的重点集中在以下两个方面:(1)如何发现数据集中的“小类”

首先需关注的问题是:判定哪些数据应属同一“小类”,哪些数据应分属不同“小类”的依据是什么。统计学常用的判断标准有两个:第一,距离;第二,概率。数据挖掘完全采纳了统计学的研究成果,并进行了恰当拓展。

其次需关注的问题是:怎样的策略有助于快速找到这些“小类”,怎样的策略有助于正确而全面地发现所有可能的“小类”。对此数据挖掘基本沿用了统计学的方法,并有效引入了相关的机器学习算法。(2)如何评价聚类分析结果的合理性

聚类分析的结果为“小类”,评价聚类分析结果的合理性就是要评估找到的“小类”是否恰当。通常包括“小类”的个数是否合理,“小类”内部成员的整体特征是否相似,“小类”之间的整体特征是否差异明显等方面。

上述问题的具体内容将在后续章节集中讨论。1.4.3 发现关联性

可通过一个常见案例说明发现关联性的含义。例如:有一份一段时间内超市会员的购物小票数据,其中每张购物小票均记录了哪个会员在哪个时间购买了哪些商品以及购买的数量等。现希望利用这些数据回答以下问题:

●购买面包的会员中同时还会购买牛奶的可能性大,还是同时购买香肠的可能性大?

●购买面包的女性会员中同时还会购买牛奶的可能性大,还是同时购买香肠的可能性大?

●购买电水壶的会员未来一个月内购买除垢剂的可能性有多大?

显而易见,找到上述问题的答案对超市的货架布置、进货计划制定、有针对性的营销等都有重要帮助。发现关联性的目的就是找出这些问题的答案。

发现关联性的关键是找到变量取值的内在规律性。对于上例,可将会员的购买行为视为一个变量,则该变量的所有可能取值为该超市销售的所有商品的名称。发现关联性就是要找到变量(如购买行为)的不同取值(如该超市销售的所有商品的名称)之间是否存在某些一般性的规律。

解决第一个问题的简单思路是:依据大量的一次性购买数据(一张购物小票视为一次性购买,数据挖掘中称为一个购物篮),计算不同商品可能被同时购买的概率。如购买面包的同时购买牛奶的概率等。这里的概率计算较为简单。如只需清点所有购买面包的购物小票中有多少张出现了牛奶,并计算百分比即可。发现关联性希望通过这些概率揭示不同购买决策之间的规律性,即变量不同取值之间的规律性。

第二个问题是对第一个问题的拓展。会员的属性特征不同可能导致他们有不同的购买习惯。为此,依属性(如女性或男性)分别考察会员的购买行为是必要的。也就是说,在计算概率时需清点所有购买面包的购物小票中有多少张出现了牛奶且为女性(或男性)会员,进而发现不同人群的各自购买规律。可见,第二个问题是在控制某变量取值的条件下研究其他变量不同取值之间的规律性。

解决第一个问题和第二个问题时均忽略了不同购物小票在时间上的先后差异,这样的关联性称为简单关联性。

为回答第三个问题,需依时间连续跟踪每个会员的购物行为,即清点在指定时间段内购买电水壶的会员中,有多少人在一个月内又购买了除垢剂,并计算百分比。该问题涉及了时间因素,称为时序关联性。发现时序关联性的目的是发现变量不同取值之间随时间变化的规律性。

可见,上述概率即统计学中的条件概率,条件概率的计算是发现关联性的关键。进一步,需强调的是,概率计算其实仅是发现关联性的重要步骤之一。依据概率,发现频繁项集,并最终给出具有可信性和普适性的推理规则才是发现关联性的终极目标。例如,对于上述第一个问题,若购买面包的会员中同时购买牛奶的概率非常高,数据挖掘便称:面包和牛奶构成了一个同时且频繁出现的集合,即频繁项集。于是,在认为“购买面包的同时会购买牛奶”这个推理规则具有可信性和普适性的条件下,就有理由将这两种商品摆放在临近的货架上。

如何评价推理规则的可信性和普适性,将在后续章节详细讨论。

这里,需要说明的是:统计学在发现关联性中的作用是显而易见的,但它的意义并不仅局限在概率计算本身,而是有更加深远的指导作用。从统计角度来看,以变量x=0 为条件变量y=1的概率P(y=1| x=0)较大时本身意义不大,而是在P(y=1| x=1)较小时才有价值。正是如此,在发现关联性的概率计算中,通常是不计算诸如商品不出现的概率的。这无疑会大大缩减计算量,降低计算成本。此外,从统计角度来看,发现关联性的本质是寻找相关关系而非因果关系。所以,若绝大多数购买面包的会员会购买牛奶,并不意味着会员购买面包将导致其购买牛奶。可见,统计能够指导人们正确理解和应用推理规则。

至此,人们会以为统计足以解决发现关联性的问题,但事实并非如此。数据挖掘在其中仍扮演着更为重要的角色,主要集中在以下两方面:(1)计算效率问题

发现关联性将导致大量的概率计算,如何合理地、有效地压缩计算量,快速准确地发现频繁项集并生成推理规则,这些都是数据挖掘解决的问题。具体内容将在后续章节讨论。(2)关联性研究的拓展

发现关联性源于变量不同取值之间存在内在联系。例如,面包和牛奶,面包和香肠,电水壶和除垢剂,等等,其内在联系都是容易理解的。若将商品间的关联性(可以是简单关联性也可以是时序关联性)和关联性强弱表示绘制成图,可得到如图1.7所示的网状图。图1.7 网状图示意图

图1.7中的圆圈,通常称为网状图的节点,这里代表各个商品。节点之间的连线称为节点连接,其粗细表示连接权重的大小,这里表示商品间关联性的大小。事实上,关联性的研究可推广到许多应用中。例如,若网状图中的节点代表微信好友,节点连接及权重可表示好友间的私聊频率,如果两好友间从未私聊过,则相应节点间可以没有连接;若网络图中的节点代表各个国家,节点连接及权重可以表示各国间的贸易状况;若网络图中的节点代表股票,节点连接及权重可表示各股票价格的相互影响关系;若网络图中的节点代表学术论文,节点连接及权重可表示学术论文间的相互引用关系;若网络图中的节点代表立交桥,节点连接及权重可表示立交桥间的车流量;等等。

类似的问题有很多,它们与上述的发现关联性有相通点,也有不同的侧重。为此,数据挖掘为其“另辟蹊径”,以图1.7所示的节点和节点连接为研究对象,进行网络分析。具体内容将在后续章节讨论。1.4.4 模式甄别

模式(Pattern)是一个数据集合,由分散于大数据集中的极少量的零星数据组成。模式通常具有其他众多数据所没有的某种局部的、非随机的、非常规的特殊结构或相关性。

例如,工业生产过程中,数据采集系统或集散控制系统通过在线方式,收集大量的可反映生产过程中设备运行状况的数据,如电压、电流、气压、温度、流量、电机转速等。常规生产条件下若设备运行正常,这些数据的取值变化很小,基本维持在一个稳定水平上。若一小段时间内数据忽然变化剧烈,但很快又回归原有水平,且类似情况多次重复出现,即显现出局部的、非随机的超出正常范围的变化,则意味着生产设备可能发生了间歇性异常。这里少量的变动数据所组成的集合即模式,如图1.8左图椭圆内的数据。图1.8 模式的图示

模式具有局部性、非随机性和非常规性的特点,这很可能是某些[2]重要因素所导致的必然结果。所以,模式甄别是极为必要的。例如,图1.8右图椭圆内的会员表现出不同于绝大多数人的特征,找到他们并探究其原因是有意义的。需注意的是,模式与统计学从概率角度界定的离群点有一定差别。例如,统计学中经典的3σ准则认为,若某随机变量服从正态分布,则绝对值大于3个标准差的变量值,因其出现的概率很小(小于等于0.3%)而被界定为离群点。尽管这些离群点与模式的数量都较少,且均表现出严重偏离数据全体的特征,但离群点通常由随机因素所致。模式则不然,它具有非随机性和潜在的形成机制。找到离群点的目的是剔除它们以消除对数据分析的影响,但模式很多时候就是人们关注的焦点,是不能剔除的。

模式甄别不仅用于设备故障诊断,还可广泛应用于众多主观故意行为的发现中。例如,计算机网络入侵行为(如网络流量或访问次数出现非随机性突变等),恶意欺诈行为(如信用卡刷卡金额、手机通话量出现非常规增加等),虚报瞒报行为(如商品销售额的非常规变化等)等。模式诊断并探究模式的成因,能为技术更新、流程优化、防范升级等方案的制订提供重要依据。

尽管模式并非以统计学的概率标准来界定,但从概率角度诊断模式仍是有意义的。只是数据挖掘并不强调概率本身。因为小概率既可能是模式的表现,也可能是随机性离群点的表现。所以究竟是否为“真正”的模式,需要行业专家定夺判断。如果能够找到相应的常识、合理的行业逻辑或有说服力的解释,则可认定为模式。否则,可能是数据记录错误而导致的“虚假”模式或没有意义的随机性。

从统计角度甄别模式需要已知或假定概率分布。当概率分布未知或无法做假定时就需要从其他角度分析。对此数据挖掘有许多方法,具体内容将在后续章节详细讨论。1.5 数据挖掘解决问题的思路

数据挖掘方法是统计方法和机器学习方法的有机结合,呈现鲜明的交叉学科特点。

一方面,区分一个方法是数据挖掘的、统计的还是机器学习的并没有意义。另一方面,在统计方法与机器学习之间给出一个清晰的分界线也很困难,这本身是一个仁者见仁、智者见智的问题。尽管假设检验式的推断是传统统计的主流,但现代统计的探索式分析等也早已摆脱了原有研究框架的束缚。尽管机器学习的重要特征是在所有可能解中进行搜索,而为解决搜索效率问题,以误差为指导进行搜索是机器学习借鉴统计思想的最直接表现。事实上,很多本质上类似的设计思路是并存于统计和机器学习中的。例如,20世纪80 年代中期,[3]Leo Breiman(1928—2005)等四位统计学家出版了名为《分类和回归树》(Classification and Regression Trees)的专著。与此同时,[4]卓越的机器学习专家J.Ross Quinlan也开发了一种名为ID3的数据分类系统。来自两个不同学科的独立研究成果有着惊人的类似,这是很久后科学家们才意识到的。

大数据背景下的今天,机器学习和统计方法的融合发展已成为必然,目的是使集二者为一身的数据挖掘能够更好地适应大数据分析的要求,充分发挥统计学和机器学习的长处,解决如下三方面的问题:

●对目标契合度不高的数据,怎样的建模策略能够更好地迎合分析的需要?

●对于海量、高维数据,怎样的建模策略能够更好地揭示数据特征,提高分析效率?

●对于复杂类型和关系数据,怎样的建模策略能够清晰地揭示数据的特征?1.对目标契合度不高的数据,怎样的建模策略能够更好地迎合分析的需要

这里的契合度是指数据收集与分析目标的契合度。统计学的数据分析过程一般要求,根据分析目标确定恰当的数据采集方法(如实验设计、抽样设计等),有针对性地收集数据,因而数据与分析目标的契合度较高。数据挖掘显然不同。分析对象通常不仅是来自不同渠道、体现不同业务状况的离线或在线数据子集,而且希望从这些貌似无关或有关的子集中,找到与数据采集初衷并不一致的其他问题的答案。

例如,谷歌希望从网页检索数据中找到预测冬季流感传播的规律;亚马逊希望从顾客的图书购买数据中发现顾客的选择偏好等;丹麦癌症协会希望从手机用户数据和癌症病例数据中探究手机使用频率和癌症的关系;伦敦对冲基金Derwent Capital希望从微博文本中测度大众情绪并分析对股市投资的影响;相关科研机构依据交通IC卡刷卡数据和车联网数据进行交通行为分析、通勤分析、职住分析等,为城市规划、经济形势预测等提供佐证,等等。可见,这样的“二手”数据与分析目标的契合度是较低的,它要求相应的分析方法能够有效克服此类问题,否则给出的分析结果很可能是没有意义的。

为此,数据挖掘大量吸收了统计学的多元建模方式,将众多可测度的影响因素,以变量形式引入模型加以控制,并在一定假设下建立模型和估计参数。尽管数据的目标契合度不高,但仍能在其中发现某些问题的答案。可见,数据挖掘对拓展数据应用有着举足轻重的作用。2.对于海量、高维数据,怎样的建模策略能够更好地揭示数据特征,提高分析效率

数据挖掘要求分析方法能够适应大数据的维度高、数据容量大的特点,并能解决由此带来的诸多新问题。

对于高维性可以以电商网络平台的会员数据为例理解。例如,会员数据可能包括诸如用户名、昵称、邮箱、手机号、地区、人口信息、认证信息、支付账户、订单情况、购物车、商品关注、店铺关注、活动关注、浏览历史、积分、投诉等方面。这些方面分别对应一个或多个维度。可见,数据对象特征刻画得越全面,相应数据的维度就越高。高维度是大数据的重要特点之一。数据容量通常指数据集中的数据对象(也称观测)个数。高维度和大容量使数据分析的难度加大。

第一,高维度引发的问题

首先,并非所有维度对数据分析均有同等重要的意义。例如,性别对化妆品的消费偏好影响可能大于地区,收入对于奢侈品的消费选择影响可能大于年龄,等等。不加区分地令所有维度都参与到数据建模中,不仅会大大降低分析效率,还可能导致分析结果过于复杂(如推理规则中条件过于冗长,数学模型过于复杂)而不易推广应用,更重要的是可能导致计算复杂度剧增甚至“维灾难”问题。所以,找到有重要影响的维度(也称特征选择),有效降低维数,是数据挖掘的重要方面。对此,通常采用统计学方法解决高维数据的特征选择问题。具体内容将在后续章节集中讨论。

此外,高维数据的可视化也是一个复杂问题。可视化是揭示数据特征的重要图形工具。因人们只能在低维空间中理解数据,所以如何将高维数据的特征展示在低维空间中也是数据挖掘的重要方面。它既需要统计学的理论指导,也需要借助计算机可视化技术实现。

第二,大数据量引发的问题

数据容量大可能导致某些理论上可行的统计建模方法和机器学习方法,因假定严苛或要求的存储资源和计算资源过大,时间成本过高而无法应用于实际数据分析中。统计建模和机器学习方法相融合是一种有效的解决途径。

传统统计学通常以提出一个假定的数学模型作为整个数据分析的起点。数学模型是对数据整体的抽象概括,要求严谨和准确。但数据量大以及维度高,使得在数据分析的开始提出一个显而易见、恰当且简单的假定模型极为困难,使得这种“模型驱动”式的统计学分析思路在大数据分析中的适用性大打折扣。为此,数据挖掘更多借鉴了机器学习的思路,将数据分析过程视为一种“数据驱动”式的探索过程。

例如,对于海量数据的预测问题,数据挖掘通过向数据学习,通过在其高维属性空间中的不断搜索,找到存在于解空间(包含所有可能解的空间)中的最能够体现和吻合数据输入和输出间数量关系的解。如图1.9所示。

以1.1.3节中分析具有某种特征(如已知年龄和年收入)的新顾客是否会购买某种商品为例。上述数据挖掘算法,将顾客的年龄和收入等属性视为一个输入发生器的随机结果,记为X,表示输入;不同属性特征顾客的不同消费行为记为y,表示输出;将顾客特征与消费行为间的规律视为一个系统,系统的本质通过以X为条件的y的概率P(y|X)的形式表示。输入发生器将输入X(顾客的年龄和年收入)送入系统,系统会给出输出y(顾客的购买行为)。数据挖掘将输入X和输出y均送入学习系统。学习系统将在解空间所包含的解集f(X,W)(W是所有可能解的参数集合)中,搜索到一个一般化的与系统的输入和输出数量关系最近似的解f(X,w)(w是最终解的参数集合),并给出预测值y′。图1.9 数据挖掘原理示例

遍历式的搜索效率低下,“有指导”的优化搜索是必不可少的。对此,可融入统计建模思想,依据损失函数指导搜索过程。损失函数L(e(y,f(X,w)))是误差函数e的函数。误差函数是系统实际输出y与学习系统的预测值y′的函数。针对不同分析目标和数据类型可定义不同的损失函数和误差函数。统计上较为典型的误差函数是误差平方函数等。若将损失函数看成误差与多维参数空间上的曲面,上述“有指导”的搜索过程就是沿误差函数曲面快速抵达误差全局最小或局部最小处的过程。如图1.10所示。图1.10 以误差为指导的搜索过程示意图

搜索过程最终会以数据挖掘的算法形式体现。算法决定了探索数据的流程,对需自动化处理才可能实现的海量数据分析尤为关键,是机器学习特点的体现。数据挖掘的算法很多。例如,较为经典的一种算法是序贯估计。它从一个局部的数据点开始,后续逐个加入新的数据点并不断调整解,直至覆盖全体数据获得最终解。这种算法不仅在计算资源最小化下获得了计算效率的最大化,也为在线数据的动态挖掘(也称增量学习)提供了可能。此外,递归式的局部分割也是一种较为常见的算法。总之,数据挖掘算法注重计算资源问题。如果一个算法所要求的计算时间和内存容量,随着数据量的增加而呈指数增长,这样的算法往往是不可行的。3.对于复杂类型和关系数据,怎样的建模策略能够清晰地揭示数据的特征

从计量角度来看,有多种计量类型的数据。如收入、年龄等数值型数据;性别、职业等分类型数据;文化程度、产品质量等级等顺序型数据等。不同计量类型数据需采用不同的描述方式和分析方法。对此,统计学有非常成熟的研究成果并被数据挖掘所采纳。同时,数据挖掘也大量借鉴了机器学习的数据度量方式,将如熵、交互熵等测度引入到诸多建模算法中。

此外,现实生活中不仅有上述以数字形式呈现的数据,还有大量如文本、图像、Web点击流等呈现形式的复杂类型数据。复杂数据研究主要集中在机器学习领域,不同研究的侧重点各异。例如,文本数据研究侧重于自然语言理解,图像数据研究侧重于模式识别等。数据挖掘充分借鉴了机器学习的复杂数据研究方法,并将研究重点集中于复杂数据的特征揭示以及相关性等方面。

再有,数据不仅包括个体(个体的含义是相对而言的,可以是微观意义上的个人等,也可以是中观或宏观意义上的组织或国家等)的属性特征数据,还可以包括个体间关系的数据。对此,数据挖掘将统计学、机器学习、可视化以及数学和社会学分析工具相结合,重点关注如何展示和刻画关系数据,如何剖析关系整体的特点以及结构组成,如何预测关系等问题,逐渐形成并完善了一整套对于关系的分析体系,称为网络分析方法。对此将在后续章节具体讨论。1.6 数据挖掘有哪些典型的商业应用

数据挖掘的应用极为广泛。易观智库(www.EnfoDesk.com)以应用成熟度和市场吸引力作为两个维度,给出了当前数据挖掘的十大典型应用及其分布,如图1.11所示。

图1.11 表明,数据挖掘在电子商务领域的应用是最成熟和最具吸引力的,金融和电信行业紧随其后。政府公共服务领域的数据挖掘将有较大的发展潜力,其未来的应用成熟度将会有巨大的提升空间。图1.11 数据挖掘的十大典型应用分布图

进一步,数据挖掘在电子商务中的应用价值主要体现在市场营销和个性化导购等方面。有效实现用户消费行为规律的分析,制订有针对性的商品推荐方案,根据用户特征研究广告投放策略并进行广告效果的跟踪和优化;金融行业中,数据挖掘主要应用于客户金融行为分析以及金融信用风险评估等方面;数据挖掘在电信企业的应用主要集中在客户消费感受等分析方面。目的是通过洞察客户需求,有针对性地提升网络服务的质量和安全;在政府公共服务中,数据挖掘的作用主要体现在智慧交通和智慧安防等方面,旨在实现以数据为驱动的政府公共服务;医疗行业的数据挖掘应用价值集中在药品研发、公共卫生管理、居民健康管理以及健康危险因素分析等方面。

尽管上述典型数据挖掘应用所解决的问题不同,但研究思路类似,且问题的切入也有很多共同点。若对上述各个应用问题分别展开论述,内容难免冗余、雷同。因此,这里仅对金融、电子商务、电信中的典型商业数据挖掘共性问题进行梳理并做详尽讨论。主要包括客户细分研究、客户流失预测、交叉销售、营销响应、欺诈甄别等方面,如图1.12所示。1.6.1 数据挖掘在客户细分中的应用

客户细分(Customer Segmentation)的概念是美国著名营销学家温德尔·史密斯(Wended R.Smith)于20世纪50年代中期提出的。客户细分是经营者在明确其发展战略、业务模式和市场条件下,依据客户价值、需求和偏好等诸多因素,将现有客户划分为不同的客户群,属于同一客户群的消费者具有较强的相似性,不同细分客户群间存在明显的差异性。图1.12 典型商业数据挖掘应用问题

在经营者缺乏足够资源应对客户整体时,由于客户间价值和需求存在异质性,有效的客户细分能够辅助经营者准确认识不同客户群体的价值及需求,从而制定针对不同客户群的差异化的经营策略,以资源效益最大化、客户收益最大化为目标,合理分配资源,实现持续发展新客户、保持老客户、不断提升客户忠诚的总体目标。

客户细分的核心是选择恰当的细分变量、细分方法以及细分结果的评价和应用等方面。1.客户细分变量

客户细分的核心是选择恰当的细分变量。不同的细分变量可能得到完全不同的客户细分结果。传统的客户细分是基于诸如年龄、性别、婚姻状况、收入、职业、地理位置等的客户基本属性。此外,还有基于各种主题的,如基于客户价值贡献度、需求偏好、消费行为的客户细分等。

不同行业因其业务内容不同,客户价值、需求偏好以及消费行为的具体定义也不同。需选择迎合其分析目标的细分变量。例如,电信行业4G客户细分,主要细分变量可以包括使用的手机机龄、自动漫游业务、月平均使用天数、月平均消费额、月平均通话时间、月平均通话次数、月平均上网流量等。再例如,商业银行为研发对不同客户有针对性的金融产品和服务,对于金融客户个人主要关注年龄、家庭规模、受教育程度、居住条件、收入来源、融资记录等属性。对金融客户企业主要关注行业、企业组织形式、企业经营年限、雇员人数、总资产规模、月销售额、月利润等。同时,关注的贷款特征包括贷款期限、贷款用途、抵押物、保证人等;对于电子商务的客户细分,除关注其收入资产、职业特点、行业地位、关系背景等基本属性外,还需关注喜好风格、价格敏感、品牌倾向、消费方式等主观特征,以及交易记录、积分等级、退换投诉、好评传播等交易行为特征等。

能否选择恰当的细分变量,取决于对于业务需求的认知程度。不同领域的客户细分问题中,客户的“好坏”标准可能不同。随着业务的推进以及外部环境的动态变化,这个标准也可能随时发生变化。所以,确定客户细分变量应建立在明确当前的业务需求的基础之上。细分变量的个数应适中,以能否覆盖业务需求为准,同时各细分变量之间不应有较强的相关性。2.客户细分方法

数据挖掘实现客户细分的主要方法是聚类分析。有关聚类分析的原理和特点等将在后续章节详细讨论。3.客户细分结果的评价和应用

客户细分的结果是多个客户群。在合理的客户群基础上制定有针对性的营销策略,才可能获得资源效益的最大化以及客户收益的最大化。客户群的划分是否合理,一方面依赖于细分变量的选择,另一方面也依赖于所运用的细分方法。细分方法的核心是数据建模,而数据建模通常带有“纯粹和机械”的色彩。尽管它给出的客户群划分具有数理上的合理性,但并不一定都是迎合业务需求的。所以还需从业务角度评价细分结果的实际适用性。例如,各个客户群的主要特征是否具有业务上的可理解性;客户群所包含的人数是否足够大,能否足以收回对其营销的成本;客户群的营销方案是否具有实施上的便利性;等等。1.6.2 数据挖掘在客户流失分析中的应用

客户流失是指客户终止与经营者的服务合同或转向其他经营者提供的服务。通常,客户流失有如下三种类型:

第一,企业内部的客户转移,即客户转移到本公司的其他业务上。例如,银行因增加新业务或调整费率等所引发客户的业务转移,如储蓄账户从活期存款转移至整存整取,理财账户从购买单一类信托产品转移到集合类信托产品等。企业内部的客户转移,就某个业务来看存在客户流失现象,可能对企业收入产生一定影响,但就企业整体而言,客户并没有流失。

第二,客户被动流失,即经营者主动与客户终止服务关系。例如,金融服务商由于客户欺诈等行为而主动终止与客户的关系。

第三,客户主动流失,包括两种情况:一种情况是客户因各种原因不再接受相关服务。另一种原因是客户终止当前服务而选择其他经营者的服务。例如:手机用户从中国联通转到中国移动。通常客户主动流失的主要原因是客户认为当前经营者无法提供所期望的价值服务,或希望尝试其他经营者所提供的新业务。

数据挖掘的客户流失分析主要针对上述第三种类型,是以客户基本属性和历史消费行为数据为基础,通过适当的数据挖掘方法而进行的各种量化建模。主要围绕以下两个目标:(1)客户流失原因的分析。目的是为制订今后的客户保留方案提供依据

即找到与客户流失高度相关的因素,如哪些特征是导致客户流失的主要特征,具有哪些属性值或消费行为的客户容易流失等。例如,抵押放款公司需了解具有哪些特征的客户,会因为竞争对手采用低息和较宽松条款而流失;保险公司需了解取消保单的客户通常有怎样的特征或行为。只有找到客户流失的原因,才可能依此评估流失客户对经营者的价值,分析诸如哪类流失客户会给企业收入造成严重影响,哪类会影响企业的业务拓展,哪类会给企业带来人际关系上的损失,等等。客户流失原因分析的核心目的是为制订今后的客户保留方案提供依据。

数据挖掘中的分类方法可应用于客户流失原因的分析中。分类方法的原理和特点等将在后续章节详细讨论。(2)客户流失的预测。目的是为测算避免流失所付出的维护成本提供依据

客户流失预测有以下两个主要方面:

第一,预测现有客户中哪些客户流失的可能性较高,给出一个流失概率由高到低的排序列表。由于对所有客户实施保留的成本很高,只对高流失概率客户开展维护,将大大降低维护成本。对流失概率较高的客户,此时还需进一步关注他们的财务特征,分析可能导致其流失的主要原因是财务的还是非财务的。通常非财务原因流失的客户是高价值客户,这类人群一般正常支付服务费用并对市场活动做出响应,是经营者真正需要保留的客户。给出流失概率列表的核心目的是为测算避免流失所付出的维护成本提供依据。

客户流失概率的研究可通过经典统计方法实现。这些方法的原理和特点等将在后续章节详细讨论。

第二,预测客户可能在多长时间内流失。如果说上述第一方面是预测客户在怎样的情况下将流失,这里的分析是预测客户在什么时候将会流失。

统计学中的生存分析可有效解决上述问题。生存分析以客户流失时间为响应变量建模,以客户的人口统计学特征和行为特征为解释变量,计算每个客户的初始生存率。客户生存率会随时间和客户行为的变化而变化,当生存率达到一定的阈值后,客户就可能流失。生存分析一般不纳入数据挖掘的范畴,本书不加讨论。1.6.3 数据挖掘在营销响应分析中的应用

为发展新客户和推广新产品,企业经营者通常需要针对潜在客户开展有效的营销活动。在有效控制营销成本的前提下,了解哪些客户会对某种产品或服务宣传做出响应等,是提高营销活动投资回报率的关键,也是营销响应分析的核心内容。

营销响应分析的首要目标是确定目标客户,即营销对象。对正确的目标客户进行营销,是获得较高客户响应概率的前提。因营销通常涉及发展新客户和推广新产品两方面,所以营销响应分析中的关注点也略有差异。(1)发展新客户

在推广新客户的过程中,可以根据已有的现实客户数据,分析其属性特征。通常具有相同或类似属性特征的很可能是企业的潜在客户,应视为本次营销的目标客户。(2)推广新产品

在推广新产品的过程中,若新产品是老产品的更新换代,或与老产品有较大相似度,则可通过分析购买老产品的客户数据,发现他们的属性特征。通常可视这类现实客户为本次营销的目标客户,同时具有相同或类似属性特征的潜在客户也可视为本次营销的目标客户,他们很可能对新产品感兴趣。

若新产品是全新的,尚无可供参考的市场和营销数据,可首先依据经验和主观判断确定目标客户的范围,并随机对其进行小规模的试验性的营销。然后,依据所获得的营销数据,找到对营销做出响应的客户属性特征。具有相同或类似属性特征的现实客户和潜在客户,通常可视为本次营销的目标客户。

确定目标客户之后还需进一步确定恰当的营销活动。所谓恰当的营销活动主要指恰当的营销时间、恰当的营销渠道、恰当的营销频率,它们与目标客户共同构成营销活动的四要素。对于不同特征的目标客户,优化营销渠道和事件触发点,实施有针对性的个性化营销,获得客户偏爱和营销成本的最优结合,可进一步提升营销响应率,取得更理想的投资回报率。

数据挖掘预测类分析方法是营销响应分析的有效手段,这些方法的原理和特点等将在后续章节详细讨论。1.6.4 数据挖掘在交叉销售中的应用

交叉销售是在分析客户属性特征以及历史消费行为的基础上,发现现实客户的多种需求,向客户销售多种相关产品或服务的营销方

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载