数据挖掘基础与应用(SQL Server 2008)(txt+pdf+epub+mobi电子书下载)


发布时间:2021-01-27 13:08:27

点击下载

作者:谢邦昌

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据挖掘基础与应用(SQL Server 2008)

数据挖掘基础与应用(SQL Server 2008)试读:

前言

随着时代的进步,大型超市已经成为生活中不可或缺的一部分,逛大型超市购物已经成为城市居民日常的生活习惯,食品、衣服和众多的百货在各大超市一应俱全。近年来,超市如雨后春笋般一间间地崛起,目前主要以沃尔玛、家乐福、华润和华联为主,彼此之间的竞争与合作、合纵连横不言而喻。

每逢特定节假日超市都会有相应的促销活动。例如年终时节,各超市都会推出迎春节减价拼人气促销活动:各式各样折扣的节庆礼包,同时通过在超市现场歌舞表演和各种抽奖活动吸引人潮进行宣传。各超市都强调绝对是当地最低价,有的超市推出数十款春节特色礼包,礼包价格较之单独购买商品便宜许多,可以使过年送礼的消费者节省开支。此外,为争取业绩及方便白天上班的客户购物,超市还在节日期间推迟打烊时间。超市会在开学前主推3C、文具等开学用品,因为这时台式机、笔记本电脑的需求量几乎是平时的3倍。超市纷纷祭出低价、赠品大放送策略,同时也搭配买千送百、分期0利率、红利积点等促销手段。

消费者购物的行为特点有超市化、周末化、全家化、休闲化、省钱化、冲动化、M型化与会员化的特点。对超市卖场来说,数据挖掘的新兴技术和商务智能的运用更是日趋重要。要从每天涌进数十万、甚至数百万的交易订单里,挖掘出有意义的商业信息,数据挖掘这一新兴科学在客户关系管理中扮演了关键的角色。不论是从关联规则看购物篮分析、从聚类分析看客户市场细分、从时间序列看未来销售量趋势,还是从决策树、罗吉斯回归、类神经网络等看潜在客户的预测,这些都是超市在市场营销中非常重要的科学技术。因此,本书将以Microsoft SQL Server 2008数据库系统,虚拟的邦邦超市为例,介绍SQL的基本语法,循序渐进地告诉读者如何从海量的数据中整理数据、创造有意义的新变量,将会员基本数据和订单数据合并成为待分析的数据样本以计算重复购买率、会员贡献度及会员流失率,以及利用SQL的数据挖掘技术解决实务的问题。盼读者慢慢品味,感受到作者的用心。第1章数据挖掘与数据仓库1.1 数据挖掘简介1.1.1 数据挖掘的定义

数据挖掘(Data Mining)是近年来数据库应用领域中相当热门的议题之一。数据挖掘一般是指在数据库中,利用各种分析方法与技术,对过去所累积的大量繁杂的历史数据进行分析、归纳与整合等,以萃取出有用的信息,找出有意义且用户有兴趣的模式(Interesting Patterns),为企业管理层做决策提供参考依据。

数据挖掘就是寻找隐藏在数据中的信息的过程,如趋势(Trend)、特征(Pattern)及相关性(Relationship),也就是从数据中发掘信息或知识(有人称为Knowledge Discovery in Databases,KDD),也有人称之为数据考古学(Data Archaeology)、数据模型分析(Data Pattern Analysis)或功能相依分析(Functional Dependency Analysis)。数据挖掘目前已被许多研究人员视为数据库系统与机器学习技术相结合的重要领域。这个领域被许多产业界人士认为是增加企业潜能的一项重要指标。

事实上,数据挖掘不只是一种技术或是一套软件,而是一种结合了数种专业技术的应用。但我们也应对数据挖掘有一个正确的认知,它不是一个无所不能的魔法。数据挖掘工具只是从数据中发掘出各种假设(Hypothesis),并不能帮你查证、确认这些假设,也不能帮你判断这些假设的价值。1.1.2 数据挖掘的重要性

数据挖掘领域蓬勃发展的原因在于:现代化的企业搜集了大量数据或高维数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策部门无法有效利用现存的信息,甚至使决策行为产生混乱与误用。如果能通过数据挖掘技术,从大量的数据中,挖掘出不同的信息与知识来支持决策,必能产生企业的竞争优势。1.1.3 数据挖掘的功能

一般而言,数据挖掘功能可包含下列五项,这些功能大多为已成熟的计量及统计分析方法:

1.分类(Classification)

按照分析对象的属性分门别类加以定义,建立类(class)。例如,将信用申请者的风险属性,区分为高度风险申请者、中度风险申请者及低度风险申请者。分类使用的技巧有决策树(decision tree)、记忆基础推理(memory-based reasoning)等。

2.推估(Estimation)

根据已有连续性数值的相关属性数据,获得某一未知属性的值。例如,根据信用申请者的教育程度、行为来推估其信用卡消费量。推估使用的技巧包括统计方法上的相关分析、回归分析及类神经网络法。

3.预测(Prediction)

根据对象属性的过去观察值来推估该属性未来的值。例如由客户过去的刷卡消费量预测其未来的刷卡消费量。预测使用的技巧包括回归分析、时间数列分析及类神经网络法。

4.关联分组(Affinity grouping)

从所有对象中决定哪些相关对象应该放在一起。例如超市中相关的盥洗用品(牙刷、牙膏、牙线),放在同一件货架上。在客户营销系统上,这种功能用来确认交叉销售(cross-selling)的机会以便设计出吸引人的产品组合。

5.聚类分析(Clustering)

将异质母体细分为较具同构型的聚类(clusters),换言之,其目的是要将组与组之间的差异辨识出来,并对个别组内的相似样本进行挑选。聚类分析相当于营销术语中的细分(segmentation),不同的是聚类假定事先未对细分加以定义,而是自然地从数据中产生细分。聚类分析使用的技巧包括k-means法及agglomeration法。1.1.4 数据挖掘的步骤

数据挖掘的过程会随所应用的专业领域的不同,而有所变化。每一种数据挖掘技术都有各自的特性以及使用步骤,因此针对不同问题需求所发展出的数据挖掘过程也存在差异,如数据的完整程度、专业人员的支持程度等都会对建立数据挖掘的过程有所影响(蔡维欣,2003);也因此造成了数据挖掘在不同领域之间整个规划流程上的差异。即使是同一产业,也会因为不同的分析技术结合了不同程度的专业知识,而产生明显的差异。所以,对于数据挖掘过程的系统化、标准化就显得格外重要,这样一来不仅可以较容易地实现跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正作用。

进行数据挖掘完整的步骤如下:

1)数据理解(Data Understanding)

2)获取相关知识与技术(Acquisition)

3)整合与查核数据(Integration and Checking)

4)清理错误或不一致的数据(Data Cleaning)

5)开发模型与假设(Model and Hypothesis Development)

6)实际数据挖掘工作(Data Mining)

7)测试模型并检验数据挖掘结果(Testing and Verification)

8)解释与使用模型(Interpretation and Use)

由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划过程,事实上许多专家都认为,整套数据挖掘的过程有80%的时间和精力是花费在数据整理阶段,其中包含数据的清理与格式转换甚至表格的连接。由此可知,数据挖掘只是数据挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。1.1.5 数据挖掘建模的标准CRISP-DM

CRISP-DM是Cross-Industry Standard Process for Data Mining的简称,中文翻译为“数据挖掘交叉行业标准过程”。CRISP-DM是由欧洲委员会与几家在数据挖掘应用上有经验的公司共同筹划组织的一个特别小组提出的,目前使用的CRISP-DM模型为该小组于2000年提出的数据挖掘标准化过程。该小组的成员包括数据仓库供货商NCR、德国汽车航天公司Daimler-Chrysler、统计分析软件供货商SPSS和荷兰的银行保险业者OHRA。它利用NCR与SPSS在数据挖掘应用方面的经验,组织实际的厂商参与实验,通过实际操作过程,进行整体规划设计,在2000年推出CRISP-DM 1.0模型,把数据挖掘过程中必要的步骤都加以标准化。CRISP-DM模型强调完整的数据挖掘过程,不能只针对数据整理、数据呈现、数据分析以及构建模型,还需要对企业的需求问题进行了解,同时,后期对模型进行评价和模型的延伸应用,也是一个完整的数据挖掘过程不可或缺的要素。CRISP-DM是从方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统。

CRISP-DM分为六个阶段(phase)和四个层次(level),分别简介如下:

1.商业理解(Business Understanding)

本阶段主要的工作是要针对企业问题以及企业需求进行了解确认,针对不同的需求做深入的了解,将其转换成数据挖掘的问题,并拟定初步构想。在此阶段中,需要与企业进行讨论,以确定分析者可以对于问题有非常清楚的了解,只有这样才可以正确地针对问题拟定分析过程。

2.数据理解(Data Understanding)

这部分包含建立数据库与分析数据。在此阶段必须收集初步数据,然后了解数据的内涵与特性,选择要进行数据挖掘所必须的数据,然后进行数据整理及评估数据的质量,必要时再将分属不同数据库的数据加以合并及整合。数据库建立完成后再进行数据分析,找出影响预测最大的数据。

3.数据预处理(Data Preparation)

此步骤和第二步数据理解是数据处理的核心,这是建立模型之前的最后一步数据准备工作。数据预处理任务很可能要执行多次,并且没有任何规定的顺序。

4.建立模型(Modeling)

针对已预处理过的数据加以分析,配合各种技术方法加以应用,针对既有数据建构出模型,替企业解决问题;面对同一种问题,会有多种可以使用的分析技术,但是每一种分析技术却对数据有些限制及要求,因此需要回到数据前置处理的阶段,来重新转换需要的变量数据加以分析。

5.评价和解释(Evaluation)

从数据分析的观点看,在开始进入这个阶段时已经建立了看似是高质量的模型,但在实际应用中,随着应用数据的不同,模型的准确率肯定会变化。这里,一个关键的目的是确定是否有某些重要的商业问题还没有充分地考虑。在这个阶段的结尾,应该获得对数据挖掘结果的判定。

6.实施(Deployment)

一般而言,创建模型完成并不意味着项目结束。模型建立并经验证之后,可以有两种主要的使用方法。一种是提供给决策人员做参考,由他察看和分析这个模型之后提出行动方案建议;另一种是把此模型应用到不同的数据集上。此外,在应用了模型之后,当然还要不断监控它的效果。

四个层次分别为阶段(phase)、一般任务(generic task)、专项任务(specialized task)、流程实例(process instance)。每个阶段由若干一般任务组成,每个一般任务又实施若干专项任务,每个专项任务由若干流程实例来完成。其中,上两层独立于具体数据挖掘方法,即是一般数据挖掘项目均需实施的步骤(What to do?),这两层的任务将结合具体数据挖掘项目的“上下文”(context)映像到下两层的具体任务和过程。所谓项目的“上下文”是指项目开发中密切相关、需要综合考虑的一些关键问题,如应用领域、数据挖掘问题类型、技术难点、工具及其提供的技术等。1.2 商务智能简介1.2.1 商务智能

在电子商务时代,数据量呈爆炸式增长,然而这些数据当中真正被用来分析与运用的部分却很少,因此如何将这些庞大的数据快速地转换成决策者所需的信息,以作为提升企业营运所需的企业智慧,已经成为经营管理的一大挑战,商务智能的应用也逐渐受到企业界的重视。通过商务智能的运用,企业可以将原始的客户数据进行更深入的分析,进而建立有效的预测模型,使CRM的运用更具成效,也有助于未来KM(知识管理,Knowledge Management)的落实(潘启铭,2002)。商务智能的观念是指利用组织化及系统化的流程来取得、分析、散布对其商业活动有重大影响的信息;利用商务智能的协助来预测客户或竞争者的行动及市场活动或趋势的变化情形(Hannula&Pirttimaki,2003)。然则由于商务智能所牵涉的范围非常广泛,至今仍未有学者对于商务智能的定义及内容做一系统化的整理。1.2.2 商务智能的定义

商务智能是一种利用信息科技,将现今分散于企业内部、外部结构化数据加以汇总,并依据某些特定需求进行分析与运算,再以最优的方法,将结果呈现给决策者、管理者或是知识工作者的一种分析机制。换言之,企业可以通过使用商务智能,使得企业中的决策者获得适当的信息,以协助其做出最正确的决策。相关的文献中,也有其他学者对商务智能给予的不同的定义,其相关内容可整理如表1-1所示。

综合上述,根据各学者对商务智能的定义,我们可以了解,所谓的商务智能为企业利用信息科技将企业内部及外部的数据进行汇总,再以适当的工具进行处理及分析后,以最适当的方式将正确的信息传递给决策者,以协助其进行决策的制定,并达到企业最终目标的一种机制。1.2.3 商务智能的架构

许多人会误认商务智能只是企业中技术性层次的电子化解决方案,而事实上商务智能却是整合了管理、决策及信息科技等三项要素的有效分析机制(远擎管理顾问公司,2002),因此企业必须以策略层次的观点来看待商务智能才能了解其重要性。就应用面来看,由于现代信息科技与因特网的兴起,商务智能的应用范畴日益增加,不论是企业界中众人熟知的客户关系管理、供应链管理、企业资源规划还是知识管理,都是商务智能的实际应用。为了使企业中的决策人员实时地取得所需要的正确数据,商务智能的作业性层面工具可以说是商务智能中最重要的核心,这些工具包含了数据仓库(Data Warehouse)、数据集市(Data Mart)、在线实时分析(OLAP)、在线事务处理(OLTP)、数据挖掘(Data Mining)、企业信息入口网站(Enterprise Information Portal,EIP)等。

在实际中,若以商务智能在客户关系管理上的应用为例,企业常通过数据仓库的技术整合来自于不同数据库的信息,进而利用数据挖掘技术来进行各项分析,针对客户过去购买记录、个人基本数据等,分析客户的购买贡献度、探索未来的购买行为,以便于营销方案的制定,或是交叉销售(Cross selling)与向上销售(Up selling)运作的执行。1.2.4 商务智能的实施流程

商务智能于企业中的实施流程如图1-1所示。由图中我们可以了解,企业先由内部及外部不同数据源获取原始数据后,可依据数据采集(Data Extraction)、数据转换(Data Transformation)及数据存储(Data Load)的步骤,构建数据仓库,之后再进一步地进行数据挖掘及在线实时分析的工作。因此《Building the Data Warehouse》的作者William Inmon认为数据仓库必须具备有主题导向(subject-oriented)、整合性(Integrated)、时间转化(Time-variant)及不易变化(Non-volatile)四个特性。可见,数据仓库有别于传统的数据库系统,这是企业必须特别注意的。图 1-1 商务智能的实施流程

企业在实施商务智能基础建设的过程中,实时数据的查询分析功能扮演着非常重要的角色(远擎管理顾问公司,2002)。简单来说,在线分析处理(On-Line Analytical Processing,OLAP)就是让用户能根据本身决策需求来浏览数据,动态且实时地产生其所需的报表,以提高分析效率的技术。事实上,它除了能提供在线实时数据分析模块外,更重要的是能展示多维(multi-dimensional)的数据。而商务智能的另一项重要的工具为数据挖掘,它是在大量数据中寻找有意义或有价值的信息的过程,其详细的内容将在下一节中探讨。

近年来,商务智能的运用已经逐渐受到企业的重视,例如:ING安泰人寿自1998年起,引入IBM的商务智能解决方案,逐渐累积数据库,通过相关信息的分析,得到客户细分、消费行为、业务成本与效率等对其极为重要的信息。商务智能的应用,使ING安泰人寿能够更深入地了解客户,并可协助其业务的开发以及增加其在客户管理上的有效性。另外,全球企业可口可乐公司也通过商务智能,以mySAP.com作为基础平台,整合财务信息,提升企业财务规划的能力,强化企业的管理能力。上述的例子都是企业运用商务智能的最佳典范,在企业竞争越来越激烈的环境下,如何运用商务智能将成为企业增加竞争力的关键之一。1.3 数据挖掘与其他相关领域的关系1.3.1 数据挖掘与统计分析的不同

区分数据挖掘和统计分析的差异其实是没有太大意义的。数据挖掘有相当大的比重是由高等统计学中的多元分析所支撑。但是为什么数据挖掘的出现会引发各领域的广泛关注呢?主要原因是相较于传统统计分析而言,数据挖掘有下列几项特性:

1)数据挖掘的工具处理大量实际数据时功能更强大,且使用时无须专业的统计背景。

2)数据分析的趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,数据挖掘的工具更符合企业需求。

3)仅从理论的基础点来看,数据挖掘和统计分析有应用上的差别,毕竟数据挖掘是给企业末端使用者而非统计学家使用的。1.3.2 数据挖掘与数据仓库的关系

若将数据仓库比作矿坑,数据挖掘就是深入矿坑挖掘的工作。毕竟数据挖掘不是一种无中生有的魔术,也不是点石成金的炼金术,若没有足够丰富完整的数据,是很难期待数据挖掘能挖掘出什么有意义的信息的。

从数据仓库中挖掘出对决策有用的信息和知识,是建立数据仓库与使用数据挖掘的最大目的。而如何从数据仓库挖掘有用的数据,则是数据挖掘的研究重点,二者的本质和过程是两码事。换句话说,数据仓库应先行建立完成,数据挖掘才能有效率地进行,因为数据仓库本身所含数据是干净(不会有错误的数据掺杂其中)、完整的,而且是经过整合的。因此两者的关系可描述为“数据挖掘是从巨大的数据仓库中找出有用信息的一种过程与技术”。1.3.3 KDD与数据挖掘的关系

根据Fayyad等人(1996)对KDD的定义——它是一个指出数据中有效、崭新、潜在效益的非细琐(nontrivial)流程,其最终的目标是了解数据的模式(patterns)。而在进行知识发现时其主要的步骤可以整理如图1-2所示。图 1-2 知识发现的流程(The KDD Process)(数据来源:Fayyad et al.1996)

其流程步骤是:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并关注所选择(selection)的数据子集;再对目的数据作预处理(pre-processing),去除错误或不一致的数据;然后作数据简化与转换工作(transformation);再通过数据挖掘的处理成为模式(patterns)、做回归分析或找出分类型态;最后经过解释/评估成为有用的知识。这些程序是一个循环的关系,一直重复的步骤,最后才得到一些有用的知识。所以,KDD是一系列的程序,数据挖掘只是其中的一个步骤而已。1.3.4 在线分析处理(OLAP)与数据挖掘的关系

OLAP(Online Analytical Process)是指由数据库所连结出来的在线查询分析程序。简单来说,OLAP是由用户所主导,用户先有一些假设,然后利用OLAP来查证假设是否成立;而数据挖掘则是用来帮助用户产生假设。所以在使用OLAP或其他查询的工具时,用户是自己在做探索(Exploration),但数据挖掘是用工具在帮助做探索。

数据挖掘常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系。数据挖掘的这种自动找出没有被怀疑过的数据模型与关系的特性,事实上已超越了我们经验、教育、想象力的限制。OLAP可以和数据挖掘互补,但数据挖掘的这项特性是OLAP无法取代的。1.3.5 数据挖掘与机器学习的关系

机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能?近年来,机器学习被成功地应用于很多领域:从检测信用卡交易欺诈的数据挖掘程序,到获取用户阅读兴趣的信息过滤系统,再到能在高速公路上自动行驶的汽车。同时,这个学科的基础理论和算法也有了重大的进展。

在数据挖掘领域,机器学习算法理所当然地被用来从包含设备维护记录、借贷申请、金融交易、医疗记录、天文分析等类似信息的大型数据库中发现有价值的信息。例如:学习分类新的天文结构——机器学习方法已经被用于从各种大规模的数据库中发现隐藏的一般规律。如,决策树学习算法已经被美国国家航空和航天局(NASA)用来分类天体,数据来自第二帕洛马天文台太空调查(Fayyad et al.1995)。这一系统现在用于自动分类太空调查中的所有天体,其中包含了3T字节的图像数据。

机器学习算法在很多应用领域被证明有很大的实用价值。它们在以下方面特别有用:1)数据挖掘问题,即从大量数据中发现可能包含在其中的有价值的规律(例如,从患者数据库中分析治疗的结果,或者从财务数据中得到信用贷款的普遍规则);2)在某些困难的领域中,人们可能还不具有开发出高效的算法所需的知识(比如,从图像库中识别出人脸);3)计算机程序须动态地适应变化的领域(例如,在原料供给变化的环境下进行生产过程控制,或适应个人阅读兴趣的变化)。1.3.6 Web挖掘和数据挖掘有什么不同

如果将Web视为客户关系管理的一个新的渠道,那么Web挖掘便可单纯看做数据挖掘应用在网络数据的泛称。利用数据挖掘技术建立更深入的访客数据剖析,并赖以构建精准的预测模型,以实现真正智能型个人化的网络服务,是Web挖掘努力的方向。

Web挖掘除了计算网页浏览率以及访客人次等日志文件分析外,但凡网络上的零售、财务服务、通信服务、政府机关、医疗咨询、远程教学等,只要由网络连结出的数据库够大够完整,所有离线可以进行的分析,Web挖掘都可以做,甚至还可以整合离线及在线的数据库,实施更大规模的模型预测与推估,毕竟凭借因特网的便利性与渗透力再配合网络行为的可追踪性与高互动特质,一对一营销的理念是最有机会在网络世界里完全实现的。

Web挖掘分析的范畴:

❑该如何评估一个网站是否成功?

❑哪些内容、优惠、广告是人气最旺的?

❑主要访客是哪些人?

❑什么原因吸引他们前来?

❑如何从堆积如山的、由网络所得的大量数据中找出让网站运作得更有效率的操作因素?

整体而言,Web挖掘具有以下特性:

1)数据收集容易且不引人注意:

所谓“雁过留声,人过留痕”,访客进入网站后的一切浏览行为与历程都是可以立即被记录的。

2)以交互式个人化服务为终极目标。

除了因访客不同而呈现不同设计的网页之外,对不同的访客也会有不同的服务。

3)可整合外部来源数据使分析更深更广。1.4 数据挖掘在客户关系管理中的应用

客户关系管理在不同领域有不同的定义,以“客户关系管理”为关键词在网上搜索,可得到超过5万个不同的搜索结果。而数据挖掘是一个目前流行的领域,因此,本书将针对客户关系管理与数据挖掘的文献进行相关整理与探讨。

客户关系管理不仅可以提升企业与客户间的互动关系,同时还可以通过互动关系来搜集客户数据。一般而言,客户关系管理搜集客户数据包括营销活动的客户反应度、运销和产品供应的相关数据、销售与购买的数据、客户数据、客户网站注册数据、相关服务的数据、产品市场数据及网络销售数据等。由于各项数据均由客户与企业间的互动而产生,数据挖掘成为分析数据的主要工具之一。

目前数据挖掘技术所应用的产业相当广泛,包括金融、营销、医学、法律、制药及教育等,其中大部分的应用还是在客户关系管理上。

企业在进行客户关系管理上,存在着许多不同层次与相互关联的策略考虑,主要包括客户的获取、增加客户对于企业的价值以及客户的留存。数据挖掘可以有效地在各不同层面增加公司收益,协助达成企业营运的整体策略目标,创造商业价值:

包括客户细分(customer segmentation)、交叉销售(cross-selling)、客户获取(customer acquisition)、客户利润(customer profitability)、客户维护(customer retention)与客户流失(customer churn)五项,本章将分别介绍。1.4.1 客户关系管理(CRM)

客户关系指的是公司企业与其客户之间所存在的各种互动关系。CRM(Customer Relationship Management)是近来引起热烈讨论与高度关切的议题,尤其在直效营销的崛起与网络的快速发展带动下,跟不上CRM的脚步如同跟不上时代步伐。

客户关系管理并非信息科技领域,因此企业在寻找合适的客户关系管理软件时,应该着重考虑即有客户关系管理,而不是寻找客户关系管理的解决方案,因为任何一种客户关系管理的软件都无法彻底解决企业与客户间关系的维系与建立问题。在健全的硬软件系统建立之前,有太多的数据准备工作与分析需要做从而完善CRM的运作机制。企业通过数据挖掘可以分别针对策略、目标定位、操作效率与效果评估等四个方面的问题,快速地从所搜集累积的大量数据中挖掘出对消费者而言最关键、最重要的答案,并以此建立真正以客户需求为出发点的客户关系管理。

数据挖掘应用在CRM的主要方式可对应在差异分析(Gap Analysis)的三个部分:

1)针对客户,可利用客户分析(Customer Profiling)找出客户的一些共同的特征,借此深入了解客户,通过聚类分析对客户进行分群后再通过模式分析预测哪些人可能成为我们的客户,以帮助营销人员找到正确的营销对象,进而降低成本,也提高营销的成功率。

2)针对销售,可利用采购篮分析帮助企业了解客户的消费模式,找出哪些产品最容易一起购买,或是利用序列分析(Sequence Discovery)预测客户在买了某种产品之后,在多久内会买另一样产品等。利用数据挖掘可以更有效地决定产品组合、产品推荐、进货量或库存量,甚至是要如何在店里摆放商品等,同时也可以用来评估促销活动的成效。

3)针对客户流失,市场上一些客户会转成竞争对手的客户,深入这个客户群中分析其特征,再根据分析结果到现有客户数据中找出可能转向的客户,然后设计一些方法预防客户流失;更系统的做法是通过神经网络根据客户的消费行为与交易记录对客户忠诚度进行排序,分出流失率的等级,进而配合不同的策略。1.4.2 客户关系管理指标

客户关系管理的成功与否,有相对应的指标来衡量,这些指标包括客户保留率(Customer Retention Rate)/客户流失率(Customer Attrition Rate)、客户忠诚度(Customer Loyalty)、客户利润(Customer Profitability)、客户终身价值(Customer Lifetime Value)、客户满意度(Customer Satisfaction)。(详见图1-3)图 1-3 客户关系管理指标

1.客户保留率(客户流失率)

没利润的企业客户为何要保留?客户保留率是直觉的衡量指标,所衡量的是客户经过一段时间后是否仍然不会流失。通常以新客户为主,针对来年是否继续消费来计算比率。保留率(RR)=来年的客户数/某年的客户数。流失率=1-保留率。

过去的研究调查表明,客户保留率能够达到5%就表示达到了良好的客户保留绩效。客户流失率则与客户保留率相反,是一体两面的衡量方式;若某公司客户流失率高达90%,乍看之下很高,但是若考虑留住一位新客户要比保留一位旧客户多花5~7倍的成本,那么客户保留率就是一个值得思考的衡量指标。[1]

2.客户忠诚度

不要把钱浪费在改变客户的行为上,而应该用来吸引正确的客户。客户忠诚度也是常被提出来衡量的指标,通常是指客户对特定的厂商、产品或服务重复购买的程度。有许多企业以客户保留率或客户市场占有率来粗略估计客户忠诚度。影响客户忠诚度最主要的原因是环境影响和价格变动,造成客户对产品的敏感度增加,再加上企业面临的几乎都是完全竞争的市场,因此,良好的服务态度与持续的服务创新,才是提升客户忠诚度的有效方式。[2]

3.客户满意度

忠诚客户流失的最主要原因,是客户满意度降低。客户满意度指的是客户购买产品或服务的满意程度。客户满意度会直接影响到商品的销售率,曾有研究调查指出,1个客户会把好的经验告诉3个朋友,但却会把不好的经验告诉10个朋友,100位满意的客户有可能会衍生出15位新客户,这就是客户满意度造成的口碑(word of mouth)的影响力。影响客户满意度的有四大基本要素:质量(quality)、价格(price)、时间(time)和态度(attitude)。产品的可靠、耐用与方便会影响客户的满意程度,价格会让客户对于产品的敏感度增加,时间通常是指能否及时满足客户需求,态度是企业与客户接触所表现出的友善程度(张玮伦,2005)。

4.客户利润

新客户利润贡献额若是偏低,则说明这些客户是被低价折扣品吸引,他们会随着降价促销的结束而消失,这就是所谓的Easy come,Easy go!一般来说,企业计算客户利润会将客户细分(常用方法为RFM Model)。市场细分(Market segmentation)的概念是由Smith(1956)提出的,他认为:市场细分的基础建立在市场需求发展上,并针对产品和营销活动做更合理和确实的调整,使其适合消费者需求。因此,在了解市场细分的重要性后,接着便要选择适当的市场细分方法,依据Hughes(1996)的研究描述,RFM分析模型在直效营销(Direct Marketing)领域中已使用超过30年,但随着计算机科技进步与数据库系统的成熟应用,RFM分析模型在1990年后才广泛使用,并演变为数据库营销。

RFM是应用广泛的分析方法,利用RFM可更简单、快速地分析公司客户。从行为的观点来看,RFM是最常用的评估客户价值的方法。RFM分析模型是利用客户过去的历史交易记录,包括最近一次购买日期(Recently)、某时段的购买频率(Frequency)及某时段的购买金额(Monetary)来进行客户价值衡量。使用该分析方法有个先决条件,就是企业一定要先有客户交易记录,之后才能做后续静态数据分析。以下将针对RFM做说明:

❑近期性:最近购买日期为测量时间的量度,最近购买日期离现时越远,则表示此客户的购买行为越可能改变。

❑购买频率:购买频率测量一个时段内客户所购买的次数,例如一季、一个月甚至一个星期,或是测量客户在此时间内与公司的互动程度,互动频率越高代表此客户与公司互动程度越高。

❑购买金额:购买金额决定在某个时段内购买的总金额。

Stone(1989)提出计算RFM值方法来计算R、F、M分数。在R值部分,时间分为本季、距今六个月内、距今九个月内以及今年四种,并分别给予24、12、6、3分等分数;在F值部分,就以购买次数乘以4当做F值的分数;在M值计算部分,以消费金额的百分之十当做分数,但若M值大于9,则只取9,避免购买频率低却具有大量消费金额的情形。将客户的R、F、M分数予以加总后,若其RFM总分大于用户设定的阈值,则为潜在型客户或为黄金客户。图 1-4 用RFM来测量客户价值(数据来源:Marcus,1998)

Miglautsch(2000)提出的客户行为五等分法是将客户消费记录的最近购买时间、购买次数及购买金额等三个维度分别平均分成五等分,也就是(R,F,M)=(1,1,1)...(5,5,5),最多分出125个级别的客户。(5,5,5)即为15分,(5,4,3)为12分,分数越高者表示后续购买产品的潜在持续购买力越大。

行为五等分法(Miglautsch,2000)是按照客户购买行为将客户排序。和客户五等分法一样,也将三个维度各分成五等分,但不同的是R值与F值。其R值分为前三个月、前四至六个月间、前七至十二个月间、前十三至二十四个月以及前二十五个月五类,分别给予5、4、3、2、1分;F值是先将只购买一次的客户分为一等分,然后计算其余客户的平均购买次数,高于此平均者分为一等分,再计算其余客户的平均购买次数,高于此平均者再分为一等分,重复此方法,将购买频率由高至低划分为5级,分别给予5分至1分;M值是依据购买金额由多到少分别给予分数5分至1分。将客户的R、F、M分数予以加总,若其RFM总分大于用户设定的阈值,则为潜在型客户或为黄金客户。

RFM分析模型适用于各产业且计算逻辑并不复杂,许多营销人员在不需要信息系统的辅助下也能进行客户分析。然而,RFM分析模型存在两个基本问题:

❑个别RFM属性针对不同产业有不同的差异性,例如:某些产业对R属性有很好的细分能力,但其他产业可能对FM属性有较佳的细分能力;而RFM分析模型无针对RFM属性敏感性的不同,整合成单一细分指标。

❑RFM分析模型不具有预测能力,只能就客户过去的历史交易数据细分客户。

5.客户终身价值

把主要资源运用在最有价值的客户身上,不要把时间浪费在不重要的客户身上。客户终身价值就是关键客户的衡量指标,终身价值通常是选择总额或净额为计算基础。总额是指客户在某段时间的总消费金额。净额是指总消费金额扣除成本(产品、营销、服务)所得到的[3]值。企业最常使用的方法为作业基准成本法(Activity Based Costing,ABC),以销售额累计为主要分析轴,细分出不同等级的客户群。[1]Oliver(1999)指出,企业是以追求忠诚度为目标,包含认知、情感、意向、行为四个阶段。[2]顾客满意度是用来衡量企业在满足或超过顾客购买产品的期望方面所达到的程度。[3]ABC是从资源耗用的角度来思考成本的发生与归属,以作业的角度出发,计算出做一件事情的代价,因此,和传统成本制度,以单一或少数的成本分摊方式断然地分摊成本有很大差别。1.4.3 数据挖掘应用于各行业1.4.4 客户市场细分

不同的客户群存在着不同的特点,将客户群有系统地分类,可以让企业从一个更为宽阔的视野来审视与检验公司既有的经营策略,针对不同的客户特性来设计产品与服务,拟定不同的营销策略与广告模式,以取代从企业观点出发的营销模式。

每个企业的利润,都是来自某一部分的客户群的贡献,所以了解客户群的组成状况,可以让企业有限的资源发挥最大的功效,也就是我们所谓的80/20法则。由这个定理引申出一家公司80%的利润来自20%的客户,例如就航空业来说,持有会员卡的乘客,其平均贡献度会比非会员来得高,而持有金卡或白金卡的会员又比一般的会员高,这就是所谓的“客户生而不平等”定律。因此,如何找到这20%的客户,为其提供完整的客户服务,进而增加他们的交易次数以增加企业的利润,这对企业来说是一件相当重要的事。

客户细分的主要目的就是找出可以为企业带来最多利润的客户,给予他们奖励和最好的服务,鼓励他们继续消费;相对来说,对有些客户花费太多的营销成本,却无法为企业创造利润,更甚者会减少企业的利润,就不用花费太多企业资源在他们身上。企业要依据客户为企业创造利润的程度,合理配置企业资源,毕竟企业的资源有限,适度的割舍,才是客户关系管理之道。因此进行市场细分时,要考虑以下问题:(1)在现有客户群中,哪些人可以为企业贡献实质的利润?(2)企业主要的获利,是由哪一类型的客户贡献?(3)现有客户群中,哪些消费者是无法为企业带来利润的?(4)哪一类型的客户,能长期持续消费,累积可观的终身价值?

最佳的客户市场细分,便是所谓的目标营销。客户市场细分,就是一群有相同特性的客户,因为相同的特性让这群客户和其他的客户群不同。因为每个人都是不同的个体,所以在市场细分中就有不同的需求,甚至对不同的产品也会有不同形式的需求。当客户在不同的地方购物时,所愿意付的价格有时也有所不同。

客户市场细分的消费市场可以运用数据挖掘等技术,使用年龄、性别、居住地、生活形态、薪资等许多变量,将客户进行分类。若以组织型市场或工业市场来看,通常是以企业形态、企业大小、地点、企业文化、营运方式等,将客户分成潜在客户与一般客户。对客户和潜在客户群,可以根据特定的产品或服务的消费量,对特定品牌做进一步的市场细分。

目标营销便是找出最佳的市场细分,这同时也是极为重要的营销技能。为了提高销售额,花时间了解客户是绝对值得的。不管是以哪一种市场作为目标市场,都要依据不同的市场选择不同的处理方法以达到目标。因为在不同的市场细分内,客户会见到不同的传媒,接触到不同的产品,所以客户所愿意付出的代价也会有所不同。着手找出最佳的市场细分,便是企业的一大工程。

客户市场细分还可运用于弊端检测及产品的市场地位等。对于零售业而言,数据挖掘可以协助其了解客户依据人口统计学的分类所产生的消费特性,发掘消费者采购模式以及改善直接邮寄的广告宣传效果。

对于银行业,数据挖掘可以协助银行了解客户信用卡发放与使用产生的风险,协助找出对银行而言最有利润以及忠诚度最佳的客户群。电信业可以利用数据挖掘的数据分析了解客户拒绝续约的原因,并改善服务留住消费者。保险业则可以利用数据挖掘来分析用户理赔的模式,并据此调整作业流程,加强稽核以防止保险欺诈。

如今,人们在购买东西时,除了受到广告传媒的影响外,还会受到周遭人群的影响。因此企业所做的市场细分的调查,便是要找出市场细分的焦点,找出决策单位,然后针对决策单位提出有说服力的方案,这一点企业在进行目标营销时要特别地慎重。1.4.5 交叉销售

现在企业和客户之间的关系是经常变动的,当一个人或一间公司变为客户,企业就要尽力维持和客户之间的联系。一般来说可以通过三种方法:

❑长时间的关系;

❑最多次数的交易;

❑最高的交易利润。

因此企业就需要对已有的客户进行交叉销售。交叉销售是指向一个客户销售多种相关的服务或产品。这个客户必须是可以追踪且了解的,而相关因素可以有很多种,可以是销售地点相关、品牌相关、提供厂商相关等,这是一种发现客户多种需求的一对一营销方式,以横向角度开发产品的市场。如果了解这个客户的消费属性和兴趣偏好,企业就可以有更多的客观参考因素来判断,数据挖掘也可以利用这些参考因素进行存储跟分类,进而成功地实现销售目标。

交叉销售是建立在双赢的基础之上,也就是说对企业和客户都有好处,客户因为得到更多更好的服务而获益,企业也因为销售增加而获利。以前的传统营销要实现交叉销售的目标,往往采用延伸品牌或产品线等策略,但那样的效果并不够直接,有了客户数据库,交叉销售就可以实现跨行业的销售。数据的来源和目标群众必须要有一定的关联性,这样才能让沟通信息发挥作用,而这种关联性可以利用数据挖掘来发掘。

对原有客户销售的挖掘,在很多情况下和找出潜在客户的方式是相似的。交叉销售的好处在于可以比较容易得到原有客户的相关信息。企业所掌握的客户信息,尤其是历史交易数据,可能包含这个客户进行一次购买的决策因素,数据挖掘可以帮助企业找到这些影响购买行为的因素。

国内许多零售企业使用客户交易数据来探讨客户对相关性产品的购买行为,发现最有可能做交叉销售的商品与目标客户;用购物篮分析,发掘客户的购买行为,作为交叉销售的参考。许多网站利用会员及商品数据,如BBS频道与财经频道的数据,来分析会员的网络使用习惯,利用数据挖掘找出会员与商品的分群特征,并发掘会员在频道间网络行为的关联规则。1.4.6 客户关系管理四大循环过程

CRM具有四大重复循环过程,首先要有敏锐的观察力,发现目前现有客户及潜在客户的需求;其次是利用现有信息细分每一位客户,特别是高价值客户,接下来制订营销组合以满足每位客户的需求。经过循环修正,将有助于改善企业与客户之间的关系。CRM的四大循环过程为(李佳臻,2004):

❑知识发掘:对搜集的客户数据进行分析,目标在于找出以往未发现的可能商机与投资方向、策略,此阶段侧重于客户的确认、客户群细分以及客户预测。

❑市场规划:针对特定的客户提供不同的产品,定义特定活动的种类、渠道、计划等。

❑客户互动与回馈:使用及时的互动渠道,与客户和潜在客户进行沟通及提供服务,并取得回馈。

❑反复分析与修正:把分析出来的结果作为不断修正的基础,改善系统,以提供更好的服务。图 1-5 客户关系管理循环过程(数据来源:李佳臻,2004)1.4.7 数据库营销

在客户关系管理中,我们强调的就是客户数据的收集与运用,当客户数据完善后,可通过数据库营销将其背后的价值发挥到极致。1897年,意大利经济学家Pareto发现了80/20法则,19世纪英国人的财富和收益模式是有模式可循的,亦即大部分的财富流向少数人的手里,其间有个一致的数学关系,通过数据对照得知:

❑20%的产品,涵盖了80%的营业额。

❑20%的客户,占企业80%的获利率。

Frederick(1999)认为80/20法则的概念为客户关系管理中常见的理论基础:企业每年的平均营业额中,有80%的利润来自20%的客户,这说明留下最佳客户,是避免客户流失的重要措施。

然而,营销人员要如何从数据库中找到最大的市场,并从中获取市场占有率呢?客户数据库是相当宝贵的工具,构建成本高但变动成本低,花费的成本随着使用次数的增加而趋于平缓。因此,要得到市场占有率,最多的机会并不单只是在金字塔顶层的客户,还有处在较下层的客户群。数据库营销扮演的角色,就是将客户金字塔中不同客户层的数据进行有效分析运用,从而提升客户忠诚度,改善投资报酬率。图 1-6 客户金字塔

通过分析,除了能够了解基本客户群外,还能够找出潜在客户群在何处(是年轻群体还是老年群体),并且可以了解客户是通过何种渠道与企业接触的(是一般经销商还是量贩店)。而且数据库还反映了一个很现实的现象,客户的需求到底在哪里。当将产品或服务提供给客户时,并不代表客户会接受,如何能够了解客户真正愿意掏钱的原因,也是数据库的任务之一。此外最重要的是,客户到底愿意花多少钱购买产品或服务。因此,数据库中必须翔实记录每笔购买的金额,以便使数据库营销能够发挥更大的效益。张玮伦(2005)认为除了Graeme(2000)提出的三个传统数据库能回答的基本问题外,现今数据库还能够额外回答两个问题,一并整理如下:

❑目标客户是谁?(Who)

❑从何种渠道接触到的?(Where)

❑客户需要什么?(What)

❑产品服务为什么吸引客户?(Why)

❑客户消费的金额为多少?(How Much)图 1-7 数据库能解决的问题1.5 数据仓库定义

数据仓库(Data Warehouse)利用信息技术所提供的海量数据存储、分析能力,将以往无法深入整理分析的客户数据建立成一个强大的客户关系管理系统,以协助企业制定精准的营运决策。数据仓库对于企业的贡献在于有效性(Effectiveness),能适时地为高层主管提供最需要的决策支持信息,做到在适当的时间将正确的信息传递给适当或需要的人。简单地说,就是运用信息技术将营运数据建成能够协助主管做各种管理决策的一个整合性智库,利用这个智库,企业可以灵活地分析所有细致深入的客户数据,以获取强大的客户关系管理优势。1.5.1 数据仓库特性

数据仓库与传统的数据库是有所不同的。数据库是未经整理的一大堆数据集;而数据仓库是从数据库中萃取出来,经过整理、规划、构建而成的一个系统的数据库的子集合。数据仓库具有下列几种特性:

1.主题导向(Subject Orient)

数据仓库建立的重点是以重要的主题组件为核心。数据需求者只要把要研究的相关主题数据,从数据库中提取整合出来就可以进行研究分析。

2.整合性(Integrated)

各应用系统的数据须经过整合,以便执行相关的分析操作。

3.长期性(Time Variance)

数据仓库系统,为了进行趋势的分析,常须保留1~10年的历史数据。这与数据库存储的都为日常性的数据有所不同。

4.非易失性(Non-Volatile)

数据库的数据可以随时更动,但是数据仓库的数据,并非日常性的数据而是历史性的数据,通常用于长期性分析,只有内部相关人员会定期地修改数据结构,但频率不会太高。数据仓库并不允许用户做更新的操作,所以其数据是较少有变动的。

由于数据仓库内的数据具备上述特性,故须通过一系列的程序(配合良好的软硬件设备)才可构建完成,而非即买即可使用。1.5.2 数据仓库架构

数据仓库(Data Warehousing)是一种能正确地组合与管理不同数据源的技术,其目的在于回答您业务经营上的问题以便让您做出正确决定。数据仓库的整体架构如下:图 1-8 数据仓库架构

数据仓库的基本架构及整体概念,我将它区分为以下几个基本组件说明:

专业顾问通过与企业需求访谈,建立数据仓库的模型,然后将企业的各种数据整合于数据库中,并安装前端分析数据的工具以及管理工具,这个过程即为构建数据仓库的基本过程。

❑设计:数据仓库的数据模型的设计,这部分是最重要的,若模型设计得不够周全或不理想,不论之后的报表设计如何精美,都有可能运行出错误的信息,这就是需要选择有经验的专业顾问设计数据仓库的一个重要原因。

❑整合:数据的整合转换过程,包含数据解释(Data Extraction)、数据转换(Data Transformation)、数据清理(Data Cleaning)、数据加载(Data Load),也就是将各种来源的数据整合转换加载到数据仓库中。数据转换程序的撰写不易,自动化处理困难,经常要人工参与作业,因此,约占DW项目60%~70%的人力及时间。

❑运作:数据仓库的中心,是一个容量巨大、用于提供ad-hoc查询的数据库。

❑可视化:前端呈现给用户看的形式,例如数据挖掘及OLAP工具,用以呈现分析过的数据形式。

❑管理:管理的工具,例如:网络监控流量、安全管理等。

图1-9是一个完整数据仓库的逻辑概要架构。图 1-9 数据仓库逻辑架构

由IT用户将平日数据存入至数据库,通过多种数据转换工具将数据以各种转换方式整合到数据仓库。再由整体数据仓库使用数据复制、发布工具,根据需求将数据发布到部门性质数据仓库。用户可以用各种不同的信息存取方式及工具,完成各类业务的信息需求。1.5.3 构建数据仓库的原因

E世纪的到来加上因特网的发达,使我们能够快速地取得数据,但相对的就造成了现代企业普遍面临的问题:数据太多,信息不足。随着企业的成长及规模的扩大,每天要处理的数据量与日俱增。身为管理人员,常常可能为了生成一张报表而花费一周的时间来搜集、分析及处理各方的数据,汇总转化成有用的信息。在讲求效率的时代中,这就使企业失去了先机。为解决上述问题,数据仓库系统应运而生,通过它我们可以轻松拥有完整、一致且极为丰富的信息,并分析获得具有管理意义的报表。1.5.4 构建数据仓库的主要目的

构建数据仓库的主要目的在于为企业提供一个决策分析用的工具,帮助决策人员更好地制定企业策略,或找出企业的潜在问题,提高客户满意度,最终提高企业竞争力。目前,全球的先进服务业者正纷纷积极地建置数据仓库信息应用系统,近三年来每年皆有超过30%的高幅成长。

数据仓库的运作如图1-10所示,是一个生生不息、不断增强的循环过程。首先,利用数据仓库的分析研究,将客户数据整理转化为商务智能,再运用这些信息,拟订出营销策略;将营销计划付诸实施,与目标客户互动产生结果后,再回馈到数据仓库作进一步的分析研究,建立起以数据仓库为核心的智库运行模式,使得学习/行动两大机制形成良性循环,企业的竞争力自然与日俱增。图 1-10 客户关系管理(CRM)1.5.5 数据仓库的应用

数据仓库的应用范围非常广泛,若有正确的数据源,则可在此核心之上建置各种不同的分析应用系统,例如:

❑客户关系管理(Customer Relation Management)

❑企业资源管理(Enterprise Resource Planning)

❑销售分析(Sales Analysis)

❑利润分析(Profit Analysis)

❑风险管理(Risk Management)

❑欺诈管理(Fraud Management)

数据仓库的各种技术的着眼点均在于如何从庞大的数据中快速地找出其想要的答案,这和OLTP系统是截然不同的。这些技术包括:

❑快速且扩充性高的数据库系统(High performance,high scalability database system)

❑异构数据库的连接(Heterogeneous database connectivity)

❑数据萃取转换与加载(Data extraction,transformation and loading)

❑多维度数据库设计(Multi-dimension database design)

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载