机器学习案例实战(txt+pdf+epub+mobi电子书下载)


发布时间:2021-08-03 04:37:59

点击下载

作者:赵卫东

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

机器学习案例实战

机器学习案例实战试读:

内容提要

机器学习已经广泛地应用于各行各业,深度学习的兴起再次推动了人工智能的热潮。本书结合项目实践,首先讨论了TensorFlow、PySpark、TI-ONE等主流机器学习平台的主要特点;然后结合Tableau介绍了数据可视化在银行客户行为分析中的应用。在此基础上,利用上述介绍的这些平台,通过多个项目案例,详细地分析了决策树、随机森林、支持向量机、逻辑回归、贝叶斯网络、卷积神经网络、循环神经网络、生成对抗网络等机器学习算法在金融、商业、汽车、电力等领域的应用。

本书内容深入浅出,提供了详细的Python代码,既可以作为从事机器学习、数据挖掘工作的相关研究人员和技术人员的参考书,也可以作为高校相关专业机器学习、数据挖掘等课程的实验和实训教材。

前言 FOREWORD

机器学习是人工智能的核心技术。本书针对典型的实际应用情景,结合作者最近几年在科研、教学和企业培训中的成果,基于TensorFlow、PySpark和TI-ONE等主流的开源机器学习平台,使用真实的业务数据和企业应用问题,详细、深入地介绍了机器学习实施的基本思路、关键步骤和难点。本书通过这些实际应用案例介绍了数据可视化、典型的机器学习算法以及电子推荐技术的具体应用,使得读者能够深刻地理解机器学习的专业知识和解决问题的思路,提升对实际应用领域问题的分析和动手能力。

本书可以与2018年出版的《机器学习》一书配套学习。通过对本书的学习,读者不仅可以模仿书中的案例实践基于开源机器学习平台的实际数据分析应用,也很容易举一反三,对新的数据分析问题提出合理的分析思路。

本书不是简单地介绍机器学习理论,而是通过分析目前机器学习技术的痛点(即与实际应用结合不紧密等问题)而编写的实战案例集。当前,国内机器学习实战方面的资料存在着以下3个明显问题:一是机器学习的应用案例比较粗略,问题也比较简单,分析过程不具体,难以支撑机器学习技术的学习,而这方面又是培养人工智能应用人才非常重要、不可或缺的环节;二是数据量比较小,分析的问题仅仅是实际问题的简化,数据的分析深度、算法的复杂度还达不到机器学习的要求;三是内容分散,主流的机器学习开源平台非常多,各有千秋,而实际上机器学习的工作使用TensorFlow、PySpark等几种主流的机器学习平台就可以胜任。

本书通过精心地选择实际数据和应用问题,突出使用机器学习解决数据分析过程中常见的问题,使读者不仅能理解几种主流机器学习平台的原理,还能针对实际问题设计可视化分析、机器学习等分析程序,具有较强的实战性。

使用本书的读者需要有一定的Python编程基础,如果对Spark有一定的了解更佳。对于学习者而言,定义机器学习模型是一项复杂而又有难度的工作,而借助良好的机器学习框架,可以降低应用门槛。为了便于学习机器学习的分析过程,本书使用了多种业界主流的开源机器学习平台,包括TensorFlow、PySpark和TI-ONE等,这些平台一般注册账号后就可以使用,使读者在数据分析的过程中可以把主要的精力放在数据分析的思路上,降低了应用开发的难度。

本书可作为对机器学习感兴趣的研究人员和工程技术人员的参考资料,也可作为高等院校本科生、研究生的机器学习、数据分析、数据挖掘等课程的实验或实训教材。

感谢腾讯、谷歌、百度等公司资助的产学合作协同育人项目的支持。在本书写作的过程中,研究生蒲实、耿甲、于召鑫、袁雪如、陈伯宇、胡远文等在资料收集方面做了一些工作,在此特表示感谢。2019年5月于复旦大学

第1章 常用机器学习平台

一个功能强大且易学、易用的机器学习平台对于开展机器学习项目非常重要。良好的机器学习框架提供了丰富的预制组件,可以方便机器学习模型的设计和实现。目前存在以下几类基本的机器学习平台:一类是开源的机器学习平台,API(Application Programming Interface,应用程序编程接口)丰富且不用付费,但学习成本高,例如R、Python、Mahout、Spark MLlib等。还有一类是商业化的机器学习平台,这类平台算法有限,但经过了长期的实践检验,系统问题比较少,学习成本低,很少编程甚至不用编程,但系统内的分析模型不够丰富,例如IBM SPSS Modeler。此外,还有一类机器学习平台综合了以上两类平台的优点,既提供了丰富的算法调用接口,可以通过图形化的人机接口快速搭建机器学习的工作流,又可以减少编程的工作量。目前微软、谷歌以及国内的BAT(百度、阿里巴巴、腾讯)等公司都提供了这样的机器学习平台。

1.1 常用机器学习工具

Rapid Miner是一个用于机器学习和数据挖掘实验的工具。该工具用Java编程语言编写,通过基于模板的框架提供高级分析。它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在XML文件中描述较详细,并且是由Rapid Miner的图形用户界面完成的,用户不需要编写代码。它包含许多模板和其他工具,可以轻松地分析数据。

Apache Mahout是Apache软件基金会的一个项目,用于协同过滤、聚类和分类领域的分布式或其他可伸缩机器学习算法的实现。Apache Mahout主要支持三种用例:建议挖掘采取用户行为,并尝试查找用户可能喜欢的项目;集群需要文本文档,并将它们分组为局部相关的文档;分类从现有的分类文档中学习特定类别文档的特点,并能够将未标记的文档分配给正确的类别。

TensorFlow是被广泛使用的实现机器学习以及其他涉及大量数学运算的算法库之一。TensorFlow由谷歌开发并开源,是GitHub上最受欢迎的机器学习库之一。TensorFlow采用数据流图进行数值计算。其中Tensor是可以代表n维数据集的张量,Flow使用计算图进行计算。数据流图是用节点和边组成的有向图来描述数学运算。节点一般对应数学操作或状态,并对应节点之间的输入/输出关系。在TensorFlow中,所有不同的变量和运算都储存在计算图中。因此在构建完模型所需要的图之后,需要开启一个Session来运行整个计算图。TensorFlow的模型构建的基本流程包括构建计算图、馈送输入张量、更新权重并且返回输出值。使用TensorFlow可以方便地搭建各种常见的神经网络,也可以模拟多种回归算法,并且在此基础上对模型中的参数进行训练,得到训练好的模型可用于后续实验。但TensorFlow内部概念众多、结构复杂,繁杂的API导致新用户上手困难,冗长的代码使得工程实现比较费力。

PaddlePaddle是由百度开源的一款全功能的深度学习框架,其架构历经多次迭代,为开发者提供易学、易用、安全、高效的深度学习研发体验。PaddlePaddle对开发者非常友好,所有的API都提供详尽的中文文档,并且提供了Jupyter文稿。PaddlePaddle的代码易于理解,方便用户理解框架和提出问题。PaddlePaddle的API中对算法原理进行了概括,方便用户学习理解深度学习算法。PaddlePaddle支持Windows、Linux和macOS等多种操作系统,具有非常好的可拓展性,用户无须配置第三方库即可完成整个PaddlePaddle框架的编译。PaddlePaddle提供了全面的深度学习API,支持Python调用。同时PaddlePaddle对于图像分类、目标检测、图像语义分割、图像生成、场景文字识别、度量学习、视频分类、语音识别、机器翻译、强化学习、中文词法分析、情感倾向分析、语义匹配、机器阅读理解和个性化推荐等具体的深度学习问题提供了训练好的模型库,用户可以直接调用模型。PaddlePaddle还有一个基于Web的IDE,支持使用者在浏览器中使用Jupyter Notebook编程来开发AI应用,随后发送到云端调试或者运行,程序运行时的输出会实时地显示在浏览器里。PaddlePaddle底层使用C++编写,运行速度快,占用内存少。PaddlePaddle在分布式计算上也表现优异,可通过与Kubernetes合作实现弹性作业调度。

Caffe2是面向工业级应用的框架,应用广泛。但是从安装部署角度来说,Caffe2的用户体验并不是非常友好,官方文档和教程支持也不是十分充足。而且Caffe2只支持Python 2,这限制了其未来的拓展。

MXNet是一款灵活高效的深度学习框架,并行计算性能好、运行速度快,并且程序节省内存,支持R、Julia、Python、Scala、C++等多种语言。MXNet支持命令式和声明式两种编程方式,代码更加灵活。但MXNet是由社区推动的深度学习框架,很多问题出现后还需要用户去查阅源码,而且模型库支持不够,需要开发者写代码实现。

PyTorch是Facebook开发的面向学术界的一个框架,安装方便,使用简单,构建网络也比较容易。PyTorch运行后立刻出结果,不同于TensorFlow必须把程序写完之后才知道结果是什么。但PyTorch不适合工业级应用。

VS Tools for AI和VS Code Tools for AI是微软公司发布的一系列人工智能工具,建立在微软多年的旗舰产品之上,提供了强大的前端集成式编程环境,支持多种平台。在公有云、私有云上都提供了可扩展的GPU集群管理和调度工具,可以自动生成并优选神经网络模型,支持不同框架训练出来的机器学习模型。

此外还有Amazon Machine Learning(AML)、Theano等,有兴趣的读者可以查询相关资料。

1.2 TI-ONE平台概述

智能钛机器学习平台是腾讯公司实现机器学习模型训练和运行的一站式平台化解决方案。该平台主要为模型训练、运行、评估与优化提供支持。用户可以上传标注的数据,利用平台切分成训练集、验证集以及测试集。训练模型的算法可以自行编写,也可以使用平台提供的,然后,在平台上设置相关参数,计算资源参数,并训练模型,模型的可用性也可以在平台上进行检测。

TI-ONE机器学习平台是智能钛机器学习平台的子平台之一,适合有一定机器学习经验的建模人员使用,TI-ONE平台支持使用编程语言实现数据处理、特征获取,可以使用可视化、模块化的建模工具,通过配置参数的方式构建机器学习模型训练工程,平台可以提供基本的机器学习和深度学习算法,计算资源由平台管理,用户只需要专注于业务场景相关的模型。

TI-ONE平台提供云端的具备高可用性的GPU分布式集群服务器,可以满足大规模深度学习模型训练的性能要求;平台内部兼容TensorFlow、Torch、Caffe等多种主流的机器学习框架,从而可以支持用户自编程代码的上传和运行,为用户提供了灵活性。

TI-ONE平台对GPU分布式集群服务器上的深度学习模型训练算法做了优化,能够大幅度地提升训练速度,从而大大地减少模型训练所花费的时间;平台提供了搭建好的机器学习开发环境,并且为用户管理计算资源,可以为用户节省这部分的时间,使用户的精力可以集中在业务相关的工作中。平台提供的沙箱能够帮助用户在保证数据安全和稳定的环境中,整合多方数据进行建模。

TI-ONE平台适合应用在所有需要使用机器学习或深度学习平台进行定制建模的场景中,典型的场景有风控、营销推荐、预测、非结构化数据处理、文本分析和关系挖掘等。平台可以通过接收原始数据的输入,训练各个场景下的不同模型,应用到对应的业务场景中。

TI-ONE平台的架构可以分为六个层次,从上到下依次是产品层、交互层、算法层、框架层、调度层以及资源层。产品层表示用户所接触的TI-ONE平台。交互层表示用户的交互方式,也就是图形化界面。算法层是平台开发团队实现的算法并且以组件的形式提供给用户使用,提供的算法有机器学习、深度学习以及图算法。框架层包含TI-ONE平台内部算法、实现所依赖的框架以及提供给用户的自编程功能可运行的框架:Spark、TensorFlow、Angel、Mariana、Caffe、Scikit-Learn、MXNet、PyTorch。调度层采用新一代的企业级容器平台GaiaStack,用于资源管理和调度。资源层可以提供计算资源以及存储资源,供用户自编程调用和各类组件调用。

TI-ONE是一站式机器学习平台,是专为AI初学者设计的机器学习平台,具有可视化操作界面、具象化的算法结果、拖曳式的任务流、可灵活自定义的特性以及内置的丰富模型算法与案例。该机器学习平台的特性如下。(1)拖曳式任务流:拖曳式设计,各个元素可以自由地组合,以一种搭积木的方式绘制任务流。(2)多实例调度:支持手工、定时、批量参数、重跑,可以方便用户在各个应用场景下的灵活需求。(3)支持多机器学习语言和框架:Python、R、Spark、TensorFlow以及腾讯的Angel都可使用。(4)内置机器学习算法:算法包括特征工程、机器学习、深度学习、图算法等,充分满足不同场景下的使用需求。(5)数据可视化:提供可视化服务,模型训练效果可以悬浮呈现,用户无须烦琐操作就可以方便地辨别模型质量。(6)模型的完整闭环:“一站式”机器学习平台体验,从模型训练、评估、服务部署到在线推理,覆盖全工作流程,形成机器学习训练的完整闭环。

在开始使用TI-ONE服务之前,首先需要开通TI-ONE与COS(Cloud Object Storage,云对象存储)服务,COS服务已接入TI-ONE产品,用于工程中的各环节。TI-ONE系列产品目前开放免费试用。

TI-ONE申请的流程如下:在产品介绍页单击“立即申请”按钮填写申请单后提交,进行线上白名单申请(需要到腾讯云平台)。接到服务申请后,腾讯云平台进行需求审核,并安排相应的工作人员进行初步需求确认、洽谈。审核通过后会发送审核结果给用户,用户可以根据指引在产品页进行试用体验。

TI-ONE平台提供了五大类的组件,如图1.1所示。从上至下依次是输入、组件、算法、模型以及输出。其中输入包括数据源、数据转换、公共数据集,数据源有COS数据集以及本地数据;组件下有三个选项,分别是统计分析、机器学习、深度学习,机器学习包括Spark组件和PySpark组件,深度学习包括PyCaffe组件、PyCaffe定制版组件、PyTorch组件、TensorFlow组件以及TensorFlow多机版组件;算法包含27个机器学习算法以及16个深度学习算法;模型即算法相关的组件;输出是机器学习输出用到的功能组件。图1.1 TI-ONE平台的组件

PySpark组件面向使用Python的Spark用户,用户可以使用Python编写Spark程序,通过该组件来完成部署,这个组件支持Python脚本上传与实时修改,还支持PySpark的SQL功能,灵活性很强,很适合数据预处理,也适合偏好PySpark的ML库的使用者和Python使用者。在使用PySpark组件时,推荐使用PySpark中的DataFrame来替代Pandas中的DataFrame,这是由于前者是分布式执行的,而后者则是单机执行的。

1.3 PySpark介绍

Spark是一种分布式计算框架,并且有一套生态系统,其中包括Spark Core、Spark SQL、SparkMLlib、Spark Streaming和Spark Graphx,支持进行离线计算、交互式查询、机器学习、流计算以及图计算。PySpark是Spark为Python开发者提供的API。子模块包括pyspark.sql模块、pyspark.streaming模块、pyspark.ml模块、pyspark.mllib模块;核心类包括pyspark.SparkContext、pyspark.RDD、pyspark.sql.SQLContext、pyspark.streaming.StreamingContext、pyspark.streaming.DStream和pyspark.sql.DataFrame。

PySpark的ML包和MLlib包都是机器学习包,可以应用于分类、回归等常见的机器学习问题。两者内部集成的具体算法有一些差别,模型的训练、预测和评估的细节上有所差别,但对于常用的机器学习功能,都是可以满足需求的。

1.4 TI-ONE机器学习平台主要的组件

1.4.1 数据源组件

TI-ONE平台提供了两种外来的数据源组件:COS数据集和本地数据,可在控制台左侧导航的数据源分类下找到。此外,还有数据转换组件以及公共数据集,如表1.1所示。表1.1 数据转换组件

1.4.2 机器学习组件

机器学习组件提供了常用的机器学习开发框架、使用的库以及对应的计算资源,如表1.2所示。表1.2 机器学习组件

机器学习算法组件包括数据预处理、特征提取、特征转换、特征选择、异常检测、分类、回归、聚类、关联规则和推荐组件,如表1.3所示。表1.3 机器学习算法组件

深度学习算法组件包括计算机视觉、自然语言处理、表示学习组件,如表1.4所示。表1.4 深度学习算法组件

1.4.3 输出组件

可视化输出组件的介绍如表1.5所示。表1.5 可视化输出组件

1.4.4 模型评估组件

模型评估组件的介绍如表1.6所示。表1.6 模型评估组件

第2章 银行信用卡风险的可视化分析

可视化是数据分析的基本方法,贯穿机器学习的全过程:在问题明确阶段,可以通过数据的可视化展示,促进问题的构思;在数据预处理阶段,可以辅助分析人员勘察数据的分布、噪声、变量的相关性、变量的趋势等基本规律;在建模阶段,可视化本身就是一种机器学习方法,可以通过图表获得业务的问题、目前情况以及未来的发展趋势;在校验阶段,可以展示机器学习模型的运行结果,辅助评判算法的性能好坏。因此,对数据的可视化探索是数据分析的基本功。目前市场上有Tableau、Echart等多种专用的数据可视化工具,大多数的机器学习工具一般也包含可视化的功能组件。

本案例以银行客户信用卡的数据可视化分析为例,使用常用的可视化工具Tableau,分析客户的用卡行为规律。这些操作使用Python语言的可视化功能基本可以实现,有兴趣的读者可以试试。在后续内容中,为了数据分析过程的完整性,可视化分析基本采用Python编程(Matplotlib库)实现。

为了使银行更好地进行风险管理,判定客户信用等级,使用Tableau软件对银行信用卡数据进行可视化分析,主要分析客户申请信息对信用等级的影响、客户消费对信用等级的影响、客户拖欠情况对信用等级的影响以及欺诈客户的特征分析。

客户申请信息用于对新申请客户的初始评估,通过对客户年龄、性别、户籍、婚姻状态、教育程度、职业类别、工作年限、年收入、居住类型、车辆情况、保险缴纳、信贷情况的评估,决定是否审批通过并对审批通过的客户设定初始信用额度,有利于银行降低信用风险。根据客户日均消费金额、次数、最大消费金额等数据评估客户消费习惯,从而帮助银行决定是否需要调整客户信用等级和额度。客户拖欠数据包括拖欠时长和拖欠金额,银行可以根据客户的拖欠情况判定客户是否存在欺诈行为,并采取对应的措施。将这些数据可视化,能够为银行有效地建立起事前、事中到事后的信用风险控制体系。

具体来说,本案例的主要工作如下。(1)建立Tableau工作簿,转换字段类型并创建工作表。(2)制作柱形图区分客户信用等级,将各等级客户的特征可视化。(3)制作箱型图、创建新字段,将客户消费情况对信用等级的影响可视化。(4)制作散点图、添加趋势线,将客户拖欠情况对信用等级的影响可视化。(5)对欺诈客户进行特征分析。

2.1 Tableau简介

Tableau是一款数据分析软件,通过数据的导入,结合数据操作,即可实现对数据的分析,并生成可视化的图表直接展现出用户想要看到的信息。可以连接到文件、关系数据库和其他数据源来获取和处理数据。也可以发布和管理数据源,如自动刷新发布的数据。通过创建柱形图、散点图和箱型图等图表的形式描绘数据的趋势、变化和密度,以便用户更好地理解和分析数据。

Tableau可以将大量数据拖放到数字“画布”上,创建出各种图表。通过操纵界面上的数据,有助于企业更透彻地了解当前某一业务领域状况,并做出决策。

Tableau具有以下优点。(1)用户交互性好,简单易用,能够快速、灵活地处理海量数据,并且能够在数据库的基础上建立查询和关联,便于多表分析。(2)使用者不需要精通复杂的编程和统计原理,只需要把数据直接拖放到工作簿中,通过一些简单的设置就可以得到想要的数据可视化图形。Tableau拥有自动推荐图形的功能,即用户只要选择好字段,软件会自动推荐一种图形来展示这些字段,图表可以在仪表盘中自由摆放,形成图文结合的视图,用户可以自主地分析数据。(3)Tableau还支持一表多图、一图多表、多表多图的可视化形式。同时,还支持内置地图、新建计算公式、函数以及下钻穿透功能,用户可以自主地创建图表等。

Tableau软件可在Tableau公司官方网站下载试用版。

2.2 客户信用等级影响因素

客户向银行申请信用卡时,银行会根据一系列指标对客户的信用进行评价,为客户设定信用级别,并提供相应的信用卡额度。其主要考虑的指标包括年龄、性别、户籍、婚姻状态、教育程度、职业类别、工作年限、年收入、居住类型、车辆情况、保险缴纳、信贷情况等。

首先,进行数据准备,新建工作表并创建关联,如图2.1所示。

对信用卡持卡客户的特征进行分析,男性持卡客户占比为69.74%,女性持卡客户占比为30.26%,男女比例约2∶1,持卡客户普遍为未婚人群,可以看出离异人群和丧偶人群的信贷需求很低,如图2.2所示。其中,统计中的持卡客户以“80后”和“90后”为主,其中“80后”客户数量最多,占比高达42.95%,“90后”客户占比为34.75%。

创建一个新的组“客户分类”,将“居住类型”“职业类别”“教育程度”“车辆情况”“婚姻状态”五个维度拖入组,将“信用等级”拖入“颜色”选项卡,选择信用等级维度为计数,编辑其中某一维度作为筛选器,单击“+”查看某一类别详细信用情况,如图2.3所示。图2.1 新建工作表图2.2 信用卡客户特征

交换行列之后,可观察“居住类型”得知,A等级优质客户集中于自购房,而更多的C等级普通客户和D等级风险客户为租房。职业类别为私营企业且拥有车辆和房产的客户对车贷的信贷需求较低,但风险很低,工作稳定,这部分群体的信用等级高,如图2.4所示。图2.3 客户特征分类图2.4 车辆、职业类别对信用等级的影响

根据身份划分,将年龄字段拖入筛选器,范围选择18~24岁。可以观察出条状图中最左边的部分为D等级风险客户,18~24岁的一大批信用卡申请者是工作不稳定人群,这部分人信贷需求最高。而工作不稳定者,难以从银行取得信用贷款,如图2.5所示。图2.5 18~24岁信用等级情况

选择某一色块查看详细信息,对客户“职业类别”进行对比,可以看到除了国有企业的客户,其他客户信贷需求是较高的,但是风险也高,这是银行不喜欢的。而房主人群和车主人群显示出了独特的优势。A、B、C三个等级客户更多集中于自购房或是有车,虽然这个群体信贷需求比较少,但因风险很低,所以银行还是给予其高信用等级,如图2.6所示。图2.6 职业类型对信用等级的影响

将“教育程度”字段拖入行,可以看出信贷需求最高的为本科和大专学历,采用百分比分析后,各学历的A等级优质客户占比均为7%左右,而初中及以下学历和高中学历中,D等级风险客户和C等级普遍客户的比例偏高,在D等级风险客户的占比分别为50.56%和48.66%,在C等级普通客户占比分别为34.33%和31.73%,说明学历对客户信用有正向影响,如图2.7所示。图2.7 教育程度对信用等级的影响

将“保险缴纳”字段拖入行,可以看出A等级优质客户全部集中于缴纳保险的客户,B等级良好客户缴纳比例为14.58%,显著高于未缴纳客户的4.72%,说明保险的缴纳对客户信用等级评定有显著影响,如图2.8所示。图2.8 保险缴纳对信用等级的影响

制作地图,查看信用水平分布情况(略)。客户的信用等级与客户户籍分布关系不明显,客户户籍只影响了在某一地域申请信用卡的客户数量。在上海、广东等信用水平高的地区有更多的外资企业客户和私营企业客户,东部地区的信用卡申请人数、消费人数更多。而决定客户信用等级的应为职业类型、居住类型、是否有车等因素。

使用Tableau制作动态图查看信用评分、个人收入与工作年限之间的关系,将“工作年限”字段拖入列功能区,将“信用总评分”“个人收入”拖入行功能区,将“信用等级”拖入颜色选项卡,如图2.9所示。

将“工作年限”拖入“页面”选项卡,选择“新建故事”,将当前工作表拖入故事,在右侧的选项卡中可以设置播放速度自动播放、暂停或筛选某一工作年限查看个人收入及信用评分情况,如图2.10所示。通过动态播放可以看出,个人收入情况与信用评级是相对应的,并且随着工作年限的增长,A、B等级客户与C、D等级客户的收入差距逐渐扩大,信用等级高的客户收入不断增长,而较低信用的客户收入基本不变。图2.9 工作年限与个人收入、信用总评分图2.10 动态播放故事

制作仪表盘,将“居住类型”字段拖入“页面”选项卡,新建仪表盘,分别将居住类型与信用等级工作表和户籍与信用等级工作表拖入,并对户籍创建筛选器,可以看到不同户籍对应的居住类型和职业类别与信用等级之间的关联,如图2.11所示。图2.11 制作仪表盘

2.3 客户消费情况对信用等级的影响

选择数据源为“客户信用信息”和“消费历史记录”,并建立关联,转向工作表。

将户籍字段转换为地理角色,创建显示各省(区、市)日均消费额的柱形图,如图2.12所示。广东和上海的日均消费显著高于其他省(区、市),经济相对发达的地区对信用卡的需求更高,而中西部地区由于办卡业务不普及、满足办卡条件的人群少等客观原因,使用信用卡的客户占比较低。从地域分布上看,南方的持卡客户要多于北方。图2.12 信用卡客户户籍特征

将字段“额度”拖放到右边行功能区,可对各省(区、市)信用卡消费额度和总额度进行对比。创建一个新的计算字段为日均消费金额/总额度,将计算字段的度量转换为“平均值”,拖入行功能区,可以看出各省(区、市)信用卡的使用率,如图2.13所示。

西藏自治区的客户对信用卡的使用率最低为0.11,其余各省(区、市)客户对信用卡的使用率差距不明显,说明银行已经按照各省(区、市)的日均消费水平设定了合适的信用卡额度。图2.13 信用卡消费和总额度对比

创建客户消费情况和收入情况的对比表,信用卡统计客户的平均月消费金额均不超过收入的50%,每月消费占总收入比例最多为20%~30%,占总人数的34%,如图2.14所示。根据相关分析,月收入越高的客户,在信用卡消费占总收入的比例是逐渐下降的,收入在10万元以内的客户信用卡消费占比最高,但均没有超过50%。图2.14 客户消费占总收入的比例

将“日均消费金额”字段拖入行功能区,将“信用等级”字段拖入列功能区,取消“分析”中的“聚合度量”,建立箱型图,如图2.15所示。由图中可看出,A等级优质客户消费水平更高且分布均匀,B、C、D等级客户逐渐下降,其中D等级风险客户最高“日均消费金额”仅为4012元。日均消费水平代表了客户使用信用卡的活跃程度,对客户的信用评级有决定性影响。图2.15 日均消费对信用等级的影响

将“单笔消费最大金额”和“单笔消费最小金额”拖入行功能区,将“信用等级”拖入列功能区,取消“分析”中的“聚合度量”,建立箱型图,如图2.16所示。可看出A等级优质客户单笔最大金额比较平均集中,且消费额高于其他等级客户。B、C等级客户存在更多的极端值,说明优质客户的消费水平更高,且消费行为更规律。将“日均次数”加入分析后,各等级的客户在消费次数上差异不明显。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载