商业智能数据分析:从零开始学Power BI和Tableau自助式BI(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-05 08:34:22

点击下载

作者:雷元

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

商业智能数据分析:从零开始学Power BI和Tableau自助式BI

商业智能数据分析:从零开始学Power BI和Tableau自助式BI试读:

作者简介

曾任职于多家IT企业,如微软、惠普、希捷。在玛氏公司从事数据分析工作已经6年,熟悉Power Bl与Tableau敏捷Bl的应用,负责公司用户培训服务,热心于BI知识创作与传播。雷元

扫描以下二维码,可关注作者公众号。

回复“图书下载资料”,即可获取更多书中内容!Bl使徒

我们期待您的加入

投稿邮箱:

wangj@phei.com.cn

QQ:258451080

内容简介

本书以实际业务为背景,介绍市面上流行的两种自助式商业分析工具—— Power BI 和Tableau的功能和特色。全书主要内容包括商业数据分析基础知识、BI基础知识、数据库的搭建、数据建模、发布 Power BI 和 Tableau报表,并重点介绍使用Power BI 和 Tableau进行商业数据分析的方法。通过使用这两种工具所做的商业数据分析案例,使读者快速掌握商业数据分析的基本要领。

本书适合数据分析初学者、需要了解Power BI或者 Tableau工具的读者阅读,也可作为商业数据分析师的参考用书。

序一

第一次听雷元(Benny)讲他要写一本关于Power BI和Tableau的技术书时,也是我们微软全渠道事业部(One Commercial Partner,OCP)和其他技术团队的一些同事们组成了一个虚拟团队,与合作伙伴一道大力推进云数据(Cloud Data)、Power BI、人工智能(Artifical Intelligence)这三个重要数据技术综合运用的时候。为了便于大家了解和掌握,这里就把它们简称为“ABC”,好听好记。而在“ABC”三个技术中,Power BI的热度应该是最高的,很多客户和合作伙伴都非常热切地想搭建自己的数字化业务仪表板,深入、实时洞察业务的发展,他们甚至考虑在业务大厅的大屏幕上展示,方便领导、业务团队、客户查看数据。直到今天,这个趋势仍在呈井喷式增长,热度持续高涨,非常期待这本书能够给广大技术和开发人员提供帮助。

另外,也不得不提到,在技术应用迅猛发展的背后,是云计算日益成熟、被广泛接受的现实,我们看到越来越多的客户,正把他们的业务系统、业务数据迁移到云端,通过云服务的方式提供给他们的最终用户。当然,这也对云计算提出了更高的要求,能够更高效、更安全、更开放、更全面地支持各种相关的应用。对于微软提供的Azure云平台,这些都是重中之重,需要优先保证的。在Azure云平台上,除了Power BI,客户也可以选择和部署Tableau的服务器及解决方案,而本书非常全面地对Power BI和Tableau分别进行了详细的介绍,也提供了相关的应用实践和对比,对于要在云上部署Power BI和Tableau服务的读者而言,应该是大有裨益的。另外,Power BI也是开放的,可以支持非常丰富而广泛的数据源,包括不同厂商的数据库、数据仓库、大数据(Hadoop)等,这非常有利于用户打造全面的业务数字化仪表板。

作者在这本书中深入浅出地提供了大量的实战内容,通过结合丰富的项目案例将Power BI的特性以新颖的方式淋漓尽致地展现,独树一帜。在读这本书时,你会深刻感受到作者在内容编排方面的良苦用心。相信你无论是初学者还是进阶者,都会从中有所收获。

技术只有在不断实践中,才能不断丰富、不断创新、不断发展。在微软有一种“狗粮(Dogfood)”文化,新的产品、工具被开发出来,内部员工要先测试使用,即吃“狗粮”。这既是抢先体验新技术,也是为了发现其中的问题和待改进的方面,可以让产品组更好、更早地改进产品和工具。对于Power BI这个成熟的产品,早就过了吃“狗粮”的阶段,在实际工作中,我们已经广泛使用Power BI。在市场和销售业务分析会上,在产品组的开发和客户分析会上,在和北京办公室大楼的智能楼宇监控大屏上,在部门例会上等,Power BI都是大家非常熟悉也乐于使用的工具。

对我而言,我会在下午或夜晚空闲的时间里,泡上一杯乌龙茶,打开Power BI网站,静静地浏览一下个人列表里的那些项目,挨个“品尝”仪表板上那些丰富多彩而又有趣的图表。这不是“狗粮”,而是悠闲的“下午茶点”时光。Nevin Dong(董乃文)微软全渠道事业部首席技术顾问

序二

如今,数据的重要性已无人不知。无论是《经济学人》把数据比喻成新时代的石油,还是马云经常提及的DT(Data Technology)时代,说的都是同一件事——数据将对我们的生活产生深刻的影响。这个影响是全方位的,这几年我们看到,无论是企业层面还是个人层面,都在积极地适应这种变化。

对于个人层面,在这个数据化时代,我们是否也要认真思考一下这个问题:怎么样才能在数据化时代中继续扮演中坚力量的角色?我想这个答案是很明确的,那就是主动拥抱。数据分析思维和数据分析技能将成为未来职场人必须具备的职业素养。

对于企业层面,很多有前瞻性的企业都在推进数据分析文化的建设。以我从业十几年的经验来看,几乎所有数据分析文化推广得好的企业,都非常重视数据分析文化的建设。只有让员工真正爱上数据分析,真正从数据分析中获得价值,企业的数据资产才能真正被盘活,数据文化才能生根发芽。然而,我见过太多企业员工把数据分析当作负担,觉得费时,投入产出比也低。究其原因,很大程度上是因为现有工具的学习成本高,或者由于太多环节需要IT技术的协助而使得沟通成本太大。幸运的是,得益于各种数据分析方法论的逐步完善和软硬件技术的发展,以前很多只有IT行业或统计行业从业者才能完成的数据分析工作,现在也变得更加“平民化”。也就是说,数据分析对专业性的依赖已经逐步弱化,更懂业务的员工可以发挥业务上的优势,产生更有价值的分析内容。2018年10月,Gartner在其发布的《2019年十大战略性技术趋势》中指出,到2020年,平民数据科学家数量的增长速度会比专家级数据科学家快5倍,正是对这一观点的佐证。总之,如果没有办法实现企业内部的数据“平民化”,那么企业内的数据分析文化就难以普及。

而数据分析“平民化”正和Tableau的理念不谋而合。早在2003年Tableau诞生时,这家从斯坦福校园走出来的西雅图公司就以“We help people see and understand data(帮助所有人看到并理解自己的数据)”为使命来开发产品。这里的“所有人”,不仅包括专业的分析师,还包括缺乏统计背景或IT技术背景的“非专业”人士,Tableau希望他们能够享受数据分析带来的收益,甚至从中获得乐趣!你没有看错,数据分析也可以很好玩!所以,我们看到许许多多的Tableau爱好者,他们除了把Tableau用在工作上面,回家以后也把Tableau用于分析自己的买房策略,分析下一个假期应该去哪里玩等,让个人的决策更加理性。还有人将Tableau用于分析濒危动物的出没规律,以此制定保护措施;或者分析贫困地区对不同物资的依赖程度,以此作为资源调配的依据,他们用数据分析让世界变得更美好。还有一些“数据艺术家”用Tableau进行“创作”,你可曾想象过,有人曾用Tableau把凡·高的《星空》画出来?我经常被问到Tableau的最特别之处在哪里,如果只能有一个答案,那我的答案就是Tableau有大量的真爱粉丝。从Tableau社区回答问题的活跃程度,从Tableau的粉丝们对数据文化推广的热情程度,从Tableau Public上作品发布的踊跃程度(至今已有超过150万个作品,是全球最大的BI社区),都可以看到这一点。2018年10月结束的“2018 Tableau全球用户大会”,更是吸引了17000名Tableau用户和合作伙伴参加。如果你知道这个会议的门票是1795美元一张,你会不会被Tableau粉丝的热情所感动?这绝对是真爱啊!也正因为Tableau所具有的独特魅力,让很多人爱上了数据分析,而他们所在的企业,数据分析文化的推广往往更加顺利。

雷元(Benny)所在的公司就是在全球范围使用Tableau非常成功的公司,雷元也是一个热心的数据分析文化推广者。他结合自己的项目心得写的这本书,不同于一些功能性介绍的书籍,没有故意绕开一些技术障碍,而是把项目中会遇到的问题点出来,并提供了自己的思路和解法。虽然这些解法可能并不唯一,但相信书中的内容肯定能给读者带来一些有益的思路。

同时祝愿大家走出适合自己或企业的数据分析“康庄大道”。(本文仅代表个人意见,不代表Tableau公司观点。)Terence Zhang(张腾)Tableau公司高级顾问

自序:写给数据时代的读者

如今,数据是第一生产力。无论是职场小白,还是高层管理者,每个人都可能会感受到这场数据变革所带来的冲击,每个人都在思考如何迎接数据时代的来临。对于不愿主动顺应时代的人,往往会被时代抛弃。在数据时代,我们需要主动敲开数据之门,自助式BI正是数据时代的敲门砖。

自助式BI并不是什么新鲜事物,时至今日,大多数人使用的自助式BI工具是Excel。在20年前,Excel的确是自助式BI工具中的利器。但是在今天,即使是再好的计算机及最新版本的Excel,也不足以应付海量级的数据增长。

庆幸的是,如今有了非常成熟的自助式BI工具可以弥补Excel的不足。此书的目的在于为读者打开数据分析之门,这是你与数据分析,与Power BI和Tableau的缘分。Power BI和Tableau工具的精髓在于自助和探索两方面,本书从自助和探索的角度分析数据,分享笔者使用Power BI和Tableau创建商业智能报表的历程。

如果将数据价值比喻成财富(这种财富往往埋藏在冗杂数据的深处,不为人所知),那么Power BI和Tableau就像是强大的挖掘机,你将和笔者一道参与到学习使用挖掘机掘宝的有趣游戏中。但并不意味着这是一本“轻松”的书,即使书中内容由浅入深展开,其过程也必然是一趟充满挑战的旅程。

如果你希望买到一本全面、深入介绍Power BI 和 Tableau功能且按套路出牌的教科书,那么很抱歉,本书也许不是最优选择。全面铺开的教科书,表面上看似乎涵盖了丰富的知识点,然而其碎片化的结构,令读者最终真正掌握的实用知识甚少。除工具知识外,书中内容还涵盖一系列关于数据分析的方法论与思想,相当于用一条线将散落的珍珠串成一条美丽的项链。

君子不器,纵使Power BI 和 Tableau是数据挖掘的利器,但最终的商业价值是由挖掘者的智慧所决定的。本书教你如何像商业分析师一样思考,并能设计出最终成型的作品。所谓知其然,更知其所以然也。报表设计没有正确的答案,呈现出的不同结果都来自于商业分析师们的智慧与独特的创造力。这就是自助式BI的精华之处。

当你合上本书的那一刻,希望你掌握了数据分析与收集、建模、评估和部署商业分析的全过程,并使用BI工具将商业智能报表成型落地。学习自助式BI绝不仅仅是学习一种技能,而更是一种思维模式。

至于为何要将Power BI 和 Tableau的学习过程编写为一本书? 笔者在了解、欣赏、使用Power BI 和 Tableau的过程中,渐渐痴迷于二者的魅力,这是笔者与Power BI和Tableau结下的缘分。身边的很多分析师总在讨论工具间的区别与孰优孰劣。纵然网上已有许多参考资料解答此问题,但是笔者总觉得那些评论没有完全到位。实践是检验真理的唯一标准,既然如此,何不通过实在的商业案例让二者真刀真枪地“华山论剑”呢?

自助者天助也,希望读者通过此书的知识,加上个人的天赋与努力,顺利创建商业智能报表。你的时间十分宝贵,让我们去完成一个充满智力快感的游戏吧!衷心祝你学得用心,玩得开心。愿此书为你的数据时代“加持”。Capre Diem!致谢

感谢我的家人,是他们给了我无尽的支持与鼓励,我才能顺利地完成此书。乐乐,希望你超越爸爸,写更多的书。

感谢公司,以及公司同事对我的支持,尤其是郑朝晖、陈永标和王旭对我工作和学习上的支持,使我的能力得以提高。

感谢电子工业出版社的王静老师,一次机缘巧合,你却启发我开启一段奇幻之旅。感谢石倩老师的专业编辑。

感谢Tableau高级顾问张腾老师无私的协助,每次和你的咖啡时间都成为专家“义诊”,真心感谢你的指导。

感谢张子灵同学在我写作道路上给予的陪伴,大量的校对和排版工作都交付给你,陪我走完写作之旅。从你身上我看到了认真与执着,我深表感激。

感谢优阅达的Maryan和阿达对我“不堪其扰”的微信求助的耐心解答。

感谢董乃文老师和微软众同仁的协助,作为微软前员工,我深表谢意。

感谢赵文超、张文洲、刘凯、Adam Saxon、Patrick LeBlanc、Avi Singh、Marco Russo和Alberto Ferrari等众多前辈,你们的作品给了我灵感。

感谢可爱的读者们,你们永远是我前行的动力和激情的源泉。作者

注:因本书所介绍的软件界面中分别出现了“连接”和“联接”,现将其做如下区分。

●“连接”:导入外部数据文件。

●“联接”:建立表间某种关系。

用Power BI和Tableau创建商业智能报表——彼得的学习笔记

彼得任职于一家国际公司,早年做过几年商业智能IT工作,最近晋升为综合事业部总监助理,负责统筹业务数据管理。总监助理最重要的工作之一是负责管理不同部门之间数目庞大的商务报表及CIP(改动需求)的统筹管理。

近年来,随着业务的需求增长及快速变化,许多传统的BI报表样式固定,修改空间小,已经无法满足业务的需求。而IT支持人员需要经常修改原有报表甚至频繁创建新的报表,开发费用及工作量也陡然增加。最令人沮丧的是,因为IT人员受到资源的限制,许多新开发项目的交付时间严重滞后,严重影响了业务的发展。从而造成业务部门与IT部门之间的矛盾日益严重。

业务人员认为给IT部门投入的开发费用已经很高了,但报表的开发和修改都需要额外费用。在开发期间有新的业务变化,IT项目经理经常以项目范围已经锁定为理由不允许增加新的改动,业务的新要求只能作为新的IT需求重新被提出,整个开发过程费时、费钱,还不一定百分之百满足开发需求。IT部门给业务部门的印象是:僵化、低效。

而IT部门认为业务部门缺乏监管,经常提出新的需求,做事缺乏统一性,甚至自相矛盾。有时甚至需要IT人员通过系统设计反向了解业务逻辑,让IT人员不堪重负。业务部门给IT的印象是:统筹差、监管低、效率低。

于是,抱怨之声不绝于耳,严重影响了公司的业务发展。最终公司的高层管理者要求两个部门改进目前状况,因此,IT部门和业务部门接连开了几次会,讨论解决方案,大家认为如果业务部门能自助式使用商业智能报表,开发效率就会大为提升,并且会解放大部分IT部门的人力资源,让IT人员更好地把精力集中在BI系统架构的管理维护上。

最终,双方一致同意推动自助式BI模式。自助式BI,即Self-Service BI,SSBI。然而,自助式BI不等于自动式BI,仍然需要通过学习SSBI工具才能在实践中发挥出自助式BI的优势,为企业带来价值。最好先在公司内部推广SSBI工具,并解决目前的困境。思路的确很好,问题是目前公司在这一块还是空白,谁更适合负责此任务呢?最终这个任务被派到了既懂商务智能,也了解业务对报表需求的彼得身上。

彼得十分赞同这个方案,认为这是一个新机遇。一旦这个方案落地,业务报表将由现在的IT-Driven(IT部门驱动)转型至Business-Driven(业务部门驱动),于是他编写了本书。在SSBI工具的选择上,他挑选了目前业界最受欢迎的两款工具:Power BI与Tableau。为了使推广更具实操性,本书的内容将涉及用SSBI工具实现商务智能报表结合工具本身的知识,采用以点带面的方式编写形式,而不会面面俱到地介绍工具的每一种功能。本书的目的是让用户有效掌握SSBI的核心思想及功能,并马上能运用到实际工作中。

本书的目标人群为经常分析商务报表的业务人员。他们了解业务,熟练掌握Excel,有的甚至是高级用户,大部分无IT背景。针对此群体,彼得设想SSBI推广分为几个阶段实施。

一阶段:基本理论培养阶段。提供一系列数据分析的知识分享给用户,包括商务智能、维度与度量、聚合、ETL等概念。内容通俗、易懂,适合所有非IT人员理解。为使用分析工具打好理论基础。

二阶段:工具理论介绍以及数据准备阶段。工欲善其事,必先利器。本阶段会介绍这两种工具的主要特点,以及对比差异。帮助用户理解BI产品设计特性。同时开始准备下一阶段学习的数据准备。

三阶段:SSBI实操学习。通过具体案例系统性地分别学习Power BI和Tableau分析工具的使用,包括为高级用户准备高级教学案例,让用户真正掌握使用工具的核心技能。

好了,请读者跟随彼得一起开始本书的学习吧!

理论篇

千里之行,始于足下。

●商业智能的基础知识

●商业智能视觉呈现理论

第1章 商业智能的基础知识

本章内容

本章主要介绍商业智能的概念和历史。笔者将给出小白如何有效学习Power BI和Tableau的若干建议,重点介绍CRISP-DM数据建模步骤,以及一些新手必知的数据术语知识。本章最后会介绍本书使用的数据库Adventure Works(ADW)的背景、数据结构,并提供SQL以及相关应用程序的安装指南。

1.1 什么是商业智能

为帮助读者完整学习本书的内容,作为开篇,有必要先介绍一些关于商业智能(Business Intelligence,BI)的知识。

何谓商业智能?

从字面上解释,Business,即商业,其特点是数据的规模大、涉及的范围广,往往涉及跨部门的企业级海量数据。

Intelligence,即智能。这个智能在广义上包含两层含义:第一层含义是指人的智能,即作为使用者,人需要学会甄别具有商业价值的数据,有选择地采集数据和展现数据。第二层含义是指应用系统的智能,即系统应该能够理解人们查询数据的“意图”,并提供分析报表,帮助管理人员做出决策。实际上,将外部数据和企业中的经营活动数据有机结合,往往最具分析价值,而这正是单一的数据集合难以实现的,这也最能体现应用系统的“智能”。

早在20世纪60年代,现代商业智能这个概念的雏形就已经形成,在当时被称作决策支持系统(Decision Support Systems,DSS)。顾名思义,其主要运作形式是利用历史数据和当下的数据为企业的商业经营活动提供基础分析,以辅助企业进行商业决策和制订计划。时至今日,决策支持这个历史悠久的功能仍然是BI的主要价值。图 1.1.1演示了BI系统如何将数据转换为信息并最终转换为有价值的知识。

直到1989年,BI的概念才被正式提出,其被解释为“一种通过数据应用系统来支持商业决策的概念和解决方案”。由此可见,BI既是一套实践方法论(在宏观上为建立BI数据分析系统提供方法实践论),也是特指某种具体的技术和报表工具(在微观上解决具体BI项目实施中的技术环节)。

随着技术的发展,BI的功能从单一的报表功能延伸至战略管理、产品定价策略、风险控制等多方面,BI的应用场景也越来越广泛,这是因为其背后有数据挖掘、文字挖掘、预测分析等高级应用在支持。虽然如今BI产品多种多样,但万变不离其宗,优秀BI产品的核心特性就是能“指导”企业赚取更多的利润。

如今,无论是基于Excel VBA、函数打造的Excel BI系统,还是昂贵的超级复杂的数据仓库系统,BI早已是现代企业必备的利器,其所实现的功能如图1.1.2所示。图 1.1.1图1.1.2

成熟的BI系统在以下4个方面发挥着价值:准确、洞察、及时、可执行。(1)准确:决策层是否能做出准确的企业决策,在很大程度上取决于获取到的信息能否客观地描述企业组织的真实状态。而错误的信息给企业带来的影响往往比没有数据还要糟糕,也会让用户对BI系统的可靠性产生怀疑。因此,能否将数据转换为准确的信息是衡量BI系统成熟度的最基本的要求。(2)洞察:BI的价值不仅仅在于为企业提供准确的信息,更重要的是为企业带来实质性的影响,例如更多的盈利增长、更有效的运营或者是更少的损耗。在超市中将纸尿裤和啤酒进行关联销售就是一个著名的商业洞察实例。在现实中,许多超市可能已经这样做了。真正有价值的商业洞察往往不容易被挖掘,但其影响往往很明显。(3)及时:在信息数据时代,相信无人会质疑时间的价值。同样,对BI系统来说,是否能及时生成企业需要的信息和洞察对决策者尤为重要。造成延时的原因有很多,可能是系统硬件或软件性能上的限制,也可能是来自流程或人等系统以外的限制。(4)可执行:BI系统除提供准确的信息外,还需要提供可执行的结论。如果BI系统的分析结论是“企业明天关门会带来更大的收益”,那么显然这个结论并不具有可执行性。更具可执行性的BI分析是对产品的市场、定价决策等的分析。

近年来,BI也受到了一些诟病。从某种意义上来说,BI这个词已经被滥用成为一种市场营销术语。某些商家为了营销自己的BI产品,总喜欢把BI这个概念弄得高深莫测。但其实他们过分强调了产品的智能,而忽视了人的智能。这使得一些企业陷入了误区,有时“为了BI而BI”,宁可花重金建立一套自认为“高大上”的系统,也不愿意花精力深入了解企业内部真正需要进行BI分析的地方,到头来还是无法解决任何问题。

所以,BI产品并非全知全能,使用者应该先确立分析意图,再利用BI产品智能地进行分析并得出分析结果,即使做探索性分析也该如此。如果连使用者自己都不清楚分析的具体目的,单纯地寄希望于BI产品本身的智能,而忽略了人本身的主动性和创造力,那么其所做的工作往往是徒劳的。1.2节会介绍从零开始学习BI相关知识的步骤,以及笔者的经验总结,希望能够帮助读者高效地踏上学习之路。

1.2 从零开始学习商业智能知识

想要从零开始学习BI的相关知识,需要经历以下4个阶段(这里以Power BI/Tableau为例)。1.2.1 第一阶段:积累基础知识

一般入门者都缺乏相关经验,此时应该注重知识和经验的积累。万事开头难,学习需要耐得住寂寞,坚定自己的志向而不动摇。即使自己所在的公司内部没有足够多的学习机会,也应该主动自学,提升自己的能力。推荐读者多到Power BI和Tableau的官网中看一看,这里有非常丰富的文字和视频资料,适合初学者参考和学习。官网的社区论坛中也有很好的资源,适合有一定基础的读者进阶学习。

另外,建议读者同时学习与商业智能相关的一些基本概念,例如数据仓库、数据魔方等,这会帮助你对数据分析有宏观的理解。最后,再推荐两个适合初学者进修的在线学习课程:

●Udemy —— 国际知名在线学习课程。其课程内容丰富,只是大部分采用英语讲授,每套教程的收费在10美元左右。

●网易云课堂——其中有大量的相关课程,课程价格从免费到上千元不等。

除在线上学习外,在线下也有许多与同行交流的机会,例如,参加一些Power BI和Tableau的免费培训活动,结识一些领域内的讲师及志同道合的朋友,这些都是你将来的人脉资源。1.2.2 第二阶段:从小处着手,改变现状

有一句非常有哲理的话:“只有对你的生活产生实质影响的知识,才是真正的知识。”此刻的你虽然拥有了一定的知识积累,但可能缺乏实战机会。你需要从小处着手,将知识运用在工作中并且改变现状,例如从部门业务的角度出发,用SSBI(Self-Service Business Intelligence,自助式BI,也被称为敏捷BI)设计一系列多维度分析的报表应用(这也是Power BI和Tableau此类敏捷BI产品的优势),从而体现出自己的价值,并且让同事刮目相看,渐渐地,会有更多的机会等着你。1.2.3 第三阶段:坚持不懈,持之以恒地提升自我

在此阶段,你应该保持持续学习的状态,不断地提高自己的技能,并及时反省自己的不足。你可以更深入地学习SQL产品与Power BI/Tableau的结合应用,或是深挖Azure流服务与Power BI的应用。总之,你需要向更高水平进阶。一定要记得将自己的学习心得写下来,这是梳理知识的过程,也会有助于你进入下一个阶段的学习。1.2.4 第四阶段:充分发挥你的实力

此刻的你,具有相当丰富的知识与经验,正是大展宏图的时候。在此阶段,你可以尝试在Power BI和Tableau的社区中发布你的优秀作品或者回答社区中的各种问题,创建自己的自媒体平台,参加线下Power BI及 Tableau比赛、聚会……这些活动都有助于增加你的影响力和知名度。如果你有真才实学也有意愿,则可以申请成为Power BI或Tableau的合作伙伴,为有需求的企业提供商业分析解决方案。

在马拉松运动中有一个名词叫“极点”。运动员在长期奔跑后,在某个时刻疲惫感会达到一个高峰,在心理和生理上产生的痛苦也会达到极点,但只要再坚持一会儿,疲惫感就会消失,此时跑步将变得轻松、畅快。学习的过程如同跑马拉松,在遇到困难时都会经历痛苦、不适,你需要坚持下去,直到突破“极点”。这时候,痛苦会变成一种享受。跨越“极点”的过程,就是一般人成为“达人”的过程。

下面,分享几条简单的学习原则,这些也属于在心智模式方面的建议,具有普遍性。希望在读者的学习“愉悦感”来临之前,可以帮助读者减少痛苦持续的时间:(1)认真思考学习的目的与目标。(2)保持一颗好奇、愚钝的初心。(3)花一些时间了解行业发展的方向,花更多的时间在具体事情的深耕细作上。(4)不能改变现实生活的知识是无效的。(5)仓促本身就是最要不得的态度。(6)一次只专注于一个学习任务并彻底完成它。(7)为学习安排好特定的时间并记录成长的心得。(8)在学习与学习之间留一些休息的空间。

1.3节会介绍CRISP-DM,它是数据挖掘流程,有助于读者了解完整的商业数据分析的循环过程。

1.3 数据挖掘流程CRISP-DM

商业智能的核心能力是对商业数据的分析,这里的前提条件是,必须先有数据,才能进行分析。而数据挖掘,顾名思义,就是从众多数据中挖掘出有价值的数据并加以利用。所以商业数据分析的过程往往和数据挖掘密不可分。

分析师只有理解数据挖掘的理论和步骤,才能在实践中灵活地进行商业数据分析。

下面介绍业界普遍认可、使用范围较广的数据挖掘流程CRISP-DM,同时介绍如何使用Power BI/Tableau以帮助流程落地应用。

CRISP-DM(Cross-Industry Standard Process for Data Mining),即为“跨行业数据挖掘标准流程”。所谓跨行业,就代表通用性,其方法并非仅供IT人员、数据科学家专用,也适合不同行业的专业人士在挖掘商业价值时使用。

如图 1.3.1所示,CRISP-DM包含了6个步骤。下面简单介绍一下Power BI/Tableau在其中可以发挥的作用。图1.3.11.3.1 第一阶段:商业理解

在商业理解(Business Understanding)阶段,分析师要从商业的角度了解项目的要求和具体要解决的问题,并思考如何从数据挖掘的角度定义和完成目标。商业角度的项目要求一般这样表述:通过广告推广令A产品在本年度的销售额增长10%,分析师需要了解哪些商业运作方式可能会帮助完成此目标,以及挖掘哪些数据可以带来价值。

本阶段要点为:

●定义商业需求

●评估现状

●定义数据挖掘的目标

●准备项目计划

Power BI/Tableau中提供了多种视觉图形,让分析师能够通过图形+数字的方式呈现商业问题及评估现状。此阶段需要分析师具有洞察力和创造力。1.3.2 第二阶段:数据理解

数据理解(Data Understanding)阶段从初始的数据收集开始,分析师应熟悉数据及其内部属性,识别数据的质量问题和局限性,同时对于数据能否解决商业问题,是否需要更多的外部数据,如何估算成本等问题有较明确的认识。

本阶段要点为:

●收集数据

●描述数据

●识别及探索数据

分析师通过Power BI/Tableau可以将不同类型的多个数据源连接,在统一的界面下高效地进行数据理解,降低人力和时间成本。1.3.3 第三阶段:数据准备

数据准备(Data Preparation)阶段包括从原始数据中构造最终数据集的所有活动,为建立模型做准备。这个阶段的任务有可能被执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及使用模型工具的转换和数据清洗。

本阶段要点为:

●选择数据

●清理数据

●结构化数据

●集成数据

●格式化数据

数据准备阶段是最耗时的一个阶段,有人认为数据分析过程中80%的时间都消耗在数据准备阶段。分析师通过Power BI中的“编辑查询”功能和Tableau中的“Tableau Prep”功能可以有效、快速地完成各种各样的数据准备任务:合并、删除、更正、拆分、类型转换等,再将处理完的数据无缝加载至数据模型中,分析师也能更好地集中精力在有价值的分析上。1.3.4 第四阶段:建立模型

建立模型(Modeling)阶段的主要任务是建立数据与数据之间的关系并创建度量、选择KPI,各种各样的建模方法将被选择和使用。对于数据挖掘中相同的问题类型,可以选择多种分析方法。通过对比各种方法,评估模型及其参数将被校准为最优。如果建模方法对数据的形式有额外的要求,则有必要回到数据准备阶段重新调整数据。

本阶段要点为:

●选择技术

●设计测试

●建立模型

●评估模型

Power BI的“关系”功能是专为建模而设计的,其操作界面友好简单,无须使用代码即可完成,可以智能匹配数据表间的关系,用户也可以手动修改特殊关系。分析师通过DAX语言编写度量、KPI、计算列,就能直接使用Power BI完成商业逻辑表达。Tableau通过“联接”和“混合”功能共同完成数据表关系的搭建,其也拥有自己的查询语言系统以帮助完成多种复杂的商业逻辑表达。1.3.5 第五阶段:模型评估

在到达模型评估(Evaluation)阶段时已经建立了高质量的模型,但在正式部署前,模型要经受更加全面的评估,以确保模型设计结果符合商业理解的目标,避免在将其直接部署后还要进行高成本的模型修改。如果发现模型与实际目标的确存在差距,则需要返回第一阶段商业理解,继续迭代,直到模型设计趋于完善为止。

本阶段要点为:

●评估结果

●复审流程

●制订部署计划

Power BI/Tableau的“分享”功能可以将完成的商业报表在线分享给用户以供评估。Tableau Server还有在线反馈功能,用户可以直接在线留言,给予及时的评估反馈,这个功能非常人性化。因为二者都是敏捷型BI工具,一旦发现模型有问题,分析师就可以快速在模型中更正,整个迭代过程十分高效、快速。1.3.6 第六阶段:结果部署

结果部署(Deployment)阶段即是把挖掘结果以一定的方式呈现给用户。结果部署可以简单到仅写一份报告,也可以复杂到在企业中进行可重复的数据挖掘流程。在许多案例中,往往是由用户而非分析师来执行结果部署的。

本阶段要点为:

●部署步骤

●撰写报告

●发布结果

通过Power BI/Tableau,分析师可以将最终设计结果(包括模型代码)全部在线交付给用户,最终由用户自行完成结果部署。整个部署步骤也是相当直观、易于操作的。

1.4 商业智能的成熟度

所谓商业智能的成熟度即为分析商业问题的能力,成熟度越高的商业智能,其分析能力也越强。如图 1.4.1所示为著名咨询公司Gartner总结的商业智能分析的4个阶段。图 1.4.1

第一阶段:描述性分析,基于历史数据对过去商业运作的描述分析。

例如,通过求和计算分析企业今年的销售利润是多少、销售量是多少。

再进一步,通过将各种聚合结果进行相互运算,衍生出一系列的嵌套度量,例如销售额同比、销售额等比、客单价、销售任务达成率等重要指标。

两者通常紧密结合使用,为企业运作提供了基础商业智能数据支持。

第二阶段:诊断性分析,基于第一阶段的信息,分析造成问题的原因。例如,2013年的销售总金额比2012年有大幅度增长。业务部门不仅需要了解销售总金额增长的幅度(同比),还需要了解促成增长的主要因素。

而具体的解决方案是将年销售总金额,根据不同的维度,以结构化方式拆分成几个个体,随着维度的叠加,数据粒度变得更细,解释则更加清晰,直至得出诊断结果。注意,目前所讨论的两个阶段都是基于历史数据的商业分析。

第三阶段:预测性分析,对未来商业运作进行预测指引。

此阶段即结合历史数据,通过模型及设计的计算模型(如多元线性回归模型),建立对未来的预测性分析推断。后文的销售预测就属于此种分析方式,尽管此案例使用的模型简单,现实中的预测模型往往会考虑更多的因素和权重因子,模型也会更为复杂,但原理相通。

第四阶段:处方性分析,基于前三个阶段的分析,商业智能系统需要提供具体的行动指引。例如,通过预测模型计算得出2013年线上销售金额预测增幅为60%。为达成此目标,模型给出以下处方性建议。

●从商品角度:通过图1.4.2可以看出,山地自行车(Mountain Bikes)和公路自行车(Road Bikes)是2012年最热卖的大额商品,因此,市场部通过线上的一个广告平台发送商品优惠信息,吸引新用户购买。

●从客户角度:通过帕累托分析法,得出购买金额排在前 20%的客户名单,再通过模型预测分析哪些客户是价格敏感型客户(如通过分析客单价得出),可以通过发送优惠券的方式刺激这部分客户进行二次消费。图 1.4.2

处方性分析是商业智能分析中的最高形态,其背后除存在一般性的维度分析外,还存在大量的统计算法和人工智能技术。也许未来的处方性分析可以通过文字结合图形的形式直观地输出分析结果,但因为模型的复杂性和商业逻辑的独特性,目前处方性分析并未被广泛应用。预测性分析和处方性分析属于对未来预测的分析。

再结合前文的数据挖掘流程的完整循环,其最终产物为商业分析洞察。而成熟度代表了其产出结果的能力。例如,业务人员通过商业智能分析销售利润的历史情况,以及预测未来的变化。在第一轮的数据挖掘流程中,分析模型得出了销售利润在不同维度下的分布情况,解决了描述性分析和诊断性分析的需求。在第二轮的数据挖掘流程中,要完成对未来利润的预测,以及为此所应该采取的相应行动。此时,第一轮销售利润数据可以作为新一轮数据挖掘流程中的输入模型,并得出对未来预测的分析。

总结:这4个分析阶段从历史分析演变为未来分析;由相对简单的事实分析演变为复杂的高阶预测分析。前一个阶段的输出结果可作为下一个阶段的输入。企业或个人的商业智能成熟度与能实现的分析形态相关,实现的分析形态越高,意味着企业或个人的分析能力越强。

作为初学者,熟练掌握描述性分析和诊断性分析是进入商业智能分析的第一道关卡。Power BI和Tableau的出现,恰恰似一把钥匙,为用户打开了商业智能分析的大门。

1.5 商业智能基础术语

本节介绍的相关概念在后面的内容中会被多次提及,所以,读者最好花一些时间认真阅读并理解这些概念的含义,为以后的进阶学习夯实基础。本节主要介绍的概念有:数据库概念、数据表关系、数据库浏览、BI工具。1.5.1 数据库概念1.联机事务处理和联机分析处理

OLTP(On-Line Transaction Processing),即联机事务处理。在OLTP系统中,用户数据由前台被传送到计算应用程序中并在短时间内完成处理。举一个例子,某个顾客于2018年10月在超市买了1箱珠江啤酒,这笔交易记录会马上被从POS机传回超市的后台系统中。超市的销售记录中增加了1箱珠江啤酒,对应的珠江啤酒库存记录相应地减少了1箱,此信息也同时被传递到供应链系统中,从而影响超市下一次采购珠江啤酒的数量。这一系列活动就是OLTP机制。SAP ERP系统就是具有代表性的OLTP系统。

OLAP(On-Line Analytic Processing),即联机分析处理。其功能是从OLTP系统产生的海量业务数据中提取出对企业决策分析有用的信息并加以分析和利用。简单地概括,OLAP系统是对OLTP系统的分析,因为直接在OLTP系统中建立决策支持分析会使其性能大受影响,所以OLAP系统作为独立分析系统发展了起来。Power BI和Tableau 属于OLAP系统。2.数据仓库

数据仓库(Data Warehouse)的主要功能是分析及整理数据。在ERP(企业资源计划)系统中,OLTP系统将产生大量数据资料。这些数据资料被读取到数据仓库中,并根据不同的分析方法(如OLAP、数据挖掘)的要求,对数据资料进行系统的清洗、归类,从而获得最终数据以搭建商业智能模型。

注意:数据仓库中的数据资料通常是原始数据,有极强的参考意义和很长的使用寿命。因此,操作者应尽量避免对这些数据资料进行修改或删除。3.ETL

ETL(Extract Transform Load)是数据仓库中重要的一环,可以被理解为数据准备或数据清洗。经过数据抽取和清理之后,在原有数据仓库的基础上,使用ETL系统对数据进行系统的加工、汇总和整理,使数据最终按照预先定义好的数据仓库模型进行准备。4.数据集市

数据集市(Data Mart)是企业级数据仓库的一个子集,主要面向部门级业务,或者某一特定业务主题,例如销售、物流。数据集市的出现解决了灵活性与工具性能之间的矛盾,可以被视为小型的部门级别的数据仓库。在数据集市中存储了为特定用户预先计算好的数据,既能满足用户对性能的需求,也不影响对数据的读取和调用。使用数据集市可以在一定程度上缓解数据仓库的访问压力。例如,当销售部门需要查询及分析数据时,可以单独通过数据仓库抽取到上一级的销售数据子集。5.数据集

数据集(Data Set)是数据之间的集合,其结构类似关系型数据库——由公开表、行和列的分层对象模型构成。另外,它还包含了为数据集定义的约束和关系。Power BI/Tableau通过连接数据源读取数据集。6.数据库三范式

IT人员需要遵从一定的规范及要求,设计出合理的关系型数据库。这些规范及要求被称为范式,范式越高数据库冗余越小。

第一范式(1NF):在关系模型中,所有的域都应该是原子性的,即在数据库中表的每一列都是不可分割的原子数据项。举一个例子,名为“城市省份”的字段是一个可分割的数据项,包含该字段的数据表就不是第一范式。只有将该字段拆分成“城市”字段和“省份”字段后,原数据表才满足第一范式的要求。

第二范式(2NF):在关系模型中,要求实体的属性完全依赖于主关键字,不能仅依赖主关键字一部分的属性。第二范式构建在第一范式的基础上,各第二范式表之间的关系通过关键字联接。例如,在第二范式中,满足第一范式的所有与“客户”相关的字段需要被移到新创建的客户表中,客户表与销售表以客户ID联接。换言之,一张表只放一种类别的信息。

第三范式(3NF):在满足第二范式的前提下,非主键列必须直接依赖于主键。例如,数据表中不能存在地理信息依赖于客户ID的情况。客户信息中的城市、省份、国家等地理信息会被分离出来成为地理表。客户表与地理表通过地理ID关联。

满足范式要求的数据库设计是结构清晰的,同时可避免数据冗余和操作异常,但这并不意味着不符合范式要求的设计一定是错误的。当数据库的表中存在1∶1或1∶N这种较特殊的关系时,表之间合并导致的不符合范式要求的数据表反而是合理的。例如,地理表不需要再被拆分成城市表、省份表、国家表等。7.数据立方

数据立方(Data Cube)是一种用于数据分析与索引的技术架构。运用数据立方可以对元数据进行任意多关键字的实时索引,能大大加快数据的查询和检索效率。1.5.2 数据表关系1.元、主数据表与事实表

元(Meta)是希腊词根,译为“之上”,代表事物的抽象概念。元数据也被称为主数据,就是用以描述数据的数据。

专门存放元数据的表被称为元数据表或主数据表(Master Table)。例如,“彼得”在“某超市”消费了100元,所有双引号里的信息都是对100元的描述,为特指这100元的元数据。

100元额度的交易是一条事实(Fact)。数据模型中专门存放事实数据的表被称为事实表(Fact Table)。在购买啤酒的例子中,顾客购买记录将被存储于销售事实表中。2.维度和度量

维度(Dimension)是同类型元数据的集合。比如对于顾客购买啤酒这件事,时间维度是2018年10月,啤酒品牌维度是珠江。维度表也是主数据表。

度量(Measure)是衡量数据的计算,可以将其想象为一把尺子。假设超市需要查找年度购买啤酒金额超过1000元的顾客,并将其作为优质顾客来发展,相应的计算公式就是一种度量。3.主关键字与外关键字

主关键字(Primary Key,也叫作主键)是表中的一个或多个字段,其值被用于唯一标识表中的某一条记录。在表关系中,主关键字用来从一个表中引用来自另一个表的特定记录。一个表的主键可以由多个关键字组成,比如这个顾客是某超市的会员,他的会员ID在会员表中是唯一的值,所以可以作为会员事实表的主键。但在销售事实表中,会员ID是可重复值,所以此时会员ID只能作为外关键字(Foreign Key,也叫作外键)。4.关系

关系(Relationship)是指表与表之间数据联接的关系,分为1∶1、1∶N、N∶M三种。

●1∶1可理解为公民与身份证号的关系,一个人只有一个身份证号,不重复。

●1∶N可理解为省份与城市的关系,一个省份有N个城市。

●N∶M可理解为病人与医生的关系,一个病人可以找多个医生看病,一个医生可以为多个病人看病。在处理多对多关系的查询时,往往需要添加中间表作为过渡。例如,可以添加挂号表作为病人信息表与医生信息表的中间表。5.1 表与多表

会员表与销售事实表之间的关系是1∶N,因此“1”端的会员表被称为1表(One Table)、父表或主表,多端(N端)的销售事实表被称为多表(Many Table)、子表或从表。6.主键约束

主键约束(Primary Key Constraint)使表中只能定义一个主键来确定每一行数据的标识符。主键约束确保了会员表中不会出现重复的会员ID。7.数据完整性约束

为了防止不符合规范的数据进入数据库,在用户对数据进行插入、修改、删除等操作时,系统会自动按照一定的约束条件对更改后的数据进行监测,以确保数据库中存储的数据是正确、有效、相容的。这种提前设定好的约束条件被称为数据完整性约束(Data Integration Constraint)。由于它的存在,销售事实表中不能出现任何不存在于客户表中的客户ID,否则客户表与销售事实表将无法建立关系。8.联接

联接(Join)是基于这些表之间的共同字段(主键与外键),把来自两个或多个表的行结合起来。联接分为4种类型(见图1.5.1)。图 1.5.1

●内部联接(Inner Join):二表相交的数据行。

●左侧联接(Left Join):左表的集合,右表则只陈列与左表相关的数据行。

●右侧联接(Right Join):右表的集合,左表则只陈列与右表相关的数据行。

●完全外部联接(Outer Join):左表和右表共同的集合,无相交的记录另一侧以空值显示。9.并集

并集(Union)是指将不同的表合并成一张表的过程。例如,某超市的2017年各月度销售表可以被合并成一张2017年年度销售表。10.大表(宽表)

在传统的Excel分析中,业务人员常常在销售事实表中使用VLOOKUP函数引用来自其他维度表的字段,例如引用其他维度表中的商品名称、销售区域,如图1.5.2所示。其中所使用的引用表被称为大表。大表的优势在于为少量数据的分析带来便利,劣势在于难以维护复杂的VLOOKUP函数引用,一旦行列错位则可能会导致公式错误。而且随着数据量的增加,查询性能变差,甚至会导致Excel崩溃。大表模式属于数据库第一范式。图 1.5.211.星型模式与雪花模式

星型模式(Star Schema)也被称为数据立方体或多维模式,是数据仓库模型中最简单的样式。星型模式下的所有维度表都与事实表发生直接关联,属于数据库第二范式,如图1.5.3所示。

雪花模式(Snowflake Schema)属于高级星型模式,其中的维度表可以作为另一个维度表的延伸,而不直接与事实表发生关联,其形态颇像雪花,故得名“雪花”,如图1.5.4所示。雪花模式属于数据库第三范式。

形状复杂、有多层级的雪花模式又被形象地称为暴雪模式,此类模式灵活性最好。一般而言,业务人员只要掌握大表和星型模式,就能满足日常大部分的分析场景。图 1.5.3图 1.5.41.5.3 数据库浏览1.数据切片和切块

数据切片和切块(Slice and Dice)是指将整体的数据切成更小的数据切片或切块,以利于更加具体的分析。2.向上钻取和向下钻取

举个通俗易懂的例子,假设现在有一张显示某超市全国销售额的报表,超市总经理需要查看每个省份的销售额。提取每个省份的销售额的过程就是向下钻取(Drill Down),向上钻取(Roll Up)则为相反方向的操作。3.横向钻取

横向钻取(Drill Across)发生在两个及两个以上的事实表之间。例如,销售任务额度表和销售事实表是两张彼此独立的事实表,通过横向钻取,可以在一张表里同时呈现销售人员的销售任务额度及其销售金额。4.钻透

钻透(Drill Through)指通过一张表中已有的筛选设置向下钻取另外一张表。其通常的用法是,先在汇总表中进行筛选,然后将汇总表作为筛选条件钻透明细表做特定的查询分析。例如,汇总表中显示了按颜色分类的服装销售总额,明细表按颜色、尺寸、服装款式显示销售额。分析人员可以在汇总表中选择红色作为筛选条件,再钻透至明细表,读取红色服装的销售额。5.数据聚合与数据粒度

数据聚合(Aggregation)是合并数据集的过程。例如,将万佳集团旗下各公司的销售额从不同数据集中进行汇总就是一种数据聚合的过程。从某种意义上说,任何度量计算,如平均数、中位数、标准方差等,其计算过程都要经过数据集的聚合才能完成。数据聚合度越高,其数据的维度就越少,但并非所有数据都可以聚合,例如一个员工每年的工资,这样的数据不可以直接聚合。

数据粒度(Granularity)描述的是仓库中数据的细化程度。细化程度越高,粒度越小;细化程度越低,粒度越大。6.离散型数据与连续型数据

离散型(Discrete)数据是指数值只能以自然数或整数为单位进行计算,一般用计数的方法取得。例如,日期中的月份数为离散型数据。

连续型(Continuous)数据包含若干位小数,在一定区间内可以任意取值,其数值连续不断且相邻的两个数值可以进行无限分割。连续型数据的数值一般使用测量的方法取得。例如,万佳超市的占地规模、学生的身高和体重等都属于连续型数据。

值得注意的是,连续型数据和离散型数据可以互相转换,例如学生身高,当求平均数时为连续型数据,当求身高区间时为离散型数据。

总结:连续型数据属于定量数据,作为度量使用;离散型数据属于定性数据,作为维度使用。1.5.4 BI工具1.SQL语言和SSAS分析语言

SQL(Structured Query Language),即结构化查询语言,是一种数据库查询和程序设计语言,常被用于存取数据,以及查询、更新和管理关系数据库系统。标准SQL语言可以用于具有不同底层结构的不同数据库系统,这使它既有极大的灵活性,也拥有强大的功能。本书中的SQL产品是指微软SQL产品。

SSAS(SQL Server Analysis Services),即SQL分析服务,是微软研发的构建于SQL服务器之上的一种联机分析处理(OLAP)和数据挖掘工具,主要用于跨平台的数据分析。因为SSAS被封装在SQL服务器之上,其数据分析功能比SQL本身更加优化和简洁。SSAS有两种运行模式,多维模式(也称MDX)和表格模式(也称DAX)。注意,这两种模式不可以兼容使用,一个SQL服务器实体只能安装其中的一种模式。后文将介绍Analysis Services与Power BI/Tableau结合应用的实例。

DAX默认使用内存数据库访问数据模型,运行时整个模型都会被加载到内存中,从而增加计算速度,但其性能在很大程度上取决于服务器的内存空间。总的来讲,在实际中,DAX非常适合中小型数据库;MDX则更适合大型数据库,例如具有几个TB的数据库,一般规模的服务器很难有相匹配的内存配置。2.MDX 与 DAX

MDX(Multidimensional Data Expression,模式多维数据表达式)是SSAS多维模式的表达式。Power BI不能直接使用MDX,但可以通过SSAS模式连接支持MDX。DAX(Data Analysis Expression,数据分析表达式)是SSAS表格模式的表达式。Power BI直接支持DAX,也支持通过SSAS使用DAX。3.Power系列“三剑客”

Power Query、Power Pivot和Power View被统称为Power系列“三剑客”,其功能分别对应数据准备、数据建模和数据展示(见图1.5.5)。在Excel 2013中它们是三个独立的部件,需要加载到Excel里使用,在Excel 2016之后的版本中,Power Query已经被融入Excel中,

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载