数据分析可视化01 掌握数字化转型时代的必备技能
本课时,我为你详细介绍了数据分析、数据挖掘、数据可视化和数据可视化分析的概念和体系结构,旨在让你对于数据可视化分析有一个明确的认知。明确了它们的概念,再回到我在本课时一开始提到的业务案例,你是否已经有了明确的答案呢?不妨结合我讲述的知识体系,尝试着寻找答案。欢迎你将你的思考写在留言区,与我和其他同学进行讨论。
你好,我在技术社区,有一个网络昵称叫作:“胖子哥”,你在任何一个搜索引擎搜索关键字:“胖子哥 大数据”,就可以找到我过往分享的文章。
我从事数据领域工作超过 15 年的时间,主攻数据仓库、数据产品和数据分析等几个领域,积累了丰富的实践经验,曾经主导过多个日均百亿级的,大型分布式系统的数据架构、数仓建模和数据可视化平台建设。
为什么你要学习数据可视化分析?
我们都知道,伴随大数据的发展,当今已经是一个数字化的世界,企业的业务运营、主营业务增长和商业模式创新,都需要依赖数字化转型,而数据分析是企业实现数字化转型中最重要的一环。历经数十年的信息化建设,各个企业其实已经积累了大量的数据,建立起了数据平台和数据体系,数据基础设施日益完善,如何发现、挖掘和利用好这些数据,从而呈现业务、发现异常、分析问题、定位原因,并且进一步赋能业务成为各项工作的关键。
而这其中,数据可视化分析作为数据分析的新型实现手段和方法,成为不容忽视的一环,数据可视化分析的应用随处可见,比如:
-
指挥中心:交通部门通过数据可视化,监测并预测拥堵情况,为交通优化提供合理策略。
-
个人账单:支付宝年度账单,让用户更直观地了解自己的购物、饮食等消费习惯。
-
疫情地图:让疫情传播链条和地区分布情况一目了然。
-
报表平台:企业通过数据可视化发现企业盈亏,从而调整自己的运营策略和发展方向。
相较于生涩的统计数字,数据可视化报告和报表因其直观、可视化的呈现特点,成为连接数据分析师和企业管理者、业务运营人员、商业分析师、市场营销人员最好的纽带。这点我们很好理解,那么什么是数据可视化分析呢?
数据可视化分析,是通过构建数据可视化图表,展示数据特征,从中发现数据信息的过程。它包括两个步骤:数据可视化呈现和数据分析洞察。
数据可视化分析,是数据分析师必须掌握的一项核心技能。但在不同企业中,执行数据可视化分析动作的角色或岗位会有不同:
-
比如设立数据可视化分析师,并且配备相应的技术人员;
-
比如设立数据可视化开发工程师,可见企业对于数据可视化分析的重视;
-
同时,数据可视化分析能力,也是业务运营人员(包括流量运营、内容运营、交易运营等)、商业分析师和企业管理人员的必备能力。
这类市场需求信息,我们可以通过拉勾网的平台搜索功能查看到,如下图所示。由于数据可视化存在的巨大商业价值,相关人才供不应求,无论一线互联网企业,还是传统企业都在大量招聘,而且薪资待遇也比较感人。
在本课时,我将对数据分析、数据挖掘、数据可视化和数据可视化分析这 4 个概念进行剖析、对比,借此让你对数据可视化分析建立一个直观的认知,更好地区分开数据分析和数据挖掘,了解各自的知识体系。明确各自的区分和差异后,你在工作中,可以依据具体的业务场景,来选择适合的工作方法和技术体系。
数据可视化分析全览
在介绍几个概念之前,我们先来看一个关于数据可视化分析的典型案例,通过直观的、可视化的案例对其建立一个整体印象。最常见的场景之一就是数据仪表盘,如下图所示:
数据仪表盘图
图中包含了数据指标卡、折线图、饼图和表格等,这些都是我们经常使用的,后面也将会详细讲解每种图的设计和使用方法。
数据可视化分析包括数据可视化呈现(制作可视化图表)和数据分析洞察(基于图表识别信息) 两个过程。在实际的工作和业务场景中,通常用于发现业务运营过程中出现的问题,以及进行辅助决策,比如可以:
-
通过数据指标卡的同环比数据,发现当前指标是否出现波动:
-
通过折线图发现指标的发展和变化趋势;
-
通过柱状图发现指标之间的对比关系;
-
通过饼状图发现指标之间的比例关系。
数据可视化分析包括业务监控、运营分析系统和即席查询系统(临时性的 SQL 需求),并以数据报表、数据仪表盘、可视化数据大屏等形式呈现数据内容,以便直观地呈现数据指标。
直观地了解了数据可视化分析后,你是否会对它产生以下 4 个疑问:
-
如何构建一个完整的数据可视化分析系统,用于实现业务监控和运营分析呢?
-
实现数据可视化分析需要掌握哪些能力?
-
如何实现数据的可视化呈现?
-
如何基于呈现的数据可视化图表,进行数据分析和业务洞察呢?
在接下来这整个课程中,我将围绕上述 4 个问题,逐个知识点、逐类常用图表,以案例的方式来介绍数据可视化分析系统的设计和使用;课程的最后,我还会以一个完整的 Web 站点的方式,带你实现一个完整的数据可视化分析项目。
数据分析和数据挖掘的区别
通常情况下,我们所说的数据分析是指狭义的数据分析,它和数据挖掘合起来才是一个完整的数据分析过程,即广义的数据分析。因此,在学习数据可视化分析之前,先弄清楚数据分析和数据挖掘的概念很有必要。
数据科学诞生于英文的世界,其实翻译过来:
-
数据挖掘(Data Mining)是基于机器学习算法模型,挖掘数据背后隐藏知识的过程;
-
数据分析(Data Analysis)是利用统计学,发现数据规律的过程。
相较于数据挖掘,数据分析更加直观,利用的是数据的浅层特征(可以直接发现);而数据挖掘是必须借助机器学习算法模型,才能够发现数据背后的知识。
通过上面简短的分析,你应该已经看出二者的部分差异了,但这还不够明确。接下来,我用一张图来带你详细拆解下狭义数据分析和数据挖掘的差异,以及各个维度的对比。
数据分析和数据挖掘对比图
图中红色和蓝色分别代表了狭义数据分析和数据挖掘相关的内容。接下来我将结合图中的 6 个方面,为你逐个剖析它们的差异。
狭义数据分析
-
数据资源,数据分析的对象,即数据资源,一般都是数值数据。
-
工作方法,基于统计分析,主要采用指标监控、趋势分析、对比分析和组成分析等常用方法。比如,可以通过数据指标卡来监控业务指标的完成情况;还可以通过同环比,发现业务指标是否超出了设定的波动范围。
-
工作流程,一般分为 7 个步骤,包括业务理解、指标定义、维度定义、呈现设计、代码设计、数据发布和分析洞察,如下图所示。这部分内容我将结合第三部分的第一个实战案例进行详细讲解,并贯穿本课程实战部分的始终。
数据分析工作流程图
-
业务场景包括宏观决策、业务监控、运营分析和即席查询等。
-
输出结果是计算之后的各种指标,比如均值、方差、最大值、最小值、关联系数等,通常以数据可视化报表或数据分析报告的形式存在。
-
工具平台,常用平台的开源版本有 Redash、Metabase、Superset,商业版本有 PowerBI、Quick BI、网易有数等。推荐你使用开源版本 Redash,其最核心的特点是用户接口设计的直观,容易操作。
数据挖掘
-
数据资源,除了数值数据之外,还包括多种形式,比如文本数据、语音数据、视频数据等。举个例子,淘宝或京东的商品评论数据就是一个典型的文本数据,这类数据可以通过情感识别的算法模型,进行用户情感评价。
-
工作方法,基于机器学习和人工智能,发现数据潜藏的价值,主要采用决策树算法、逻辑回归算法、神经网络算法、贝叶斯分类算法、聚类算法、关联分析算法等算法模型。比如,用户分类画像问题,就可以通过聚类算法来处理。
-
工作流程,有一个行业标准过程模型,即 CRISP-DM,它把该流程分为了 6 个环节,包括业务理解、数据理解、数据准备、数据建模、模型评估和模型发布,如下图所示:
数据挖掘工作流程图
-
业务场景,包括分类问题、聚类问题、关联分析、回归预测和异常检测等。比如,基于历史交易数据进行交易量预测的问题,就是一个典型的回归预测问题。
-
输出结果,是训练好的数据模型和输入数据训练的结果,比如,分类标签、聚类结果、关联系数和回归结果等。还可以基于训练好的分类模型,输入新的数据样本,从而获得该样本的分类标签。
-
工具平台,数据挖掘的则是机器学习和深度学习方面的库,比如 SKlearn、TensorFlow、PyTorch、Caffe2、SparkML 等。
在这里讲述数据分析和数据挖掘的概念与区别,只是为了帮你梳理清楚这二者之间的区别,为你建立起一个完整的数据分析世界观,从而为学习本课程的内容扫清不必要的障碍。接下来我就继续讲解数据可视化的内容,也是本课程的重点内容。
数据可视化及其表现形式
数据可视化起源于 1960 年计算机图形学,是利用图表呈现数据内容的一种方法。数据可视化的概念中,有一个关键信息——数据可视化研究的对象是数据可视化的表现形式。
那么什么是数据可视化的表现形式呢?其实就是各种点、线、面和体的图表,比如散点图、折线图、柱状图、漏斗图等。不同的图表为你展现的数据信息是不同的,比如:
-
折线图,展现指标随着时间变化趋势的场景;
-
柱状图,展现多个指标下的数据变化对比情况的场景。
常用的数据可视化图表有 16 种,如下图所示:
常用的数据可视化图表
这部分内容我将在第三部分“实战案例篇”进行详细讲解,并且在后面的案例中我也会告诉你,它们适用的业务场景,所以在本课时我就不一一赘述了。但是我希望你可以在本课时中对它们建立一个初步的印象,带着自己的疑问和见解去学习下一课时。
6 个维度拆解数据可视化分析
数据可视化分析是利用数据可视化呈现能力,进行数据分析的一种方法,通过可视化呈现的图表,发现有用的信息,得出数据结论和辅助宏观决策。简单来说,就是把枯燥的数字变成各种各样的图表,更好地帮助你发现其中有价值的信息。数据可视化分析是实现广义数据分析的一种模式,具有与狭义数据分析相同的体系结构,并且在某些方面,拓展了数据可视化的内容。
由于后面的课时我会针对这个过程从多个维度进行呈现,所以在这里我就不详细讲解了。为了方便你与上面两个概念进行对比,我依旧会从 6 个方面为你拆解数据可视化分析的内容。
总结
本课时,我为你详细介绍了数据分析、数据挖掘、数据可视化和数据可视化分析的概念和体系结构,旨在让你对于数据可视化分析有一个明确的认知。明确了它们的概念,再回到我在本课时一开始提到的业务案例,你是否已经有了明确的答案呢?不妨结合我讲述的知识体系,尝试着寻找答案。欢迎你将你的思考写在留言区,与我和其他同学进行讨论。
精选评论
**宇:
捧场!
*未:
这个是不是更多的讲的是工具的使用啊,而不是分析的方法思维层面的呢
讲师回复:
本课程不讲工具如何使用,工具只是个附属品。课程重点讲述三个方面的东西:1. 数据可视化分析的方法论;2. 基于python如何首先图表可视化呈现;3. 基于可视化图表,如何做数据分析和洞察。
**同学:
内容很棒,学习到了😀
**军:
如此众多的开源可视化工具,“Redash、Metabase、Superset,商业版本有 PowerBI、Quick BI、网易有数等”,有没有事实上的标准工具呢?或者占据市场主要的工具?在做数据可视化的时候如何选择方案呢?自建,二次开发 或者购买第三方的云产品或者成熟的商业版呢
讲师回复:
1.事实上的标准没有,不过可以从市场占有率和使用情况来看,powerBI用户规模更大一些,但是此结论没问数据支持(官方数据拿不到),quickBI是阿里云服务的伴生品,看你是否要用阿里云;网易有数据的商业版本之前询过价格,费用大致在60w左右(此数据以网易官方客服为准,不做参考)。
- 选择方案:有钱——商业;没钱——开源;有钱+自主——自己开发;
**光:
希望讲师最后做项目的时候能有一个完整的项目,我也在用pyecharts,最终的效果确实不是很好,较echarts还是有局限,期望能有一个精美的项目案例
编辑回复:
已经把你的想法反馈给老师了哦~希望你在后续的课程里还能学到更多有用的知识
**安:
请问燃尽图算不算数据可视化图表
讲师回复:
没注意过这个图表,正常而言,以图表的形式,呈现内容都算数据可视化图表,只是各自的使用场景不同而已,或者使用频率高低问题,不必纠结。
jyunnkoLee:
工具中tableau用的是最多的吧
讲师回复:
很贵的,按年收费一个账号的费用几万
**传:
超级棒,很多资料上面都没有那么详尽。别的很多书,都是直接实践的,有一些简单的概念入门,感觉很有条理。就是希望,平时在拉勾教育PC端学习的时候,可以没有上面那条横,希望可以缩起来,这样看的话,可以看到更多的内容。希望两年后的自己,可以和一些刚毕业的师兄一样,可以进Teradata、阿里等大厂1111MicrosoftInternetExplorer402DocumentNotSpecified7.8 磅Normal0
🙏🙏🙏
编辑回复:
您的建议已收到,我们会努力改进。感谢您的支持
*强:
老板速度
**9236:
需要会编程吗?
讲师回复:
使用可视化工具,最基本的要求是SQL,有一个不需要SQL的Metabase
**天:
这课有文档操作工具么?
讲师回复:
文档操作工具?可以说具体一点吗,或者给一个具体的例子?如果是指配套源码,我会在模块二讲到,模块三中会给出案例源码。
你为什么需要这门课?
在从业过程中,以及目前各大公司的招聘 JD 描述中我们都可以看到,从事可视化分析的同学,一般都要求是计算机、统计学、数学、经济学等相关专业,必须具备一定的数学和统计学基础,但并不是每一个相关专业的同学,都能够拿到数据分析相关的职位,成为一个优秀的、高级别的数据分析师,为什么呢?最主要的原因是:因为缺乏系统化的训练,并不具备数据可视化分析体系化的知识结构和基于数据解决业务问题的完整思路。
而这也说明两个问题:
-
没有那么难,人人都能学,发展空间很大,既可以探索数据挖掘、算法职位,也可以做产品经理、业务运营,或者将其内化为个人决策能力和成长路径的一部分。
-
看似简单,但你做好了也不容易,如果你掌握的更多是单点知识,很难建立可复用的可视化分析思维,面对业务需求时(特别是急需求时)往往思路凌乱、没有头绪,无法发现数据的深层价值,更不能驱动业务方案。
对于一些初学者而言,缺少实战经验则是从掌握理论知识到实践应用之间需要跨越的鸿沟。拥有基础知识,但没有业务场景和实践机会,会导致无法系统化地完成整个项目。
课程设计
我大约有 5 年的时间主要基于互联网广告投放数据,并进行数据化营销分析和数据可视化报表设计,并通过不断地总结和沉淀,逐渐沉淀出一套基于工程实践的、完整的方法体系,希望通过这个专栏分享给你。
课程合计 4 个模块,共 15 课时:
-
模块一,基础理论篇。 体系化地梳理数据可视化的概念、建设目标、工作方法、操作流程和关键技术,帮你建立完整的数据分析思维,掌握整体的数据可视化分析方法论。
-
模块二,环境部署篇。 通过数据可视化框架 PyEcharts 的安装部署、快速入门,让你掌握数据可视化的开发环境安装、部署方法,快速进入数据可视化的世界中来。了解了这个模块你就可以快速看到可视化效果,得到即时反馈,了解程序对你的切实帮助。
-
模块三,典型案例篇。 基于一个简化的影片租赁数据可视化业务场景,通过 6 大实战案例、7 大操作步骤,从不同维度为你剖析整个数据分析工作过程,并详述数据可视化 6 大常用图表呈现设计和分析方法,希望能够让你触类旁通,在实际工作中具备举一反三的能力。
-
模块四,数据发布篇。 整合主流前端框架 Bootstrap + Flask + Python + MySQL,融合 6 大数据可视化图表案例,发布为一个完整的网站,实现从知识单点到系统建设的转型,带你实现从菜鸟到熟手的能力进阶。
讲师寄语
数据能力,将是未来必备的能力之一,它可以从战略、战术和业务上为不同角色的从业者赋能。也因此,这门课适合所有从事数据相关工作的你。希望你通过本课程的学习,掌握数据可视化分析的思维、方法、流程和关键技术,从而增加自己的核心竞争力。
最后,也欢迎你和我分享工作或学习中的心得体会和小惊喜,我在留言区等你。
精选评论
**辉:
请问多久更新一次啊
编辑回复:
每周一、周四更新
**1915:
大量的数据,只是一堆数而已。要想从中了解到其中的意义和蕴含,就是对数据进行可视化且分析。从而改变或更新现有的方式方法。
**6462:
对我的帮助我觉得非常的大,但是似乎更新得比较慢了一点,希望加快更新,刚刚使用拉勾教育就遇到这么好的讲师,运气真好
编辑回复:
现在是每周更新2篇,后续会继续优化更新节奏的。谢谢同学的支持,ღ( ´・ᴗ・` )笔芯
*星:
数学建模不在话下,这个学习学习
**1149:
看着简单也不简单,做好不易噢
*子:
作为运营,需要点亮数据分析技能啊😂
**9398:
6
**1479:
很好
更多推荐
所有评论(0)