“遇见大咖”第四期演讲实录|从数据仓库到大数据平台再到数据中台
【编者按】移动云MVP,作为产品共建专家、关键意见领袖及技术布道者,帮助开发者更好地了解和使用移动云。开发者社区希望携手移动云MVP,与开发者共生、共赢、共成长。当前,移动云MVP正在火热征集中!4月23日,移动云开发者社区“遇见大咖”系列活动第4期——“从数据仓库到大数据平台再到数据中台”直播活动成功举办。以下为中电科国海信通科技(海南)有限公司架构师王保强老师的演讲实录。王保强,南京大学信息管

【编者按】移动云MVP,作为产品共建专家、关键意见领袖及技术布道者,帮助开发者更好地了解和使用移动云。开发者社区希望携手移动云MVP,与开发者共生、共赢、共成长。当前,移动云MVP正在火热征集中!
4月23日,移动云开发者社区“遇见大咖”系列活动第4期——“从数据仓库到大数据平台再到数据中台”直播活动成功举办。以下为中电科国海信通科技(海南)有限公司架构师王保强老师的演讲实录。
王保强,南京大学信息管理系毕业,长期从事数据库开发和优化、大数据平台、数据仓库、系统架构、数据治理、数据分析、大中型项目管理、人工智能等工作,具备相关领域的理论研究基础和实际业务经验。先后担任移动集团大数据专家、南方电网一级助理专家、海南大数据产业联盟专家。先后参与著作《剑破冰山——Oracle开发艺术》、《IT项目管理那些事儿》,已发表论文3篇,发表专利5项,曾牵头建设海南移动大数据平台等,已发表论文3篇,申请发明专利6项(已授权2项)。

眼看那高楼起,眼看他宴宾客,眼看那楼塌了,从2015年阿里巴巴提出“大中台,小前台”的中台战略,到2023年阿里进行组织架构大调整宣告中台死刑,时间不过仅仅八年。其实在数据中台这爆火的八年时间内,也是冰火两重天,赞美和质疑之声从未间断。本人曾在海南移动公司负责数据仓库、大数据平台等项目,见证了从传统数据仓库转型到大数据平台的全历程,见证了大数据平台从0到1的全部过程,对数据中台也有自己独特的思考。
现在各种新名词层出不穷,顶层的有智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台;平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…。
数据中台就是数据服务化,服务化的核心是数据模型化和服务组件化,服务化的基础是大数据平台或数据仓库。能够提供高效的数据服务化,就是数据中台的特征,从这个角度而言,从数据仓库到大数据平台再到大热的数据中台,是一脉相承的。

数据仓库
按照传统的定义,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库的主题建模思想是数据仓库的核心。面向主题,采用范式模型理论中的主题划分方法对业务数据进行分类;采用维度模型理论中的总线结构思想,建立统一的一致性维度表和一致性事实表来保证一致性;合理采取维度退化、变化维、增加冗余等方法,则保证了数据的计算和查询效率。
从数据角度,数据仓库更适合传统的数据库,离线采集,数据一般为结构化的,每天处理数据量不易超过TB集,数据仓库一般在数十T到几百T以内,数据仓库一般为满足内生的应用,满足内部决策支持分析需求,当然随着数据仓库数据采集的要求越来越高,数据仓库本身也在不断的改进,从单机的ETL到集群的ETL,从传统的小机+DB,向PC服务器+分布式DB拓展,数据治理也逐渐增强,从元数据管理到数据质量管理,再到数据运维管控和数据安全管控,但其实数据仓库给企业留下的最大财富是企业数据模型,这些模型随着前端业务系统的发展变化,不断变革,不断追加,不断丰富和完善,即使系统不再了,也可以在短期内快速重建起来,这也是大数据平台能够快速建设起来的一个重要原因。
经分系统历经十几年若干版本的演进,从技术架构上看,还是相当完备的,在推动移动公司经营发展的过程中起到了至关重要的作用,但也存在过度建设、缺乏运营,实效性不强的问题。

大数据平台则是指以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,包括了统一的数据采集中心、数据计算和存储中心、数据治理中心、运维管控中心、开放共享中心和应用中心。大数据平台之所以能够建设起来,不外乎内因和外因,外因是棱镜门事件带来的去IOE要求、外部硬件的变革和分布式开源技术的涌现;内因是非结构化、实时数据和海量数据的计算和存储压力,企业也寄希望从大数据平台除了满足对内需求,也能够实现一定的对外收益。大数据平台的建设出发点是节约投资降低成本,但实际上无论从硬件投资还是从软件开发上都远远超过数据仓库的建设,大量的硬件和各种开源技术的组合,增加了研发的难度、调测部署的周期、运维的复杂度,人力上的投入已是最初的几倍;还有很多技术上的困难也非一朝一夕能够突破,但无论如何大数据平台还是建设起来了,人员能力也在不断成长。大数据平台解决了海量数据、实时数据的计算和存储,也基于原来的企业数据模型实现了重构,但也面临着一系列的问题,首先是数据的应用问题,无论是数据仓库还是大数据平台,里面包含了接口层数据、存储层数据、轻度汇总层、重度汇总层、模型层数据、报表层数据等等,各种各样的表有成千上万,这些表有的是中间处理过程,有些是一次性的报表,不同表之间的数据一致性和口径也会不同,而且不同的表不同的字段对数据安全要求级别也不同,此外还要考虑多租户的资源安全管理,如何让内部开发者快速获取所需的数据资产目录,如何阅读相关数据的来龙去脉,如何快速的实现开发,这些在大数据平台建设初期没有考虑周全;另外一个问题是对外应用,随着大数据平台的应用建设,每一个对外应用都采用单一的数据库加单一应用建设模式,独立考虑网络安全、数据安全、共享安全,逐渐又走向了烟囱似的开发道路。
第一个Hadoop平台主要是为了解决海量离线数据的计算和存储,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储,这是一个尝试性的项目。

第一个流式处理平台硬件架构主要是为了解决海量实时数据的流式采集和计算,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储;并通过实时事件处理集群实现流式事件的匹配。

为了解决流式架构和离线架构的技术路线和资源复用问题,开展了大数据平台建设,实现了两者的有机结合,以下是大数据平台的数据流向。

以下是大数据平台的功能视图。

以下是大数据平台的整体硬件架构和系统边界。

为了实现大数据平台的数据价值,以数据应用为中心构建企业数据模型为实现内外部应用支撑,又建设了开放共享平台,提供数据服务和OpenAPI服务,为了支持多应用厂家协作开发,又提供了多租户管理,安全管理、数据目录管理。
数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据是如何安全的、快速的、最小权限的、且能够溯源地被探测和快速应用的问题。
数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建,通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。
厚平台,大中台,小前台,没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的。没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。
我想这才是数据中台的初衷。

以下是数据中台的整体架构

关于后续的话,本文成文于五年前,对于数据中台、数据治理、数据资产、数据运营、数据要素的关系和研究早已成为新的热点和方向。
关于数据、信息、知识和智慧,他们之间是一种递进的关系。数据是构建信息的基础,信息是构建知识的基础,而知识则是智慧的基石,通过在这个金字塔上不断积累和学习,可以从数据中获得洞察、从信息中获取认识、从知识中得到智慧。
关于数据中台与数据治理,数据治理对数据进行清洗,转换,整合,实现数据标准化,集成化,沉淀共性数据服务能力,快速响应业务需求,支撑数据融通共享,分析挖掘和数据运营,创造业务价值。
关于数据中台和数据资产,数据以及数据产生的信息即数据资产,合理的配置和运用数据资产的价值就是数据资产运营,通过分析、挖掘资产的价值,将其变现为用户价值、群体价值、社会价值。
关于数据中台和数据要素,虽然数据要素被赋予了空前重要的地位,但在实际操作中如何激活数据要素潜能,做强做优做大数字经济,还是面临着诸多的困难。
对话行业大咖
破局行业痛点
感受科技力量
期待下一期的大咖分享~
移动云MVP征集令重磅来袭

更多推荐
所有评论(0)