背景定位目标

1.建设背景

中国“城镇化”的背景下,为了积极响应政府提出的城市化发展策略,把“智慧城市”作为业务发展重点,确立了“共建 汇聚 共享”为发展模式的智慧城市发展战略。

“智慧城市”确定了依托云计算、物联网、移动互联网等核心技术,结合基础通信优势资源,打造全国统一的智慧城市云承载平台,使智慧城市成为企业新的业务增长点。

“智慧城市”云平台建设和运营是一个庞大的系统化工程。为有效保障智慧城市云平台运营健康、高效、可持续化发展,需要以数据处理及分析应用为抓手,构建独立、高效、面向智慧城市云平台的业务运营、平台运维、租户运营的数据分析服务平台。

2.系统定位

根据智慧城市应用“以城市为中心”的业务特性,企业智慧城市云平台采用一级架构,包括管理平台和资源池两大部分。数据服务分析平台为智慧城市云平台的一部分。

3.云平台功能架构中的定位

4.与周边子系统关系

数据服务分析平台主要从云管理平台中的业务平台、运维平台采集数据。

租户的结构化/非结构化数据也是数据服务分析平台采集的一部分。

5.建设目标

本项目主要建设数据分析服务平台,通过有效收集、整合智慧城市云平台以及周边关联系统中的各类数据,以业务运营和平台运维分析管理需求为导向进行数据加工处理,建立包括业务运营、云平台运维监控等应用,并能方便快捷向平台运维人员、业务运营人员及租户提供所需的数据分析能力、数据计算服务能力、数据自助服务能力,为智慧城市云平台业务运营和平台运维保障提供有效信息支撑。

总体建设方案

1.总体框架

数据分析服务平台主要包括“数据整合层、数据应用层、统一门户层、数据管控层”四个主要部分。

1.1 数据整合层

● 数据体系架构

多层次多粒度数据体系架构:数据架构是基于“智慧城市云平台”的管理数据和租户数据的进行规划,本次项包括STG、DWD、DWA、DM四层以及私有数据层次,不同层次实现数据粒度由细到粗的数据整合。

● 数据架构说明

数据架构描述主要针对不同的数据层次描述层次的定位和作用、模型设计、数据粒度、存储周期。

● 模型设计六大原则

● 数据获取层STG

STG层

STG是数据整合层的一个组成部分,主要是作为数据仓库数据处理的过渡,以降低直接进行数据处理的复杂度。是一个面向数据主题的、集成的、可变的、当前的细节数据集合层。

STG层是临时细节数据层,是对生产业务系统数据进行沉淀,因此本层的数据模型原则上延用生产模型,包括主题域和子域划分方式。

STG数据整合层是的数据来源主要包括“平台管理数据”和“租户私有数据”两部分。平台管理数据,指来自于云管理平台的内部数据。租户私有数据,指来自租户自己部署应用的数据。

接口说明-云管理平台对外接口

● 明细数据层(DWD)

DWD是数据仓库的细节数据层,为企业各种分析类应用提供细节性数据支持,是数据仓库的核心,同时为未来需求的扩展提供历史数据支持。

DWD层的模型设计,需要围绕企业核心业务过程展开,关注业务过程中的核心业务事件和业务实体,遵从生产系统域的划分。

● 衍生汇总数据层(DWA)

1.2 数据应用层

● 三类应用/两个转变

数据应用包括“数据运营分析应用、数据计算服务应用、数据自助服务应用”三类。数据应用以业务分析为基础、以计算服务为依托,面向不同角色提供工具化、产品化的自助服务应用,实现数据应用方式从传统应用向个性化应用转变,实现数据应用层次从可视化与监控向交互沟通方向转变。

● 数据运营分析应用

“数据运营分析应用”主要包括“业务运营分析、平台运维分析、租户业务分析”三个部分,属于传统化、可视化应用。

业务运营分析,是以 租户、产品业务核心对象为中心,围绕业务核心对象关键KPI进行监控,业务核心对象实体属性进行深入洞察分析。

平台运维分析,是以资源为核心,围绕资源的使用、性能等进行分析。

租户运营分析,是以单一租户为核心,提供单一的租户视图。

● 数据计算服务

定义

基于Hadoop的分布式计算能力封装(Hadoop based distributed computing power package),以下简称:HDCPP。

HDCPP定义:为租户提供Hadoop分布式计算能力服务,租户能够在虚拟的Hadoop集群之上分析和处理海量的非结构化数据。HDCPP是对Hadoop能力的增强,与Hadoop集群服务、存储服务、监控服务进行无缝集成或连接。它也能与Hadoop架构之上的应用(Hive/Hbase/Pig等)进行无缝集成。 

框架图

数据计算服务是在hadoop之上,提供“查询、计算、存储”三种引擎,提供基于服务生命周期的“数据计算服务”管理。

查询引擎

查询引擎是HDCPP服务的实现,通过脚本,SQL,界面元素向外提供服务。

查询引擎包含SQL解析、过程语言和元数据。

计算引擎

计算引擎是HDCPP服务的能力,在Hadoop架构基础上对计算能力封装,机制调整,优化。

计算引擎包含计算均衡、多任务调度和MR计算。

存储引擎

存储引擎是HDCPP服务的基础,规定了文件的存储方式,文件格式,存储结构,应用规范。

存储引擎包含块索引、列存储和结构化存储。

基于生命周期数据计算服务

服务申请-服务创建-服务配置-数据准备-服务运行-服务退出

数据自助服务

数据自助服务是在元数据基础之上,通过元数据屏蔽掉异构数据库差异,并提供统一的数据服务接口。自助数据服务的功能,包括元数据配置/服务/权限管理和即席查询两个部分。

1.3 数据门户

实现根据多级管理主体和用户角色,提供个性化的页面布局和个性化功能界面,统一接入、集中展现,提升用户感知。

统一应用功能发布、集中的功能和数据授权,实现门户层面的安全管理。

1.4 数据管控

1.4.1 总体说明

数据管控对元数据管理、数据质量、数据标准、数据安全、生命周期、数据加载、数据流程进行了有机结合,形成一套完整的企业级数据体系规范、运作流程及规章制度。

数据管控包含三大方面:ETL调度、数据治理、元数据管理。

1.4.2 元数据管理

元数据是数据质量、流程监控的基础,期承载了项目内的所有静态内容展现,及动态变更提醒。

实体扫描:通过扫描数据库,实现实体展现及变更通知,为自助分析服务提供元素支持

血缘关系:支撑各层实体的来龙去脉关系展现;通过既定规范,形成期血缘关系,满足管理人员、租户、维护人员对数据加载现状的了解,及变更评估;

数据权限:统一管控数据权限。

API接口: 通过Web service方式向外界系统提供能够使用Web进行调用的API

1.4.3 数据治理管理

5W-1H-1R:WHAT,WHO,WHERE,

WHY,WHEN; HOW; REPORT

锁定管控内容:数据源、应用模块,各个监控环节,问题处理流程

责任矩阵:采集流程、稽核流程、加工流程、发布流程、问题处理流程矩阵负责人

设定监控点,异常告警快速定位:数据采集、加工、稽核、发布流程监控点,针对稽核设定阀值,异常情况定位

分析异常原因:对各层级流程出现的异常点进行日志记录与原因分析

问题告警定时提醒:记录异常警告时间,对负责人进行定时提醒

异常问题解决方案:对不同的问题形成处理方案

形成分析报告:因产生的问题进行原因总结,形成分析报告,为知识库提供参考

1.4.4 ETL调度管理

ETL是数据的动能它让数据流动起来,包括数据源采集、数据稽核、数据加工流程实现一体化监控。

各环节出现的问题,系统可自动触发告警,通知管理员及时处理跟踪异常问题。

数据加工机制为问题分层管理,各层问题在数据系统内部存在多次反复流转,确保数据结果正确。

2.总体实施计划

3.项目实施管理

3.1 项目管理

建立专业化分工的管理团队,洞察云管理平台发展方向,配合租户业务分析需求,逐步完善系统建设目标,落实项目管理责任。

3.2 项目实施团队

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐