导读:通过一个实例(数据中台)说明数据流图DFD的作用、介绍了常见的数据流图元素及其标准符号以及如何画数据流图。数据流图主要被分析师、系统设计师、流程优化专家、系统管理员以及与系统开发和维护相关的人员查看和使用。对于刚考完2024年5月的软考考生来说并不陌生,架构师、提供分析师、软件设计师考察内容有涉及这部分内容。

目录

 1、实例数据中台数据流图(DFD)

1.1 数据中台概述

1.2 数据中台核心功能

1.3 数据中台示例-数据流图

2、认识数据流图(DFD)

2.1 数据流图作用

2.2 常见的数据流图元素及其标准符号

2.3 画好数据流图的步骤


1、实例数据中台数据流图(DFD

1.1 数据中台概述

数据中台是一个综合的数据管理和分析平台,其核心目的是帮助企业更好地管理和利用数据。

1.2 数据中台核心功能

  • 数据采集与集成:将来自不同系统和平台的数据源整合到中央数据平台中,包括结构化数据、半结构化数据和非结构化数据等。
  • 数据加工:对数据进行清洗、转换、计算、分析等处理,使数据更加规范化、精细化、可视化,提高数据的价值和应用效果。
  • 数据存储:提供可靠的数据存储和管理能力,确保数据的安全性、可靠性和可用性,同时提供数据备份和恢复功能。
  • 数据应用:为企业的业务和决策提供数据支持,包括数据分析、数据挖掘、数据可视化等应用。

1.3 数据中台示例-数据流图

以上是从数据中台的整体数据流向来画的数据流图,其中主要的模块包含

  • 数据源中的各种数据库
  • 同步功能模块
  • 实时计算模块
  • 批量计算模块
  • 数据服务
  • 离线同步数据模块

1、数据同步中的实时同步是同步开发人员配置好实时同步作业,其中实时同步作业采用flinkCDC来处理数据,而数据源则采用监听oracle数据库的re dolog和mysql的binlog作为数据源。

2、数据同步中的实时同步是同步人员配置好离线同步作业,其中离线同步作业采用Data X来处理数据,而数据源则轮询查询数据库和API的方式获取数据。

3、实时作业是实时开发人员通过写flink流处理作业之后,实时读取kafka数据计算完成之后,如果是中间数据则存储回kafka,如果是最终结果则写回到WinQflow实时数据仓库。在流处理作业有时会读取WinQflow实时数据仓库放入内存作为流式计算使用。同时有些实时数据会实时存储到数据湖中,持久化存储到文件系统或者S3中。

4、离线作业是离线开发人员通过写SPL离线开发作业之后,经过powerjob调度之后之后,批量从WinQSPL数据仓库中读取数据,经过作业计算之后之后,写回到WinQSPL数据仓库中。同时有些离线数据会实时存储到数据湖中,持久化存储到文件系统或者S3中。

5、服务开发人员开发数据服务API之后,报表使用API访问数据,当报表和其它应用需要展示数据则会请求 服务API,服务API则调用各数据仓库的OLAP分析引擎,完成分析后将计算结果返回给报表展示。


2、认识数据流图

数据流图(Data Flow Diagram,简称DFD)是一种用于描述信息系统过程的图形工具。它通过图形化的方式展示了数据在信息系统中的流动和处理过程,帮助我们理解和描述系统中的数据流向和交互方式。

2.1 数据流图作用

1、数据流图的主要目的是说明数据的流动路径和转换过程,以及参与数据流动的实体、进程和存储点,从而提供对系统运作和数据处理过程的视觉化概览。

2、通过数据流图,这些人员可以更好地理解和分析系统中的数据流程,从而能够更好地进行设计、优化、故障排查和系统集成等工作。

  • 需求分析和系统设计:数据流向图可以帮助分析人员理解需求,识别数据的来源、流向和处理过程,从而进行系统的设计和规划。
  • 流程优化和改进:通过绘制数据流向图,可以查看和分析数据在系统中的流动路径,找到可能存在的瓶颈、冗余和低效的环节,以便优化和改进业务流程。
  • 故障排查和问题定位:当系统出现故障或问题时,数据流向图可以帮助定位问题所在,追踪数据在系统中的流动和处理过程,从而更快地找到问题的根源。
  • 系统集成和接口设计:对于需要与其他系统进行集成或交互的系统,数据流向图可以清晰地呈现数据的输入和输出,有助于设计和定义系统间的接口和数据传递方式。
  • 系统文档和沟通工具:数据流向图可以作为系统的文档和视觉工具,以便于沟通和交流系统的数据处理过程,帮助各方理解系统的工作原理和数据流动情况。

  • 作为系统文档:数据流图可以作为系统的一部分文档,记录和描述系统中的关键数据流程和组件。
  • 作为沟通工具:数据流图可以用来与不同角色的团队成员、利益相关者或客户交流和共享信息,帮助大家理解系统的运作和设计。
  • 作为培训工具:数据流图可以用于培训新成员或用户,帮助他们了解系统的基本流程和数据传递。
  • 作为审计工具:数据流图可以用于审计系统的安全性和合规性,识别潜在的数据泄漏或违规行为。

2.2 常见的数据流图元素及其标准符号

  • 实体/角色(Entity/Agent):代表系统的外部实体,如用户、部门等。标志为一个简单的方框,可在内部加上实体的名称。
  • 数据流(Data Flow):代表数据在不同实体和进程之间流动的路径。标志为一根带箭头的线,箭头指向数据的流向。
  • 进程/转换(Process/Transformation):代表对数据的处理或转换过程。标志为一个圆角矩形,内部可以注明进程的名称。
  • 数据库(Data Store):代表数据在系统中的持久存储,如数据库、文件等。标志为一个长方形,两条竖线表示存储的位置。

2.3 画好数据流图的步骤

  • 确定系统范围:明确数据流图所描述的系统或过程的边界。确定主要的实体/角色、数据流、进程/转换、数据存储、外部实体等。
  • 识别实体/角色:确定系统中的实体或角色,它们是与系统进行交互的外部对象。这些实体可以是人员、组织或其他系统。
  • 识别数据流:确定系统中的数据流,它们代表在实体、过程和存储之间流动的信息。标识每个数据流的名称和描述。
  • 确定进程/转换:定义系统中的进程或转换,表示数据流的处理过程。标识每个进程的名称和描述,确定进程之间的关系。
  • 识别数据存储:确定系统中的数据存储,表示数据流被存储或提供给处理过程的位置。标识每个数据存储的名称和描述。
  • 确定外部实体和数据库:识别与系统交互的外部实体和系统的数据库。在数据流图中标识它们,以显示数据流的起点和终点。
  • 画图:使用适当的符号和图形来表示实体、数据流、进程、数据存储和外部实体。连接它们以显示数据流的流向和处理过程。
  • 评审和改进:与相关人员一起评审数据流图,确保其准确反映了系统或过程的需求和流程。根据反馈进行修改和改进。

注:相关核心内容整理来源网上资料整合

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐