助力工业物联网，工业大数据之数仓维度层DWS层构建【十二】_工业数据仓库(1)

2301_79099434

930人浏览 · 2024-04-18 03:13:16

2301_79099434 · 2024-04-18 03:13:16 发布

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

```

	+ 表名
	+ 表的注释
	+ 表对应的HDFS地址
	+ Schema文件的地址

DWD层的需求是什么？

自动化建库建表
建表

create table one_make_dwd.表名(
	字段信息
)
location

 + 表名
 + 表的注释
 + 表对应的HDFS地址
 + 字段信息

怎么获取表的Schema信息？
- 表的注释、Schema信息
- ODS：Oracle中获取表的注释、Schema文件从Sqoop生成的
- DWD：Oracle中获取表的信息
  - TableMeta：表名，表的注释，列的信息：List
  - ColumnMeta：列名、列的注释、列的类型、长度、精度
如何使用Python构建Oracle和Hive的连接？
- Oracle：cx_Oracle
  - conn（host,port,user,passwd,sid）
- Hive/SparkSQL：pyHive
  - SparkSQL用法
  - 编程方式：python文件 | jar包
    - 流程
      - step1：SparkSession
      - step2：读取数据源
      - step3：处理
        
        注册视图
        
        spark.sql(“”)
    - spark-submit
    - 优点：灵活
    - 场景：DSL
  - 提交SQL：ThriftServer
    - 场景：SQL，调度开发
    - 流程
      - JDBC | PyHive | Beeline：代码中开发
      - spark-sql -f xxxx.sql：SQL文件的运行
如果实现SQL语句的执行？
- step1：先构建服务端的远程连接
  - 服务端地址：主机名 + 端口
  - 用户名和密码
- step2：基于这个连接构建一个游标
- step3：通过游标来执行SQL语句：execute(String：SQL)
- step4：释放资源
集中问题
- 连接构建不上
  - 映射不对：spark.bigdata.cn：Can not Connect[46.xxx.xxxx.xx，10001]
    - 修改host文件
    - 修改config.txt：node1
  - 服务端问题：spark.bigdata.cn：Can not Connect[192.168.88.100，10001]
    - Spark的TriftServer没有启动
      - 启动完成先用dg或者beeline先测试一下
    - ThriftServer：依赖于MetaStore + YARN
      - 检查YARN：本质就是一个Spark程序：实时程序，不停止的
  - Oracle：cx_Oracle + 本地客户端：D:\instantclient_12_2
- 安装
  - Python版本：Python 3.7.4
  - 命令sasl

02：项目目标

回顾维度建模
- 建模流程：划分主题域和主题
- 维度设计：构建维度矩阵
- 维度模型：雪花模型、星型模式
项目中的建模流程和维度设计
- 划分了哪些主题域，每个主题域有哪些主题？
- 每个主题基于哪些维度进行分析？
维度层构建
- 时间维度
- 地区维度
- 油站维度
- 服务网点维度
- 组织机构维度
- 仓库维度
- 物流维度

03：维度建模回顾：建模流程

目标：掌握维度建模的建模流程
实施
- step1-需求调研：业务调研和数据调研
  - 了解整个业务实现的过程
  - 收集所有数据使用人员对于数据的需求
  - 整理所有数据来源
- step2-划分主题域：面向业务将业务划分主题域及主题
  - 用户域、店铺域
  - 商品域、交易域、
  - 客服域、信用风控域、采购分销域
- step3-构建维度总线矩阵：明确每个业务主题对应的维度关系
- step4-明确指标统计：明确所有原生指标与衍生指标
  - 原生指标：基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，如支付总金额
  - 衍生指标：基于原子指标添加了维度：近7天的支付总金额等
- step5-定义事实与维度规范
  - 命名规范、类型规范、设计规范等
- step6-代码开发
  - 实现具体的代码开发
  - 只要知道指标的计算方式，基于维度分组计算指标
小结
- 掌握维度建模的建模流程

04：维度建模回顾：维度设计

目标：掌握维度建模中维度的设计
实施
- 功能：基于组合维度来更加细化我们的指标，来更加精确的发现问题
  - 指标如果不基于组合维度进行分析得到，指标的结果是没有意义的
- 实现：开发中维度就是指标聚合时的分组字段

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

化的资料的朋友，可以添加V获取：vip204888 （备注大数据）**
[外链图片转存中…(img-BdLAgifL-1713381118859)]

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git