【大数据 湖仓一体】数据仓库 VS 数据湖
湖仓一体=配备元数据层和加速层的对象存储+数据仓库、大数据、AI、HPC等各个领域的计算引擎+包含SQL在内的多种接口。
·
数据仓库和数据湖套用前文的公式归纳为:
数据仓库 = 结构化数据存储系统 + 内置计算引擎 + SQL 接口
数据湖 = 原始数据存储系统 + 多种计算引擎 + 包含 SQL 在内的多种接口
- 数据仓库和数据湖就好比是手机届的 iOS 和 Andriod: 数据仓库好比
iOS,是一个相对封闭的体系,数据流入流出、使用场景约束较多,但胜在简单易用,封闭的体系控制力更强,较容易做存储格式、计算并行等性能上的优化,在一些要求极致性能的查询场景仍占据着主导地位。 - 数据湖好比 Android,强调开放性,几乎把选择的权利都下放给用户了,可以选择的手机厂商 (计算引擎)
也很多,但用好它需要用户一定的专业能力,用不好会有副作用,很容易导致 “数据沼泽 (Data Swamp)”。
湖仓一体 = 配备元数据层和加速层的对象存储 + 数据仓库、大数据、AI、HPC 等各个领域的计算引擎 + 包含SQL 在内的多种接口
更多推荐
所有评论(0)