引言

  大数据集群管理方式分为手工方式和工具方式,手工方式一般指的是手动维护平台各个组件,工具方式是靠大数据集群管理软件对集群进行管理维护。本文针对于常见的方法和工具进行比较,帮助找到合适的工具,提升效率。

工具介绍

CDH

  CDH 是 Cloudera 公司提供的一种大数据平台解决方案。 CDH 的全称是 Cloudera’s Distribution including Apache Hadoop,它是一个开放源代码的大数据平台,基于 Apache Hadoop 和其他相关的开源技术构建,包括 HDFS、MapReduce、HBase、ZooKeeper、Hue、Oozie、Flume、Sqoop 等等。
  CDH 提供了一个完整的大数据解决方案,包括数据管理、数据处理、数据分析和数据可视化等方面,可以帮助用户快速搭建和部署大数据平台,支持多种数据源的处理和集成,同时提供了强大的安全性和可扩展性。值得一提的是 CDH 从6.3版本之后开始收费 。

官网地址:https://www.cloudera.com/

Ambari

  Apache Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.7.8。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop 和 Hcatalog 等,并且是完全开源的平台。

官网地址:https://ambari.apache.org/

DataSophon

   DataSophon 是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务,国产开源平台,支持完全离线部署,能支撑

官网地址:https://datasophon.github.io/datasophon-website/docs/current/%E6%A6%82%E8%A7%88

支持组件列表
还支持 Kyuubi(统一多租户JDBC网关)、Iceberg(适用于庞大数据集分析的开放式数据表格式)、Kerberos(计算机网络认证协议)

对比分析

试想下面几个问题:

  1. 如果有100台服务器的集群,至少要花费多长时间搭建好 Hadoop集群?包括 Hive、Hbase、Spark、Zookeeper、Kafka、Flink 等?
  2. 对于以上集群进行 Hadoop 版本升级,怎么选择升级方案?至少要花费多长时间?
  3. 新版本的 Hadoop 与 Hvie、Hbase、Kafka、Flink 等是否兼容?
  4. 如何对上述集群中已经运行中的主机和组件健康状态进行监控?

手工部署:需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切当设计多个组件时,用户须自己解决组件间版本兼容问题。

工具部署:使用工具可以说是一键操作,难点都在工具本身的部署上,但是工具也存在升级组件不受自己控制的弊端。

比较项 手工方式 工具方式
难易度 难,几乎不可能成功 简单,易行
兼容性 自己解决组件兼容性问题 自动安装兼容组件
组件支持数 支持全部组件 支持常用组件
监控运维 无,需要自建 支持常见组件的监控
优点 对组件和集群管理深刻 简单、容易、可行
缺点 太复杂,几乎不可能成功 屏蔽太多细节,妨碍对组件理解

组件之间对比:

工具项 所属机构 开源性 社区支持性 易用性 监控指标 可扩展性 原生支持组件 服务版本
CDH Cloudera 商用 不支持 较老
Ambari Apache 开源 支持 较易 较多 较强 较少 较新
DataSophon 国产 开源 支持 非常新
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐