数据库与hadoop的区别和联系

yuanxiaopang

4096人浏览 · 2012-10-11 16:25:29

yuanxiaopang · 2012-10-11 16:25:29 发布

考虑到这一点，让我们从特定的视角将Hadoop与典型SQL 数据库做更详细的比较。
1. 用向外扩展代替向上扩展
扩展商用关系型数据库的代价是非常昂贵的。它们的设计更容易向上扩展。要运行一个更大
的数据库，就需要买一个更大的机器。事实上，往往会看到服务器厂商在市场上将其昂贵的高端机
标称为“数据库级的服务器”。不过有时可能需要处理更大的数据集，却找不到一个足够大的机器。
更重要的是，高端的机器对于许多应用并不经济。例如，性能4倍于标准PC的机器，其成本将大大
超过将同样的4台PC放在一个集群中。Hadoop的设计就是为了能够在商用PC集群上实现向外扩展
的架构。添加更多的资源，对于Hadoop集群就是增加更多的机器。一个Hadoop集群的标配是十至
数百台计算机。事实上，如果不是为了开发目的，没有理由在单个服务器上运行Hadoop。
2. 用键/值对代替关系表

关系数据库的一个基本原则是让数据按某种模式存放在具有关系型数据结构的表中。虽然关

系模型具有大量形式化的属性，但是许多当前的应用所处理的数据类型并不能很好地适合这个模

型。文本、图片和XML文件是最典型的例子。此外，大型数据集往往是非结构化或半结构化的。
Hadoop使用键/值对作为基本数据单元，可足够灵活地处理较少结构化的数据类型。在Hadoop中，
数据的来源可以有任何形式，但最终会转化为键/值对以供处理。
3. 用函数式编程（MapReduce）代替声明式查询（SQL ）
SQL 从根本上说是一个高级声明式语言。查询数据的手段是，声明想要的查询结果并让数据库引擎

判定如何获取数据。在MapReduce中，实际的数据处理步骤是由你指定的，它很类似于SQL
引擎的一个执行计划。SQL 使用查询语句，而MapReduce则使用脚本和代码。利用MapReduce可
以用比SQL 查询更为一般化的数据处理方式。例如，你可以建立复杂的数据统计模型，或者改变
图像数据的格式。而SQL 就不能很好地适应这些任务。
另一方面，当数据处理非常适合于关系型数据结构时，有些人可能会发现使用MapReduce并
不自然。那些习惯于SQL 范式的人可能会发现用MapReduce来思考是一个挑战。我希望本书中的
练习和示例能帮你更轻松地掌握MapReduce编程。不过值得注意的是，这里还有很多扩展可用，
便于人们采用更熟悉的范式来编程，同时拥有Hadoop的可扩展性优势。事实上，使用某些扩展可
采用一种类似SQL 的查询语言，并自动将查询编译为可执行的MapReduce代码。我们将在第10 章
和第11 章介绍其中的一些工具。
4. 用离线批量处理代替在线处理
Hadoop是专为离线处理和大规模数据分析而设计的，它并不适合那种对几个记录随机读写的
在线事务处理模式。事实上，在本书写作时（以及在可预见的未来），Hadoop最适合一次写入、
多次读取的数据存储需求。在这方面它就像SQL 世界中的数据仓库。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git