终极无敌大数据技术之认识spark

这些开发者一般有基本的软件工程概念，比如封装、接口设计以及面向对象的编程思想，他们通常有计算机专业的背景，并且能使用工程技术来设计和搭建软件系统，以实现业务用例。spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通用性强：在Spark的基础上，Spark还提供了包括Spark SQL、Spark S

Night-night

833人浏览 · 2024-03-04 14:42:04

Night-night · 2024-03-04 14:42:04 发布

1.什么是spark

spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通过在一个统一的框架下支持这些不同的计算，spark使我们可以简单而低耗地把各种处理流程整合在一起。

2.spark的用途

数据科学任务：具备 SQL、统计、预测建模（机器学习）等方面的经验，以及一定的python，matlab，R语言能力的数据科学家对数据进行分析，以回答问题或发现一些潜在规律。

数据处理任务：Spark 的另一个主要用例是针对工程师的。在这里，我们把工程师定义为使用 Spark 开发生产环境中的数据处理应用的软件开发者。这些开发者一般有基本的软件工程概念，比如封装、接口设计以及面向对象的编程思想，他们通常有计算机专业的背景，并且能使用工程技术来设计和搭建软件系统，以实现业务用例。

3.spark的特点

spark有四个特点

速度快：由于Apache Spark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍。

易于使用：Spark的版本已经更新到了Spark3.1.2（截止日期2021.06.01），支持了包括Java、Scala、Python、R和SQL语言在内的多种语言。为了兼容Spark2.x企业级应用场景，Spark仍然持续更新Spark2版本。

通用性强：在Spark的基础上，Spark还提供了包括Spark SQL、Spark Streaming、MLib及GraphX在内的多个工具库，我们可以在一个应用中无缝的使用这些工具库。

运行方式：Spark支持多种运行方式，包括在Hadoop和Mesos上，也支持Standalone的独立运行模式，同时也可以运行在云Kubernets（Spark2.3开始支持）上对于数据源而言，Spark支持从HDFS、HBase、Cassandra及Kafka等多种途径获取和数据。

spark架构与yarn

架构及生态：

通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存，而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算，有时我们可能需要处理的数据量并不大，但是计算很复杂，需要大量的时间，这时我们也可以选择利用spark集群强大的计算资源，并行化地计算，其架构示意图如下：
Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。
Spark Streaming：对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据
MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作
Spark架构的组成图如下：
Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器
Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。
Driver：运行Application 的main()函数
Executor：执行器，是为某个Application运行在worker node上的一个进程

Spark与hadoop:

Hadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块Mapreduce
spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS
Hadoop的Mapreduce与spark都可以进行数据计算，而相比于Mapreduce，spark的速度更快并且提供的功能更加丰富
关系图如下：

运行流程及特点：

spark运行流程图如下：

构建Spark Application的运行环境，启动SparkContext
SparkContext向资源管理器（可以是Standalone，Mesos，Yarn）申请运行Executor资源，并启动StandaloneExecutorbackend，
Executor向SparkContext申请Task
SparkContext将应用程序分发给Executor
SparkContext构建成DAG图，将DAG图分解成Stage、将Taskset发送给Task Scheduler，最后由Task Scheduler将Task发送给Executor运行
Task在Executor上运行，运行完释放所有资源

Spark运行特点：

每个Application获取专属的executor进程，该进程在Application期间一直驻留，并以多线程方式运行Task。这种Application隔离机制是有优势的，无论是从调度角度看（每个Driver调度他自己的任务），还是从运行角度看（来自不同Application的Task运行在不同JVM中），当然这样意味着Spark Application不能跨应用程序共享数据，除非将数据写入外部存储系统
Spark与资源管理器无关，只要能够获取executor进程，并能保持相互通信就可以了
提交SparkContext的Client应该靠近Worker节点（运行Executor的节点），最好是在同一个Rack里，因为Spark Application运行过程中SparkContext和Executor之间有大量的信息交换
Task采用了数据本地性和推测执行的优化机制

常用术语:

Application: Appliction都是指用户编写的Spark应用程序，其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码
Driver: Spark中的Driver即运行上述Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中有SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭，通常用SparkContext代表Driver
Executor: 某个Application运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Application都有各自独立的一批Executor，在Spark on Yarn模式下，其进程名称为CoarseGrainedExecutor Backend。一个CoarseGrainedExecutor Backend有且仅有一个Executor对象，负责将Task包装成taskRunner,并从线程池中抽取一个空闲线程运行Task，这个每一个oarseGrainedExecutor Backend能并行运行Task的数量取决与分配给它的cpu个数
Cluter Manager：指的是在集群上获取资源的外部服务。目前有三种类型

1. Standalon : spark原生的资源管理，由Master负责资源的分配
2. Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
3. Hadoop Yarn: 主要是指Yarn中的ResourceManager

Worker: 集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过slave文件配置的Worker节点，在Spark on Yarn模式下就是NoteManager节点
Task: 被送到某个Executor上的工作单元，但hadoopMR中的MapTask和ReduceTask概念一样，是运行Application的基本单位，多个Task组成一个Stage，而Task的调度和管理等是由TaskScheduler负责
Job: 包含多个Task组成的并行计算，往往由Spark Action触发生成，一个Application中往往会产生多个Job
Stage: 每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage，Stage的划分和调度是有DAGScheduler来负责的，Stage有非最终的Stage（Shuffle Map Stage）和最终的Stage（Result Stage）两种，Stage的边界就是发生shuffle的地方
DAGScheduler: 根据Job构建基于Stage的DAG（Directed Acyclic Graph有向无环图)，并提交Stage给TASkScheduler。其划分Stage的依据是RDD之间的依赖的关系找出开销最小的调度方法，如下图
TASKSedulter: 将TaskSET提交给worker运行，每个Executor运行什么Task就是在此处分配的. TaskScheduler维护所有TaskSet，当Executor向Driver发生心跳时，TaskScheduler会根据资源剩余情况分配相应的Task。另外TaskScheduler还维护着所有Task的运行标签，重试失败的Task。下图展示了TaskScheduler的作用
在不同运行模式中任务调度器具体为：

1. Spark on Standalone模式为TaskScheduler
2. YARN-Client模式为YarnClientClusterScheduler
3. YARN-Cluster模式为YarnClusterScheduler

将这些术语串起来的运行层次图如下：
Job=多个stage，Stage=多个同种task, Task分为ShuffleMapTask和ResultTask，Dependency分为ShuffleDependency和NarrowDependency

Spark运行模式：

Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。
对于外部资源调度框架的支持，目前的实现包括相对稳定的Mesos模式，以及hadoop YARN模式
本地模式：常用于本地开发测试，本地还分别 local 和 local cluster

standalone: 独立集群运行模式

Standalone模式使用Spark自带的资源调度框架
采用Master/Slaves的典型架构，选用ZooKeeper来实现Master的HA
框架结构图如下:
该模式主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中，也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时，Driver在Master节点上运行；当使用spark-submit工具提交Job或者在Eclips、IDEA等开发平台上使用”new SparkConf.setManager(“spark://master:7077”)”方式运行Spark任务时，Driver是运行在本地Client端上的
运行过程如下图：（参考至：http://blog.csdn.net/gamer_gyt/article/details/51833681）

SparkContext连接到Master，向Master注册并申请资源（CPU Core 和Memory）
Master根据SparkContext的资源申请要求和Worker心跳周期内报告的信息决定在哪个Worker上分配资源，然后在该Worker上获取资源，然后启动StandaloneExecutorBackend；
StandaloneExecutorBackend向SparkContext注册；
SparkContext将Applicaiton代码发送给StandaloneExecutorBackend；并且SparkContext解析Applicaiton代码，构建DAG图，并提交给DAG Scheduler分解成Stage（当碰到Action操作时，就会催生Job；每个Job中含有1个或多个Stage，Stage一般在获取外部数据和shuffle之前产生），然后以Stage（或者称为TaskSet）提交给Task Scheduler，Task Scheduler负责将Task分配到相应的Worker，最后提交给StandaloneExecutorBackend执行；
StandaloneExecutorBackend会建立Executor线程池，开始执行Task，并向SparkContext报告，直至Task完成
所有Task完成后，SparkContext向Master注销，释放资源

yarn: （参考：http://blog.csdn.net/gamer_gyt/article/details/51833681）

Spark on YARN模式根据Driver在集群中的位置分为两种模式：一种是YARN-Client模式，另一种是YARN-Cluster（或称为YARN-Standalone模式）
Yarn-Client模式中，Driver在客户端本地运行，这种模式可以使得Spark Application和客户端进行交互，因为Driver在客户端，所以可以通过webUI访问Driver的状态，默认是http://hadoop1:4040访问，而YARN通过http:// hadoop1:8088访问
YARN-client的工作流程步骤为：
Spark Yarn Client向YARN的ResourceManager申请启动Application Master。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等，由于我们选择的是Yarn-Client模式，程序会选择YarnClientClusterScheduler和YarnClientSchedulerBackend
ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，与YARN-Cluster区别的是在该ApplicationMaster不运行SparkContext，只与SparkContext进行联系进行资源的分派
Client中的SparkContext初始化完毕后，与ApplicationMaster建立通讯，向ResourceManager注册，根据任务信息向ResourceManager申请资源（Container）
一旦ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向Client中的SparkContext注册并申请Task
client中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向Driver汇报运行的状态和进度，以让Client随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务
应用程序运行完成后，Client的SparkContext向ResourceManager申请注销并关闭自己

Spark Cluster模式:

在YARN-Cluster模式中，当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序：

1. 第一个阶段是把Spark的Driver作为一个ApplicationMaster在YARN集群中先启动；
2. 第二个阶段是由ApplicationMaster创建应用程序，然后为它向ResourceManager申请资源，并启动Executor来运行Task，同时监控它的整个运行过程，直到运行完成

YARN-cluster的工作流程分为以下几个步骤
Spark Yarn Client向YARN中提交应用程序，包括ApplicationMaster程序、启动ApplicationMaster的命令、需要在Executor中运行的程序等
ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，其中ApplicationMaster进行SparkContext等的初始化
ApplicationMaster向ResourceManager注册，这样用户可以直接通过ResourceManage查看应用程序的运行状态，然后它将采用轮询的方式通过RPC协议为各个任务申请资源，并监控它们的运行状态直到运行结束
一旦ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向ApplicationMaster中的SparkContext注册并申请Task。这一点和Standalone模式一样，只不过SparkContext在Spark Application中初始化时，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler进行任务的调度，其中YarnClusterScheduler只是对TaskSchedulerImpl的一个简单包装，增加了对Executor的等待逻辑等
ApplicationMaster中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向ApplicationMaster汇报运行的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务
应用程序运行完成后，ApplicationMaster向ResourceManager申请注销并关闭自己

Spark Client 和 Spark Cluster的区别:

理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念：Application Master。在YARN中，每个Application实例都有一个ApplicationMaster进程，它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源，获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YARN-Cluster和YARN-Client模式的区别其实就是ApplicationMaster进程的区别
YARN-Cluster模式下，Driver运行在AM(Application Master)中，它负责向YARN申请资源，并监督作业的运行状况。当用户提交了作业之后，就可以关掉Client，作业会继续在YARN上运行，因而YARN-Cluster模式不适合运行交互类型的作业
YARN-Client模式下，Application Master仅仅向YARN请求Executor，Client会和请求的Container通信来调度他们工作，也就是说Client不能离开
Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行模式。今天主要对Spark on Yarn 这种方式做讲解。

yarn模式两种提交任务方式
Spark可以和Yarn整合，将Application提交到Yarn上运行，Yarn有两种提交任务的方式。

yarn-client提交任务方式
配置：

在client节点配置中spark-env.sh添加Hadoop_HOME的配置目录即可提交yarn 任务，具体步骤如下：

注意client只需要有Spark的安装包即可提交任务，不需要其他配置（比如slaves）

提交命令

./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100

./spark-submit --master yarn-lient --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100

./spark-submit --master yarn --deploy-mode client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100

1
2
3
4
5
6

执行流程：

1.客户端提交一个Application，在客户端启动一个Driver进程。

2.Driver进程会向RS(ResourceManager)发送请求，启动AM(ApplicationMaster)。

3.RS收到请求，随机选择一台NM(NodeManager)启动AM。这里的NM相当于Standalone中的Worker节点。

4.AM启动后，会向RS请求一批container资源，用于启动Executor。

5.RS会找到一批NM返回给AM,用于启动Executor。
AM会向NM发送命令启动Executor。

6.Executor启动后，会反向注册给Driver，Driver发送task到Executor,执行情况和结果返回给Driver端。

小结：
1、Yarn-client模式同样是适用于测试，因为Driver运行在本地，Driver会与yarn集群中的Executor进行大量的通信，会造成客户机网卡流量的大量增加.

2、 ApplicationMaster的作用：

为当前的Application申请资源

给NodeManager发送消息启动Executor。

注意：ApplicationMaster有launchExecutor和申请资源的功能，并没有作业调度的功能。

yarn-cluster提交任务方式
提交命令

./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100

./spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100
1
2
3

执行流程：

1.客户机提交Application应用程序，发送请求到RS(ResourceManager),请求启动AM(ApplicationMaster)。

2.RS收到请求后随机在一台NM(NodeManager)上启动AM（相当于Driver端）。

3.AM启动，AM发送请求到RS，请求一批container用于启动Executor。

3.RS返回一批NM节点给AM。

4.AM连接到NM,发送请求到NM启动Executor。

5.Executor反向注册到AM所在的节点的Driver。Driver发送task到Executor。

小结

1.Yarn-Cluster主要用于生产环境中，因为Driver运行在Yarn集群中某一台nodeManager中，每次提交任务的Driver所在的机器都是随机的，不会产生某一台机器网卡流量激增的现象，缺点是任务提交后不能看到日志。只能通过yarn查看日志。

2.ApplicationMaster的作用：

为当前的Application申请资源

给nodemanager发送消息启动Excutor。

任务调度。(这里和client模式的区别是AM具有调度能力，因为其就是Driver端，包含Driver进程)

资源分配
YARN的RM负责管理整个集群，NM则负责管理该工作节点。

YARN的NM可分配core数（即可以分给Container的最大CPU核数）由参数yarn.nodemanager.resource.cpu-vcores指定，一般要小于本节点的物理CPU核数，因为要预留一些资源给其他任务。Hadoop集群工作节点一般都是同构的，即配置相同。NM可分配给Container的最大内存则由参数yarn.nodemanager.resource.memory-mb指定，默认情况下，可分配内存会小于本机内存*0.8。

注意，分配给作业的资源不要超过YARN可分配的集群资源总数。注意：分配给单个Container的核数和内存不能超过阈值，即为Executor设置的核数和内存不能超过阈值。若分配给作业的资源超过上限，将不会启动指定数目的Executor（也就是说，不会起足够数目的Container）。

YARN 在 Hadoop 集群中充当资源管理和任务调度的框架，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

上图中灰色背景区域是 YARN 的主要架构，主要包含两种角色

2.1 YARN 的主要架构、两种角色
1、ResourceManager

整个集群的大脑，负责为应用调度资源，管理应用生命周期。
对用户提供接口，包括命令行接口，API, WebUI 接口。
可以同时存在多个 RM，但同一时间只有一个在工作，RM 之间通过 ZK 选主。
ResourceManager是master上的进程，负责整个分布式系统的资源管理和调度。他会处理来自client端的请求（包括提交作业/杀死作业）；启动/监控Application Master；监控NodeManager的情况，比如可能挂掉的NodeManager。
2、NodeManager

为整个集群提供资源，接受 Container 运行。

管理 Contianer 的运行时生命周期，包括 Localization，资源隔离，日志聚合等。

NodeManager时处在slave节点上的进程，他只负责当前slave节点的资源管理和调度，以及task的运行。他会定期向ResourceManager回报资源/Container的情况（heartbeat）；接受来自ResourceManager对于Container的启停命令。

3、Application Master

每一个提交到集群的作业application都会有一个与之对应的Application Master来负责应用程序的管理。它是Appliaction启动的第一个容器，他负责进行数据切分；为当前应用程序向ResourceManager去申请资源（也就是Container），分配资源，并分配给具体的任务；与NodeManager通信，同时通知NodeManager来为Application启动container，用来启停具体的任务，任务运行在Container中；而任务的监控和容错也是由Application Master来负责的。 Application Master避免了需要一个活动的client来维持，启动Applicatin的client可以随时退出，而由Yarn管理的进程继续在集群中运行

4、Container

它包含了Application Master向ResourceManager申请的计算资源，比如说CPU/内存的大小，以及任务运行所需的环境变量和队任务运行情况的描述。AM也是在container上运行的，不过AM的container是RM申请的。

YARN 上运行的作业:
在运行时会访问外部的数据服务，常见的如 HDFS，Kafka 等

会在运行结束后由 YARN 负责将日志上传到 HDFS 中

工作流程：

（1）Client向ResourceManager提交作业（可以是Spark/Mapreduce作业）

（2）ResourceManager与NodeManager通信，ResourceManager会为这个作业分配一个container

（3）ResourceManager与NodeManager通信，要求NodeManger在刚刚分配好的container上启动应用程序的Application Master

（4）Application Master先去向ResourceManager注册，而后ResourceManager会为各个任务申请资源，并监控运行情况

（5）Application Master采用轮询（polling）方式向ResourceManager申请并领取资源（通过RPC协议通信）

(6) Application Manager申请到了资源以后，就和NodeManager通信，要求NodeManager启动任务

最后，NodeManger启动作业对应的任务。

2.2、yarn任务调度策略
Yarn 中实现的调度策略有三种：

FIFO（先进先出）
capacity scheduler（容量调度）
fair scheduler（公平调度）
（1）FIFO Scheduler：

将所有application 按提交的顺序排队，先进先出

优点：简单易懂且不用任何配置
缺点：不适合于shared clusters；大的应用会将集群资源占满从而导致大量应用等待
小结：

1、一个队列可以使用yarn的全部资源；
2、后提交的任务必须等前面的任务运行完成之后，才可以得到资源并执行。

（2）Capacity Scheduler （容量调度）

将application 划分为多条任务队列，每条队列拥有相应的资源在队列的内部，资源分配遵循FIFO 策略队列资源支持弹性调整：一个队列的空闲资源可以分配给“饥饿”队列（注意：一旦之前的空闲队列需求增长，因为不支持“先占”，不能强制kill 资源container，则需要等待其他队列释放资源；为防止这种状况的出现，可以配置队列最大资源进行限制）
任务队列支持继承结构

小结：

最大化集群吞吐量

•核心思想
集群资源由多个队列分享
空闲队列可以把资源“借”给忙队列
需要时可以取回

•调度策略
应该获得的资源/实际获得的资源，选择比值最低的队列
队列内FIFO
考虑限制：单个用户使用资源、使用其他队列资源

（3）Fair Scheduler（公平调度）

不需要为特定small application 保留资源，而是在需要执行时进行动态公平分配；动态资源分配有一个延后，因为需要等待large job 释放一部分资源 Small job 资源使用完毕后，large job 可以再次获得全部资源 Fair Scheduler 也支持在application queue 之间进行调度

小结：
多用户公平共享集群资源

•作业池
–每个用户单独资源池
–作业放进共享资源池
–每个作业最低资源保障

•调度策略
–默认FIFO
–队列内调度策略可配置

Fair调度器的设计目标是为所有的应用分配公平的资源（对公平的定义可以通过参数来设置）。

在上面的“Yarn调度器对比图”展示了一个队列中两个应用的公平调度；当然，公平调度在也可以在多个队列间工作。

举个例子，假设有两个用户A和B，他们分别拥有一个队列。当A启动一个job而B没有任务时，A会获得全部集群资源；当B启动一个job后，A的job会继续运行，不过一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个job并且其它job还在运行，则它将会和B的第一个job共享B这个队列的资源，也就是B的两个job会用于四分之一的集群资源，而A的job仍然用于集群一半的资源，结果就是资源最终在两个用户之间平等的共享。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git