spark提交任务流程

liuhanyuu

已于 2023-04-29 18:08:37 修改

阅读量1.6k

收藏 4

点赞数

文章标签： spark 大数据 hadoop

于 2023-04-28 16:52:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/m0_37967990/article/details/130429258

版权

spark提交代码的两种方式：Standalone、Yarn

独立部署（Standalone）模式由spark自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但spark主要是计算框架，不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。

Standalone

1、standalone-client提交任务方式

--master spark://node1:7077

--deploy-mode client

总结：

client模式适用于测试调试程序。Driver进程是在客户端启动的，这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task执行的情况。生产环境下不能使用client模式，是因为：假设要提交100个application到集群运行，Driver每次都会在client端启动，那么就会导致客户端100次网卡流量暴增的问题。

2、standalone-cluster提交任务方式

--master spark://node1:7077

--deploy-mode cluster

总结：

Driver进程是在集群某一台Worker上启动的，在客户端是无法查看task的执行情况的。假设要提交100个application到集群运行,每次Driver会随机在集群中某一台Worker上启动，那么这100次网卡流量暴增的问题就散布在集群上。

总结Standalone两种方式提交任务，Driver与集群的通信包括

Driver负责应用程序资源的申请

任务的分发。

结果的回收。

监控task执行情况。

Spark on Yarn

Client模式：

用户在本地客户端机器上通过spark-submit命令提交Spark任务。
在提交命令中，用户指定YARN为集群管理器，并设置模式为Client模式。
spark-submit将用户的应用程序打包，并将依赖、配置文件和资源上传到HDFS。
Driver程序在客户端机器上启动，然后向YARN ResourceManager发送启动ApplicationMaster的请求。
ResourceManager根据请求启动一个ApplicationMaster实例，同时为其分配一个容器。
ApplicationMaster向ResourceManager申请计算资源，以便启动Executor。
ResourceManager为Executor分配资源，并在各个节点上启动Executor容器。
Driver程序将Spark应用程序的任务划分为多个TaskSet，然后将这些任务分发给已启动的Executor。
Executor开始执行任务，处理数据，并根据需要与其他Executor之间进行数据交换（Shuffle）。
在任务执行期间，Driver程序会实时监控任务进度和状态。
当所有任务完成后，Driver程序会收集和处理任务执行结果，并输出结果。
最后，Driver程序会通知ApplicationMaster关闭，并释放Executor和其他资源。

Cluster模式：

用户在本地客户端机器上通过spark-submit命令提交Spark任务。
在提交命令中，用户指定YARN为集群管理器，并设置模式为Cluster模式。
spark-submit将用户的应用程序打包，并将依赖、配置文件和资源上传到HDFS。
Driver程序将在ApplicationMaster中运行。向YARN ResourceManager发送启动ApplicationMaster的请求。
ResourceManager根据请求启动一个ApplicationMaster实例，同时为其分配一个容器。
ApplicationMaster（同时包含Driver程序）启动后，向ResourceManager申请计算资源，以便启动Executor。
ResourceManager为Executor分配资源，并在各个节点上启动Executor容器。
Driver程序将Spark应用程序的任务划分为多个TaskSet，然后将这些任务分发给已启动的Executor。
Executor开始执行任务，处理数据，并根据需要与其他Executor之间进行数据交换（Shuffle）。
在任务执行期间，Driver程序会实时监控任务进度和状态。
当所有任务完成后，Driver程序会收集和处理任务执行结果，并输出结果。
最后，Driver程序会通知ApplicationMaster关闭，并释放Executor和其他资源。

总结：两种模式的主要区别在于Driver程序运行的位置。在Client模式下，Driver程序运行在提交任务的客户端机器上。在Cluster模式下，Driver程序运行在ApplicationMaster中。其他执行步骤基本相同。

"cluster模式"和"client模式"主要指的是运行Spark应用程序时，Driver程序所在的位置不同。以下是它们之间的主要区别：

Driver程序位置：

Cluster模式：Driver程序在集群中运行，通常由集群管理器（如YARN、Mesos或Standalone）启动。在YARN中，Driver程序会运行在一个由ApplicationMaster管理的容器中。

Client模式：Driver程序在提交Spark任务的客户端机器上运行。这意味着客户端机器需要保持在线，直到Spark应用程序完成。

任务监控：

Cluster模式：由于Driver程序在集群中运行，任务的监控和管理可以在集群内完成，与提交任务的客户端机器无关。即使客户端机器断开连接，应用程序也会继续运行。

Client模式：在此模式下，Driver程序在客户端机器上运行，因此任务的监控和管理需要在客户端机器上进行。如果客户端机器不可用，那么整个应用程序可能受到影响。

资源分配和管理：

Cluster模式：集群管理器负责为Driver程序和Executor分配资源。这意味着整个应用程序的资源使用情况都由集群管理器控制，可以更好地进行资源调度和管理。

Client模式：Driver程序在客户端机器上运行，而Executor仍然由集群管理器分配资源。这可能导致资源分配和管理不够集中，影响整个应用程序的性能。

日志和调试：

Cluster模式：Driver程序和Executor的日志都存储在集群中，可以通过集群管理器的监控界面查看。这使得日志分析和故障排查变得更加集中化。

Client模式：Driver程序的日志在客户端机器上生成，而Executor的日志仍然存储在集群中。这可能使日志分析和故障排查变得更加分散。

总之，在选择cluster模式还是client模式时，需要根据具体的应用场景和需求进行权衡。Cluster模式更适合于生产环境，因为它可以更好地管理资源、监控任务并集中处理日志。而Client模式则适用于开发和调试阶段，因为它能够更方便地查看Driver程序的输出和日志。

停止集群任务命令：yarn application -kill applicationID

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

liuhanyuu CSDN认证博客专家 CSDN认证企业博客

17: 原创

134万+: 周排名

63万+: 总排名

3万+: 访问

: 等级

187: 积分

5: 粉丝

8: 获赞

1: 评论

50: 收藏

写文章

分类专栏

socket

最新评论

Spark中driver、executor、master、worker的关系
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java

最新文章

JVM内存结构
nginx转发实现过程中的问题总结
CAP理论与ZooKeeper

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

玻璃钢生产厂家商场美陈图片6 广东装饰商场美陈售价池州景区玻璃钢雕塑定制龙泉玻璃钢关公雕塑浙江商场美陈供应玻璃钢雕塑甜瓜图片泉州做玻璃钢雕塑拱墅区玻璃钢金属雕塑私人定做云浮玻璃钢人物雕塑公司鹤壁校园玻璃钢雕塑安顺商场美陈布展玻璃钢蘑菇雕塑定制哪家加工玻璃钢雕塑大理市玻璃钢雕塑报价芒市玻璃钢雕塑生产厂家南通玻璃钢花盆制作玻璃钢狼人雕塑哪家好海南玻璃钢雕塑设计及定制发光玻璃钢雕塑怎么做福建玻璃钢花盆研发公司门头玻璃钢雕塑工程中式玻璃钢雕塑永州市玻璃钢雕塑定制周年商场美陈采购大理玻璃钢雕塑供应商蜘蛛侠玻璃钢雕塑铸造玻璃钢卡通雕塑小品云南佛像玻璃钢雕塑图片上海美陈最多的商场晋城玻璃钢雕塑制作厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤司机系学生 315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人？张立群任西安交通大学校长杨倩无缘巴黎奥运 “重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身！外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒投喂者赔24万房客欠租失踪房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫：哈马斯三号人物被杀测试车高速逃费小米：已补缴老人退休金被冒领16年金额超20万

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化