04_尚硅谷大数据技术之Spark内核.pdfVIP

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档免费下载、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
尚硅谷大数据技术之Spark 内核 ————————————————————————————— 尚硅谷大数据技术之Spark 内核 版本:V3.0 作者:尚硅谷大数据研发部 更多Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 尚硅谷大数据技术之Spark 内核 ————————————————————————————— 第1 章Spark 内核概述 Spark 内核泛指Spark 的核心运行机制,包括Spark 核心组件的运行机制、Spark 任务调 度机制、Spark 内存管理机制、Spark 核心功能的运行原理等,熟练掌握Spark 内核原理,能 够帮助我们更好地完成Spark 代码设计,并能够帮助我们准确锁定项目运行过程中出现的问 题的症结所在。 1.1 Spark 核心组件回顾 1.1.1 Driver Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。 Driver 在Spark 作业执行时主要负责: 1) 将用户程序转化为作业(Job ); 2) 在Executor 之间调度任务(Task ); 3) 跟踪Executor 的执行情况; 4) 通过UI 展示查询运行情况; 1.1.2 Executor Spark Executor 对象是负责在Spark 作业中运行具体任务,任务彼此之间相互独立。Spark 应用启动时,ExecutorBackend 节点被同时启动,并且始终伴随着整个 Spark 应用的生命周 期而存在。如果有ExecutorBackend 节点发生了故障或崩溃,Spark 应用也可以继续执行, 会将出错节点上的任务调度到其他Executor 节点上继续运行。 Executor 有两个核心功能: 1) 负责运行组成Spark 应用的任务,并将结果返回给驱动器(Driver ); 2) 它们通过自身的块管理器(Block Manager )为用户程序中要求缓存的 RDD 提供内存 式存储。RDD 是直接缓存在Executor 进程内的,因此任务可以在运行时充分利用缓存 数据加速运算。 更多Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 尚硅谷大数据技术之Spark 内核 ————————————————————————————— 1.2 Spark 通用运行流程概述 上图为Spark 通用运行流程图,体现了基本的Spark 应用程序在部署中的基本提交流程。 这个流程是按照如下的核心步骤进行工作的: 1) 任务提交后,都会先启动Driver 程序; 2) 随后Driver 向集群管理器注册应用程序; 3) 之后集群管理器根据此任务的配置文件分配Executor 并启动; 4) Driver 开始执行main 函数,Spark 查询为懒执行,当执行到Action 算子时开始反向推 算,根据宽依赖进行Stage 的划分,随后每一个Stage 对应一个Taskset,Taskset 中有多 个Task,查找可用资源Executor 进行调度; 5) 根据本地化原则,Task 会被分发到指定的 Executor 去执行,在任务执行的过程中, Executor 也会不断与Driver 进行通信,报告任务运行情况。 更多Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 尚硅谷大数据技术之Spark 内核 ————————————————————————————— 第2 章 Spark 部署模式

文档评论(0)

Tom + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档免费下

相关文档

相关课程推荐