《Hadoop大数据开发实战》教学教案—04MapReduce分布式计算框架.docxVIP

《Hadoop大数据开发实战》教学教案—04MapReduce分布式计算框架.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop大数据开发实战 教学设计 课程名称:Hadoop大数据开发实战 授课年级: ______ ______________ ___ 授课学期: ___ ____ ________ ________ 教师姓名: ______________ ________ 课程名称 第4章 MapReduce分布式计算框架 计划学时 6学时 内容分析 本章主要介绍认识MapReduce、MapReduce编程组件、MapReduce作业解析、MapReduce工作原理、Shuffle阶段、优化—数据倾斜、MapReduce典型案例—排序、MapReduce典型案例—倒排索引、MapReduce典型案例—连接、MapReduce典型案例—平均分以及百分比、MapReduce典型案例—过滤敏感词汇 教学目标 与 教学要求 要求学生理解MapReduce的基本原理、理解MapReduce经典案例WorldCount的实现原理、掌握MapReduce运行流程、掌握MapReduce程序设计方法 教学重点 MapReduce编程组件、MapReduce作业解析、MapReduce工作原理、Shuffle阶段、优化—数据倾斜、MapReduce典型案例—排序、MapReduce典型案例—倒排索引、MapReduce典型案例—连接、MapReduce典型案例—平均分以及百分比、MapReduce典型案例—过滤敏感词汇 教学难点 MapReduce编程组件、MapReduce作业解析、MapReduce工作原理、Shuffle阶段、优化—数据倾斜、MapReduce典型案例—排序、MapReduce典型案例—倒排索引、MapReduce典型案例—连接、MapReduce典型案例—平均分以及百分比、MapReduce典型案例—过滤敏感词汇 教学方式 课堂讲解及ppt演示 教 学 过 程 第一课时 (认识MapReduce、MapReduce编程组件) 回顾内容,引出本课时主题 1.回顾内容,引出本课时的主题 上节学习了HDFS分布式文件系统,Hadoop的数据处理核心为 MapReduce分布式计算框架。这一框架的出现,使得编程人员在不熟悉分布式并行编程的情况下,可以将自己的程序运行在分布式系统上来处理海量的数据,因此大数据开发人员需要重点掌握MapReduce的基本原理。 2.明确学习目标 能够了解MapReduce核心思想 能够理解MapReduce编程模型 能够掌握MapReduce编程案例—WorldCount 能够掌握InputFormat组件和OutputFormat组件 知识讲解 MapReduce核心思想 MapReduce核心思想将大数据分而治之,即将数据通过一定的数据划分方法,分成多个较小的具有同样计算过程的数据块,数据块之间不存在依赖关系,将每一个数据块分给不同的节点去处理,最后将处理的结果进行汇总 具体来说,对大量顺序式数据元素或者记录进行扫描和对每个数据元素或记录做相应的处理并获得中间结果信息的两个过程抽象为Map操作;将对中间结果进行收集整理和产生最终结果并输出的过程被抽象为Reduce操作。 MapReduce提供统一框架来隐藏系统层的细节,实现了自动并行处理,如计算任务的自动划分和调度、数据的自动化分布式存储和划分、处理数据与计算任务的同步、结果数据的收集整理、系统通信、负载平衡、计算性能优化处理、处理节点出错检测和失效恢复等。 MapReduce编程模型 MapReduce是一种分布式离线并行计算框架,主要用于大规模数据集(大于1TB)的并行计算。Hadoop MapReduce可以看作Google MapReduce的克隆版。 MapReduce的特点是易于编程,具有良好的扩展性,具有高容错性,适合PB级以上海量数据的离线处理。MapReduce的两大核心思想是Map(映射)和Reduce(化简)。基于这两大核心思想,MapReduce把数据处理流程分成两个主要阶段:Map阶段和Reduce阶段。 Map 阶段负责对数据进行预处理,具体是指通过特定的输入格式读取文件数据,将读取的数据以键值(Key-Value,K-V)对的形式进行保存。 Reduce 阶段负责对数据进行聚合处理,具体是指通过对Map阶段保存的数据进行归并、排序等,计算出想要的结果。 MapReduce的整体结构如图所示。 从结构图中可以看出MapReduce 处理过程。 (1) Map阶段对数据进行分块或分片处理。 (2) 将数据信息交给Map任务去进行读取。 (3) 对数据进行分类后写入,根据不同的键产生相应的键值对数据。 (4) 进入Reduce阶段,执行定义的算法,使用相同键的值从

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档