《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.docxVIP

《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop大数据开发实战 教学设计 课程名称:Hadoop大数据开发实战 授课年级: ______ ______________ ___ 授课学期: ___ ____ ________ ________ 教师姓名: ______________ ________ 课程名称 第3章 HDFS分布式文件系统 计划学时 4学时 内容分析 本章主要介绍HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC 教学目标 与 教学要求 要求学生掌握HDFS的架构和原理、掌握HDFS的Shell和Java API操作方法、了解Hadoop序列化、了解Hadoop小文件处理方式 教学重点 HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC 教学难点 HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC 教学方式 课堂讲解及ppt演示 教 学 过 程 第一课时 (HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS) 回顾内容,引出本课时主题 1.回顾内容,引出本课时的主题 上节学习了Hadoop集群搭建和使用,本节将学习HDFS分布式文件系统的相关知识。 Hadoop的核心是HDFS和MapReduce。HDFS由NDFS系统演变而来,主要解决海量大数据存储的问题,也是目前分布式文件系统中应用比较广泛的一个。本章将带领大家深刻理解和运用HDFS系统。 2.明确学习目标 能够了解HDFS 能够理解HDFS数据的存储和读取方式 能够掌握HDFS的特点 能够掌握HDFS的存储架构和数据读写流程 能够掌握HDFS的Shell命令 能够掌握Java程序操作HDFS 知识讲解 HDFS的概念 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式存储比普通存储方式节省时间。 例如,现有10台计算机,每台计算机上有1TB的硬盘。如果将Hadoop安装在这10台计算机上,可以使用HDFS进行分布式的文件存储。相当于登录到一台具有10 TB存储容量的大型机器。而用HDFS分布式的文件存储方式在10台计算机上存储,显然比用普通方式在1台计算机上存储更节省时间,这就如同3个人吃3个苹果比1个人吃3个苹果要快。 1.NameNode NameNode(名称节点)管理文件系统的命名空间。它负责维护文件系统树及树内所有的文件和目录。这些信息以两个文件(命名空间镜像文件和编辑日志文件)的形式永久保存在本地磁盘上。同时NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息在系统启动时由数据节点重建。 2.DataNode DataNode(数据节点)是HDFS实例中在单独机器上运行的软件,Hadoop集群包含一个NameNode和大量的DataNode。一般情况下DataNode以机架的形式组织,机架通过一个交换机把所有的系统连接起来。Hadoop的一个假设是:机架内部 节点之间的传输速度要快于机架间的传输速度。 DataNode响应来自HDFS 客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。NameNode依赖来自每个DataNode的定期心跳(Heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。 HDFS数据的存储和读取方式 (1)对于大文件的存储,HDFS采用分割的方式。HDFS将大文件分割到既定的存储块(Block)中进行存储,并通过本地设定的任务节点进行预处理。 (2)对于大量小文件的存储,HDFS采用普通的编程与压缩方式。在实际工作中,更多时候是产生并存储大量的小文件。 (3)对于普通文件的读取操作,HDFS采用分批次读取。 (4)对于大量数据的读取,HDFS采用集中式存储的方式,存储时的优化使得读取能够在一个连续的区域内进行,节省读取数据的时间。 (5)对于少量数据的随机读取,HDFS一般采用按序读取的方式,即先把少量的随机读取操作合并,后按顺序读取数据。 HDFS的特点 1.HDFS的优点 (1)成本低。HDF

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档