《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.docxVIP

下载本文档

22
0
约1.16万字
约 4页
2021-10-10 发布于安徽
举报
版权申诉

《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop大数据开发实战教学设计课程名称：Hadoop大数据开发实战授课年级： ______ ______________ ___ 授课学期： ___ ____ ________ ________ 教师姓名： ______________ ________ 课程名称第3章 HDFS分布式文件系统计划学时 4学时内容分析本章主要介绍HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC 教学目标与教学要求要求学生掌握HDFS的架构和原理、掌握HDFS的Shell和Java API操作方法、了解Hadoop序列化、了解Hadoop小文件处理方式教学重点 HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC 教学难点 HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC 教学方式课堂讲解及ppt演示教学过程第一课时（HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS）回顾内容，引出本课时主题 1.回顾内容，引出本课时的主题上节学习了Hadoop集群搭建和使用，本节将学习HDFS分布式文件系统的相关知识。 Hadoop的核心是HDFS和MapReduce。HDFS由NDFS系统演变而来，主要解决海量大数据存储的问题，也是目前分布式文件系统中应用比较广泛的一个。本章将带领大家深刻理解和运用HDFS系统。 2.明确学习目标能够了解HDFS 能够理解HDFS数据的存储和读取方式能够掌握HDFS的特点能够掌握HDFS的存储架构和数据读写流程能够掌握HDFS的Shell命令能够掌握Java程序操作HDFS 知识讲解 HDFS的概念 HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式存储比普通存储方式节省时间。例如，现有10台计算机，每台计算机上有1TB的硬盘。如果将Hadoop安装在这10台计算机上，可以使用HDFS进行分布式的文件存储。相当于登录到一台具有10 TB存储容量的大型机器。而用HDFS分布式的文件存储方式在10台计算机上存储，显然比用普通方式在1台计算机上存储更节省时间，这就如同3个人吃3个苹果比1个人吃3个苹果要快。 1．NameNode NameNode（名称节点）管理文件系统的命名空间。它负责维护文件系统树及树内所有的文件和目录。这些信息以两个文件（命名空间镜像文件和编辑日志文件）的形式永久保存在本地磁盘上。同时NameNode也记录着每个文件中各个块所在的数据节点信息，但它并不永久保存块的位置信息，因为这些信息在系统启动时由数据节点重建。 2．DataNode DataNode（数据节点）是HDFS实例中在单独机器上运行的软件，Hadoop集群包含一个NameNode和大量的DataNode。一般情况下DataNode以机架的形式组织，机架通过一个交换机把所有的系统连接起来。Hadoop的一个假设是：机架内部节点之间的传输速度要快于机架间的传输速度。 DataNode响应来自HDFS 客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。NameNode依赖来自每个DataNode的定期心跳(Heartbeat)消息。每条消息都包含一个块报告，NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息，NameNode 将采取修复措施，重新复制在该节点上丢失的块。 HDFS数据的存储和读取方式（1）对于大文件的存储，HDFS采用分割的方式。HDFS将大文件分割到既定的存储块（Block）中进行存储，并通过本地设定的任务节点进行预处理。（2）对于大量小文件的存储，HDFS采用普通的编程与压缩方式。在实际工作中，更多时候是产生并存储大量的小文件。（3）对于普通文件的读取操作，HDFS采用分批次读取。（4）对于大量数据的读取，HDFS采用集中式存储的方式，存储时的优化使得读取能够在一个连续的区域内进行，节省读取数据的时间。（5）对于少量数据的随机读取，HDFS一般采用按序读取的方式，即先把少量的随机读取操作合并，后按顺序读取数据。 HDFS的特点 1.HDFS的优点（1）成本低。HDF

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

文档贡献者

副教授、一级建造师持证人

一线教师。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.docxVIP