- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop大数据开发实战
教学设计
课程名称:Hadoop大数据开发实战
授课年级: ______ ______________ ___
授课学期: ___ ____ ________ ________
教师姓名: ______________ ________
课程名称
第3章 HDFS分布式文件系统
计划学时
4学时
内容分析
本章主要介绍HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC
教学目标
与
教学要求
要求学生掌握HDFS的架构和原理、掌握HDFS的Shell和Java API操作方法、了解Hadoop序列化、了解Hadoop小文件处理方式
教学重点
HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC
教学难点
HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC
教学方式
课堂讲解及ppt演示
教
学
过
程
第一课时
(HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS)
回顾内容,引出本课时主题
1.回顾内容,引出本课时的主题
上节学习了Hadoop集群搭建和使用,本节将学习HDFS分布式文件系统的相关知识。 Hadoop的核心是HDFS和MapReduce。HDFS由NDFS系统演变而来,主要解决海量大数据存储的问题,也是目前分布式文件系统中应用比较广泛的一个。本章将带领大家深刻理解和运用HDFS系统。
2.明确学习目标
能够了解HDFS
能够理解HDFS数据的存储和读取方式
能够掌握HDFS的特点
能够掌握HDFS的存储架构和数据读写流程
能够掌握HDFS的Shell命令
能够掌握Java程序操作HDFS
知识讲解
HDFS的概念
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式存储比普通存储方式节省时间。
例如,现有10台计算机,每台计算机上有1TB的硬盘。如果将Hadoop安装在这10台计算机上,可以使用HDFS进行分布式的文件存储。相当于登录到一台具有10 TB存储容量的大型机器。而用HDFS分布式的文件存储方式在10台计算机上存储,显然比用普通方式在1台计算机上存储更节省时间,这就如同3个人吃3个苹果比1个人吃3个苹果要快。
1.NameNode
NameNode(名称节点)管理文件系统的命名空间。它负责维护文件系统树及树内所有的文件和目录。这些信息以两个文件(命名空间镜像文件和编辑日志文件)的形式永久保存在本地磁盘上。同时NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息在系统启动时由数据节点重建。
2.DataNode
DataNode(数据节点)是HDFS实例中在单独机器上运行的软件,Hadoop集群包含一个NameNode和大量的DataNode。一般情况下DataNode以机架的形式组织,机架通过一个交换机把所有的系统连接起来。Hadoop的一个假设是:机架内部 节点之间的传输速度要快于机架间的传输速度。
DataNode响应来自HDFS 客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。NameNode依赖来自每个DataNode的定期心跳(Heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。
HDFS数据的存储和读取方式
(1)对于大文件的存储,HDFS采用分割的方式。HDFS将大文件分割到既定的存储块(Block)中进行存储,并通过本地设定的任务节点进行预处理。
(2)对于大量小文件的存储,HDFS采用普通的编程与压缩方式。在实际工作中,更多时候是产生并存储大量的小文件。
(3)对于普通文件的读取操作,HDFS采用分批次读取。
(4)对于大量数据的读取,HDFS采用集中式存储的方式,存储时的优化使得读取能够在一个连续的区域内进行,节省读取数据的时间。
(5)对于少量数据的随机读取,HDFS一般采用按序读取的方式,即先把少量的随机读取操作合并,后按顺序读取数据。
HDFS的特点
1.HDFS的优点
(1)成本低。HDF
您可能关注的文档
- 保险公司综合业务实训(第二版)第二章 客户资源管理.pptx
- 保险公司综合业务实训(第二版)第三章 保险营销模式创新.pptx
- 保险公司综合业务实训(第二版)第四章 保险的投保和核保.pptx
- 保险公司综合业务实训(第二版)第五章 保险理赔.pptx
- 保险公司综合业务实训(第二版)第一章 保险营销训练.pptx
- 《Animate cc 2018动画设计与制作》教学课件—01Animate cc 2018基础入门.ppt
- 《Animate cc 2018动画设计与制作》教学课件—02使用基础工具绘制图形.ppt
- 《Animate cc 2018动画设计与制作》教学课件—03对象的编辑与修饰.ppt
- 《Animate cc 2018动画设计与制作》教学课件—04文本的编辑.ppt
- 《Animate cc 2018动画设计与制作》教学课件—05动画的基本元素.ppt
- 2024-2030年中国药用玻璃包装瓶行业市场深度调研及发展前景与投融资战略研究报告.docx
- 2024-2030年中国糯米粉行业销售态势及消费趋势预测研究报告.docx
- 2024-2030年中国聚氨酯行业盈利模式与发展策略分析研究报告.docx
- 2024-2030年中国硫酸氢乙酯行业经营模式及应用前景预测研究报告.docx
- 2024-2030年中国甲醇制稳定轻烃行业发展形势及供需策略分析研究报告.docx
- 2024-2030年中国生活用纸市场经营状况及投资潜力调查研究报告.docx
- 2024-2030年中国木杆铅笔行业市场深度分析及发展前景与投资机会研究报告.docx
- 2024-2030年中国艺术陶瓷行业竞争格局与消费动态分析研究报告.docx
- 2024-2030年中国蛋白酶K行业营销策略及发展前景决策研究研究报告.docx
- 2024-2030年中国菠萝醋行业销售动态及消费前景预测研究报告.docx
文档评论(0)