大数据技术实战教程 第3章Hadoop分布式文件系统.ppt

大数据技术实战教程 第3章Hadoop分布式文件系统.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1、常用Shell命令解析 (25)hdfs dfs -tail [-f] URI 查看文件尾部信息。 (26)hdfs dfs -test -[ezd] URI 对PATH进行如下类型的检查: -e PATH是否存在,如果PATH存在,返回0,否则返回1 ; -z 文件是否为空,如果长度为0,返回0,否则返回1 ; -d 是否为目录,如果PATH为目录,返回0,否则返回1 。 (27)hdfs dfs -text <src> 查看文件内容。 (28)hdfs dfs -touchz URI [URI ...] 创建长度为0的空文件。 谢 谢 * * * 第3章Hadoop分布式文件系统 目 录 1 认识HDFS HDFS相关概念 HDFS体系结构 HDFS运行原理及保障 2 3 4 1、分布式文件系统 相对于传统的本地文件系统而言,分布式文件系统(Distributed File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统允许将一个文件通过网络在多台主机上以多副本的方式进行存储,实际上就是通过网络来访问文件,但用户和程序看起来跟访问本地的磁盘一样。 目前,应用广泛的分布式文件系统主要包括GFS和HDFS,HDFS是GFS的开源实现。 2、HDFS简介 HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,是Apache Hadoop的核心子项目。HDFS支持海量数据的存储,是分布式计算中数据存储和管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。 3、HDFS的优缺点 优点: (1)支持超大文件的处理 (2)支持流式的访问数据 (3)可构建在廉价机器上 3、HDFS的优缺点 缺点: (1)不适合低延时数据访问 (2)无法高效存储大量小文件 (3)不支持多用户并发写入和任意修改文件 1、数据块(Block) 传统的文件系统中,为提高磁盘读写效率,通常不是以字节为单位,而是以数据块为单位。HDFS同样采用了数据块的概念,最基本的存储单位即是数据块,Hadoop3.0版本默认数据块的大小是128M(有些旧版本为64M)。 2、名称节点(Namenode) 在HDFS中,名称节点主要负责管理分布式文件系统的命名空间,它将所有的文件和文件夹的元数据保存在一个文件系统树中。Namenode是整个文件系统的管理节点,维护着整个文件系统的文件目录树,元数据信息和每个文件对应的数据块列表,并接收用户的操作请求。 3、数据节点(Datanode) 在HDFS中,数据节点是工作节点,负责数据的真正存储和读取,会根据Namenode的调度来进行数据的存储和检索,并且定期向Namenode发送自己所存储的块的列表。所有数据节点的数据保存在各自节点的本地Linux文件系统中。 4、第二名称节点(Secondary Namenode) Secondary Namenode并不是Namenode节点出现问题时的备用节点,HDFS也并不支持把系统直接切换到Secondary Namenode。 NameNode元数据信息存储在FsImage中,NameNode每次重启后会把FsImage读取到内存中,在运行过程中为了防止数据丢失,NameNode的操作会被不断的写入本地EditLog文件中。 HDFS采用了主从(Master/Slave)结构,如图3-1所示。一个HDFS集群是由一个名称节点(NameNode)和多个数据节点(DataNode)组成,通常配置在不同的机器上。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。而数据节点,通常是一个节点一台机器,是分布式文件系统HDFS的工作节点,负责对应节点数据的存储和读取,会根据客户端或者是名字节点的调度来进行数据的存储和检索。 一、HDFS读写流程 1、HDFS读数据流程 客户端通过连续调用open()、read()、close()读取数据,具体执行过程如下图3-2所示: 一、HDFS读写流程 (1)客户端发送请求,调用DistributedFileSystem的create方法创建文件。调用create方法后,DistributedFileSystem会创建FSDataOutputStream输出流。 (2)DistributedFileSystem通过RPC远程调用Namenode,在文件系统的命名空间中创建一个新文件。此时,Namenode会做一系列的检查,比如文件是否已经存在、客户端是否拥有创建文件权

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001
认证主体丁**

1亿VIP精品文档

相关文档

相关课程推荐