大数据技术实战教程 第2章 Hadoop初体验.ppt

大数据技术实战教程 第2章 Hadoop初体验.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第2章 Hadoop初体验 目 录 1 Hadoop概述 Hadoop发展简史 Hadoop版本 Hadoop版本 2 3 4 Hadoop是Apache软件基金会旗下用Java语言开发的一个开源分布式计算平台,实现在大量计算机组成的集群中对海量数据进行分布式计算,是一种适合大数据的分布式存储和计算的平台。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于廉价计算机集群上,完成海量数据的存储与计算。 1、Hadoop名字的来由 Hadoop这个名字并不是一个缩写,它是一个虚构的名字。关于Hadoop这个名字,该项目的创建者Doug Cutting的解释为:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。” 更有趣的是,Hadoop后续的很多子项目和模块都是以这种风格方式进行命名,比如Hive、Pig等。 2、Hadoop的诞生及历程 Hadoop是Apache项目Lucene的创始人Doug Cutting创建的,Doug Cutting毕业于美国斯坦福大学。 2008年1月,Hadoop发展成为Apache顶级项目,2008年4月,Hadoop就成为最快的TB级数据排序系统。通过一个900节点的集群,在209s内完成了对1TB数据的排序,打破了世界纪录,这标志着Hadoop取得成功。 3、 Hadoop优势 Hadoop在大数据处理中应用广泛,主要具备以下几个优势: (1)高可靠性。 Hadoop存储采用冗余数据副本存储方式,即使某一个数据副本发生故障,其他数据副本也同样可以保证正常对外提供服务。 (2)高扩展性。 Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群规模可以方便地扩展到数以千计的计算机节点上。 3、 Hadoop优势 (3)高效性。 Hadoop以并行的方式工作,通过大规模的并行处理来加快数据的处理速度,并保证各个节点的动态平衡,因此保证了集群的整体处理速度。 (4)高容错性。 Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 (5)低成本。 Hadoop可以采用廉价的计算机集群,成本较低,普通用户也可以使用自己的PC机搭建Hadoop的运行环境。 一、Apache Hadoop版本 Apache Hadoop版本分为三代,第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0,第三代Hadoop称为Hadoop 3.0。第二代Hadoop完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN(Yet Another Resource Negotiator)两个系统。第三代Hadoop3.0于2017年12月发布正式版本,包括HDFS可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等特性。 二、Hadoop商业发行版 Hadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,IBM,华为等都提供了自己的商业版本。 1、HDFS(分布式文件系统) Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是Hadoop项目的两大核心之一,是针对谷歌文件系统(Google File System,简称GFS)的开源实现。HDFS是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行在廉价的商用服务器上。它所具有的高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。对于超大数据集的应用程序而言,选择HDFS作为底层数据存储是较好的选择。 2、Mapreduce(分布式并行计算框架) MapReduce是Hadoop项目的两大核心之一,是针对谷歌MapReduce的开源实现。MapReduce是一种编程模型(也称为计算模型),用于大规模数据集(大于1TB)的并行运算。它将复杂的运行于大规模集群上的并行计算过程高度地抽象到了两个函数-- Map(映射)和Reduce(归约),并且允许用户在无需了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价计算机集群上,完成海量数据的处理。MapReduce的核心思想是“分而治之”. 3、YARN(集群资源管理器) 4、Hbase(列式NoSql数据库) Hbase是针对谷歌BigTable的开源

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001
认证主体丁**

1亿VIP精品文档

相关文档

相关课程推荐