Hadoop大数据处理与存储技术-教案.doc

Hadoop大数据处理与存储技术-教案.doc

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《Hadoop大数据处理与存储技术基础与实践》

教案

(~学年第学期)

课程名称:

任课班级:

任课教师:

院(部):

授课时间

年月日星期节

课号

1

课题

1.1为什么要学Hadoop

教学目的

分布式系统的特征

学习Hadoop的目的

教学重点

理解学习Hadoop的目的

教学难点

了解Hadoop的体系结构,理解Hadoop与其他系统的关系。

教学内容

备注

1.1.1 数据的存储和分析

多年来硬盘存储容量快速增加的同时,访问速度--数据从硬盘读取的速度--却未能与时俱进。1990年,一个普通的硬盘驱动器可存储1370MB的数据并拥有4.4MB/s的传输速度,所以只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。

只使用一个磁盘的百分之一似乎很浪费。但是我们可以存储100个数据集,每个1TB,并让它们共享磁盘的访问。我们可以想象,此类系统的用户会很高兴看到共享访问可以缩短分析时间,并且,从统计角度来看,他们的分析工作会分散到不同的时间点,所以互相之间不会有太多干扰。

尽管如此,现在更可行的是从多个磁盘并行读写数据。

第一个需要解决的问题是硬件故障。一旦开始使用多个硬件设施,其中一个会出故障的概率是非常高的。避免数据丢失的常见做法是复制:通过系统保存数据的冗余副本,在故障发生时,可以使用数据的另一份副本。这就是冗余磁盘阵列(RAID)的工作方式。Hadoop的文件系统HDFS(HadoopDistributedFilesystem)也是一个例子,虽然它采取的是另一种稍有不同的方法。第二个问题是大部分分析任务需要通过某种方式把数据合并起来,即从一个磁盘读取的数据可能需要和另外99个磁盘中读取的数据合并起来才能使用。各种不同的分布式系统能够组合多个来源的数据,但是如何保证正确性是一个非常难的挑战。MapReduce提供了一个编程模型,其抽象出上述磁盘读写的问题,将其转换为计算一个由成对键/值组成的数据集。这种模型的具体细节将在后面的章节讨论。这个计算由两部分组成:Map和Reduce。这两者的接口就是“整合”之地。就像HDFS一样,MapReduce是内建可靠性这个功能的。

1.1.2Hadoop的发展简史

Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自2002年的ApacheNutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题,该搜索引擎框架无法扩展到拥有数十亿网页的网格。而就在一年以后的2003年,谷歌公司发布了分布式文件系统GFS方面的论文,可以解决大规模数据存储的问题。于是,在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统(NutchDistributedFileSystem,NDFS),也就是HDFS的前身。

1.1.3Hadoop与其他系统的比较

1、Hadoop的一个最大的优点是能够自动处理失败。

2、MapReduce实现计算节点数据本地化。

3、和关系型数据库比较。

4、MapReduce和志愿计算的比较。

5、MapReduce和网格计算的比较。

1.1.4ApacheHadoop项目

作业及课后小结

课后作业:

1、大数据时代的技术支撑有哪些?

2、试述大数据对思维方式的重要影响。

3、大数据的发展历程有哪几个阶段。

授课时间

年月日星期节

课号

2

课题

1.2 Hadoop与大数据的关系

教学目的

了解什么是大数据,Hadoop与大数据的关系

教学重点

大数据的存储结构与计算模式

教学难点

Hadoop在大数据中扮演的角色

教学内容

备注

什么是大数据

工业和信息化部信息化和软件服务业司、国家标准化管理委员会工业部2015年12月发布的《大数据标准化白皮书V2.0》记载,甲骨文、IBM、微软、SAP、惠普等公司在数据管理和分析领域的投入已经超过150亿美元。大数据对社会各方面产生更重要的作用;改变经济社会管理方式,促进行业融合发展,推动产业转型升级,助力智慧城市建设,改变科学研究的方法。大数据是具有数量巨大、来源多样、生成极快且多变等特征,难以用传统数据体系结构有效处理的包含大量数据集的数据。

大数据的存储结构

分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档