Hadoop大数据处理与存储技术-教案.doc

下载文档

11
0
约3.82万字
约 60页
2024-03-29 发布于四川
举报
版权申诉
保障服务

Hadoop大数据处理与存储技术-教案.doc

1、本文档共60页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《Hadoop大数据处理与存储技术基础与实践》

教案

（～学年第学期）

课程名称：

任课班级：

任课教师：

院（部）：

授课时间

年月日星期节

课号

课题

1.1为什么要学Hadoop

教学目的

分布式系统的特征

学习Hadoop的目的

教学重点

理解学习Hadoop的目的

教学难点

了解Hadoop的体系结构，理解Hadoop与其他系统的关系。

教学内容

备注

1.1.1 数据的存储和分析

多年来硬盘存储容量快速增加的同时，访问速度--数据从硬盘读取的速度--却未能与时俱进。1990年，一个普通的硬盘驱动器可存储1370MB的数据并拥有4.4MB/s的传输速度，所以只需五分钟的时间就可以读取整个磁盘的数据。20年过去了，1TB级别的磁盘驱动器是很正常的，但是数据传输的速度却在100MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。

只使用一个磁盘的百分之一似乎很浪费。但是我们可以存储100个数据集，每个1TB，并让它们共享磁盘的访问。我们可以想象，此类系统的用户会很高兴看到共享访问可以缩短分析时间，并且，从统计角度来看，他们的分析工作会分散到不同的时间点，所以互相之间不会有太多干扰。

尽管如此，现在更可行的是从多个磁盘并行读写数据。

第一个需要解决的问题是硬件故障。一旦开始使用多个硬件设施，其中一个会出故障的概率是非常高的。避免数据丢失的常见做法是复制：通过系统保存数据的冗余副本，在故障发生时，可以使用数据的另一份副本。这就是冗余磁盘阵列（RAID）的工作方式。Hadoop的文件系统HDFS(HadoopDistributedFilesystem)也是一个例子，虽然它采取的是另一种稍有不同的方法。第二个问题是大部分分析任务需要通过某种方式把数据合并起来，即从一个磁盘读取的数据可能需要和另外99个磁盘中读取的数据合并起来才能使用。各种不同的分布式系统能够组合多个来源的数据，但是如何保证正确性是一个非常难的挑战。MapReduce提供了一个编程模型，其抽象出上述磁盘读写的问题，将其转换为计算一个由成对键/值组成的数据集。这种模型的具体细节将在后面的章节讨论。这个计算由两部分组成：Map和Reduce。这两者的接口就是“整合”之地。就像HDFS一样，MapReduce是内建可靠性这个功能的。

1.1.2Hadoop的发展简史

Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自2002年的ApacheNutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候，Nutch项目遇到了棘手的难题，该搜索引擎框架无法扩展到拥有数十亿网页的网格。而就在一年以后的2003年，谷歌公司发布了分布式文件系统GFS方面的论文，可以解决大规模数据存储的问题。于是，在2004年，Nutch项目也模仿GFS开发了自己的分布式文件系统（NutchDistributedFileSystem，NDFS），也就是HDFS的前身。

1.1.3Hadoop与其他系统的比较

1、Hadoop的一个最大的优点是能够自动处理失败。

2、MapReduce实现计算节点数据本地化。

3、和关系型数据库比较。

4、MapReduce和志愿计算的比较。

5、MapReduce和网格计算的比较。

1.1.4ApacheHadoop项目

作业及课后小结

课后作业：

1、大数据时代的技术支撑有哪些？

2、试述大数据对思维方式的重要影响。

3、大数据的发展历程有哪几个阶段。

授课时间

年月日星期节

课号

课题

1.2 Hadoop与大数据的关系

教学目的

了解什么是大数据，Hadoop与大数据的关系

教学重点

大数据的存储结构与计算模式

教学难点

Hadoop在大数据中扮演的角色

教学内容

备注

什么是大数据

工业和信息化部信息化和软件服务业司、国家标准化管理委员会工业部2015年12月发布的《大数据标准化白皮书V2.0》记载，甲骨文、IBM、微软、SAP、惠普等公司在数据管理和分析领域的投入已经超过150亿美元。大数据对社会各方面产生更重要的作用；改变经济社会管理方式，促进行业融合发展，推动产业转型升级，助力智慧城市建设，改变科学研究的方法。大数据是具有数量巨大、来源多样、生成极快且多变等特征，难以用传统数据体系结构有效处理的包含大量数据集的数据。

大数据的存储结构

分布式存储与访问是大数据存储的关键技术，它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类