- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《Hadoop大数据处理与存储技术基础与实践》
教案
(~学年第学期)
课程名称:
任课班级:
任课教师:
院(部):
授课时间
年月日星期节
课号
1
课题
1.1为什么要学Hadoop
教学目的
分布式系统的特征
学习Hadoop的目的
教学重点
理解学习Hadoop的目的
教学难点
了解Hadoop的体系结构,理解Hadoop与其他系统的关系。
教学内容
备注
1.1.1 数据的存储和分析
多年来硬盘存储容量快速增加的同时,访问速度--数据从硬盘读取的速度--却未能与时俱进。1990年,一个普通的硬盘驱动器可存储1370MB的数据并拥有4.4MB/s的传输速度,所以只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。
只使用一个磁盘的百分之一似乎很浪费。但是我们可以存储100个数据集,每个1TB,并让它们共享磁盘的访问。我们可以想象,此类系统的用户会很高兴看到共享访问可以缩短分析时间,并且,从统计角度来看,他们的分析工作会分散到不同的时间点,所以互相之间不会有太多干扰。
尽管如此,现在更可行的是从多个磁盘并行读写数据。
第一个需要解决的问题是硬件故障。一旦开始使用多个硬件设施,其中一个会出故障的概率是非常高的。避免数据丢失的常见做法是复制:通过系统保存数据的冗余副本,在故障发生时,可以使用数据的另一份副本。这就是冗余磁盘阵列(RAID)的工作方式。Hadoop的文件系统HDFS(HadoopDistributedFilesystem)也是一个例子,虽然它采取的是另一种稍有不同的方法。第二个问题是大部分分析任务需要通过某种方式把数据合并起来,即从一个磁盘读取的数据可能需要和另外99个磁盘中读取的数据合并起来才能使用。各种不同的分布式系统能够组合多个来源的数据,但是如何保证正确性是一个非常难的挑战。MapReduce提供了一个编程模型,其抽象出上述磁盘读写的问题,将其转换为计算一个由成对键/值组成的数据集。这种模型的具体细节将在后面的章节讨论。这个计算由两部分组成:Map和Reduce。这两者的接口就是“整合”之地。就像HDFS一样,MapReduce是内建可靠性这个功能的。
1.1.2Hadoop的发展简史
Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自2002年的ApacheNutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题,该搜索引擎框架无法扩展到拥有数十亿网页的网格。而就在一年以后的2003年,谷歌公司发布了分布式文件系统GFS方面的论文,可以解决大规模数据存储的问题。于是,在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统(NutchDistributedFileSystem,NDFS),也就是HDFS的前身。
1.1.3Hadoop与其他系统的比较
1、Hadoop的一个最大的优点是能够自动处理失败。
2、MapReduce实现计算节点数据本地化。
3、和关系型数据库比较。
4、MapReduce和志愿计算的比较。
5、MapReduce和网格计算的比较。
1.1.4ApacheHadoop项目
作业及课后小结
课后作业:
1、大数据时代的技术支撑有哪些?
2、试述大数据对思维方式的重要影响。
3、大数据的发展历程有哪几个阶段。
授课时间
年月日星期节
课号
2
课题
1.2 Hadoop与大数据的关系
教学目的
了解什么是大数据,Hadoop与大数据的关系
教学重点
大数据的存储结构与计算模式
教学难点
Hadoop在大数据中扮演的角色
教学内容
备注
什么是大数据
工业和信息化部信息化和软件服务业司、国家标准化管理委员会工业部2015年12月发布的《大数据标准化白皮书V2.0》记载,甲骨文、IBM、微软、SAP、惠普等公司在数据管理和分析领域的投入已经超过150亿美元。大数据对社会各方面产生更重要的作用;改变经济社会管理方式,促进行业融合发展,推动产业转型升级,助力智慧城市建设,改变科学研究的方法。大数据是具有数量巨大、来源多样、生成极快且多变等特征,难以用传统数据体系结构有效处理的包含大量数据集的数据。
大数据的存储结构
分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类
文档评论(0)