- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
⚫分布式 引例
⚫ HDFS简介
⚫ HDFS接口
⚫ 实战HDFS S
⚫ 实战WebHDFS
⚫实战HDFS JAVA API
⚫ 实战HDFS大项目
分布式 引例
• 问题描述
• 常规解决方案
• 分布式解决方案
概述
接下来的十页,将讲解
问题:给出三类问题,遇这类问题,您如何解决?
问题常规解决方案:最直接思维!
问题分布式解决方案:这几乎是Hadoop的解决方案
引例目的很简单引出Hadoop架构
问题
场景
假设配置完全相同的机器M01~M0X,并且每台机器都是1个双核CPU,5G硬盘。现有两个大小都是3G 的文件file01和file02
问题①
将file01和file02存入两台不同机器,但要求对外显示它们存于同一硬盘空间
第一类问题:
问题②
不考虑①,现有一新文件file03 ,大小为6G,要求存入机器后对外显示依旧为一个完整文件
问题③
第二类问题:计算 在问题①下,统计file01和file02这两个文件里,每个单词出现的次数
问题④
第三类问题:可靠性
假设用于解决上述问题的机器奔溃了,您如何保证数据不丢失
常规解决方案
问题①思路:取M01,M02,直接将file01存M01,file02存M02
file01 file02
问题解决了?
第
一 M01 M02
类
问
问题①
题
问题②思路:file03拆成file03-a,file03-b 思 若能将 M01与M02 分布式
将file03-a存M01,file03-b存M02 考 构建成统一空间? 解决方案
file03-a file03-b
问题解决了?
M01 M02
问题②
常规解决方案
计算问题③思路:M02存的file02拷贝至M02,M02上执行计算
第 分布式解决方案
二 file01 file02 Map-Shuffle-Reduce
类
问
题 若每台机器都能
M01 M02
⚫ 先本地计算(Map)
文档评论(0)