实战hadoop2配套未美化版4 hdfs.pdf

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
⚫分布式 引例 ⚫ HDFS简介 ⚫ HDFS接口 ⚫ 实战HDFS S ⚫ 实战WebHDFS ⚫实战HDFS JAVA API ⚫ 实战HDFS大项目 分布式 引例 • 问题描述 • 常规解决方案 • 分布式解决方案 概述 接下来的十页,将讲解 问题:给出三类问题,遇这类问题,您如何解决? 问题常规解决方案:最直接思维! 问题分布式解决方案:这几乎是Hadoop的解决方案 引例目的很简单引出Hadoop架构 问题 场景 假设配置完全相同的机器M01~M0X,并且每台机器都是1个双核CPU,5G硬盘。现有两个大小都是3G 的文件file01和file02 问题① 将file01和file02存入两台不同机器,但要求对外显示它们存于同一硬盘空间 第一类问题: 问题② 不考虑①,现有一新文件file03 ,大小为6G,要求存入机器后对外显示依旧为一个完整文件 问题③ 第二类问题:计算 在问题①下,统计file01和file02这两个文件里,每个单词出现的次数 问题④ 第三类问题:可靠性 假设用于解决上述问题的机器奔溃了,您如何保证数据不丢失 常规解决方案 问题①思路:取M01,M02,直接将file01存M01,file02存M02 file01 file02 问题解决了? 第 一 M01 M02 类 问 问题① 题 问题②思路:file03拆成file03-a,file03-b 思 若能将 M01与M02 分布式 将file03-a存M01,file03-b存M02 考 构建成统一空间? 解决方案 file03-a file03-b 问题解决了? M01 M02 问题② 常规解决方案 计算问题③思路:M02存的file02拷贝至M02,M02上执行计算 第 分布式解决方案 二 file01 file02 Map-Shuffle-Reduce 类 问 题 若每台机器都能 M01 M02 ⚫ 先本地计算(Map)

文档评论(0)

158****9376 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

认证主体孔**

1亿VIP精品文档

相关文档

相关课程推荐