《大数据技术》MapReduce和Spark实验报告.pdf

下载文档

3
0
约4.29千字
约 7页
2024-02-29 发布于宁夏
举报
版权申诉
保障服务

《大数据技术》MapReduce和Spark实验报告.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《大数据技术》MapReduce和Spark实验报告

一、实验目的：

1.通过实验掌握基本的MapReduce编程方法；

2.掌握用MapReduce解决一些常见数据处理问题的方法；

3.掌握使用Spark访问本地文件和HDFS文件的方法。

4.掌握Spark应用程序的编写、编译和运行方法。

二、实验平台：

1.操作系统：Ubuntu18.04（或Ubuntu16.04）。

2.Hadoop版本：3.1.3。

3.Spark版本：2.4.0。

4.JDK版本：1.8；

5.JavaIDE：Eclipse。

二、实验内容：

（一）MapReduce的基本操作

1.词频统计任务要求：

首先，在Linux系统本地创建两个文件，即文件wordfile1.txt和wordfile2.txt。在实际应用中，

这两个文件可能会非常大，会被分布存储到多个节点上。但是，为了简化任务，这里的两个文

件只包含几行简单的内容。需要说明的是，针对这两个小数据集样本编写的MapReduce词频统

计程序，不作任何修改，就可以用来处理大规模数据集的词频统计。

文件wordfile1.txt的内容如下：

IloveSpark

IloveHadoop

文件wordfile2.txt的内容如下：

Hadoopisgood

Sparkisfast

假设HDFS中有一个/user/hadoop/input文件夹，并且文件夹为空，请把文件wordfile1.txt

和wordfile2.txt上传到HDFS中的input文件夹下。现在需要设计一个词频统计程序，统计input

文件夹下所有文件中每个单词的出现次数，也就是说，程序应该输出如下形式的结果：

2.编写JavaAPI应用程序实现以上任务

（1）创建名为WordCount的Java项目：

为了编写一个MapReduce程序，一般需要向Java工程中添加以下JAR包：

(a)“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和

haoop-nfs-3.1.3.jar；

(b)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包；

(c)“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包，但是，不包括jdiff、lib、

lib-examples和sources目录。

(2)在项目中添加名为WordCount.java的应用程序，在该文件中输入完整的词频统计程序代码

(3)编译打包程序

（a）运行java应用程序

（b）把Java应用程序打包生成JAR包，部署到Hadoop平台上运行。可以把词频统计程序

放在“/usr/local/hadoop/myapp”目录下。

（c）运行程序

在运行程序之前，需要启动Hadoop，在启动Hadoop之后，需要首先删除HDFS中与当前Linux

用户hadoop对应的input和output目录（即HDFS中的“/user/hadoop/input”和

“/user/hadoop/output”目录），这样确保后面程序运行不会出现问题。

（二）Spark的基本操作

1.Spark读取文件系统的数据

（1）在spark-shell中读取Linux系统本地文件“/usr/local/spark/README.md”，然后统计出

文件的行数；

（2）在spark-shell中读取HDFS系统文件“/usr/local/spark/README.—评论【··md”然后

统计出文件中含spark单词的行数；

（3）编写独立应用程序（推荐使用Scala语言），

您可能关注的文档

文档评论（0）

180****8094 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《大数据技术》MapReduce和Spark实验报告.pdf