《大数据技术》MapReduce和Spark实验报告.pdf

《大数据技术》MapReduce和Spark实验报告.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《大数据技术》MapReduce和Spark实验报告

一、实验目的:

1.通过实验掌握基本的MapReduce编程方法;

2.掌握用MapReduce解决一些常见数据处理问题的方法;

3.掌握使用Spark访问本地文件和HDFS文件的方法。

4.掌握Spark应用程序的编写、编译和运行方法。

二、实验平台:

1.操作系统:Ubuntu18.04(或Ubuntu16.04)。

2.Hadoop版本:3.1.3。

3.Spark版本:2.4.0。

4.JDK版本:1.8;

5.JavaIDE:Eclipse。

二、实验内容:

(一)MapReduce的基本操作

1.词频统计任务要求:

首先,在Linux系统本地创建两个文件,即文件wordfile1.txt和wordfile2.txt。在实际应用中,

这两个文件可能会非常大,会被分布存储到多个节点上。但是,为了简化任务,这里的两个文

件只包含几行简单的内容。需要说明的是,针对这两个小数据集样本编写的MapReduce词频统

计程序,不作任何修改,就可以用来处理大规模数据集的词频统计。

文件wordfile1.txt的内容如下:

IloveSpark

IloveHadoop

文件wordfile2.txt的内容如下:

Hadoopisgood

Sparkisfast

假设HDFS中有一个/user/hadoop/input文件夹,并且文件夹为空,请把文件wordfile1.txt

和wordfile2.txt上传到HDFS中的input文件夹下。现在需要设计一个词频统计程序,统计input

文件夹下所有文件中每个单词的出现次数,也就是说,程序应该输出如下形式的结果:

2.编写JavaAPI应用程序实现以上任务

(1)创建名为WordCount的Java项目:

为了编写一个MapReduce程序,一般需要向Java工程中添加以下JAR包:

(a)“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和

haoop-nfs-3.1.3.jar;

(b)“/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包;

(c)“/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包,但是,不包括jdiff、lib、

lib-examples和sources目录。

(2)在项目中添加名为WordCount.java的应用程序,在该文件中输入完整的词频统计程序代码

(3)编译打包程序

(a)运行java应用程序

(b)把Java应用程序打包生成JAR包,部署到Hadoop平台上运行。可以把词频统计程序

放在“/usr/local/hadoop/myapp”目录下。

(c)运行程序

在运行程序之前,需要启动Hadoop,在启动Hadoop之后,需要首先删除HDFS中与当前Linux

用户hadoop对应的input和output目录(即HDFS中的“/user/hadoop/input”和

“/user/hadoop/output”目录),这样确保后面程序运行不会出现问题。

(二)Spark的基本操作

1.Spark读取文件系统的数据

(1)在spark-shell中读取Linux系统本地文件“/usr/local/spark/README.md”,然后统计出

文件的行数;

(2)在spark-shell中读取HDFS系统文件“/usr/local/spark/README.—评论【··md”然后

统计出文件中含spark单词的行数;

(3)编写独立应用程序(推荐使用Scala语言),

文档评论(0)

180****8094 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档