基于Hive的南京市二手房房价的分析与研究.docxVIP

基于Hive的南京市二手房房价的分析与研究.docx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录

TOC\o1-4\u1软件需求分析 -6-

1.1综合描述 -6-

1.1.1产品的功能 -6-

1.1.2用户需求 -6-

1.1.3程序功能 -6-

1.1.4运行环境 -6-

1.1.5设计和实现上的限制 -6-

1.2外部接口需求 -7-

1.2.1用户界面 -7-

1.2.2硬件接口 -7-

1.2.3通讯接口 -7-

1.3系统功能需求 -7-

1.4非功能性需求 -7-

1.4.1安全需求 -7-

1.4.2安全措施需求 -7-

1.4.3可用性需求 -8-

1.4.4易用性需求 -8-

1.5性能需求 -8-

1.6软件质量属性 -8-

2软件概要设计 -9-

2.1概要设计 -9-

2.2数据库设计 -9-

2.2.1数据表的设计 -9-

2.2.2数据库存储 -12-

3软件详细设计 -13-

3.1数据采集 -13-

3.2数据存储 -14-

3.3MySQL数据库 -14-

3.4搭建环境 -14-

3.4.1VMware的安装 -14-

3.4.2CentOS系统的安装与部署 -14-

3.5Sqoop传输脚本 -15-

3.6数据分析 -16-

3.6.1数据预处理 -16-

3.6.2数据预处理方法 -16-

3.7数据处理 -17-

3.7.1ODS层的数据仓库部署 -17-

3.7.2DWD层数据仓库部署 -18-

3.7.3DWS层数据仓库的部署 -19-

3.7.4ADS层数据仓库部署 -20-

3.8数据可视化展示 -21-

3.9可行性分析 -23-

3.9.1技术可行性 -23-

3.9.2操作可行性 -23-

3.9.3经济可行性 -23-

3.9.4法律可行性 -23-

4软件实现 -24-

4.1软件实现过程及代码展示 -24-

5软件测试 -36-

5.1测试目标 -36-

5.2测试具体内容 -36-

5.3软件代码测试 -36-

5.4软件系统测试 -36-

5.4.1界面(外观)测试 -37-

5.4.2可用性测试 -37-

5.4.3功能测试 -37-

5.4.4稳定性(强度)测试 -38-

5.4.5性能测试 -38-

5.4.6强壮性(恢复)测试 -38-

5.4.7安全性测试 -38-

展望 -39-

参考文献 -40-

致谢 -42-

1软件需求分析

1.1综合描述

本分析主要是针对链家平台上南京市的二手房信息进行网络爬虫、数据采集、处理、分析,最后从中得到某种结论,主要目的就是为了能够从这些数据信息中找出关于南京市房价的现实本质与趋势,从而为购房者、市场以及政府部门提供相关的数据信息以及对房价下一步发展趋势的预测REF_Ref136363940\r\h[1]。

1.1.1产品的功能

1、查看房屋的基本信息(房屋结构,价格,户型);

2、查看房屋所在的地段,周边环境;

3、查看所处地区以及小区的房屋均价;

4、房屋所在小区的销售排行。

1.1.2用户需求

购房者可以通过查看这个动态的可视化界面,了解房屋的大致信息,以及对小区的房屋均价进行简单的了解,也可以通过该界面的统计信息对南京市的二手房的房价进行预测,以及通过这些数据得出影响房屋价格的因素REF_Ref136363334\r\h[2]。REF_Ref136363334\r\h

1.1.3程序功能

1、通过Python对房屋信息的网络爬虫;

2、搭建虚拟机、Hadoop集群;

3、通过MySQL对数据进行存储;

4、使用Hive对采集到的数据进行处理并分层;

5、使用SugarBI对数据进行可视化展示。

1.1.4运行环境

1、硬件平台:Windows10、CentOS7;

2、环境搭建:VMwareWorkstation、Hadoop、MySQL、jdk1.8、Hive、Spark;

3、其他软件:Sqoop、PyCharm、NavicatPremium。

1.1.5设计和实现上的限制

1、虚拟机上要将HadoopMySQL的jar包导入;

2、本项目主要使用SQL语言,集群搭建需要LinuxShell编程以及爬虫的Python语言;

3、该项目使用MySQL

文档评论(0)

文章交流借鉴 + 关注
实名认证
文档贡献者

妙笔如花

1亿VIP精品文档

相关文档