网上交易平台数据分析.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
? ? 网上交易平台数据分析 ? ? 辛梦阳 迟冬祥 张媛媛 Summary:网购的便利和快捷,催生了众多“买买买”和“剁手党”。冲动消费之后,大量的闲置物品也让二手交易平台的热度变得越来越高。本文将统计58同城二手iPhone价格,作出价格预测并验证。助力商品定价,加快交易速度。 Key:网络爬虫;python;excle;tableau;数据建模 :TP393 :A :1007-9416(2018)06-0205-02 1 数据获取与分析方法 1.1 数据获取 使用python语言编写爬虫工具是抓取网络数据最快的方法[1]。本课题研究需要爬取58同城二手商品交易信息,将涉及到基础爬虫架构中的 HTML下载器、HTML解析器、数据存储器三大模块。 1.1.1 构造HTML下载器 使用python的“requests”库,模拟用户请求得到相应的回应据。具体来说分为三步。 (1)模拟用户。网站对请求的检测和内容回应,是基于浏览器的“User-Agent”(用户头)标识的。定义requests库中的‘header‘参数为Mozilla/5.0 (Windows NT 10.0; Win64; x64),网站就会返回适用于桌面浏览器的内容。 (2)访问特定url。模拟用户请求后,接下来访问想包含研究数据的链接,比如在本课题中就是访问58同城的二手商品链接。至此,程序便实现了一次网络请求。 (3)编写循环模块。使用循环结构可以完整连续地获取信息,可以连续自动对所有二手商品进行网络请求。 1.1.2 构造HTML解析器 发出网络请求后,网站会返回响应。响应以HTML格式下载到本地,我们需要取出其中的部分信息,比如商品价格。所以需要构造解析器将返回的HTML文本做分析处理,取出需要部分。这里可以分为两大步: (1)构造正则表达式。根据HTML的元素逻辑,使用正则表达式取出需要数据,而且对于同类型的HTML文本,正则表达式是通用的。 (2)构造解析模块。这里的模块比上一部分的循环模块,多了迭代的功能。采用yield表达式for-in方法,只构建一次表达式,一次的把结果拿出来,实现数据的解析提取。 1.1.3 构造数据存储器 数据存储有三种流行方案:(1)纯文本text存储。优点是方便使用;缺点是不很适合元素较多,数据量比较大的项目。(2)csv格式文本。相对于第一种纯文本,解决了数据格式不够健壮的问题。(3)MongoDB数据库。存储内容更多,可以导出csv文本。 由于不确定最终的数据量,为了保险起见在数据采集阶段使用MongoDB。 1.2 数据清洗 通过网络爬虫得到的数据通常存在数据元素残缺和信息冗余的情况,直接分析难度较高而且会影响最终结果[2]。所以在数据分析之前,使用excle做清洗整理的工作。将MongoDB内容导出csv文件,使用excle实时动态地对csv进行操作。清洗整理的步骤分为两步:去除无效数据;选取研究对象。 1.2.1 去除無效数据 无效的数据可能是:发错版块的信息,比如二手交易板块下出现的求职信息;因为网络原因或者程序错误产生的多条相同数据或者残缺的数据;无意义的数据,比如说我们要做价格分析,但某商品的标价是“面议“,由于我们不可能每个面议都具体了解,所以直接舍去这类数据。如图1。 1.2.2 选取研究对象 为了商业指导和数据分析并实际意义,选取一个数据量和广度足够合适的范围进行分析,合适的原则分为如下两点。 (1)有足够大量的数据支撑。可以避免分析结果偶然性的基础,也是分析结果具有实际意义的保障。二手交易板块几个大类中数据量最大的是手机类。所以直接在使用筛选工具取出了手机类数据。如图2。 (2)商品间可比性高。手机产品存在品牌差别和高中低定位的差异,iphone和老人机可比性较低。所以进一步将分析对象变成了同型号的苹果手机作为研究对象,这个商品数据量较大有接近3000条,发布时间跨度较大,成色差异明显,具有很高的可比性和研究性。如图3。 2 数据分析结果 2.1 数据分析工具与方法 完成了数据的清洗整理之后,我们也就确定了研究的对象。也就是58同城二手交易板块iPhone。对于手机这类商品来说,可以做如下几类分析:二手手机成色对售价的影响;各代手机价格差异;二手手机售价随时间的变化。可视化分析工具选用tableau,其csv支持较好,内置分析工具强大。 对数据进行整体观察可以看出,清洗整理得到的iPhone的商品信息中,有几个满足分析条件的属性。时间跨度较久;型号较为齐全,从比较早的iPhone4一直到iPhone6s都有记录;数据量比较充足,可以避免产生偶然结论。 首先,我们针对不同型号的iPhone做了价格统计,使用tableau可视化工具,并且根据年份整理出可视化图表。 可视化分析后可以得出结论:

文档评论(0)

永兴文档 + 关注
实名认证
内容提供者

分享知识,共同成长!

认证主体谢**

1亿VIP精品文档免费下

相关文档

相关课程推荐