3_基于知乎社区的数据集分析_姜智文组.pptx

3_基于知乎社区的数据集分析_姜智文组.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于知乎社区的数据集分析组长:姜智文组员:陈池罗旭东张钧驰黄莹魏伟

什么是知乎知乎是一个真实的网络问答社区,社区氛围友好与理性,连接各行各业的精英。他们分享着彼此的专业知识、验经和见解,为中文互联网源源不断地提供高质量的信息。用户围绕着某一感兴趣的话题进行相关的讨论,同时你可以关注和你兴趣一致的人。对于概念性的解释,网络百科几乎涵盖了你所有的疑问;但是对于发散思维的整合,却是知乎的一大特色。知乎鼓励在问答过程中进行讨论,以拓宽问题的发散性。在回答的时候,答案顺序按赞同票数排序,赞同票数相同的情况下按个人PR值排序,同时隐藏被认为无效的答案。这在一定程度上过滤了相当的垃圾信息。

项目目标:分析知乎知识领域中最有影响力的用户

数据采集数据处理数据分析结果验证使用Java爬取了和IT领域相关联的383个问题,共65536条有效回答使用C++进行数据录入、处理和相关影响力节点分析选取上述发现的影响力节点,登陆知乎进行验证,证明了方法的有效性实现方法

数据采集

网络爬虫工具:HtmlUnit语言:Java模拟用户登陆使用URL直接定位到topiceg: 互联网话题-http://模拟用户点击每个question 有哪些知乎用户推荐的物品,你买了以后觉得并不好用? -http://统计每个answer信息,并录入到数据库中

数据格式名称含义questionID问题IDquestionName问题名称anwerId回答IDScore不用管,无用writerId作者IDwriterName作者姓名createdTime写作时间voteNum“顶”的数量commentNum评论数目Length内容文本长度

原始数据数据格式:问题ID、问题名称、回答ID、问题评分、作者ID、作者姓名、写作时间、赞同数量、评论数目、内容文本长度

处理后数据

数据分析主要研究参数:赞同数目(A)评论数量(B)内容文本长度(C)(A+B)、(A+B+C)、(A+B)/C采取策略:rank

分析结果及验证A+B

分析结果及验证

分析结果及验证A+B+C

分析结果及验证“水军”居多

分析结果及验证(A+B)/C

分析结果及验证

结论与展望作业总结:1.实现了在动态网页上的数据爬取2.实现了指定话题中的有影响力检测3.实现了网络水军的探测问题展望:1.针对一个更加细分的领域做更加充分的数据采集2.改善rank策略,更加有效的利用采集到的参数

谢谢!

您可能关注的文档

文档评论(0)

lljwd2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档