3_基于知乎社区的数据集分析_姜智文组.pptx

下载文档

0
0
约1.03千字
约 19页
2024-05-09 发布于山西
举报
版权申诉
保障服务

3_基于知乎社区的数据集分析_姜智文组.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于知乎社区的数据集分析组长：姜智文组员：陈池罗旭东张钧驰黄莹魏伟

什么是知乎知乎是一个真实的网络问答社区，社区氛围友好与理性，连接各行各业的精英。他们分享着彼此的专业知识、验经和见解，为中文互联网源源不断地提供高质量的信息。用户围绕着某一感兴趣的话题进行相关的讨论，同时你可以关注和你兴趣一致的人。对于概念性的解释，网络百科几乎涵盖了你所有的疑问；但是对于发散思维的整合，却是知乎的一大特色。知乎鼓励在问答过程中进行讨论，以拓宽问题的发散性。在回答的时候，答案顺序按赞同票数排序，赞同票数相同的情况下按个人PR值排序，同时隐藏被认为无效的答案。这在一定程度上过滤了相当的垃圾信息。

项目目标：分析知乎知识领域中最有影响力的用户

数据采集数据处理数据分析结果验证使用Java爬取了和IT领域相关联的383个问题，共65536条有效回答使用C++进行数据录入、处理和相关影响力节点分析选取上述发现的影响力节点，登陆知乎进行验证，证明了方法的有效性实现方法

数据采集

网络爬虫工具：HtmlUnit语言：Java模拟用户登陆使用URL直接定位到topiceg：互联网话题-http://模拟用户点击每个question 有哪些知乎用户推荐的物品，你买了以后觉得并不好用？ -http://统计每个answer信息，并录入到数据库中

数据格式名称含义questionID问题IDquestionName问题名称anwerId回答IDScore不用管，无用writerId作者IDwriterName作者姓名createdTime写作时间voteNum“顶”的数量commentNum评论数目Length内容文本长度

原始数据数据格式：问题ID、问题名称、回答ID、问题评分、作者ID、作者姓名、写作时间、赞同数量、评论数目、内容文本长度

处理后数据

数据分析主要研究参数：赞同数目（A）评论数量（B）内容文本长度（C）（A+B）、（A+B+C）、（A+B）/C采取策略：rank

分析结果及验证A+B

分析结果及验证

分析结果及验证A+B+C

分析结果及验证“水军”居多

分析结果及验证(A+B)/C

分析结果及验证

结论与展望作业总结：1.实现了在动态网页上的数据爬取2.实现了指定话题中的有影响力检测3.实现了网络水军的探测问题展望：1.针对一个更加细分的领域做更加充分的数据采集2.改善rank策略，更加有效的利用采集到的参数

谢谢！

您可能关注的文档

文档评论（0）

lljwd2022 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

3_基于知乎社区的数据集分析_姜智文组.pptx