- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE II
Ⅲ
目 录
1 导论……………………………………………………………………………………………4
1.1 选题背景与意义…………………………………………………………………………4
1.2 国内外文献综述…………………………………………………………………………4
1.3 论文的结构及主要内容…………………………………………………………………5
1.4 论文的研究方法…………………………………………………………………………5
2 python在网络爬虫中的特点优势展示………………………………………………………5
2.1 python语言本身特点……………………………………………………………………5
2.2 python强大的解析工具…………………………………………………………………6
2.3 python主流爬虫框架……………………………………………………………………7
2.4 python爬虫中对不同格式文件处理…………………………………………………9
2.5 图形验证识别技术……………………………………………………………………11
3 python网络爬虫中的流程及规范…………………………………………………………11
3.1 发起请求………………………………………………………………………………11
3.2 获取响应内容…………………………………………………………………………12
3.3 解析内容………………………………………………………………………………12
3.4 处理保存………………………………………………………………………………12
3.5 反爬技术………………………………………………………………………………12
3.6 爬取效率的加速处理…………………………………………………………………13
3.7 爬虫道德规范robots协议……………………………………………………………13
4 新冠肺炎疫情数据爬取信息的分析………………………………………………………14
参考文献………………………………………………………………………………………16
附录……………………………………………………………………………………………17
致谢……………………………………………………………………………………………20
摘 要
当今网络领域发展的时代背景下,传统的搜索引擎面临一些局限性挑战,尤其是网络上有接近十分之三的网页信息重复,为了让开发者爬取质量更高的数据,并且爬取到不仅仅是表层网页,而是更多属于深层网页的信息。开发者引入网络爬虫技术,网络爬虫技术是按照实际需求爬取万维网信息资源的脚本或程序,也是现在通用浏览器的核心组件之一,网络爬虫涉及范围广泛,便利于人们的同时也有人用它做触犯法律的行为,根据爬取过程和内部结构可以分为四种类型,常用的是聚焦型、通用型的爬虫。python作为最佳的爬虫工具,通过python的网络爬虫,我们能实现爬取需求数据,建模,分析的高效操作。
本文主要研究了python在做一般的网络爬虫过程的基本过程及robots协议及反爬道德规范,以及python在做网络爬虫前的计算机系统环境,语法结构,编译集成环境,正则表达式等解析工具比较分析,第三方库对比分析,scrapy等开发框架对比,json,cvs文件及三种爬虫中常用数据库的连接及其技术中台的基本用法;最后通过新冠肺炎疫情数据爬取信息做相关模型分析及可视化处理。
关键词:网络爬虫;python;正则表达式;scrapy;json
Abstract
Under the background of the development of the Internet, the traditional search engine is facing some limitations and challenges. Especially, there are nearly three tenths of the web page information repetition on the Internet. In order to let developers crawl higher quality data, and crawl to not only the surface page, but more information belonging to the deep page. Developers introduce web crawler technology. Web crawler technology is a script or program that cr
您可能关注的文档
- “白鹿山居”庐山民宿品牌视觉形象设计-视觉传达设计专业.docx
- 《Java程序设计》精品课程的设计与实现.docx
- 《安娜·卡列尼娜》的家庭观.doc
- 《刺猬的优雅》之女性主义解读.docx
- 《鬼谷子》中的十大介词研究.docx
- 《镜花缘》与《格列佛游记》的比较研究.docx
- 《上新了故宫》与文化类综艺节目的创新性发展研究.docx
- 2020年美邦服饰有限公司财务报表分析.docx
- ABC理论在学龄期儿童情绪管理中的应用—以S社区为例.docx
- Android手机签到系统设计与实现.docx
- 《GB/T 12668.7202-2024调速电气传动系统 第7-202部分:电气传动系统的通用接口和使用规范 2型规范说明》.pdf
- 《GB/T 15692-2024制药机械 术语》.pdf
- GB/T 15692-2024制药机械 术语.pdf
- 中国国家标准 GB/T 15692-2024制药机械 术语.pdf
- GB/T 19633.1-2024最终灭菌医疗器械包装 第1部分:材料、无菌屏障系统和包装系统的要求.pdf
- 中国国家标准 GB/T 19633.1-2024最终灭菌医疗器械包装 第1部分:材料、无菌屏障系统和包装系统的要求.pdf
- 《GB/T 19633.1-2024最终灭菌医疗器械包装 第1部分:材料、无菌屏障系统和包装系统的要求》.pdf
- 《GB/T 30117.1-2024非相干光产品的光生物安全 第1部分:通用要求》.pdf
- 《GB/T 33348-2024高压直流输电用电压源换流器阀 电气试验》.pdf
- GB/T 33348-2024高压直流输电用电压源换流器阀 电气试验.pdf
文档评论(0)