Python网络爬虫基础教程配套教材电子课件（完整版）.pptx

下载文档

564
0
约3.38万字
约 873页
2022-07-06 发布于辽宁
举报
版权申诉
保障服务

Python网络爬虫基础教程配套教材电子课件（完整版）.pptx

1、本文档共873页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python网络爬虫基础教程;第1章认识网络爬虫;学习目标/Target;学习目标/Target;章节概述/ Summary;目录/Contents;什么是网络爬虫;;1.1 什么是网络爬虫;1.1 什么是网络爬虫;1.1 什么是网络爬虫;1.1 什么是网络爬虫;1.1 什么是网络爬虫;1.1 什么是网络爬虫;;网络爬虫的应用场景;;随着互联网信息的“爆炸”，网络爬虫渐渐为人们所熟知，并被应用到了社会生活的众多领域。作为一种自动采集网页数据的技术，很多人其实并不清楚网络爬虫具体能应用到什么场景。事实上，大多数依赖数据支撑的应用场景都离不开网络爬虫，包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。;搜索引擎是通用网络爬虫最重要的应用场景之一，它会将网络爬虫作为最基础的部分——互联网信息的采集器，让网络爬虫自动到互联网中抓取数据。例如，谷歌、百度、必应等搜索引擎都是利用网络爬虫技术从互联网上采集海量的数据。;政府或企业通过网络爬虫技术自动采集论坛评论、在线博客、新闻媒体或微博等网站中的海量数据，采用数据挖掘的相关方法（如词频统计、文本情感计算、主题识别等）发掘舆情热点，跟踪目标话题，并根据一定的标准采取相应的舆情控制与引导措施。例如，百度热点排行榜、微博热搜排行榜。;如今出现的很多聚合平台，如返利网、慢慢买等，也是网络爬虫技术的常见的应用场景，这些平台就是运用网络爬虫技术对一些电商平台上的商品信息进行采集，将所有的商品信息放到自己的平台上展示，并提供横向数据的比较，帮助用户寻找实惠的商品价格。例如，用户在慢慢买平台搜索华为智能手表后，平台上展示了很多款华为智能手表的价格分析及价格走势等信息。;出行类软件，比如飞猪、携程、去哪儿等，也是网络爬虫应用比较多的场景。这类应用运用网络爬虫技术，不断地访问交通出行的官方售票网站刷新余票，一旦发现有新的余票便会通知用户付款买票。不过，官方售票网站并不欢迎网络爬虫的这种行为，因为高频率地访问网页极易造成网站出现瘫痪的情况。;网络爬虫合法性探究;网络爬虫在访问网站时，需要遵循有礼貌的原则，这样才能与更多的网站建立友好关系。???便如此，网络爬虫的爬行行为仍会给网站增加不小的压力，严重时甚至可能会影响网站的正常访问。为了约束网络爬虫的恶意行为，网站内部加入了一些防爬虫措施来阻止网络爬虫，与此同时网络爬虫也研究了防爬虫措施的应对策略。;;Robots协议又称爬虫协议，它是网站国际互联网界通行的道德规范，用于保护网站数据和敏感信息，确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围，网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件，通过这个文件告知网络爬虫在抓取该网站时存在哪些限制，哪些网页是允许被抓取的，哪些网页是禁止被抓取的。;当网络爬虫访问网站时，应先检查该网站的根目录下是否存在robots.txt文件。若robots.txt文件不存在，则网络爬虫会访问该网站上所有被口令保护的页面；若robots.txt文件存在，则网络爬虫会按照该文件的内容确定访问网站的范围。;robots.txt文件中的内容有着一套通用的写作规范。下面以豆瓣网站根目录下的robots.txt文件为例，分析robots.txt文件的语法规则。;;;;1.3.1 Robots协议;;1.3.2 防爬虫应对策略;;;;;网络爬虫的工作原理和流程;;;通用网络爬虫的采集目标是整个互联网上的所有网页，它会从一个或多个初始URL开始，获取初始URL对应的网页数据，并不断从该网页数据中抽取新的URL放到队列中，直至满足一定的条件后停止。;1.4.1 网络爬虫的工作原理;聚焦网络爬虫面向有特殊需求的人群，它会根据预先设定的主题顺着某个垂直领域进行抓取，而不是漫无目的地随意抓取。与通用网络爬虫相比，聚焦网络爬虫会根据一定的网页分析算法对网页进行筛选，保留与主题有关的网页链接，舍弃与主题无关的网页链接，其目的性更强。;1.4.1 网络爬虫的工作原理;;(1)选择一些网页，将这些网页的链接作为种子URL放入待抓取URL队列中。 (2)从待抓取URL队列中依次读取URL。 (3)通过DNS解析URL，把URL地址转换为网站服务器所对应的IP地址。 (4)将IP地址和网页相对路径名称交给网页下载器，网页下载器负责网页内容的下载。 (5)网页下载器将相应网页的内容下载到本地。 (6)将下载到本地的网页存储到页面库中，同时将使用过的URL放入到已抓取的URL队列中，避免重复抓取。 (7)对于刚下载的网页中抽取出所包含的URL信息。 (8)在已抓取URL队列中检查抽取的URL是否被下载过。如果它还未被下载过，则将这个URL放入待抓取URL队列中。如此重复（2）~（8），直到待抓取URL队列为