Python网络爬虫项目实战配套课件.ppt

下载文档

28
0
约 275页
2023-03-21 发布于甘肃
举报
版权申诉
保障服务

Python网络爬虫项目实战配套课件.ppt

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共275页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本资料是Python网络爬虫项目实战配套课件

1.1 安装Scrapy框架在Windows系统中可以使用pip命令快速安装Scrapy框架。打开命令行窗口，输入并执行命令： pip install scrapy 命令行窗口执行安装完毕，最后出现如图所示信息，安装成功。 1.1 安装Scrapy框架 crapy命令也可以用来验证安装是否成功，在命令行窗口中输入scrapy命令并执行： scrapy version：查看Scrapy版本信息 fetch：根据当前url或request发送请求，获取新的response setting：获取Scrapy配置信息 view:下载指定URL的页面源代码并启动浏览器展示页面 shell：启动Scrapy交互终端 1.2 scrapy shell scrapy shell是交互式终端。在交互模式里，可以在不启动Scrapy爬虫的情况下爬取页面并对网站响应进行操作。启动scrapy shell scrapy shell URL 任务二创建Spider并爬取网站首页任务描述使用scrapy shell 虽然能够实现页面的下载和目标数据的提取，但是运行结果无法保存，不适合实施爬虫项目。在本任务中，我们将学习Scrapy项目的创建，并在项目里创建爬虫（Spider），实现网页数据的爬取。 2.1 创建Scrapy项目创建一个 Scrapy 项目，可以直接在命令行窗口中使用 scrapy 命令生成. 命令格式如下： scrapy startproject projectName 这个命令可以在任意目录下运行。具体在哪个目录下执行，项目就会创建在对应目录里。因此，在执行该命令之前，一定要先将当前目录定位到目标位置。 2.2 创建Spider并爬取网页 Spider负责下载网页并解析网页数据。创建Spider的命令格式如下： scrapy genspider spiderName ″Domain Name″ 2.3 发送请求，处理响应 Spider发出请求之后接收到的response对象，是网站服务器返回的响应信息。这个对象直接作为参数传递给parse（）方法。 parse（）方法运行时已经获取到响应对象response，在parse（）方法里一般会进行页面解析和response对象数据信息的处理工作。任务三创建Spider并爬取新闻数据任务描述在任务8-2里面，我们学会了创建Scrapy项目进行爬虫的简单操作，在本任务里我们不仅要能够下载页面，还要能够把页面里的主要数据解析出来。 3.1 创建Spider爬取并解析网页在项目里创建一个Spider：getOneNews 3.2 解析网页并提取新闻数据 1.处理初始URL import scrapy class GetonenewsSpider（scrapy.Spider）: name=′getOneNews′ allowed_domains=[′′] start_urls=[′/?_d=news&_f=newsDetail&id=20′] start_urls列表里面的初始URL换成了我们要爬取的大连理工大学出版社的新闻页面URL。 2.解析页面，提取检索结果可以使用前面学习过的数据解析技术提取目标数据 3.3 使用Scrapy.selector提取新闻数据使用scrapy库的selector解析数据简单又快捷。 title=response.xpath('//h5/text()').extract_first() span_list=response.xpath('//div[@class=″info″]/span/text()').extract() 3.4 存储网页数据 Scrapy可以直接把获取到的目标数据保存成各种类型的本地文件。若要把上节代码中提取出的新闻数据保存到本地，最简单的方法有以下几种： cmdline.execute（′scrapy crawl getOneNews o news.json nolog′.split（）） o 后面指定了输出文档的文件名，其扩展名指定了文件类型。运行命令后，项目内多了一个news.json 文件，文件包含了刚才抓取到的所有数据，JSON格式。输出文件的类型支持很多种格式，例如 csv、xml 等。任务四爬取所有新闻任务描述 getOneNews成功下载并解析了一条大连理工大学出版社新闻，把它存储成本地文件。在实施爬虫代码的时候，我们首先更换了start_urls列表里面的初始URL。既然start_urls是一个列表，那么它就可以存放多个初始URL。本任务尝试在start_urls列表中放多个初始URL，看看是否能够一次爬取大连理工大学出版社网站的所有新闻

您可能关注的文档

文档评论（0）

dllkxy + 关注: 实名认证

内容提供者

本文库主要涉及建筑、教育等资料，有问题可以联系解决哦

咨询Ta 进入空间

用户编号：5213302032000001

1亿VIP精品文档

更多 >

Python网络爬虫项目实战配套课件.ppt