Python网络爬虫项目实战 配套课件.ppt

Python网络爬虫项目实战 配套课件.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共275页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本资料是Python网络爬虫项目实战配套课件

1.1 安装Scrapy框架 在Windows系统中可以使用pip命令快速安装Scrapy框架。 打开命令行窗口,输入并执行命令: pip install scrapy 命令行窗口执行安装完毕,最后出现如图所示信息,安装成功。 1.1 安装Scrapy框架 crapy命令也可以用来验证安装是否成功,在命令行窗口中输入scrapy命令并执行: scrapy version:查看Scrapy版本信息 fetch:根据当前url或request发送请求,获取新的response setting:获取Scrapy配置信息 view:下载指定URL的页面源代码并启动浏览器展示页面 shell:启动Scrapy交互终端 1.2 scrapy shell scrapy shell是交互式终端。在交互模式里,可以在不启动Scrapy爬虫的情况下爬取页面并对网站响应进行操作。 启动scrapy shell scrapy shell URL 任务二 创建Spider并爬取网站首页 任务描述 使用scrapy shell 虽然能够实现页面的下载和目标数据的提取,但是运行结果无法保存,不适合实施爬虫项目。 在本任务中,我们将学习Scrapy项目的创建,并在项目里创建爬虫(Spider),实现网页数据的爬取。 2.1 创建Scrapy项目 创建一个 Scrapy 项目,可以直接在命令行窗口中使用 scrapy 命令生成. 命令格式如下: scrapy startproject projectName 这个命令可以在任意目录下运行。具体在哪个目录下执行,项目就会创建在对应目录里。因此,在执行该命令之前,一定要先将当前目录定位到目标位置。 2.2 创建Spider并爬取网页 Spider负责下载网页并解析网页数据。 创建Spider的命令格式如下: scrapy genspider spiderName ″Domain Name″ 2.3 发送请求,处理响应 Spider发出请求之后接收到的response对象,是网站服务器返回的响应信息。这个对象直接作为参数传递给parse()方法。 parse()方法运行时已经获取到响应对象response,在parse()方法里一般会进行页面解析和response对象数据信息的处理工作。 任务三 创建Spider并爬取新闻数据 任务描述 在任务8-2里面,我们学会了创建Scrapy项目进行爬虫的简单操作, 在本任务里我们不仅要能够下载页面,还要能够把页面里的主要数据解析出来。 3.1 创建Spider爬取并解析网页 在项目里创建一个Spider:getOneNews 3.2 解析网页并提取新闻数据 1.处理初始URL import scrapy class GetonenewsSpider(scrapy.Spider): name=′getOneNews′ allowed_domains=[′′] start_urls=[′/?_d=news&_f=newsDetail&id=20′] start_urls列表里面的初始URL换成了我们要爬取的大连理工大学出版社的新闻页面URL。 2.解析页面,提取检索结果 可以使用前面学习过的数据解析技术提取目标数据 3.3 使用Scrapy.selector提取新闻数据 使用scrapy库的selector解析数据简单又快捷。 title=response.xpath('//h5/text()').extract_first() span_list=response.xpath('//div[@class=″info″]/span/text()').extract() 3.4 存储网页数据 Scrapy可以直接把获取到的目标数据保存成各种类型的本地文件。 若要把上节代码中提取出的新闻数据保存到本地,最简单的方法有以下几种: cmdline.execute(′scrapy crawl getOneNews o news.json nolog′.split()) o 后面指定了输出文档的文件名,其扩展名指定了文件类型。 运行命令后,项目内多了一个news.json 文件,文件包含了刚才抓取到的所有数据,JSON格式。 输出文件的类型支持很多种格式,例如 csv、xml 等。 任务四 爬取所有新闻 任务描述 getOneNews成功下载并解析了一条大连理工大学出版社新闻,把它存储成本地文件。 在实施爬虫代码的时候,我们首先更换了start_urls列表里面的初始URL。既然start_urls是一个列表,那么它就可以存放多个初始URL。本任务尝试在start_urls列表中放多个初始URL,看看是否能够一次爬取大连理工大学出版社网站的所有新闻

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档