Python网络爬虫项目实战 项目二 爬取网站表层页面.ppt

Python网络爬虫项目实战 项目二 爬取网站表层页面.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
5.1 使用urllib3库爬取网站首页 urllib3库功能非常强大,而且使用起来非常简单。 使用urllib3库爬取网站页面的步骤如下: 导入urllib3库 import urllib3 创建PoolManager实例,用来生成请求。 http=urllib3.PoolManager() 调用request()方法,指定访问方式和URL,发送请求。 request(method, url, fields=None, headers=None, **urlopen_kw) 使用HTTPResponse对象的data属性获取页面信息。 response.data 5.4 urllib3库知识点扩充 urllib3库功能非常强大,而且使用起来非常简单。 使用urllib3库爬取网站页面的步骤如下: timeout参数设置爬取超时时间 可以设置在PoolManager实例里面,对该实例的所有请求生效,也可以设置在http.request()方法里,只对该次请求生效。 connect设置连接超时时间,参数read设置读取超时时间 retries参数设置请求重试次数。 redirect 参数设置重定向次数。默认进行3次请求重试,以及3次重定向。 HTTP请求头键值对 HTTPResponse对象 任务六 使用requests库爬取网页 任务描述 requests库是基于Python开发的HTTP 库,与urllib标准库相比,它不仅功能强大,而且使用方便,能够节省大量的工作。 requests库是第三方库,使用前需要先安装。在命令行窗口里面执行以下命令进行安装: pip install requests 6.1 了解urllib库 requests.get()用于向网站服务器发送GET方式的请求,其语法如下: requests.get(url, params=None, **kwargs) 参数: url:指定请求的URL,字符串类型。 params:默认为None,指定该请求传递的参数,字典类型。 6.4 requests库知识点扩充 requests库中提供了很多发送HTTP请求的方法 (1)requests.request():构造一个请求,是支撑以下各方法的基础方法。 (2)requests.get():获取HTML网页的主要方法,对应于HTTP的GET请求方式。 (3)requests.head():获取HTML网页头部信息,对应于HTTP的HEAD请求方式。 (4)requests.post():向HTML网页提交POST请求,对应于HTTP的POST请求方式。 (5)requests.put():向HTML网页提交PUT请求,对应于HTTP的PUT请求方式。 (6)requests.patch():向HTML网页提交局部修改请求,对应于HTTP的PATCH请求方式。 (7)requests.delete():向HTML网页提交删除请求,对应于HTTP的DELETE请求方式。 其他参数 (1)timeout参数请求超时时间,单位是秒。 (2)headers 设置请求头部设置。 6.4 requests库知识点扩充 response对象 (1)response.status_code:响应状态码。 (2)response.text:字符串方式的响应主体(一般为网页HTML源代码),会自动根据响应头部中预测的字符编码进行解码。 (3)response.content:字节方式的响应主体,会自动解码。 (4)response.raw:返回原始响应主体(urllib 库的 HTTPResponse 对象),使用 response.raw.read()方法可以读取其中网页HTML源代码。 (5)response.encoding:从HTTP请求头部中猜测的响应内容的编码方式,可读、可写。 (6)response.apparent_encoding:从内容中猜测的响应内容的编码方式(备选)。 (7)response.headers:以字典对象存储服务器响应头部信息,字典的键不区分大小写,若键不存在,则返回None。 (8)response.json():requests库中内置的JSON解码器。 (9)response.raise_for_status():失败请求(非200响应),抛出异常。 本章小结 本项目介绍了Python处理HTTP的标准库urllib和基于标准库的urllib3库以及第三方库requests库。通过爬取网站首页、网站图书检索页以及用户信息验证页的相关信息,读者可以了解到使用不同的爬虫库编写爬虫程序实现页面信息爬取操作

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001
认证主体丁**

1亿VIP精品文档

相关文档

相关课程推荐