爬虫_2021年最新Python爬虫教程+实战项目案例(最新录制).docx

爬虫_2021年最新Python爬虫教程+实战项目案例(最新录制).docx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作者:珋戈 作者:珋戈 <Response [200]> 200是状态码,表示请求数据成功 <Response [404]> 服务器停止运行 如何快速查找下载链接的地址: 1、第一个爬虫程序 1.1web请求全过程剖析 简而言之,就是数据有没有放到html里面 1.服务器渲染:在服务器那边直接把数据和HTML整合在一起,统一返回给浏览器 在页面源代码中,能看到数据; 2.客户端渲染:第一次请求只要一个html骨架,第二次请求拿到数据,进行数据展示, 在页面源代码中,看不到数据; 第一次请求,只获得一个骨架;并没有数据 1.2http协议 请求方式:(get/post) 请求头里面可能会有一些凡爬的机制 状态码:这次请求成功与否【200】表示请求成功;【404】请求页面不存在 【500】报错;【302】这次请求OK,但是这次请求需要去一新的地址; Html就是一种超文本 http就是传递页面源代码 数据解析 Re解析 正则表达式 该程序默认是用utf-8来进行编码的,但是这里的编码格式是gb2312,所以打印出来的html会出现乱码 解决方法: Href后面表示的是超链接的地址,a标签表示超链接 因此,我们要寻找子链接的话,主要是要这个href Bs4解析前戏—html语法规则 标签语法: 在使用爬虫下载东西的时候,pycharm 会对下载到的东西进行一个索引,如果下载的东西太多的话,这就会导致pycharm非常的卡,这时候,我们可以这样做,就可以取消索引 xpath解析 拿xpath的方法 Requests 进阶 防盗链(Referer) 代理 一般来说,所有透明的IP地址都是可用的 干网易云音乐评论 这样看就可以发现,hot comment 就在这个url里面 所以,我们进入这个url的headers,找url 下面这个是往服务器发送的东西; 这表示,其真实的内容是被加密了的; 我们这边要做的事情,就是要想办法找到没加密之前的params 和 ensEecKey 是什么,以及其加密的过程;最后,我们还得想办法在我们的程序里面来模拟网易的加密过程,然后我们进行手工加密,加密完了之后再传递参数,这样才能保证整个程序没有问题; 在这一行设置断点 一直放开,一直等到有get的这个点 然后在左边找到send 点击下面这个按钮,进入页面 然后依次这样找,直到找到没有加密的地方 回到加密的位置 我们可以发现,参数在绿色的位置被加密了 这里,我们先设置一个断点,看一下这个函数是怎么跑的 找到get 程序执行到下图所示位置,会执行一个window 注:这个window就是加密过程 Ctrl + f 找到加密的源头 将加密过程复制 这是d调用的参数 这是e调用的参数 将其复制出来,放到Console里面,搜索 我们可以发现e的值是一个固定的值 下面这个是f,同理,将其放到Console里面,搜索,可以发现,f是一个固定的 这个是g的值,同理,和上面的操作一样 第四章,提高爬虫效率 线程相当于员工,进程相当于公司

文档评论(0)

featherwit + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档