- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作者:珋戈
作者:珋戈
<Response [200]> 200是状态码,表示请求数据成功
<Response [404]> 服务器停止运行
如何快速查找下载链接的地址:
1、第一个爬虫程序
1.1web请求全过程剖析
简而言之,就是数据有没有放到html里面
1.服务器渲染:在服务器那边直接把数据和HTML整合在一起,统一返回给浏览器
在页面源代码中,能看到数据;
2.客户端渲染:第一次请求只要一个html骨架,第二次请求拿到数据,进行数据展示,在页面源代码中,看不到数据;
第一次请求,只获得一个骨架;并没有数据
1.2http协议
请求方式:(get/post)
请求头里面可能会有一些凡爬的机制
状态码:这次请求成功与否【200】表示请求成功;【404】请求页面不存在
【500】报错;【302】这次请求OK,但是这次请求需要去一新的地址;
Html就是一种超文本
http就是传递页面源代码
数据解析
Re解析
正则表达式
该程序默认是用utf-8来进行编码的,但是这里的编码格式是gb2312,所以打印出来的html会出现乱码
解决方法:
Href后面表示的是超链接的地址,a标签表示超链接
因此,我们要寻找子链接的话,主要是要这个href
Bs4解析前戏—html语法规则
标签语法:
在使用爬虫下载东西的时候,pycharm 会对下载到的东西进行一个索引,如果下载的东西太多的话,这就会导致pycharm非常的卡,这时候,我们可以这样做,就可以取消索引
xpath解析
拿xpath的方法
Requests 进阶
防盗链(Referer)
代理
一般来说,所有透明的IP地址都是可用的
干网易云音乐评论
这样看就可以发现,hot comment 就在这个url里面
所以,我们进入这个url的headers,找url
下面这个是往服务器发送的东西;
这表示,其真实的内容是被加密了的;
我们这边要做的事情,就是要想办法找到没加密之前的params 和 ensEecKey 是什么,以及其加密的过程;最后,我们还得想办法在我们的程序里面来模拟网易的加密过程,然后我们进行手工加密,加密完了之后再传递参数,这样才能保证整个程序没有问题;
在这一行设置断点
一直放开,一直等到有get的这个点
然后在左边找到send
点击下面这个按钮,进入页面
然后依次这样找,直到找到没有加密的地方
回到加密的位置
我们可以发现,参数在绿色的位置被加密了
这里,我们先设置一个断点,看一下这个函数是怎么跑的
找到get
程序执行到下图所示位置,会执行一个window
注:这个window就是加密过程
Ctrl + f 找到加密的源头
将加密过程复制
这是d调用的参数
这是e调用的参数
将其复制出来,放到Console里面,搜索
我们可以发现e的值是一个固定的值
下面这个是f,同理,将其放到Console里面,搜索,可以发现,f是一个固定的
这个是g的值,同理,和上面的操作一样
第四章,提高爬虫效率
线程相当于员工,进程相当于公司
文档评论(0)