爬虫_2021年最新Python爬虫教程+实战项目案例（最新录制）.docx

下载文档

6
0
约1.28千字
约 20页
2022-12-15 发布于贵州
举报
版权申诉
保障服务

爬虫_2021年最新Python爬虫教程+实战项目案例（最新录制）.docx

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

作者：珋戈作者：珋戈 <Response [200]> 200是状态码，表示请求数据成功 <Response [404]> 服务器停止运行如何快速查找下载链接的地址： 1、第一个爬虫程序 1.1web请求全过程剖析简而言之，就是数据有没有放到html里面 1.服务器渲染：在服务器那边直接把数据和HTML整合在一起，统一返回给浏览器在页面源代码中，能看到数据； 2.客户端渲染：第一次请求只要一个html骨架，第二次请求拿到数据，进行数据展示，在页面源代码中，看不到数据；第一次请求，只获得一个骨架；并没有数据 1.2http协议请求方式：（get/post）请求头里面可能会有一些凡爬的机制状态码：这次请求成功与否【200】表示请求成功；【404】请求页面不存在【500】报错；【302】这次请求OK，但是这次请求需要去一新的地址； Html就是一种超文本 http就是传递页面源代码数据解析 Re解析正则表达式该程序默认是用utf-8来进行编码的，但是这里的编码格式是gb2312，所以打印出来的html会出现乱码解决方法： Href后面表示的是超链接的地址，a标签表示超链接因此，我们要寻找子链接的话，主要是要这个href Bs4解析前戏—html语法规则标签语法：在使用爬虫下载东西的时候，pycharm 会对下载到的东西进行一个索引，如果下载的东西太多的话，这就会导致pycharm非常的卡，这时候，我们可以这样做，就可以取消索引 xpath解析拿xpath的方法 Requests 进阶防盗链（Referer）代理一般来说，所有透明的IP地址都是可用的干网易云音乐评论这样看就可以发现，hot comment 就在这个url里面所以，我们进入这个url的headers，找url 下面这个是往服务器发送的东西；这表示，其真实的内容是被加密了的；我们这边要做的事情，就是要想办法找到没加密之前的params 和 ensEecKey 是什么，以及其加密的过程；最后，我们还得想办法在我们的程序里面来模拟网易的加密过程，然后我们进行手工加密，加密完了之后再传递参数，这样才能保证整个程序没有问题；在这一行设置断点一直放开，一直等到有get的这个点然后在左边找到send 点击下面这个按钮，进入页面然后依次这样找，直到找到没有加密的地方回到加密的位置我们可以发现，参数在绿色的位置被加密了这里，我们先设置一个断点，看一下这个函数是怎么跑的找到get 程序执行到下图所示位置，会执行一个window 注：这个window就是加密过程 Ctrl + f 找到加密的源头将加密过程复制这是d调用的参数这是e调用的参数将其复制出来，放到Console里面，搜索我们可以发现e的值是一个固定的值下面这个是f，同理，将其放到Console里面，搜索，可以发现，f是一个固定的这个是g的值，同理，和上面的操作一样第四章，提高爬虫效率线程相当于员工，进程相当于公司