python爬虫（学习笔记）.docx

下载文档

7
0
约1.38千字
约 21页
2022-12-15 发布于贵州
举报
版权申诉
保障服务

python爬虫（学习笔记）.docx

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

作者：珋戈作者：珋戈 Python 爬虫 1、任务介绍 2、爬虫初识 3、基本流程 3.1准备工作 /top250?start=25&filter= 通过更改这里的数值，可以决定从第几个电影开始看！比如将25改为29 /top250?start=29&filter= 分页和网站的变量之间是有关系的！！！这就是网页的规律！点击这里的小箭头，可以在网页上指定位置，可以定位相应的代码这个表示浏览器向服务器发起的请求这里是我我们返回给服务器的头部服务器放回给我们的头部在这这个代表浏览器的的详细信息 Cookie 代表服务器为了标识每一个客户端的登陆信息、行为信息、地理位置、以前浏览的关键字等......，保存在我们本地的一些内容（加密内容）如果想要做一些登陆以后才能看到的内容的一些爬取，就必须要学会怎么样去存储Cookie和读取Cookie，因为如果没有Cookie，网站就认为你没有登陆。是我们向服务器发起的消息，服务器通过这里面的消息来鉴定我们的身份。在目录（directory）test1里面定义一个函数 t1 可以在目录（directory）test2 的 t2 里面调用 t1 的函数安装 bs4 库： 1、在左下角的terminal里面，我们可以直接进行写命令的我们可以通过这个命令，就可以将bs4这个模块进行在线安装但是我们在这里不用这种方式 2、我们在Pcharm 里面点击 file ——settings——project:——project interpreter——点右边的 + 号——搜索bs4——install package——退出后点击ok 即可下面几个模块都需要安装：复制电影网站的主网址，将其粘贴到如下图所示的程序中，做出一个基础的UIL 保存数据：”./”表示当前文件夹 “.\\”表示文件系统异常处理： 3.1.1 补充urllib 进入测试网站错误类型418，表示爬虫被发现了！！并且，response 可以获得具体的信息如：刚刚我们进入网站被发现了，现在学习如何伪装成浏览器：先到浏览器的这个界面找到——user-agent 将其复制，搞到headers上注意User-agent 的格式！！！具体内容看文件 spider.py 3.2获取数据上面的地方会报错，需要把 User-Agent 后面的内容搞成一行，然后才能加上双引号找到item，右击选择下面这里，就可以随意复制自己所需要的代码了 3.3解析内容补充Beautifulsoup（很重要） Limit参数，帮你限制你想要找到的内容补充正则表达式正则表达式可以理解为是字符串的一个模式；它是文档的格式要求要求能够看得懂别人写出来的东西； 3.4、保存数据按住alt键，点击程序，就可以快速定位其函数所在位置如果没有出现表格，我们可以右击当前界面，选择reload from disk 刷新一下补充SQLite 数据库的打开可以在左边的database里面执行对于这个数据库，这个操作平台不亚于任何一个图形化的sql的数据库管理软件；保存数据到sqlite