python爬虫(学习笔记).docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作者:珋戈 作者:珋戈 Python 爬虫 1、任务介绍 2、爬虫初识 3、基本流程 3.1准备工作 /top250?start=25&filter= 通过更改这里的数值,可以决定从第几个电影开始看! 比如将25改为29 /top250?start=29&filter= 分页和网站的变量之间是有关系的!!! 这就是网页的规律! 点击这里的小箭头,可以在网页上指定位置,可以定位相应的代码 这个表示浏览器向服务器发起的请求 这里是我我们返回给服务器的头部 服务器放回给我们的头部在这 这个代表浏览器的的详细信息 Cookie 代表服务器为了标识每一个客户端的登陆信息、行为信息、地理位置、以前浏览的关键字等......,保存在我们本地的一些内容(加密内容) 如果想要做一些登陆以后才能看到的内容的一些爬取,就必须要学会怎么样去存储Cookie和读取Cookie,因为如果没有Cookie,网站就认为你没有登陆。 是我们向服务器发起的消息,服务器通过这里面的消息来鉴定我们的身份。 在目录(directory)test1里面定义一个函数 t1 可以在目录(directory)test2 的 t2 里面调用 t1 的函数 安装 bs4 库: 1、在左下角的terminal里面,我们可以直接进行写命令的 我们可以通过这个命令,就可以将bs4这个模块进行在线安装 但是我们在这里不用这种方式 2、我们在Pcharm 里面点击 file ——settings——project:——project interpreter——点右边的 + 号——搜索bs4——install package——退出后点击ok 即可 下面几个 模块都需要安装: 复制电影网站的主网址,将其粘贴到如下图所示的程序中,做出一个基础的UIL 保存数据:”./”表示当前文件夹 “.\\”表示文件系统 异常处理: 3.1.1 补充urllib 进入测试网站 错误类型418,表示爬虫被发现了!! 并且,response 可以获得具体的信息 如: 刚刚我们进入网站被发现了,现在学习如何 伪装成浏览器: 先到浏览器的这个界面找到——user-agent 将其复制,搞到headers上 注意User-agent 的格式!!! 具体内容看文件 spider.py 3.2获取数据 上面的地方会报错,需要把 User-Agent 后面的内容搞成一行,然后才能加上双引号 找到item,右击选择下面这里,就可以随意复制自己所需要的代码了 3.3解析内容 补充Beautifulsoup(很重要) Limit参数,帮你限制你想要找到的内容 补充正则表达式 正则表达式可以理解为是字符串的一个模式;它是文档的格式要求 要求能够看得懂别人写出来的东西; 3.4、保存数据 按住alt键,点击程序,就可以快速定位其函数所在位置 如果没有出现表格,我们可以右击当前界面,选择reload from disk 刷新一下 补充SQLite 数据库的打开可以在左边的database里面执行 对于这个数据库,这个操作平台不亚于任何一个图形化的sql的数据库管理软件; 保存数据到sqlite

文档评论(0)

featherwit + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档