视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001 知道1 知道21 知道41 知道61 知道81 知道101 知道121 知道141 知道161 知道181 知道201 知道221 知道241 知道261 知道281
问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
python之调度器的用法
2020-11-27 14:23:54 责编:小采
文档

  继续上一篇文章的内容,上一篇文章中,将爬虫调度器已经写好了,调度器是整个爬虫程序的“大脑”,也可以称之为指挥中心。而现在,我们要做的就是去将调度器中用到的其他组件写好。首先是url管理器,它既然作为管理器,那么它一定要区分待爬取的url和已经爬取的url,否则会重复爬取。这里教程用的是set集合,将两个url暂时存放到集合中,也就是内存中,毕竟比较爬取的数据比较少,当然也可以存放到别的地方,比如缓存或者关系型数据库中。 

    第一次是调度器初始化函数中,创建这个urlmanager对象,

    第二次是调用了add_new_url方法来将最初始的url加入到带爬取的集合中,

    第三次是在爬取过程中来判断是否有待爬取的url,

    第四次是将要爬取的url从集合中取出来,

    第五次是将页面解析出来的新的一组url再次添加到带爬去集合中

  那么我们接下来就要做的是用代码来实现这些功能:

 1 class UrlManager(object): 2 """docstring for UrlManager""" 3 def __init__(self): 4 self.new_urls = set() 5 self.old_urls = set() 6 #向管理器中添加一个新的url 7 def add_new_url(self,url): 8 if url is None: 9 return10 if url not in self.new_urls and url not in self.old_urls:11 self.new_urls.add(url)12 #从爬取数据中向管理器中批量添加url13 def add_new_urls(self,urls):14 if urls is None or len(urls) == 0:15 return16 for url in urls:17 self.add_new_url(url)18 #判断是否有新的url19 def has_new_url(self):20 return (len(self.new_urls) != 0)21 #从管理器中取出一个新的url22 def get_new_url(self):23 new_url = self.new_urls.pop()24 self.old_urls.add(new_url)25 return new_url

  好,到这,url管理器就搞定了!

  接下来就是url下载器了,很简单一个功能,将程序访问的页面保存下来。

 下载器只在调度器中出现过两次:

    第一次是初始化的时候创建

    第二次是紧接着取到url之后,马上调用它来下载页面

  在url下载器中,原教程使用的是urllib库,我觉得有点繁琐。所以我换成了一个更好用的库:requests。这个库可以帮助我屏蔽许多技术难题,直接去抓取我们想要访问的页面,而且使用起来非常简单。

  

 1 import requests 2 3 class HtmlDownloader(object): 4 """docstring for HtmlDownloader""" 5 def download(self,url): 6 if url is None: 7 return 8 response = requests.get(url, timeout = 0.1) 9 response.encoding = 'utf-8'10 if response.status_code == requests.codes.ok:11 return response.text12 else:13 return

  简要讲一下这段代码:

    a.首先要导入requests库,这个因为是第三方库,所以需要你自己下载 ,在命令行 输入 :pip install requests

    b.然后开始写下载器这个类,这个类只有一个方法,就是download。这个方法首先会接受你给定的url,然后对其进行判断是否存在。

    c.然后调用requests的get方法,它里面接受两个参数,一个是url,还有一个是timeout

      timeout是我自己额外加进去的,就是访问超时。如果不加timeout,程序会假死,也就是说会一直在那里等待页面的响应,也不抛出异常。

    d.然后对返回的response进行编码设置,因为爬取的百度百科页面是utf-8,所以这里最好还是设置一下,虽然requests会智能判断,但是还是手动改一下为宜。

    e.然后在判断页面是否响应,这里的codes.ok其实就是200,表示网页正常响应,你这里直接写 response.status_code == 200 也没问题。

    f.最后,将页面的所有内容都返回,这里的text就是一个字符串,它包含了一个页面的所有代码(html,css,js)。

下载本文
显示全文
专题