源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

Python中装饰器的一个妙用

  • 时间:2021-02-23 05:44 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:Python中装饰器的一个妙用
好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~ 我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:
[u]复制代码[/u] 代码如下:
def func_top(url):     data_dict= {}       #在页面上获取到子url     sub_urls = xxxx       data_list = []     for it in sub_urls:         data_list.append(func_sub(it))       data_dict['data'] = data_list       return data_dict   def func_sub(url):     data_dict= {}       #在页面上获取到子url     bottom_urls = xxxx       data_list = []     for it in bottom_urls:         data_list.append(func_bottom(it))       data_dict['data'] = data_list       return data_dict   def func_bottom(url):     #获取数据     data = xxxx     return data
func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。 如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。 于是这个时候你有两个选择: 1.遇到错误就停止,之后重新从断掉的位置开始重新跑 2.遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据 对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。 OK,目标已经有了,怎么实现呢? 如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。 所以实现方案也就有了: 定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中. 代码如下:
[u]复制代码[/u] 代码如下:
def get_dump_data(dir_name, url):     m = hashlib.md5(url)     filename = m.hexdigest()     full_file_name = 'dumps/%s/%s' % (dir_name,filename)       if os.path.isfile(full_file_name):         return eval(file(full_file_name,'r').read())     else:         return None     def set_dump_data(dir_name, url, data):     if not os.path.isdir('dumps/'+dir_name):         os.makedirs('dumps/'+dir_name)       m = hashlib.md5(url)     filename = m.hexdigest()     full_file_name = 'dumps/%s/%s' % (dir_name,filename)       f = file(full_file_name, 'w+')     f.write(repr(data))     f.close()     def deco_dump_data(func):     def func_wrapper(url):         data = get_dump_data(func.__name__,url)         if data is not None:             return data           data = func(url)         if data is not None:             set_dump_data(func.__name__,url,data)         return data       return func_wrapper
然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~ 搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销! OK,就这样~ 人生苦短,我用python!
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部