源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

python3使用urllib模块制作网络爬虫

  • 时间:2020-06-16 14:46 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:python3使用urllib模块制作网络爬虫
[b]urllib[/b] urllib模块是python3的URL处理包 其中: [b]1、urllib.request主要是打开和阅读urls[/b] 个人平时主要用的1: 打开对应的URL:urllib.request.open(url) 用urllib.request.build_opener([handler, ...]),来伪装成对应的浏览器
import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)
[b]2、urllib.parse主要是用来解析url[/b] 主要方法: urllib.parse.urlparse(urlstring) 功能:将对应的URL解析成六部分,并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)
import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())
对应的结果: ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='') /%7Eguido/Python.html http 80 [url=http://www.cwi.nl:80/%7Eguido/Python.html]http://www.cwi.nl:80/%7Eguido/Python.html[/url] [b]2、构建一个新的url——urllib.parse.urljoin(base, url)[/b] 参数:base:基本的URL链接    url:另一个url
from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)
结果:[url=http://www.cwi.nl/%7Eguido/FAQ.html]http://www.cwi.nl/%7Eguido/FAQ.html[/url] 这个函数在爬虫的时候应该方便多了,我之前用的是比较笨的方法直接字符串拼接 [b]3、异常处理 urllib.error[/b] 用 try-except来捕捉异常 主要的错误方式就两种 URLError和HTTPError 因为HTTPError是URLError的子类,所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲,找到父亲,不一定知道儿子。
try:
  data=urllib.request.urlopen(url)
  print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
  print(e.code)
except urllib.error.URLError as e:
  print(e.reason)

结果:[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 如果捕获到了HTTPError,则输出code,不会再处理URLError异常。如果发生的不是HTTPError,则会去捕获URLError异常,输出错误原因
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部