当前位置：首页 > 资讯 > 技术文档

Python天气预报采集器实现代码(网页爬虫)

时间：2020-01-04 04:56 编辑：来源：阅读：
扫一扫，手机访问

摘要：Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。　　[b]1、获得html文本。 [/b]　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。

[url=http://www.1sucai.cn/article/31472.htm]Python的一些用法[/url]》介绍了一点正则的用法。这里需要一个新的用法：

def getWeather(html):
reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>'
weatherList = re.compile(reg).findall(html)
return weatherList

其中reg是正则表达式，html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。　　这里的正则表达式reg有两个地方要注意。　　一个是“(.*?)”。只要是（）中的内容都是我们将要获得的内容，如果有多个括号，那么findall的每个结果就都包含这几个括号中的内容。上面有三个括号，分别对应城市、最低温和最高温。　　另一个是“.*?”。python的正则匹配默认是贪婪的，即默认尽可能多地匹配字符串。如果在末尾加上问号，则表示非贪婪模式，即尽可能少地匹配字符串。在这里，由于有多个城市的信息需要匹配，所以需要使用非贪婪模式，否则匹配结果只剩下一个，且是不正确的。　　　　python的使用确实十分方便：）

全部评论(0)

上一篇：python cx_Oracle的基础使用方法(连接和增删改查)
下一篇：Python获取系统默认字符编码的方法

资讯排行榜
更多>>

联系客服

客服电话：
400-000-3129

微信版

扫一扫进微信版

返回顶部