当前位置：首页 > 资讯 > 技术文档

判断网页编码的方法python版

时间：2021-06-26 09:34 编辑：来源：阅读：
扫一扫，手机访问

摘要：判断网页编码的方法python版

在web开发的时候我们经常会遇到网页抓取和分析，各种语言都可以完成这个功能。我喜欢用python实现，因为python提供了很多成熟的模块，可以很方便的实现网页抓取。但是在抓取过程中会遇到编码的问题，那今天我们来看一下如何判断网页的编码：网上很多网页的编码格式都不一样，大体上是GBK,GB2312，UTF-8等。我们在获取网页的的数据后，先要对网页的编码进行判断，才能把抓取的内容的编码统一转换为我们能够处理的编码，避免乱码问题的出现。下面介绍两种判断网页编码的方法： [b]总结：[/b]第二个方法很准确，在网页编码分析的时候用python模块分析内容是最准确的，而使用分析meta头信息的方法是不太准确的。 [b]方法一：[/b][b]使用urllib模块的getparam方法 [/b]

import urllib
#autor：pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

[b]方法二：[/b][b]使用chardet模块 [/b]

#如果你的python没有安装chardet模块，你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持编程素材网。

全部评论(0)

上一篇：Android基于API的Tabs3实现仿优酷tabhost效果实例
下一篇：python导入时小括号大作用

资讯排行榜
更多>>