当前位置：首页 > 资讯 > 技术文档

HttpClient抓取网页的两种方式

时间：2021-04-27 14:19 编辑：来源：阅读：
扫一扫，手机访问

摘要：HttpClient抓取网页的两种方式

[b]一、利用NodeFilter对网页进行分析[/b] 1、生成一个Parser a.通过url提取网络上的网页

Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");

b.提取本地网页文件通过读文件把网页文件转化成字符串；

[u]复制代码[/u] 代码如下:

Parser parser=Parser.createParser(html,charset);

2、利用NodeFilter做一个filter a.利用Tag Name NodeFilter filter=new TagNameFilter("IMG"); b.利用Tag Class NodeFilter filter = new NodeClassFilter(ImageTag.class); 3、通过匹配filter，得到所有符合条件的Tag NodeList list=parser.extractAllNodesThat(filter); for(int i=0;i String content=list.elementAt(i).toHtml();//得到符合条件的Tag 内容如果针对具体情况进行更加详细的处理，则：

[u]复制代码[/u] 代码如下:

ImageTag imageTag=(ImageTag)list.elementAt(i);
…………
}

然后根据需要做相应的处理。 [b]二、利用Visitor对网页进行分析[/b] 1、生成一个Parser a.通过url提取网络上的网页

[u]复制代码[/u] 代码如下:

Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");

b.提取本地网页文件通过读文件把网页文件转化成字符串；

[u]复制代码[/u] 代码如下:

Parser parser=Parser.createParser(html,charset);

2、用visitor访问页面

[u]复制代码[/u] 代码如下:

ex：ObjectFindingVisitor visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);

3、通过特定的visitor得到符合条件的Tag

[u]复制代码[/u] 代码如下:

Node[] nodes=visitor.getTags();
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i];
…………
//根据需要做特定处理
}

全部评论(0)

上一篇：SATA硬盘如何使用GHOST的解释
下一篇：Firefox下的网页截图插件

资讯排行榜
更多>>