源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

Jsoup解析HTML实例及文档方法详解

  • 时间:2021-06-16 20:26 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:Jsoup解析HTML实例及文档方法详解
[b]解析和遍历一个HTML文档[/b] [b]如何解析一个HTML文档[/b]:
[url=http://www.1sucai.cn/]Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现 Element link = doc.select("a").first();//查找第一个a元素 String text = doc.body().text(); // "An www.1sucai.cn link"//取得字符串中的文本 String linkHref = link.attr("href"); // "http://www.1sucai.cn/"//取得链接地址 String linkText = link.text(); // "www.1sucai.cn""//取得链接地址中的文本 String linkOuterH = link.outerHtml();     // "<a href="http://www.1sucai.cn"><b>www.1sucai.cn</b></a>" String linkInnerH = link.html(); // "<b>www.1sucai.cn</b>"//取得链接内的html内容
说明 上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用: Element.id() Element.tagName() Element.className() and Element.hasClass(String className) 这些访问器方法都有相应的setter方法来更改数据. [b]示例程序: 获取所有链接 [/b]这个示例程序将展示如何从一个URL获得一个页面。然后提取页面中的所有链接、图片和其它辅助内容。并检查URLs和文本信息。 运行下面程序需要指定一个URLs作为参数
package org.jsoup.www.1sucai.cns; import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; /**  * www.1sucai.cn program to list links from a URL.  */ public class ListLinks {     public static void main(String[] args) throws IOException {         Validate.isTrue(args.length == 1, "usage: supply url to fetch");         String url = args[0];         print("Fetching %s...", url);         Document doc = Jsoup.connect(url).get();         Elements links = doc.select("a[href]");         Elements media = doc.select("[src]");         Elements imports = doc.select("link[href]");         print("\nMedia: (%d)", media.size());         for (Element src : media) {             if (src.tagName().equals("img"))                 print(" * %s: <%s> %sx%s (%s)",                         src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),                         trim(src.attr("alt"), 20));             else                 print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));         }         print("\nImports: (%d)", imports.size());         for (Element link : imports) {             print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));         }         print("\nLinks: (%d)", links.size());         for (Element link : links) {             print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));         }     }     private static void print(String msg, Object... args) {         System.out.println(String.format(msg, args));     }     private static String trim(String s, int width) {         if (s.length() > width)             return s.substring(0, width-1) + ".";         else             return s;     } } org/jsoup/www.1sucai.cns/ListLinks.java
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部