ECM
ECM
总版主
总版主
  • 社区居民
  • 忠实会员
  • 原创写手
阅读:697回复:0

JSOUP初探

楼主#
更多 发布于:2015-12-31 16:33
JSOUP是偶然看到的一个处理HTML的JAVA 类库,其官方网址是:http://jsoup.org/
1、编写相关的试用程序(只需要在工程中引用jsoup-1.3.3.jar即可):

[java] view plaincopy

  1. import java.io.File;  
  2. import java.io.IOException;  
  3.  
  4. import org.jsoup.Jsoup;  
  5. import org.jsoup.nodes.Document;  
  6. import org.jsoup.select.Elements;  
  7.  
  8. public class Test {  
  9.    public static void main(String[] args) {  
  10.        Test t = new Test();  
  11.        t.parseFile();  
  12.    }  
  13.  
  14.    public void parseString() {  
  15.        String html = "<html><head><title>blog</title></head><body onload='test()'><p>Parsed HTML into a doc.</p></body></html>";  
  16.        Document doc = Jsoup.parse(html);  
  17.        System.out.println(doc);  
  18.        Elements es = doc.body().getAllElements();  
  19.        System.out.println(es.attr("onload"));  
  20.        System.out.println(es.select("p"));  
  21.    }  
  22.  
  23.    public void parseUrl() {  
  24.        try {  
  25.            Document doc = Jsoup.connect("http://www.baidu.com/").get();  
  26.            Elements hrefs = doc.select("a[href]");  
  27.            System.out.println(hrefs);  
  28.            System.out.println("------------------");  
  29.            System.out.println(hrefs.select("[href^=http]"));  
  30.        } catch (IOException e) {  
  31.            e.printStackTrace();  
  32.        }  
  33.    }  
  34.  
  35.    public void parseFile() {  
  36.        try {  
  37.            File input = new File("input.html");  
  38.            Document doc = Jsoup.parse(input, "UTF-8");  
  39.            // 提取出所有的编号  
  40.            Elements codes = doc.body().select("td[title^=IA] > a[href^=javascript:view]");  
  41.            System.out.println(codes);  
  42.            System.out.println("------------------");  
  43.            System.out.println(codes.html());  
  44.        } catch (IOException e) {  
  45.            e.printStackTrace();  
  46.        }  
  47.    }  
  48. }  


 
2、parseString的输出:

[java] view plaincopy

  1. <html>  
  2. <head>  
  3.  <title>blog</title>  
  4. </head>  
  5. <body onload="test()">  
  6.  <p>Parsed HTML into a doc.</p>  
  7. </body>  
  8. </html>  
  9. test()  
  10.  
  11. <p>Parsed HTML into a doc.</p>  


 
3、parseUrl的输出:

[java] view plaincopy

  1. <a href="/gaoji/preferences.html">设置</a>  
  2. <a href="http://passport.baidu.com/?login&tpl=mn">登录</a>  
  3. <a href="http://news.baidu.com">新 闻</a>  
  4. <a href="http://tieba.baidu.com">贴 吧</a>  
  5. <a href="http://zhidao.baidu.com">知 道</a>  
  6. <a href="http://mp3.baidu.com">MP3</a>  
  7. <a href="http://image.baidu.com">图 片</a>  
  8. <a href="http://video.baidu.com">视 频</a>  
  9. <a href="http://map.baidu.com">地 图</a>  
  10.  
  11. <a href="#" name="ime_hw">手写</a>  
  12.  
  13. <a href="#" name="ime_py">拼音</a>  
  14.  
  15. <a href="#" name="ime_cl">关闭</a>  
  16. <a href="http://hi.baidu.com">空间</a>  
  17. <a href="http://baike.baidu.com">百科</a>  
  18. <a href="http://www.hao123.com">hao123</a>  
  19. <a href="/more/">更多>></a>  
  20. <a id="st" onclick="this.style.behavior='url(#default#homepage)';this.setHomePage('http://www.baidu.com')" href="http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com">把百度设为主页</a>  
  21. <a href="http://e.baidu.com/?refer=888">加入百度推广</a>  
  22. <a href="http://top.baidu.com">搜索风云榜</a>  
  23. <a href="http://home.baidu.com">关于百度</a>  
  24. <a href="http://ir.baidu.com">About Baidu</a>  
  25. <a href="/duty/">使用百度前必读</a>  
  26. <a href="http://www.miibeian.gov.cn" target="_blank">京ICP证030173号</a>  
  27. ------------------  
  28. <a href="http://passport.baidu.com/?login&tpl=mn">登录</a>  
  29. <a href="http://news.baidu.com">新 闻</a>  
  30. <a href="http://tieba.baidu.com">贴 吧</a>  
  31. <a href="http://zhidao.baidu.com">知 道</a>  
  32. <a href="http://mp3.baidu.com">MP3</a>  
  33. <a href="http://image.baidu.com">图 片</a>  
  34. <a href="http://video.baidu.com">视 频</a>  
  35. <a href="http://map.baidu.com">地 图</a>  
  36. <a href="http://hi.baidu.com">空间</a>  
  37. <a href="http://baike.baidu.com">百科</a>  
  38. <a href="http://www.hao123.com">hao123</a>  
  39. <a id="st" onclick="this.style.behavior='url(#default#homepage)';this.setHomePage('http://www.baidu.com')" href="http://utility.baidu.com/traf/click.php?id=215&url=http://www.baidu.com">把百度设为主页</a>  
  40. <a href="http://e.baidu.com/?refer=888">加入百度推广</a>  
  41. <a href="http://top.baidu.com">搜索风云榜</a>  
  42. <a href="http://home.baidu.com">关于百度</a>  
  43. <a href="http://ir.baidu.com">About Baidu</a>  
  44. <a href="http://www.miibeian.gov.cn" target="_blank">京ICP证030173号</a>  


 
3、parseFile的输出:

[java] view plaincopy

  1. <a href="javascript:view('67530','67530','0');">IA100908-002</a>  
  2.  
  3. <a href="javascript:view('67529','67529','0');">IA100908-001</a>  
  4.  
  5. <a href="javascript:view('67544','67544','0');">IA100908-016</a>  
  6.  
  7. <a href="javascript:view('67364','67364','0');">IA100903-008</a>  
  8.  
  9. <a href="javascript:view('67363','67363','0');">IA100903-007</a>  
  10.  
  11. <a href="javascript:view('66104','66104','0');">IA100710-013</a>  
  12.  
  13. <a href="javascript:view('57916','57916','0');">IA100515-013</a>  
  14.  
  15. <a href="javascript:view('56962','56962','0');">IA100430-022</a>  
  16.  
  17. <a href="javascript:view('66958','66958','0');">IA100830-001</a>  
  18.  
  19. <a href="javascript:view('66319','66319','0');">IA100713-003</a>  
  20.  
  21. <a href="javascript:view('66317','66317','0');">IA100713-001</a>  
  22.  
  23. <a href="javascript:view('66321','66321','0');">IA100713-005</a>  
  24.  
  25. <a href="javascript:view('66967','66967','0');">IA100830-010</a>  
  26.  
  27. <a href="javascript:view('66999','66999','0');">IA100831-001</a>  
  28.  
  29. <a href="javascript:view('67377','67377','0');">IA100904-004</a>  
  30.  
  31. <a href="javascript:view('67378','67378','0');">IA100904-005</a>  
  32.  
  33. <a href="javascript:view('3271','3271','0');">IA080115-031</a>  
  34. ------------------  
  35. IA100908-002  
  36. IA100908-001  
  37. IA100908-016  
  38. IA100903-008  
  39. IA100903-007  
  40. IA100710-013  
  41. IA100515-013  
  42. IA100430-022  
  43. IA100830-001  
  44. IA100713-003  
  45. IA100713-001  
  46. IA100713-005  
  47. IA100830-010  
  48. IA100831-001  
  49. IA100904-004  
  50. IA100904-005  
  51. IA080115-031  


补充下,input.html的基本结果如图:

图片:2572f928-80ce-3e5b-acdb-c03b85c9d008.jpg

 

 

 

 

 

 

 

异常中心网是一家专门收集整理程序员编程过程中遇到的常见异常(exception)以及各种异常问答中心的网站。异常中心网旨在,减少程序员在编码遇到异常,处理各种异常时间和痛苦,让程序员能更愉快的、快速的定位异常并查找对应的异常解决方案。异常中心网诚心打造最完美的编程社区为程序员用户服务,努力成为最好的程序员乐园程序员社区程序异常中心程序bug中心异常问答中心

 

喜欢0 评分0
游客

返回顶部