热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AndroidJsoup与HttpClient网络爬虫解析

一、Jsoup介绍Jsoup是一款Java的HTML解析器,可直接解析某个URL、HTML文本内容。他提供了一套非常具有效率的API,可通过DOM,CSS以及类似于Jquer


一、Jsoup介绍

    Jsoup是一款Java的HTML解析器,可直接解析某个URL、HTML文本内容。他提供了一套非常具有效率的API,可通过DOM,CSS以及类似于Jquery的操作方法取出和操作数据。包涵支持HTML5的解析器分支,可确保跟现在的浏览器一样解析HTML的方法,同时降低了解析的时间和内存的占用。


主要功能与特点如下:

1.从一个URL,文件或字符串中解析HTML。

2.使用DOM或CSS选择器来查找和取出数据。

3.可操作HTML元素、属性和文本。

4.Jsoup是基于MIT协议发布的,安全性较高。

 

二、HttpClient介绍

    HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,HttpClient提供了很多特性,支持最新的HTTP标准。从名字上可以看出,他是一个简单的HTTP客户端(不是浏览器),可以发送HTTP请求,接收HTTP响应,但不会缓存服务器的响应,不能执行HTTP页面中嵌入的JS代码,自然也不会对页面内容进行解析、处理,这些都是需要开发人员自个儿编码完成。HttpClient的本质是一个模拟浏览器跟服务器通信的工具,他代替了浏览器向服务器发送请求并接收服务器的回应,然后配合Jsoup解析并响应报文,最后抓取到自己需要的东西。


主要功能如下:

1.实现了所有HTTP的方法(GET、POST、PUT和HEAD等)。

2.支持自动转向。

3.支持HTTPS协议。

4.支持代理服务器等。

 


三、Jsoup基本用法

1.在项目工程下添加依赖库。

//Jsoup
compile 'org.jsoup:jsoup:1.9.2'

2.Jsoup方法解析网页。

private void parseHtml() {
try {
doc = Jsoup.connect(url).get();
Elements elements = doc.select("div.unit");
for (Element ele : elements) {
String title = ele.getElementsByTag("h1").first().text();
String href = ele.getElementsByTag("h1").first()
.getElementsByTag("a").first().attr("href");
// logcat中打印出“新闻标题+链接地址”
Log.i("info", title + ":" + href);
mListTitle.add(title);
}
mListTitle.add(mStrTime);
} catch (IOException e) {
e.printStackTrace();
}
mAdapter = new ArrayAdapter(this, android.R.layout.simple_expandable_list_item_1, mListTitle);
hander.post(runnableUi);
}




3.设置主线程更新UI操作。

hander = new Handler();
new Thread(new Runnable() {
@Override
public void run() {
parseHtml();
}
}).start();


Runnable runnableUi = new Runnable() {    @Override    public void run() {        setListAdapter(mAdapter);    }};


4.添加解析时间(纯属用于比较与HttpClient的区别,以时间观察解析速度)。

mFirDate = new Date(System.currentTimeMillis());
timeFirst = mFirDate.getTime();


四、HttpClient基本用法

1.在项目工程下添加依赖库。

//添加HttpClient
useLibrary 'org.apache.http.legacy'

2.异步方式加载数据。

/**
* 异步方式加载数据
*/
private class RequestTask extends AsyncTask {

@Override
protected String doInBackground(Void... params) {
//在doInBackground方法中,做一些诸如网络请求等耗时操作。
return RequestData();
}

/**
* onPostExecute方法主要是主线程中的数据更新。
*/
@Override
protected void onPostExecute(String result) {
super.onPostExecute(result);
if (result != null) {
//如果获取的result数据不为空,那么对其进行JSON解析。并显示在手机屏幕上。
JSONAnalysis(result);
} else if (result == null) {
Toast.makeText(HttpClientNetActivity.this, "请求数据失败", Toast.LENGTH_LONG).show();
}
}
}




3.请求网络数据,该处使用HttpClient方法。

/**
* 网络请求,这里用的是HttpClient
*
* @return
*/
public String RequestData() {
HttpGet get = new HttpGet(url);
HttpClient client = new DefaultHttpClient();
StringBuilder builder = null;
try {
HttpResponse respOnse= client.execute(get);
if (response.getStatusLine().getStatusCode() == 200) {
InputStream inputStream = response.getEntity().getContent();
BufferedReader reader = new BufferedReader(
new InputStreamReader(inputStream));
builder = new StringBuilder();
String s = null;
for (s = reader.readLine(); s != null; s = reader.readLine()) {
builder.append(s);
}
}
} catch (Exception e) {
e.printStackTrace();
}
return builder.toString();
}




4.将请求返回的数据进行JSON解析。

/**
* 对请求回来的数据进行JSON解析。
*
* @param result
*/
public void JSONAnalysis(String result) {
JSONTokener(result);
Document document = Jsoup.parse(result);
Elements elements = document.select("div.unit");
for (Element ele : elements) {
String title = ele.getElementsByTag("h1").first().text();
String href = ele.getElementsByTag("h1").first()
.getElementsByTag("a").first().attr("href");
// logcat中打印出“新闻标题+链接地址”
Log.i("info", title + ":" + href);
mListTitle.add(title);
}
mAdapter = new ArrayAdapter(this, android.R.layout.simple_expandable_list_item_1, mListTitle);
setListAdapter(mAdapter);
}




5.请求返回的HTML文本代码的编码有时会出现问题,这与网页的编码方式有关,我们在此处进行异常处理。

/**
*解决编码异常问题
* @param in
* @return
*/
public String JSONTokener(String in) {
if (in != null && in.startsWith("\ufeff")) {
in = in.substring(1);
}
return in;
}



6. 添加解析时间(目的同Jsoup,用于比较解析时间)。

mFirDate = new Date(System.currentTimeMillis());
timeFirst = mFirDate.getTime();





五、效果展示

               




六、源码下载

地址:http://download.csdn.net/detail/u012721519/9743735





Good luck!

Write by Jimmy.li


























推荐阅读
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 本文详细介绍了如何使用PHP检测AJAX请求,通过分析预定义服务器变量来判断请求是否来自XMLHttpRequest。此方法简单实用,适用于各种Web开发场景。 ... [详细]
  • 导航栏样式练习:项目实例解析
    本文详细介绍了如何创建一个具有动态效果的导航栏,包括HTML、CSS和JavaScript代码的实现,并附有详细的说明和效果图。 ... [详细]
  • 深入理解 SQL 视图、存储过程与事务
    本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商,ARM在嵌入式处理器市场占据主导地位,其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家,共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • 本周信息安全小组主要进行了CTF竞赛相关技能的学习,包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外,还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]
  • 本文详细介绍了如何使用Python编写爬虫程序,从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制,再到多页数据抓取的全过程,并提供了完整的代码示例。 ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • 在Ubuntu 16.04 LTS上配置Qt Creator开发环境
    本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator,涵盖了从下载到安装的全过程,并提供了常见问题的解决方案。 ... [详细]
author-avatar
睿芬惠洁育瑋
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有