Android实战——jsoup实现网络爬虫，糗事百科项目的起步

作者：浪漫的没天份 | 来源：互联网 | 2023-12-11 09:19

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Android实战——jsoup实现网络爬虫，糗事百科项目的起步相关的知识，希望对你有一定的参考价值。

android实战——jsoup实现网络爬虫&＃xff0c;爬糗事百科主界面

本篇文章包括以下内容&＃xff1a;

前言
jsoup的简介
jsoup的配置
jsoup的使用
结语

前言

对于Android初学者想要做项目时&＃xff0c;最大的烦恼是什么&＃xff1f;毫无疑问是数据源的缺乏&＃xff0c;当然可以选择第三方接口提供数据&＃xff0c;也可以使用网络爬虫获取数据&＃xff0c;这样就不用第三方数据作为支持。本来是打算爬一些购物网站的数据&＃xff0c;由于他们的反爬做得好&＃xff0c;所以没办法爬到数据&＃xff0c;只能爬取糗事百科的数据&＃xff0c;或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目&＃xff0c;利用jsoup是完全没问题的

jsoup的学习需要结合前端的基础知识&＃xff0c;爬取前端的数据&＃xff0c;如果你学过JS&＃xff0c;那么你可以自己完全不用看文档的情况下&＃xff0c;使用该框架&＃xff0c;因为其设计与JS的使用几乎相同&＃xff0c;废话不多说&＃xff0c;开车啦

jsoup的简介

使用项目原话&＃xff1a;jsoup是一个Java库来处理实际的html。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法

项目地址&＃xff1a;https://github.com/jhy/jsoup
中文文档&＃xff1a;http://www.open-open.com/jsoup/

jsoup的配置

jsoup的配置很简单&＃xff0c;需要在gradle中添加以下依赖

compile &＃39;org.jsoup:jsoup:1.10.2&＃39;

由于jsoup需要获取网络数据&＃xff0c;所以记得添加网络权限

<uses-permission android:name&＃61;"android.permission.INTERNET" />

jsoup的使用

一、获取HTML

jsoup提供两种网络请求&＃xff0c;get和post&＃xff0c;使用代码也及其简单&＃xff0c;我们首先爬取糗事百科首页的HTML。注意&＃xff1a;由于是网络请求操作&＃xff0c;必须放在子线程中运行&＃xff0c;否则4.4以上的版本会报错

① get方式

new Thread() { &＃64;Override public void run() { super.run(); try { Document doc &＃61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get(); Log.e("一、HTML內容", doc.toString()); } catch{ } } }.start();

② post方式

Document doc &＃61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/") .data("query", "Java") .userAgent("Mozilla") .COOKIE("auth", "token") .timeout(3000) .post();

这里对post的参数介绍一下

connect&＃xff1a;设置连接的Url
data&＃xff1a;设置post的键值对数据
userAgent&＃xff1a;设置用户代理&＃xff08;请求头的东西&＃xff0c;可以判断你是PC还是Mobile端&＃xff09;
COOKIE&＃xff1a;设置缓存
timeout&＃xff1a;设置请求超时
post&＃xff1a;发送post请求

既然已经获取HTML的Document对象了&＃xff0c;接下来就是分析Html元素的时候了

二、获取Html元素

① 网页端

以糗事百科为例子&＃xff0c;我们查看糗事百科首页的数据对应的Html元素是什么&＃xff0c;我们可以通过F12&＃xff0c;找到对应的Html元素

可以看到一个a标签就是文章详情的内容&＃xff0c;我们可以通过这个a标签的class&＃61;”contentHerf”作为唯一标识来获取该链接&＃xff0c;获取之后&＃xff0c;继续爬取详情页的文章详细内容&＃xff0c;所以我们通过爬取的a标签的链接进入该文章的详情页

当然也有一些详情页有图片的&＃xff0c;我们可以通过图片的的class&＃61;”thumb”作为唯一标识来爬取图片里面的链接

由于糗事百科采用分页加载的情况&＃xff0c;我们需要在爬取完第一张内容后&＃xff0c;接着爬取第二章的内容&＃xff0c;下面是糗事百科的分页Url的规则&＃xff0c;很简单&＃xff0c;我们可以通过一个循环就可以了

http://www.qiushibaike.com/8hr/page/1/ http://www.qiushibaike.com/8hr/page/2/ http://www.qiushibaike.com/8hr/page/3/ http://www.qiushibaike.com/8hr/page/4/ http://www.qiushibaike.com/8hr/page/5/

好了&＃xff0c;分析完网页端之后&＃xff0c;就应该在我们的Android端采用代码&＃xff0c;将上面的步骤实现出来了

② Android端

通过上面的分析后&＃xff0c;可以总结我们需要实现的步骤有&＃xff1a;

爬取主页的详情页url
进入详情页爬取内容和图片
循环爬取第二页、第三页…

聪明的你&＃xff0c;可能会想到第四步第五步…

封装Bean对象
使用ListView填充内容
爬取日期、作者、评论等内容完善项目

1&＃xff09; 爬取主页的详情页url

爬取主页的url可以通过a标签的class&＃61;”contentHerf”&＃xff0c;我们通过jsoup的属性选择器来实现&＃xff0c;这里会用到css知识&＃xff0c;jsoup中文文档也有很详细的介绍

Document doc &＃61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get(); Elements els &＃61; doc.select("a.contentHerf"); Log.e("一、HTML內容", els.toString()); for (int i &＃61; 0; i Element el &＃61; els.get(i); Log.e("1.标题", el.text()); String href &＃61; el.attr("href"); Log.e("2.链接", href); }

这里对使用到的对象进行介绍

Document&＃xff1a;相当于一个Html文件
Elements&＃xff1a;相当于一个标签的集合
Element&＃xff1a;相当于一个标签

这里要注意Elements与Element的toString()方法和text()方法

toString()&＃xff1a;打印出来的是标签的Html内容
text()&＃xff1a;打印出来的是标签对应的文本内容

css选择器

select()&＃xff1a;获取符合属性选择器要求的标签内容
或getElementById&＃xff1a;获取符合ID选择器要求的标签内容
或getElementsByTag&＃xff1a;获取符合Tag选择器要求的标签内容

2&＃xff09; 进入详情页爬取内容和图片

这段代码也相当简单&＃xff0c;这里就不多解释了

Document doc &＃61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/1/").get(); Elements els &＃61; doc.select("a.contentHerf"); Log.e("一、HTML內容", els.toString()); for (int i &＃61; 0; i Element el &＃61; els.get(i); Log.e("1.标题", el.text()); String href &＃61; el.attr("href"); Log.e("2.链接", href); //获取详情页内容 Document doc_detail &＃61; Jsoup.connect("http://www.qiushibaike.com" &＃43; href).get(); Elements els_detail &＃61; doc_detail.select(".content"); Log.e("3.內容", els_detail.text()); //获取图片 Elements els_pic &＃61; doc_detail.select(".thumb img[src$&＃61;jpg]"); if (!els_pic.isEmpty()) { String pic &＃61; els_pic.attr("src"); Log.e("4.图片连接", "" &＃43; pic); } else { Log.e("4.图片连接", "无"); } }

3&＃xff09; 循环爬取第二页、第三页…

这里只需要嵌套一个循环进去就可以了&＃xff0c;完整代码如下

public class JsoupActivity extends AppCompatActivity { &＃64;Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_jsoup); new Thread() { &＃64;Override public void run() { super.run(); try { for (int k &＃61; 0; k <5; k&＃43;&＃43;) { Document doc &＃61; Jsoup.connect("http://www.qiushibaike.com/8hr/page/" &＃43; k &＃43; "/").get(); Elements els &＃61; doc.select("a.contentHerf"); Log.e("一、HTML內容", els.toString()); for (int i &＃61; 0; i Element el &＃61; els.get(i); Log.e("1.标题", el.text()); String href &＃61; el.attr("href"); Log.e("2.链接", href); Document doc_detail &＃61; Jsoup.connect("http://www.qiushibaike.com" &＃43; href).get(); Elements els_detail &＃61; doc_detail.select(".content"); Log.e("3.內容", els_detail.text()); Elements els_pic &＃61; doc_detail.select(".thumb img[src$&＃61;jpg]"); if (!els_pic.isEmpty()) { String pic &＃61; els_pic.attr("src"); Log.e("4.图片连接", "" &＃43; pic); } else { Log.e("4.图片连接", "无"); } } } } catch (IOException e) { e.printStackTrace(); } } }.start(); } }

4&＃xff09; 当然&＃xff0c;我们爬取到的内容之后&＃xff0c;毫无疑问就是要封装成对象&＃xff0c;通过ArrayList存储起来&＃xff0c;这样你的数据源就解决了

public class Xiaohua { private String content; private String title; private String url; private String userName; private String date; }

5&＃xff09; 后面爬取作者、日期、评论等信息就由你们去练习了&＃xff0c;然后界面一仿&＃xff0c;项目就出来了

三、爬取结果

02-12 08:16:55.010 18074-18110/com.handsome.boke2 E/1.标题: 小时候有个常去楼主家的阿姨总是把楼主叫成楼主哥哥的名字&＃xff0c;终于有一天&＃xff0c;楼主忍无可忍&＃xff0c;大骂了她一顿&＃xff1a;“你这个人是不是白痴啊&＃xff1f;”她暴怒了&＃xff0c;立马告诉了楼主的爸爸&＃xff0c;楼主永远也忘不了哥哥被揍时眼睛里的无辜与绝望... 02-12 08:16:55.011 18074-18110/com.handsome.boke2 E/2.链接: /article/118543240 02-12 08:16:55.329 18074-18110/com.handsome.boke2 E/3.內容: 小时候有个常去楼主家的阿姨总是把楼主叫成楼主哥哥的名字&＃xff0c;终于有一天&＃xff0c;楼主忍无可忍&＃xff0c;大骂了她一顿&＃xff1a;“你这个人是不是白痴啊&＃xff1f;”她暴怒了&＃xff0c;立马告诉了楼主的爸爸&＃xff0c;楼主永远也忘不了哥哥被揍时眼睛里的无辜与绝望... 02-12 08:16:55.331 18074-18110/com.handsome.boke2 E/4.图片连接: 无 02-12 08:16:55.881 18074-18110/com.handsome.boke2 E/1.标题: 一朋友&＃xff0c;给暗恋许久的女神&＃xff0c;匿名网购了一大堆的礼物&＃xff0c;可把女神高兴的&＃xff0c;在朋友圈发说说&＃xff0c;这是谁买的。告诉我&＃xff0c;我要做他女朋友&＃xff01; 朋友乐坏了&＃xff0c;于是激动的说&＃xff0c;是我&＃xff0c;是我&＃xff01; 那女神愣了愣&＃xff0c;然后把礼物全部退给了他…… 02-12 08:16:55.881 18074-18110/com.handsome.boke2 E/2.链接: /article/118542673 02-12 08:16:56.104 18074-18110/com.handsome.boke2 E/3.內容: 一朋友&＃xff0c;给暗恋许久的女神&＃xff0c;匿名网购了一大堆的礼物&＃xff0c;可把女神高兴的&＃xff0c;在朋友圈发说说&＃xff0c;这是谁买的。告诉我&＃xff0c;我要做他女朋友&＃xff01; 朋友乐坏了&＃xff0c;于是激动的说&＃xff0c;是我&＃xff0c;是我&＃xff01; 那女神愣了愣&＃xff0c;然后把礼物全部退给了他…… 02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/4.图片连接: 无 02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/1.标题: LZ在非洲曾经遇到过抢劫&＃xff0c;有人拿枪指着我们&＃xff0c;愣了一下热血当头没当回事&＃xff0c;继续反抗&＃xff0c;后来情急之下&＃xff0c;他射了一枪&＃xff0c;结果发现那是玩具枪&＃xff0c;特么的&＃xff0c;我们抓起扫把就把那个劫匪揍了一顿。事后想想&＃xff0c;又害怕又想笑。 02-12 08:16:56.106 18074-18110/com.handsome.boke2 E/2.链接: /article/118542683 02-12 08:16:56.608 18074-18110/com.handsome.boke2 E/3.內容: LZ在非洲曾经遇到过抢劫&＃xff0c;有人拿枪指着我们&＃xff0c;愣了一下热血当头没当回事&＃xff0c;继续反抗&＃xff0c;后来情急之下&＃xff0c;他射了一枪&＃xff0c;结果发现那是玩具枪&＃xff0c;特么的&＃xff0c;我们抓起扫把就把那个劫匪揍了一顿。事后想想&＃xff0c;又害怕又想笑。 02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/4.图片连接: 无 02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/1.标题: 今年换了工作&＃xff0c;今天第一天上班&＃xff0c;老妈早早起床准备早餐&＃xff0c;等我吃完早餐准备出门的时候&＃xff0c;老妈塞给我一个红包说&＃xff0c;新年第一天上班图吉利。当时急着上班也没有细看就放在口袋里。等上班空闲的时候&＃xff0c;掏出红包&＃xff0c;发现红包里只有一张纸条&＃xff0c;上面写着四个大字:好好工作…… 02-12 08:16:56.609 18074-18110/com.handsome.boke2 E/2.链接: /article/118542647 02-12 08:16:57.140 18074-18110/com.handsome.boke2 E/3.內容: 今年换了工作&＃xff0c;今天第一天上班&＃xff0c;老妈早早起床准备早餐&＃xff0c;等我吃完早餐准备出门的时候&＃xff0c;老妈塞给我一个红包说&＃xff0c;新年第一天上班图吉利。当时急着上班也没有细看就放在口袋里。等上班空闲的时候&＃xff0c;掏出红包&＃xff0c;发现红包里只有一张纸条&＃xff0c;上面写着四个大字:好好工作…… 02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/4.图片连接: 无 02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/1.标题: 腰疼&＃xff0c;趴在床上&＃xff0c;让大侄子来给我踩踩后背&＃xff0c;踩得我挺舒服&＃xff0c;没忍住&＃xff0c;放个响屁&＃xff0c;小家伙愣了一下&＃xff0c;然后狠狠踹我屁股“让你蹦我&＃xff01;让你蹦我&＃xff01;”。。。。 02-12 08:16:57.142 18074-18110/com.handsome.boke2 E/2.链接: /article/118542708 02-12 08:16:57.379 18074-18110/com.handsome.boke2 E/3.內容: 腰疼&＃xff0c;趴在床上&＃xff0c;让大侄子来给我踩踩后背&＃xff0c;踩得我挺舒服&＃xff0c;没忍住&＃xff0c;放个响屁&＃xff0c;小家伙愣了一下&＃xff0c;然后狠狠踹我屁股“让你蹦我&＃xff01;让你蹦我&＃xff01;”。。。。 02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/4.图片连接: 无 02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/1.标题: 闺蜜的妈妈非常迷信&＃xff0c;自从闺蜜放假回家陪妈妈去了几次麻将馆后&＃xff0c;她妈每次都能赢钱&＃xff0c;所以她妈这一个寒假只要去打麻将&＃xff0c;都要拉着她去&＃xff0c;直到昨天闺蜜开学&＃xff0c;她妈妈送她走得时候&＃xff0c;眼泪汪汪的对闺蜜说:宝贝&＃xff0c;这是我第一次不舍的你走~ 02-12 08:16:57.382 18074-18110/com.handsome.boke2 E/2.链接: /article/118542657 02-12 08:16:57.881 18074-18110/com.handsome.boke2 E/3.內容: 闺蜜的妈妈非常迷信&＃xff0c;自从闺蜜放假回家陪妈妈去了几次麻将馆后&＃xff0c;她妈每次都能赢钱&＃xff0c;所以她妈这一个寒假只要去打麻将&＃xff0c;都要拉着她去&＃xff0c;直到昨天闺蜜开学&＃xff0c;她妈妈送她走得时候&＃xff0c;眼泪汪汪的对闺蜜说:宝贝&＃xff0c;这是我第一次不舍的你走~ 02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/4.图片连接: 无 02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/1.标题: 早上起床后发现阳台的地上到处是泡沫水&＃xff0c;花盆里也有很多泡沫&＃xff0c;而且地上躺着洗衣液的空瓶子&＃xff0c;一下便明白了&＃xff0c;转头去问熊孩子&＃xff0c;熊孩子若无其事的说我只是给花洗洗头而已嘛&＃xff01; 02-12 08:16:57.882 18074-18110/com.handsome.boke2 E/2.链接: /article/118542709 02-12 08:16:58.391 18074-18110/com.handsome.boke2 E/3.內容: 早上起床后发现阳台的地上到处是泡沫水&＃xff0c;花盆里也有很多泡沫&＃xff0c;而且地上躺着洗衣液的空瓶子&＃xff0c;一下便明白了&＃xff0c;转头去问熊孩子&＃xff0c;熊孩子若无其事的说我只是给花洗洗头而已嘛&＃xff01; 02-12 08:16:58.393 18074-18110/com.handsome.boke2 E/4.图片连接: 无

结语

网络爬虫虽然带来了很多数据源的问题&＃xff0c;但很多网站都已经通过一些技术实现反爬虫的效果了&＃xff0c;所以大家还是以学习jsoup为主&＃xff0c;不管是Android端还是Web端jsoup的用处很广泛&＃xff0c;所以掌握起来是必须的&＃xff0c;听说豆瓣和知乎都可以爬出来哦&＃xff0c;想做项目的同学可以去试试哦

代码下载

推荐阅读

int
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
input
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
int
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
include
次小生成树问题的高效求解

本文探讨了如何通过最小生成树（MST）来计算严格次小生成树。在处理过程中，需特别注意所有边权重相等的情况，以避免错误。我们首先构建最小生成树，然后枚举每条非树边，检查其是否能形成更优的次小生成树。 ... [详细]

蜡笔小新 2024-12-28 13:42:43
include
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
int
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
int
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
post
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
post
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
post
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
input
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
input
Vue 2 中解决页面刷新和按钮跳转导致导航栏样式失效的问题

本文介绍了如何通过配置路由的 meta 字段，确保 Vue 2 项目中的导航栏在页面刷新或内部按钮跳转时，始终保持正确的 active 样式。具体实现方法包括设置路由的 meta 属性，并在 HTML 模板中动态绑定类名。 ... [详细]

蜡笔小新 2024-12-28 13:45:20
input
存储器层次结构、随机访问存储器与数据存取机制

理解存储器的层次结构有助于程序员优化程序性能，通过合理安排数据在不同层级的存储位置，提升CPU的数据访问速度。本文详细探讨了静态随机访问存储器（SRAM）和动态随机访问存储器（DRAM）的工作原理及其应用场景，并介绍了存储器模块中的数据存取过程及局部性原理。 ... [详细]

蜡笔小新 2024-12-27 12:06:47
input
几何画板展示电场线与等势面的交互关系

几何画板是一款功能强大的物理教学软件，具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程，还能通过定量分析揭示物理现象背后的规律，尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]

蜡笔小新 2024-12-27 10:46:07