热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【Java】基于jsoup爬虫实现(从智联获取工作信息)

这几天在学习Java解析xml,突然想到Dom能不能解析html,结果试了半天行不通,然后就去查了一些资料,发现很多人都在用

这几天在学习Java解析xml,突然想到Dom能不能解析html,结果试了半天行不通,然后就去查了一些资料,发现很多人都在用Jsoup解析html文件,然后研究了一下,写了一个简单的实例,感觉还有很多地方需要润色,在这里分享一下我的实例,欢迎交流指教!后续想通过Java把数据导入到Excel或者生成一个报表!

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;/**从智联招聘获取招聘信息* &#64;url 智联招聘网站链接&#xff08;建议不要更改&#xff09;* &#64;city 搜索工作的城市* &#64;keywrods 搜索工作的相关关键字*/public class JsoupHtml {private String url&#61;"http://sou.zhaopin.com/jobs/searchresult.ashx?jl&#61;"; //智联招聘网站private String city&#61;"西安"; //搜索工作的城市private String keywords&#61;"java"; //搜索工作的关键字public JsoupHtml(String city,String keywords){ this.city&#61;city;this.keywords &#61;keywords;}public void getZhiLianWork(){try {for (int i&#61;0;i<10;i&#43;&#43;) {System.out.println("*********开始遍历第"&#43;(i&#43;1)&#43;"页的求职信息*********");Document doc &#61; Jsoup.connect(url&#43;city&#43;"&kw&#61;"&#43;keywords&#43;"&p&#61;"&#43;(i&#43;1)&#43;"&isadv&#61;0").get(); Element content &#61; doc.getElementById("newlist_list_content_table"); Elements zwmcEls &#61; content.getElementsByClass("zwmc");Elements gsmcEls &#61; content.getElementsByClass("gsmc"); Elements zwyxEls &#61; content.getElementsByClass("zwyx"); Elements gzddEls &#61; content.getElementsByClass("gzdd"); Elements gxsjEls &#61; content.getElementsByClass("gxsj");for(int j &#61; 0;j

更新源代码&#xff0c;支持生成html表格&#xff1a;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class JsoupHtml {public static void main(String[] args) { try {String url &#61;"http://sou.zhaopin.com/jobs/searchresult.ashx?";String city &#61;"西安";String keywords &#61; "java";BufferedWriter bWriter &#61; new BufferedWriter(new OutputStreamWriter(new FileOutputStream("output.html"),"utf-8"));bWriter.write("");File input &#61; new File("input.html");Document doc2 &#61; Jsoup.parse(input, "UTF-8", "");Element table &#61; doc2.getElementById("workinfo");table.text("");Element theader &#61; table.appendElement("tr");theader.appendElement("th").text("序号");theader.appendElement("th").text("职位名称");theader.appendElement("th").text("公司名称");theader.appendElement("th").text("职位月薪");theader.appendElement("th").text("工作地点");theader.appendElement("th").text("发布日期"); for(int page&#61;0;page<10;page&#43;&#43;){ Document doc &#61; Jsoup.connect(url&#43;city&#43;"&kw&#61;"&#43;keywords&#43;"&p&#61;"&#43;page).get(); Element content &#61; doc.getElementById("newlist_list_content_table"); Elements zwmcEls &#61; content.getElementsByClass("zwmc");Elements gsmcEls &#61; content.getElementsByClass("gsmc"); Elements zwyxEls &#61; content.getElementsByClass("zwyx"); Elements gzddEls &#61; content.getElementsByClass("gzdd"); Elements gxsjEls &#61; content.getElementsByClass("gxsj");for(int i &#61; 1;i

output.html模板&#xff1a;


智联工作信息
版权所有 翻版必究&#64;2018 Joker

 


推荐阅读
  • Python3 中使用 lxml 模块解析 XPath 数据详解
    XPath 是一种用于在 XML 文档中查找信息的路径语言,同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]
  • 本题探讨了在一个有向图中,如何根据特定规则将城市划分为若干个区域,使得每个区域内的城市之间能够相互到达,并且划分的区域数量最少。题目提供了时间限制和内存限制,要求在给定的城市和道路信息下,计算出最少需要划分的区域数量。 ... [详细]
  • 本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异,提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]
  • 本文详细探讨了HTML表单中GET和POST请求的区别,包括它们的工作原理、数据传输方式、安全性及适用场景。同时,通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]
  • 本文介绍了如何利用 Spring Boot 和 Groovy 构建一个灵活且可扩展的动态计算引擎,以满足钱包应用中类似余额宝功能的推广需求。我们将探讨不同的设计方案,并最终选择最适合的技术栈来实现这一目标。 ... [详细]
  • 深入解析SpringMVC核心组件:DispatcherServlet的工作原理
    本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制,旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题:1. HTTP请求如何映射到Controller;2. Controller是如何被执行的。 ... [详细]
  • ListView简单使用
    先上效果:主要实现了Listview的绑定和点击事件。项目资源结构如下:先创建一个动物类,用来装载数据:Animal类如下:packagecom.example.simplelis ... [详细]
  • 本文详细介绍了Java中实现异步调用的多种方式,包括线程创建、Future接口、CompletableFuture类以及Spring框架的@Async注解。通过代码示例和深入解析,帮助读者理解并掌握这些技术。 ... [详细]
  • Java 中重写与重载的区别
    本文详细解析了 Java 编程语言中重写(Override)和重载(Overload)的概念及其主要区别,帮助开发者更好地理解和应用这两种多态性机制。 ... [详细]
  • 理解文档对象模型(DOM)
    本文介绍了文档对象模型(DOM)的基本概念,包括其作为HTML文档的节点树结构,以及如何通过JavaScript操作DOM来实现网页的动态交互。 ... [详细]
  • 本文介绍了如何利用Java中的URLConnection类来实现基本的网络爬虫功能,包括向目标网站发送请求、接收HTML响应、解析HTML以提取所需信息,并处理可能存在的递归爬取需求。 ... [详细]
  • EasyMock实战指南
    本文介绍了如何使用EasyMock进行单元测试,特别是当测试对象的合作者依赖于外部资源或尚未实现时。通过具体的示例,展示了EasyMock在模拟对象行为方面的强大功能。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 我有一个SpringRestController,它处理API调用的版本1。继承在SpringRestControllerpackagerest.v1;RestCon ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
author-avatar
mobiledu2502886187
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有