热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【Java】基于jsoup爬虫实现(从智联获取工作信息)

这几天在学习Java解析xml,突然想到Dom能不能解析html,结果试了半天行不通,然后就去查了一些资料,发现很多人都在用

这几天在学习Java解析xml,突然想到Dom能不能解析html,结果试了半天行不通,然后就去查了一些资料,发现很多人都在用Jsoup解析html文件,然后研究了一下,写了一个简单的实例,感觉还有很多地方需要润色,在这里分享一下我的实例,欢迎交流指教!后续想通过Java把数据导入到Excel或者生成一个报表!

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;/**从智联招聘获取招聘信息* &#64;url 智联招聘网站链接&#xff08;建议不要更改&#xff09;* &#64;city 搜索工作的城市* &#64;keywrods 搜索工作的相关关键字*/public class JsoupHtml {private String url&#61;"http://sou.zhaopin.com/jobs/searchresult.ashx?jl&#61;"; //智联招聘网站private String city&#61;"西安"; //搜索工作的城市private String keywords&#61;"java"; //搜索工作的关键字public JsoupHtml(String city,String keywords){ this.city&#61;city;this.keywords &#61;keywords;}public void getZhiLianWork(){try {for (int i&#61;0;i<10;i&#43;&#43;) {System.out.println("*********开始遍历第"&#43;(i&#43;1)&#43;"页的求职信息*********");Document doc &#61; Jsoup.connect(url&#43;city&#43;"&kw&#61;"&#43;keywords&#43;"&p&#61;"&#43;(i&#43;1)&#43;"&isadv&#61;0").get(); Element content &#61; doc.getElementById("newlist_list_content_table"); Elements zwmcEls &#61; content.getElementsByClass("zwmc");Elements gsmcEls &#61; content.getElementsByClass("gsmc"); Elements zwyxEls &#61; content.getElementsByClass("zwyx"); Elements gzddEls &#61; content.getElementsByClass("gzdd"); Elements gxsjEls &#61; content.getElementsByClass("gxsj");for(int j &#61; 0;j

更新源代码&#xff0c;支持生成html表格&#xff1a;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class JsoupHtml {public static void main(String[] args) { try {String url &#61;"http://sou.zhaopin.com/jobs/searchresult.ashx?";String city &#61;"西安";String keywords &#61; "java";BufferedWriter bWriter &#61; new BufferedWriter(new OutputStreamWriter(new FileOutputStream("output.html"),"utf-8"));bWriter.write("");File input &#61; new File("input.html");Document doc2 &#61; Jsoup.parse(input, "UTF-8", "");Element table &#61; doc2.getElementById("workinfo");table.text("");Element theader &#61; table.appendElement("tr");theader.appendElement("th").text("序号");theader.appendElement("th").text("职位名称");theader.appendElement("th").text("公司名称");theader.appendElement("th").text("职位月薪");theader.appendElement("th").text("工作地点");theader.appendElement("th").text("发布日期"); for(int page&#61;0;page<10;page&#43;&#43;){ Document doc &#61; Jsoup.connect(url&#43;city&#43;"&kw&#61;"&#43;keywords&#43;"&p&#61;"&#43;page).get(); Element content &#61; doc.getElementById("newlist_list_content_table"); Elements zwmcEls &#61; content.getElementsByClass("zwmc");Elements gsmcEls &#61; content.getElementsByClass("gsmc"); Elements zwyxEls &#61; content.getElementsByClass("zwyx"); Elements gzddEls &#61; content.getElementsByClass("gzdd"); Elements gxsjEls &#61; content.getElementsByClass("gxsj");for(int i &#61; 1;i

output.html模板&#xff1a;


智联工作信息
版权所有 翻版必究&#64;2018 Joker

 


推荐阅读
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 将Web服务部署到Tomcat
    本文介绍了如何在JDeveloper 12c中创建一个Java项目,并将其打包为Web服务,然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 本文介绍如何使用 Python 的 xlrd 库读取 Excel 文件,并将其数据处理后存储到数据库中。通过实际案例,详细讲解了文件路径、合并单元格处理等常见问题。 ... [详细]
  • 本文介绍了Android开发中Intent的基本概念及其在不同Activity之间的数据传递方式,详细展示了如何通过Intent实现Activity间的跳转和数据传输。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • UNP 第9章:主机名与地址转换
    本章探讨了用于在主机名和数值地址之间进行转换的函数,如gethostbyname和gethostbyaddr。此外,还介绍了getservbyname和getservbyport函数,用于在服务器名和端口号之间进行转换。 ... [详细]
  • RecyclerView初步学习(一)
    RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式,除了提供ViewHolder缓存模式,还可以自定义动画,分割符,布局样式,相比于传统的ListVi ... [详细]
  • 本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法,通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点,并保持在文档树中。 ... [详细]
  • 本文详细介绍了Python中文件的基本操作,包括打开、读取、写入和关闭文件的方法,并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外,还涉及了成绩等级替换的具体实现。 ... [详细]
  • 本文探讨了在通过 API 端点调用时,使用猫鼬(Mongoose)的 findOne 方法总是返回 null 的问题,并提供了详细的解决方案和建议。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 本文介绍如何使用 Python 获取文件和图片的创建、修改及拍摄日期。通过多种方法,如 PIL 库的 _getexif() 函数和 os 模块的 getmtime() 和 stat() 方法,详细讲解了这些技术的应用场景和注意事项。 ... [详细]
  • 本文介绍如何使用布局文件在Android应用中排列多行TextView和Button,使其占据屏幕的特定比例,并提供示例代码以帮助理解和实现。 ... [详细]
  • 本文详细解析了如何使用Python的urllib模块发起POST请求,并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]
author-avatar
mobiledu2502886187
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有