当前位置: 开发笔记 > 前端 > 正文

crawler4j抓取页面使用jsoup解析html时的解决方法

作者：COMEX黄金2502897957 | 来源：互联网 | 2022-10-17 22:58

crawler4j对response没有指定编码的页面，解析成乱码，很让人烦恼,下面给出解决方法,需要的朋友可以参考下

crawler4j对已有编码的页面抓取效果不错，用jsoup解析，很多会jquery的程序员都可以操作。但是，crawler4j对response没有指定编码的页面，解析成乱码，很让人烦恼。在找了苦闷之中，无意间发现一年代已久的博文，可以解决问题，修改 Page.load() 中的 contentData 编码即可，这让我心中顿时舒坦了很多，接下来的问题都引刃而解了。

代码如下:

public void load(HttpEntity entity) throws Exception {
 cOntentType= null;  
    Header type = entity.getContentType();  
    if (type != null) {  
        cOntentType= type.getValue();  
    }  

    cOntentEncoding= null;  
    Header encoding = entity.getContentEncoding();  
    if (encoding != null) {  
        cOntentEncoding= encoding.getValue();  
    }  

    Charset charset = ContentType.getOrDefault(entity).getCharset();  
    if (charset != null) {  
        cOntentCharset= charset.displayName();   
    }else{
     cOntentCharset= "utf-8";
    }

   //源码
   //cOntentData= EntityUtils.toByteArray(entity);  
    //修改后的代码
    cOntentData= EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}

推荐阅读

html
并发编程：深入理解设计原理与优化

本文探讨了并发编程中的关键设计原则，特别是Java内存模型（JMM）的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案，并总结了不同处理器和内存模型之间的关系，旨在为程序员提供更深入的理解和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 01:14:06
jquery
如何使用jQuery阻止事件冒泡

本文详细介绍了如何使用jQuery防止事件冒泡，确保子元素的点击事件不会触发父元素或祖先元素的相应事件。通过具体的代码示例和解释，帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-25 19:47:37
jquery
FineUI：增强型 ASP.NET WebForms 和 MVC 控件库

FineUI 是一款基于 jQuery 的专业级控件库，专为 ASP.NET WebForms 和 MVC 开发设计。它提供了丰富的用户界面组件，简化了复杂 Web 应用程序的开发过程。 ... [详细]

蜡笔小新 2024-12-24 18:02:59
iframe
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
jquery
基于jQuery的用户注册页面表单验证代码分享

本文介绍了一段使用jQuery实现的用户注册页面表单验证代码，适用于前端开发人员学习和参考。该示例结合了HTML、CSS和JavaScript，确保用户输入的数据格式正确。 ... [详细]

蜡笔小新 2024-12-24 14:37:46
jquery
jQuery HooRay：一款自创的实用 jQuery 工具插件

这款插件主要由作者在工作中积累的常用功能开发而成，旨在解决现有插件间的冲突及浏览器兼容性问题。通过整合和优化现有插件，确保其稳定性和高效性。 ... [详细]

蜡笔小新 2024-12-24 12:14:47
jquery
实现页面自动加载更多内容功能：类微博和Pinterest的设计

在现代Web应用中，当用户滚动到页面底部时，自动加载更多内容的功能变得越来越普遍。这种无刷新加载技术不仅提升了用户体验，还优化了页面性能。本文将探讨如何实现这一功能，并介绍一些实际应用案例。 ... [详细]

蜡笔小新 2024-12-23 17:01:04
jquery
在网站制作中随时可用的10个 HTML5 代码片段

HTML很容易写，但创建网页时，您经常需要重复做同样的任务，如创建表单。在这篇文章中，我收集了10个超有用的HTML代码片段，有HTML5启动模板、空白图片、打电话和发短信、自动完 ... [详细]

蜡笔小新 2024-12-23 15:26:50
jquery
基于JQuery实现的评分插件

本文介绍了一个使用JQuery创建的交互式评分控件。当用户将鼠标悬停在星星上时，左侧的星星会变为实心，右侧保持空心，并显示对应的评分等级；移开鼠标后，所有星星恢复为空心状态。 ... [详细]

蜡笔小新 2024-12-23 10:09:44
jquery
使用jQuery实现客户端页面跳转的最佳实践

本文探讨了如何利用jQuery在客户端实现页面跳转，并详细介绍了如何确保页面在浏览器的顶层窗口中打开，而不是局限于当前框架内。 ... [详细]

蜡笔小新 2024-12-23 03:35:09
jquery
深入理解Vue.js：从入门到精通

本文详细介绍了Vue.js的基础知识、安装方法、核心概念及实战案例，帮助开发者全面掌握这一流行的前端框架。 ... [详细]

蜡笔小新 2024-12-22 11:07:54
json
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
jquery
如何在Kendo UI for jQuery中将行标题显示为可点击链接

本文详细介绍了如何在Kendo UI for jQuery的数据管理组件中，将行标题字段呈现为锚点（即可点击链接），帮助开发人员更高效地实现这一功能。通过具体的代码示例和解释，即使是新手也能轻松掌握。 ... [详细]

蜡笔小新 2024-12-21 17:07:41
html5
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
jquery
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新 2024-12-20 20:02:31

COMEX黄金2502897957

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章