Java解析HTML最快的方式,使用JSoup解析HTML(格式不良好)_java_开发99编程知识库

作者：聪头丶_505 | 来源：互联网 | 2023-08-28 18:39

我试图用Jsoup分析一个HTML页面并建立一些奇怪的问题。页面是：http:www.filmaffinity.comenfilm290741.html，

我试图用Jsoup分析一个HTML页面并建立一些奇怪的问题。页面是&＃xff1a;http://www.filmaffinity.com/en/film290741.html&＃xff0c;你可以看到&＃xff0c;并不是格式良好的。它有一些问题&＃xff0c;我可以猜测影响分析。通过Firebug和 Chrome&＃xff0c;我获得了我正在寻找( 页面中的5.8速率)的元素的XPath 。Chrome 指向&＃xff1a; /html/body/table[2]/tbody/tr/td[2]/table/tbody/tr[1]/td/table[1]/tbody/tr/td[2]/table/tbody/tr[2]/td

而Firebug指向&＃xff1a; /html/body/table[2]/tbody/tr/td[2]/table/tbody/tr/td/table/tbody/tr/td[2]/table/tbody/tr[2]/td

唯一不同的是中的&＃xff0c;它不显示在Firebug中。我已经手动验证了路径&＃xff0c;它是正确的。

然后我将xpath转换为Jsoup中的CSS查询&＃xff0c;以便稍后提取特定元素&＃xff1a;Element rate&＃61;doc.select("html body table:nth-child(2) tbody tr td:nth-child(2) table tbody tr td table tbody tr td:nth-child(2) table tbody tr:nth-child(2) td")

代码的执行并没有正确定位我&＃xff0c;而是将Firebug引用的元素放在XPath中&＃xff0c;如下所示&＃xff1a;wrong:/html/body/table[2]/tbody/tr/td[2]/table/tbody/tr/td/table/tbody/tr/td/table/tbody/tr[15]/td[2]

right:/html/body/table[2]/tbody/tr/td[2]/table/tbody/tr/td/table/tbody/tr/td[2]/table/tbody/tr[2]/td

从最后开始&＃xff0c;第一个区别是&＃xff1a;/td/table/tbody/tr[15]/td[2]

它采用第一个元素而不是第二个元素。

有什么办法可以解决这种问题&＃xff1f; 是与html不良形成的问题&＃xff0c;或者我缺少一些我可以用来解决这个问题的Jsoup技术。

因为它应该能够处理格式良好的Html&＃xff0c;所以我选择了 Jsoup 。我是不是要求&＃xff1f;

对于Jsoup有什么可以解决这种问题的方法&＃xff1f;

推荐阅读

js
并发编程：深入理解设计原理与优化

本文探讨了并发编程中的关键设计原则，特别是Java内存模型（JMM）的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案，并总结了不同处理器和内存模型之间的关系，旨在为程序员提供更深入的理解和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 01:14:06
js
使用npm脚本同时启动多个监听服务的技巧

本文介绍了如何利用npm脚本和concurrently工具，实现本地开发环境中多个监听服务的同时启动，包括HTTP服务、自动刷新、Sass和ES6支持。 ... [详细]

蜡笔小新 2024-12-25 18:10:18
js
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
js
在CentOS 7上部署Grafana

本文详细介绍了如何在CentOS 7操作系统上安装和配置Grafana，包括必要的依赖项安装、插件管理以及服务启动等步骤。 ... [详细]

蜡笔小新 2024-12-25 20:15:57
runtime
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
js
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
js
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
js
GDI基础介绍之几何绘图

使用GDI的一些AIP函数我们可以轻易的绘制出简 ... [详细]

蜡笔小新 2024-12-25 18:23:37
js
CUGB图论专题：排水系统中的最大流问题 - EK与Dinic算法解析

本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率，使用经典的EK（Edmonds-Karp）和Dinic算法进行求解。 ... [详细]

蜡笔小新 2024-12-25 17:47:23
java
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
java
Python 编程进阶：循环结构、函数与面向对象编程

本文深入探讨了 Python 中的循环结构（包括 for 循环和 while 循环）、函数定义与调用，以及面向对象编程的基础概念。通过详细解释和代码示例，帮助读者更好地理解和应用这些核心编程元素。 ... [详细]

蜡笔小新 2024-12-25 15:48:05
js
落樱3D v0.5：Android平台的美少女格斗游戏

落樱3D v0.5是一款在Android平台上发布的3D美少女格斗游戏，本次更新带来了多项新功能和优化。 ... [详细]

蜡笔小新 2024-12-25 13:47:17
数组
C++面试高频题

作者：守望者1028链接：https:www.nowcoder.comdiscuss55353来源：牛客网面试高频题：校招过程中参考过牛客诸位大佬的面经，但是具体哪一块是参考谁的我 ... [详细]

蜡笔小新 2024-12-25 12:32:36
js
优化局域网SSH连接延迟问题的解决方案

本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置，可以显著缩短SSH连接的时间。 ... [详细]

蜡笔小新 2024-12-25 11:31:48
js
2014年度工作总结与自我表彰

回顾2014年，我经历了多个重要项目和学习阶段，取得了一定的成绩。新的一年即将到来，希望能在更多项目实践中继续成长。 ... [详细]

蜡笔小新 2024-12-25 11:26:14

聪头丶_505

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章