作者:心平 | 来源:互联网 | 2024-12-01 12:06
环境配置
为了在项目中使用 HTMLUnit,首先需要添加相应的依赖。如果你使用的是 Maven 构建工具,可以在项目的 pom.xml
文件中加入以下依赖:
net.sourceforge.htmlunit
htmlunit
2.19
基本用法示例
下面是一个简单的例子,展示了如何使用 HTMLUnit 模拟 Chrome 浏览器打开百度首页,并通过 XPath 技术提取页面上的链接文本。
WebClient webClient = new WebClient(BrowserVersion.CHROME); // 选择浏览器版本
try {
HtmlPage page = webClient.getPage("https://www.baidu.com/"); // 访问目标网页
List links = page.getByXPath("//a[@class='mnav']"); // 使用 XPath 获取指定类名的链接
for (HtmlAnchor link : links) {
System.out.println(link.asText()); // 输出链接文本
}
} finally {
webClient.close(); // 关闭 WebClient 实例
}
高级功能
除了基本的页面访问和元素提取,HTMLUnit 还支持设置 COOKIE、处理 Javascript 等高级功能。例如,对于需要登录才能访问的内容,可以通过设置 COOKIE 来绕过登录限制。需要注意的是,某些网站如新浪微博具有强制登录机制,这使得直接爬取数据变得困难。在这种情况下,可以尝试访问其移动版页面(例如 weibo.cn),以简化数据抓取过程。