当前位置: 开发笔记 > 前端 > 正文

解析得到除去标签的txt内容

作者：花自飘零009玲玲 | 来源：互联网 | 2022-01-22 23:29

一个网页中可能含有很多段落，但同时也夹杂着不少的标签（tags），而这却不是我们所需要的，所以必须去掉。那么怎么去掉呢？用Visitor，请看下面代码

代码如下:

NodeList body_nodes=this.getParser().parse(body_filter); 
for(int i=0;i{ 
Node node=body_nodes.elementAt(i); 

Parser body_parser=new Parser(node.toHtml()); 
TextExtractingVisitor visitor=new TextExtractingVisitor(); 
body_parser.visitAllNodesWith(visitor); 
body.append(visitor.getExtractedText()); 
} 

TextExtractingVisitor，visitAllNodesWith等类及方法都是Visitor中比较很重要但也很少见的。
下面附源代码：

代码如下:

import java.io.BufferedWriter; 
import java.io.File; 
import java.io.FileWriter; 
import java.io.IOException; 
import java.util.Date; 

import org.htmlparser.Node; 
import org.htmlparser.NodeFilter; 
import org.htmlparser.Parser; 
import org.htmlparser.filters.AndFilter; 
import org.htmlparser.filters.HasAttributeFilter; 
import org.htmlparser.filters.HasChildFilter; 
import org.htmlparser.filters.TagNameFilter; 
import org.htmlparser.util.NodeList; 
import org.htmlparser.visitors.TextExtractingVisitor; 

import com.extractor.Extractor; 

public class ExtractorHangdian extends Extractor{ 
public void extract() 
{ 
BufferedWriter bw=null; 
String indextime; 
String title; 
StringBuffer body=new StringBuffer();; 
NodeFilter time_filter=new AndFilter(new TagNameFilter("font"),new HasAttributeFilter("color","#808080")); 
NodeFilter title_filter1=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("b"))); 
NodeFilter body_filter=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("p"))); 

try 
{ 
NodeList title_nodes=this.getParser().parse(title_filter1); 
Node node=title_nodes.elementAt(0); 
NodeList node2=node.getChildren(); 
//title=node2.elementAt(0).toHtml(); /* '\r\n' */ 
//title=node2.elementAt(1).toHtml(); /*font color="#000080" .txt"))); 

String url_seg1=getInputFilePath().substring(3,30); 
int end=getInputFilePath().lastIndexOf("."); 
String url_seg2=getInputFilePath().substring(30, end); 
String url_seg=url_seg1+".asp?"+url_seg2; 
url_seg=url_seg.replaceAll("\\\\","/"); 
String url="http://"+url_seg; 

bw.write(url+NEWLINE); 
bw.write(title+NEWLINE); 


} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 

this.getParser().reset(); 
try 
{ 
NodeList time_nodes=this.getParser().parse(time_filter); 
Node time_node=time_nodes.elementAt(1);//这里的“1”表示符合time_filter的第二个元素 
indextime=time_node.getNextSibling().toHtml(); 

bw.write(indextime+NEWLINE); 
} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 

this.getParser().reset();//得到除去标签的所有txt文本 
try 
{ 
NodeList body_nodes=this.getParser().parse(body_filter); 
for(int i=0;i{ 
Node node=body_nodes.elementAt(i); 

Parser body_parser=new Parser(node.toHtml()); 
TextExtractingVisitor visitor=new TextExtractingVisitor(); 
body_parser.visitAllNodesWith(visitor); 
body.append(visitor.getExtractedText()); 
} 
bw.write(body+NEWLINE); 

} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 

try 
{ 
if(bw!=null) 
bw.close(); 
}catch(IOException e) 
{ 
e.printStackTrace(); 
} 
} 
} 

这里顺便提一下，当年bw没有关掉，怎么读不进去，搞了我好几天，郁闷死了，想起来就火大，注意！！

html

推荐阅读

button
自适应用户界面设计

本文介绍了一种根据用户选择动态切换屏幕界面的方法，通过定义不同的选择块（Selection Block），实现灵活的用户交互体验。 ... [详细]

蜡笔小新 2024-12-24 11:42:03
yarn
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
css
哈密顿回路检测问题【25分】

哈密顿回路问题旨在寻找一个简单回路，该回路包含图中的每个顶点。本文将介绍如何判断给定的路径是否构成哈密顿回路。 ... [详细]

蜡笔小新 2024-12-23 21:02:53
css
CentOS系统安装与配置常见问题及解决方案

本文详细介绍了在CentOS系统安装过程中遇到的常见问题及其解决方案，包括Vi编辑器的操作、图形界面的安装、网络连接故障排除等。通过本文，读者可以更好地理解和解决这些常见问题。 ... [详细]

蜡笔小新 2024-12-23 20:57:23
css
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
css
精选适合UI开发的Canvas框架

本文介绍了多个适用于用户界面设计的Canvas框架，帮助开发者选择最适合的工具。 ... [详细]

蜡笔小新 2024-12-23 20:28:53
css
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新 2024-12-23 20:23:57
css
组托管服务账户简介

本主题面向IT专业人士，介绍了Windows Server 2012 R2和Windows Server 2012中的组托管服务账户（gMSA），涵盖了其应用场景、功能改进、硬件和软件要求以及相关资源。 ... [详细]

蜡笔小新 2024-12-23 20:10:39
css
Ionic框架在HTML5中的应用与实践

本文详细介绍了Ionic框架的使用方法及其与Angular的集成。Ionic框架是一个强大的前端开发工具，适用于构建跨平台的移动应用程序。文章将探讨如何引入必要的CSS和JavaScript文件，并解释bundle.js中包含的核心功能，如路由等。 ... [详细]

蜡笔小新 2024-12-23 19:38:45
css
PHP 过滤器详解

本文深入探讨了 PHP 中的过滤器机制，包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时，详细介绍了各种过滤器的用途和用法。 ... [详细]

蜡笔小新 2024-12-23 19:05:02
css
最小路径覆盖与强连通分量的应用：国王的问题

本题探讨了在一个有向图中，如何根据特定规则将城市划分为若干个区域，使得每个区域内的城市之间能够相互到达，并且划分的区域数量最少。题目提供了时间限制和内存限制，要求在给定的城市和道路信息下，计算出最少需要划分的区域数量。 ... [详细]

蜡笔小新 2024-12-23 18:42:12
css
Python 学习是否需要先掌握 C 语言？

Python 是一门非常适合编程入门的语言，很多人疑惑是否需要先学习 C 语言才能更好地掌握 Python。本文将详细探讨这个问题，并为初学者提供专业的建议。 ... [详细]

蜡笔小新 2024-12-23 18:22:45
css
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
css
JavaScript 中创建对象的多种方式

本文介绍了 JavaScript 中创建对象的几种常见方法，包括字面量形式、构造函数、原型对象等。每种方法都有其特点和适用场景，通过对比分析，帮助开发者选择最适合的方式。 ... [详细]

蜡笔小新 2024-12-23 17:42:09
jquery
实现页面自动加载更多内容功能：类微博和Pinterest的设计

在现代Web应用中，当用户滚动到页面底部时，自动加载更多内容的功能变得越来越普遍。这种无刷新加载技术不仅提升了用户体验，还优化了页面性能。本文将探讨如何实现这一功能，并介绍一些实际应用案例。 ... [详细]

蜡笔小新 2024-12-23 17:01:04

花自飘零009玲玲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章