java处理中文字符串_Java实现读取文章中重复出现的中文字符串

作者：lucky_笨鸟_660 | 来源：互联网 | 2023-09-12 06:34

在上个星期阿里巴巴一面的时候，最后面试官问我如何把一篇文章中重复出现的词或者句子找出来，当时太紧张，答的不是很好。今天有时间再来亲手实现一

在上个星期阿里巴巴一面的时候&＃xff0c;最后面试官问我如何把一篇文章中重复出现的词或者句子找出来&＃xff0c;当时太紧张&＃xff0c;答的不是很好。今天有时间再来亲手实现一遍。其实说白了也就是字符串的处理&＃xff0c;所以难度并不是很大。

以下是代码和运行效果&＃xff1a;

实现方法&＃xff1a;

import java.io.*;

import java.util.*;

/**

* Created by chunmiao on 17-3-20.

public class ReadArticle {

//读取文件名称

private String filename;

//读取段落

private ArrayList result &＃61; new ArrayList<>();

//最小字长(两个字以上进行匹配)

private final int MINSIZE &＃61; 2;

//重复词储存

HashSet set;

public ReadArticle(String filename, HashSet set) {

this.filename &＃61; filename;

this.set &＃61; set;

}

public void createData() throws IOException {

String r;

//读取文章内容

BufferedReader in &＃61; new BufferedReader(new FileReader(new File(filename).getAbsoluteFile()));

try {

while ((r &＃61; in.readLine()) !&＃61; null) {

//消除不必要的标点符号

r &＃61; r.replaceAll("\\s&＃43; |“|\\[|‘|《|　*|", "").trim();

//留下” &＃xff0c; 。。” ”。 ”&＃xff0c; &＃xff1f; 》 -等作为划分句子的分割符标示

Collections.addAll(result, r.split("&＃xff0c;|(。”|”(。|&＃xff0c;)|。)|(\\])|”|&＃39;|&＃xff1f;|:|》|-"));

}

}finally {

in.close();

}

//对文章内容进行遍历找出重读出现的句子或者是词语

for (int i &＃61; 0 ; i

for (int j &＃61; 0 ; j

//将重复出现的词语保存到set集合里面

set.addAll(getSameCharacter(result.get(i), result.get(j &＃43; i &＃43; 1)));

}

private ArrayList getSameCharacter(String a1, String a2){

String maxS;

String minS;

//短句遍历开始处

int start &＃61; 0;

//词的长度最短为两个字长

int range &＃61;2;

//设定短句和长句s,使得遍历更加快捷

if (a1.length() <&＃61; a2.length()){

maxS &＃61; a2;

minS &＃61; a1;

}else {

maxS &＃61; a1;

minS &＃61; a2;

}

String result &＃61; "";

ArrayList list &＃61; new ArrayList();

//防止substring时超出范围

while (start &＃43; range <&＃61; minS.length()) {

//如果句子或词在对象里面&＃xff0c;则找出相应的句子或词保存在list里面

if (maxS.indexOf(minS.substring(start, start &＃43; range)) !&＃61; -1) {

//获取最长句子,删除短句子

list.remove(result);

list.add(minS.substring(start, start &＃43; range));

result &＃61; minS.substring(start, start &＃43; range);

range&＃43;&＃43;;

continue;

}

range &＃61; MINSIZE;

start&＃43;&＃43;;

}

return list;

}

测试代码&＃xff1a;

import java.io.IOException;

import java.util.HashSet;

public class Main {

public static void main(String[] args) throws IOException {

String filename &＃61; "test.txt";

HashSet result &＃61; new HashSet();

ReadArticle read &＃61; new ReadArticle(filename,result);

read.createData();

System.out.println("这篇文章中的重复出现的词或句子有以下几个词或句子:\n");

for (String s : result){

System.out.println(s);

}

读取的文章内容&＃xff1a;

正则匹配结果(去掉多余字符)&＃xff1a;

字符串转换成ArrayList:

最终处理结果&＃xff1a;

其实从上面的结果可以看出。单纯的操控字符串并不能判断它是否是一个完整的词和句&＃xff0c;应该还要配合数据库字典来匹配上面的结果&＃xff0c;从而找出真正的词和句

以上就是本文的全部内容&＃xff0c;希望本文的内容对大家的学习或者工作能带来一定的帮助&＃xff0c;同时也希望多多支持脚本之家&＃xff01;

推荐阅读

数组
File类递归

1.File类：文件和目录路径名的抽象表现形式2.创建对象：File(Stringpathname)通过给定的路径创建文件对象File(Stringpa ... [详细]

蜡笔小新 2024-10-01 01:24:53
数组
flash代码_正点原子【STM32F407探索者】第三十九章 FLASH 模拟 EEPROM 实验

1)资料下载:点击资料即可下载2)对正点原子Linux感兴趣的同学可以加群讨论：9354467413）关注正点原子公众号，获取最新资料更新 ... [详细]

蜡笔小新 2024-09-30 15:58:28
import
自定义RecyclerView添加EmptyView

你知道RecyclerView里没有Em ... [详细]

蜡笔小新 2024-09-30 15:31:47
import
以下不是python文件读写方法的是Python 文件I/O

Python文件IO本章只讲述所有基本的IO函数，更多函数请参考Python标准文档。打印到屏幕最简单的输出方法是用print语句，你可以给它传递 ... [详细]

蜡笔小新 2024-09-30 14:49:29
import
统计一个文件calcCharNum.txt（见附件）中字母‘A‘和‘a‘出现的总次数

importjava.io.BufferedReader;importjava.io.File;importjava.io.FileReader;importjava.io. ... [详细]

蜡笔小新 2024-09-30 13:46:51
import
Java 中的 FileStore getUsableSpace()方法，带示例

Java中的FileStoregetUsableSpace()方法，带示例 ... [详细]

蜡笔小新 2024-09-30 12:40:44
import
找出字符串中重复字符

2019独角兽企业重金招聘Python工程师标准packagejavaBasic;importjava.util.HashMap;importjava.util.Map; ... [详细]

蜡笔小新 2024-09-30 11:23:11
select
在JAVA代码的不同部分多次使用数组列表

我正在使用数组列表通过构建一个交互式菜单供用户选择来存储来自用户输入的值。到目前为止，我的两个选择是为用户提供向列表输入数据和读取列表的全部内容。到目前为止，我创建的代码由两个类组成。 ... [详细]

蜡笔小新 2024-09-30 10:25:00
import
Mysql MySqlBulkLoader在.NET平台下的批量插入

批量导入publicboolTranBatchImpo ... [详细]

蜡笔小新 2024-09-30 10:20:25
int
C++模板实现的单向链表

C模板实现的单向链表，实现了链表的初始化创建，元素插入，元素链表末尾添加，元素删除，链表清空Lists.h# ... [详细]

蜡笔小新 2024-09-29 17:51:47
integer
Java：多线程，java.util.concurrent.atomic包之AtomicInteger/AtomicLong用法

1.背景java.util.concurrent.atomic这个包是非常实用，解决了我们以前自己写一个同步方法来实现类似于自增长字段的问题。在Java语言中，增量操作符（++）不是原子的， ... [详细]

蜡笔小新 2024-09-30 21:25:22
dll
【转】JNI技术实践小结

JNI技术实践小结转自http:sett ... [详细]

蜡笔小新 2024-09-30 17:47:13
int
java – 什么是notifyItemRangeChanged(0,this.data.size());在这个例子中,它是如何工作的？

我理解ViewHolder的onBindViewHolder如何工作,但是我不清楚notifyItemRangeChanged(0,this.data.size())如何;适用于此示例以及它的确 ... [详细]

蜡笔小新 2024-09-29 20:59:44
import
Python | SymPy 排列. ascents()方法

Python|SymPy排列.ascents()方法原文 ... [详细]

蜡笔小新 2024-09-29 12:06:40
int
pyton纸牌游戏中的功能问题

我正在用python构建纸牌游戏（与Dobbel类似，如果您知道的话）。游戏在纸牌组中 ... [详细]

蜡笔小新 2024-09-28 11:10:43

lucky_笨鸟_660

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章