热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:lucene统计单词次数(词频)并进行排序

本文由编程笔记#小编为大家整理,主要介绍了lucene统计单词次数(词频)并进行排序相关的知识,希望对你有一定的参考价值。
本文由编程笔记#小编为大家整理,主要介绍了lucene 统计单词次数(词频)并进行排序相关的知识,希望对你有一定的参考价值。



1 public class WordCount {
2 static Directory directory;
3 // 创建分词器
4 static Analyzer analyzer = new IKAnalyzer();
5 static IndexWriterConfig cOnfig= new IndexWriterConfig(analyzer);
6 static IndexWriter writer;
7 static IndexReader reader;
8 static {
9 // 指定索引存放目录以及配置参数
10 try {
11 directory = FSDirectory.open(Paths.get("F:/luceneIndex"));
12 writer = new IndexWriter(directory, config);
13 } catch (IOException e) {
14 e.printStackTrace();
15 }
16 }
17
18 public static void main(String[] args) {
19 indexCreate();
20 Map map = getTotalFreqMap();
21 Map sortMap = sortMapByValue(map);
22 Set> entrySet = sortMap.entrySet();
23 Iterator> iterator = entrySet.iterator();
24 while (iterator.hasNext()) {
25 Entry entry = iterator.next();
26 System.out.println(entry.getKey() + "----" + entry.getValue());
27 }
28
29 }
30
31 /**
32 * 创建索引
33 */
34 public static void indexCreate() {
35 // 文件夹检测(创建索引前要保证目录是空的)
36 File file = new File("f:/luceneIndex");
37 if (!file.exists()) {
38 file.mkdirs();
39 } else {
40 try {
41 file.delete();
42 } catch (Exception e) {
43 e.printStackTrace();
44 }
45 }
46
47 // 将采集的数据封装到Document中
48 Document doc = new Document();
49 FieldType ft = new FieldType();
50 ft.setIndexOptions(IndexOptions.DOCS_AND_FREQS);
51 ft.setStored(true);
52 ft.setStoreTermVectors(true);
53 ft.setTokenized(true);
54 // ft.setStoreTermVectorOffsets(true);
55 // ft.setStoreTermVectorPositions(true);
56
57 // 读取文件内容(小文件,readFully)
58 File cOntent= new File("f:/qz/twitter.txt");
59 try {
60 byte[] buffer = new byte[(int) content.length()];
61 IOUtils.readFully(new FileInputStream(content), buffer);
62 doc.add(new Field("twitter", new String(buffer), ft));
63 } catch (Exception e) {
64 e.printStackTrace();
65 }
66
67 // 生成索引
68 try {
69 writer.addDocument(doc);
70 // 关闭
71 writer.close();
72
73 } catch (IOException e) {
74 e.printStackTrace();
75 }
76 }
77
78 /**
79 * 获得词频map
80 *
81 * @throws ParseException
82 */
83 public static Map getTotalFreqMap() {
84 Map map = new HashMap();
85 try {
86 reader = DirectoryReader.open(directory);
87 List leaves = reader.leaves();
88 for (LeafReaderContext leafReaderContext : leaves) {
89 LeafReader leafReader = leafReaderContext.reader();
90
91 Terms terms = leafReader.terms("twitter");
92
93 TermsEnum iterator = terms.iterator();
94
95 BytesRef term = null;
96
97 while ((term = iterator.next()) != null) {
98 String text = term.utf8ToString();
99 map.put(text, iterator.totalTermFreq());
100 }
101
102 }
103 reader.close();
104 return map;
105 } catch (IOException e) {
106 e.printStackTrace();
107 }
108 return null;
109 }
110
111 /**
112 * 使用 Map按value进行排序
113 *
114 * @param map
115 * @return
116 */
117 public static Map sortMapByValue(Map oriMap) {
118 if (oriMap == null || oriMap.isEmpty()) {
119 return null;
120 }
121 Map sortedMap = new LinkedHashMap();
122
123 List> entryList = new ArrayList>(oriMap.entrySet());
124 Collections.sort(entryList, new MapValueComparator());
125
126 Iterator> iter = entryList.iterator();
127 Map.Entry tmpEntry = null;
128 while (iter.hasNext()) {
129 tmpEntry = iter.next();
130 sortedMap.put(tmpEntry.getKey(), tmpEntry.getValue());
131 }
132 return sortedMap;
133 }
134 }
135
136 class MapValueComparator implements Comparator> {
137
138 @Override
139 public int compare(Entry me1, Entry me2) {
140 if (me1.getValue() == me2.getValue()) {
141 return 0;
142 }
143 return me1.getValue() > me2.getValue() ? -1 : 1;
144 // return me1.getValue().compareTo(me2.getValue());
145 }
146 }

map排序代码https://www.cnblogs.com/zhujiabin/p/6164826.html

技术分享图片

 技术分享图片

 


推荐阅读
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • Java程序设计第4周学习总结及注释应用的开发笔记
    本文由编程笔记#小编为大家整理,主要介绍了201521123087《Java程序设计》第4周学习总结相关的知识,包括注释的应用和使用类的注释与方法的注释进行注释的方法,并在Eclipse中查看。摘要内容大约为150字,提供了一定的参考价值。 ... [详细]
  • 本文介绍了一个适用于PHP应用快速接入TRX和TRC20数字资产的开发包,该开发包支持使用自有Tron区块链节点的应用场景,也支持基于Tron官方公共API服务的轻量级部署场景。提供的功能包括生成地址、验证地址、查询余额、交易转账、查询最新区块和查询交易信息等。详细信息可参考tron-php的Github地址:https://github.com/Fenguoz/tron-php。 ... [详细]
  • GreenDAO快速入门
    前言之前在自己做项目的时候,用到了GreenDAO数据库,其实对于数据库辅助工具库从OrmLite,到litePal再到GreenDAO,总是在不停的切换,但是没有真正去了解他们的 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 本文介绍了一个Java猜拳小游戏的代码,通过使用Scanner类获取用户输入的拳的数字,并随机生成计算机的拳,然后判断胜负。该游戏可以选择剪刀、石头、布三种拳,通过比较两者的拳来决定胜负。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
  • 本文介绍了一种划分和计数油田地块的方法。根据给定的条件,通过遍历和DFS算法,将符合条件的地块标记为不符合条件的地块,并进行计数。同时,还介绍了如何判断点是否在给定范围内的方法。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 模板引擎StringTemplate的使用方法和特点
    本文介绍了模板引擎StringTemplate的使用方法和特点,包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时,还介绍了StringTemplate语法中的属性和普通字符的使用方法,并提供了向模板填充属性的示例代码。 ... [详细]
  • 本文介绍了Java中Hashtable的clear()方法,该方法用于清除和移除指定Hashtable中的所有键。通过示例程序演示了clear()方法的使用。 ... [详细]
author-avatar
cl357_475
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有