热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于最大匹配算法的简易分词程序设计与实现

本文介绍了一种基于最大匹配算法的简易分词程序的设计与实现。该程序通过引入哈希集合存储词典,利用前向最大匹配方法对输入文本进行高效分词处理,具有较高的准确率和较快的处理速度,适用于中文文本的快速分词需求。
import java.io.*;
import java.util.HashSet;
import java.util.Set;
public class Test {
 public static Set set;
 public static void readTxt(String filename)
 {
  File f = new File(filename);  
  
  
  try{
   //System.out.println("TRY---BEGIN");
   InputStreamReader read = new InputStreamReader(new FileInputStream(f), "GBK");
   BufferedReader bufferedReader = new BufferedReader(read);
   String line = null;
   int nLine = 0;
   while( (line = bufferedReader.readLine()) != null)
   {
    //System.out.println(line);
    String strArr[] = line.split(" ");
    for(int i = 0; i )
    {
     set.add(strArr[i]);
    // System.out.println(strArr[i]);
    }
    
    if(nLine++ > 3000000)
    {
     break;
    }
   }
   //System.out.println("test");
  }
  catch(Exception e)
  {
   System.out.println("exception");
  }
  //
 }
 
 public static void WriteSetData(String savepath)
 {  
 }
 
 public static void ReadSetData(String savepath)
 {  
 }
 
 public static void test_(String strtest)
 {
  int arr[] = new int[strtest.length()];
  int index = 0;
  for(int i = 0; i )
  {
   String word = "";
   word  += strtest.charAt(i);
   String tmp = word;
   int j = 1;
   boolean flag = false;
   int flagIndex = 0;
   for(; j <4 && i + j )
   {
    tmp += strtest.charAt(i + j);
    if(set.contains(tmp))
    {
     flag = true;
     flagIndex = j;
     //break;     
    }
   }
   
   if(flag)
   {
    //find 
    arr[index] = i + flagIndex;
    //System.out.print(arr[index]);
    System.out.print(strtest.substring(i, arr[index] + 1));
    System.out.print("/");
    index++;
    
    i = i + flagIndex;
   }
   else 
   {
    arr[index] = i;
    //System.out.print(arr[index]);
    System.out.print(strtest.substring(i, arr[index] + 1));
    System.out.print("/");
    index++;
   }
   
  }
  System.out.println();
 }
 
 /**
  * @param args
  */
 public static void main(String[] args) {
  // TODO Auto-generated method stub
  String filename = "C:\\mltest6\\RenMinData.txt";
  
  set = new HashSet(); 
  readTxt(filename);
  
  System.out.println("开始----------------------------------------");
  //String strtest = "中共中央政治局委员、中央党的群众路线教育实践活动领导小组副组长赵乐际23日在云南玉溪调研教育实践活动开展情况。他强调,要深入学习贯彻习总书记在指导兰考县委常委班子专题民主生活会时的重要讲话精神,落实“三严三实”要求,严肃认真开展批评和自我批评,切实解决“四风”突出问题,确保教育实践活动取得人民群众满意的成效。";
  String strtest;
  strtest = "赵乐际在红塔区黄草坝村召开基层党员干部座谈会。他指出,要以习总书记和中央政治局常委其他同志联系点专题民主生活会为标杆,坚持高标准、严要求,把专题民主生活会开出好氛围、好效果。听意见要深入基层、深入群众,对照检查要触及思想、触及灵魂,谈心交心要掏心窝子、动真感情,开展批评要真刀真枪、一针见血,真正红红脸、出出汗、排排毒。整改问题要动真格、见实效,即知即改、立行立改、专项整改。要坚持两手抓、两促进,把开展活动与推动中心工作、重点工作有机结合起来,树立正确用人导向,提高党员、干部素质和能力,以转作风的实际成效,使经济社会发展得更好,让老百姓日子越过越红火。赵乐际还深入工业园区和乡村实地调研,走访慰问了生活困难党员群众,听取他们的意见建议。";
  test_(strtest);
  
 }
}

 


推荐阅读
  • 近期参加了一次CSDN线上活动,有幸获得左飞老师的《算法之美——隐匿在数据结构背后的原理(C++版)》一书。为了加深理解并提升编程技能,我决定将书中22个经典算法问题使用Java语言进行重新编写。本文将重点介绍如何使用Java实现Z字形矩阵排列。 ... [详细]
  • 快速排序是一种高效的排序算法,以其在多数情况下接近最优的性能而著称。本文将详细介绍如何在 Java 中实现快速排序,并分析其工作原理。 ... [详细]
  • 本文深入探讨了Java注解的基本概念及其在现代Java开发中的应用。文章不仅介绍了如何创建和使用自定义注解,还详细讲解了如何利用反射机制解析注解,以及Java内建注解的使用场景。 ... [详细]
  • 一个产品数组拼图|集合 2 (O(1)空间) ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 深入理解JVM内存区域与配置优化
    本文详细介绍了Java虚拟机(JVM)内存区域的划分及其背后的原理,重点探讨了不同内存区域的功能及垃圾回收策略。文章还提供了如何通过JVM参数优化内存管理的实用建议。 ... [详细]
  • 本文探讨了在Java应用中实现线程池优雅关闭的两种方法,包括使用ShutdownHook注册钩子函数以及通过SignalHandler处理信号量。每种方法都提供了具体的代码示例,并讨论了可能遇到的问题及解决方案。 ... [详细]
  • 首先说一下,这是我在CSDN上的第一个文章,其实这个账号早在几年前就申请了,不过当时只是为了下载一个资源,而且也不怎么懂信息技术相关的领域,后来就再也没怎么动过,直到今天我才开始使用这个账号 ... [详细]
  • 学习目的:1.了解android线程的使用2.了解主线程与子线程区别3.解析异步处理机制主线程与子线程:所谓主线程,在Windows窗体应用程序中一般指UI线程,这个是程序启动的时 ... [详细]
  • jme-燃烧的火焰
    jme的粒子效果也让人炫目:publicclassHelloParticleextendsSimpleApplication{publicstaticvoid ... [详细]
  • 在现代多线程编程中,Lock接口提供的灵活性和控制力超越了传统的synchronized关键字。Lock接口不仅使锁成为一个独立的对象,还提供了更细粒度的锁定机制,例如读写锁(ReadWriteLock)。本文将探讨如何利用ReentrantReadWriteLock提高并发性能。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 导读上一篇讲了zsh的常用字符串操作,这篇开始讲更为琐碎的转义字符和格式化输出相关内容。包括转义字符、引号、print、printf的使用等等。其中很多内容没有必要记忆,作为手册参 ... [详细]
  • 前端进阶:深入解析uni-app页面配置
    本文详细探讨了uni-app框架中的页面配置方法,包括启动页设置、全局样式调整以及底部导航栏的设计等关键点。 ... [详细]
  • 本文介绍了如何有效解决在Java编程中遇到的 'element cannot be mapped to a null key' 错误,通过具体的代码示例展示了问题的根源及解决方案。 ... [详细]
author-avatar
hero-laiquwuz_82914c
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有