热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于最大匹配算法的简易分词程序设计与实现

本文介绍了一种基于最大匹配算法的简易分词程序的设计与实现。该程序通过引入哈希集合存储词典,利用前向最大匹配方法对输入文本进行高效分词处理,具有较高的准确率和较快的处理速度,适用于中文文本的快速分词需求。
import java.io.*;
import java.util.HashSet;
import java.util.Set;
public class Test {
 public static Set set;
 public static void readTxt(String filename)
 {
  File f = new File(filename);  
  
  
  try{
   //System.out.println("TRY---BEGIN");
   InputStreamReader read = new InputStreamReader(new FileInputStream(f), "GBK");
   BufferedReader bufferedReader = new BufferedReader(read);
   String line = null;
   int nLine = 0;
   while( (line = bufferedReader.readLine()) != null)
   {
    //System.out.println(line);
    String strArr[] = line.split(" ");
    for(int i = 0; i )
    {
     set.add(strArr[i]);
    // System.out.println(strArr[i]);
    }
    
    if(nLine++ > 3000000)
    {
     break;
    }
   }
   //System.out.println("test");
  }
  catch(Exception e)
  {
   System.out.println("exception");
  }
  //
 }
 
 public static void WriteSetData(String savepath)
 {  
 }
 
 public static void ReadSetData(String savepath)
 {  
 }
 
 public static void test_(String strtest)
 {
  int arr[] = new int[strtest.length()];
  int index = 0;
  for(int i = 0; i )
  {
   String word = "";
   word  += strtest.charAt(i);
   String tmp = word;
   int j = 1;
   boolean flag = false;
   int flagIndex = 0;
   for(; j <4 && i + j )
   {
    tmp += strtest.charAt(i + j);
    if(set.contains(tmp))
    {
     flag = true;
     flagIndex = j;
     //break;     
    }
   }
   
   if(flag)
   {
    //find 
    arr[index] = i + flagIndex;
    //System.out.print(arr[index]);
    System.out.print(strtest.substring(i, arr[index] + 1));
    System.out.print("/");
    index++;
    
    i = i + flagIndex;
   }
   else 
   {
    arr[index] = i;
    //System.out.print(arr[index]);
    System.out.print(strtest.substring(i, arr[index] + 1));
    System.out.print("/");
    index++;
   }
   
  }
  System.out.println();
 }
 
 /**
  * @param args
  */
 public static void main(String[] args) {
  // TODO Auto-generated method stub
  String filename = "C:\\mltest6\\RenMinData.txt";
  
  set = new HashSet(); 
  readTxt(filename);
  
  System.out.println("开始----------------------------------------");
  //String strtest = "中共中央政治局委员、中央党的群众路线教育实践活动领导小组副组长赵乐际23日在云南玉溪调研教育实践活动开展情况。他强调,要深入学习贯彻习总书记在指导兰考县委常委班子专题民主生活会时的重要讲话精神,落实“三严三实”要求,严肃认真开展批评和自我批评,切实解决“四风”突出问题,确保教育实践活动取得人民群众满意的成效。";
  String strtest;
  strtest = "赵乐际在红塔区黄草坝村召开基层党员干部座谈会。他指出,要以习总书记和中央政治局常委其他同志联系点专题民主生活会为标杆,坚持高标准、严要求,把专题民主生活会开出好氛围、好效果。听意见要深入基层、深入群众,对照检查要触及思想、触及灵魂,谈心交心要掏心窝子、动真感情,开展批评要真刀真枪、一针见血,真正红红脸、出出汗、排排毒。整改问题要动真格、见实效,即知即改、立行立改、专项整改。要坚持两手抓、两促进,把开展活动与推动中心工作、重点工作有机结合起来,树立正确用人导向,提高党员、干部素质和能力,以转作风的实际成效,使经济社会发展得更好,让老百姓日子越过越红火。赵乐际还深入工业园区和乡村实地调研,走访慰问了生活困难党员群众,听取他们的意见建议。";
  test_(strtest);
  
 }
}

 


推荐阅读
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • golang常用库:配置文件解析库/管理工具viper使用
    golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ... [详细]
  • Java 中 Writer flush()方法,示例 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文介绍了如何使用 Spring Boot DevTools 实现应用程序在开发过程中自动重启。这一特性显著提高了开发效率,特别是在集成开发环境(IDE)中工作时,能够提供快速的反馈循环。默认情况下,DevTools 会监控类路径上的文件变化,并根据需要触发应用重启。 ... [详细]
  • Java 类成员初始化顺序与数组创建
    本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例,详细解释了这些概念及其在实际编程中的使用。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法,提供了多个代码示例,并解释了其在不同场景下的使用方法。 ... [详细]
  • 本次考试于2016年10月25日上午7:50至11:15举行,主要涉及数学专题,特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目,并提供解题思路和代码实现。 ... [详细]
author-avatar
hero-laiquwuz_82914c
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有