热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

中文拼音分词

packageNaturalLanguageProcessing;importjava.util.ArrayList;***搜索中的分词器有很多种,包括中文、英文&

package NaturalLanguageProcessing;import java.util.ArrayList;
/*** 搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母集,分词的过程就是遍历匹配的过程。具体代码如下:* @author mawei**/
public class ChineseSpellTool {static String result = "";// 最后要显示的结果private static ArrayList> ym = new ArrayList>();// 单字集合private static ArrayList sm = new ArrayList();// 声母集合private static ArrayList yy = new ArrayList();// 单字集合private static ArrayList ym_b = new ArrayList();// 声母b的韵母集合private static ArrayList ym_c = new ArrayList();// 声母c的韵母集合private static ArrayList ym_d = new ArrayList();// 声母d的韵母集合private static ArrayList ym_f = new ArrayList();// 声母f的韵母集合private static ArrayList ym_g = new ArrayList();// 声母g的韵母集合private static ArrayList ym_h = new ArrayList();// 声母h的韵母集合private static ArrayList ym_j = new ArrayList();// 声母j的韵母集合private static ArrayList ym_k = new ArrayList();// 声母k的韵母集合private static ArrayList ym_l = new ArrayList();// 声母l的韵母集合private static ArrayList ym_m = new ArrayList();// 声母m的韵母集合private static ArrayList ym_n = new ArrayList();// 声母n的韵母集合private static ArrayList ym_p = new ArrayList();// 声母p的韵母集合private static ArrayList ym_q = new ArrayList();// 声母q的韵母集合private static ArrayList ym_r = new ArrayList();// 声母r的韵母集合private static ArrayList ym_s = new ArrayList();// 声母s的韵母集合private static ArrayList ym_t = new ArrayList();// 声母t的韵母集合private static ArrayList ym_w = new ArrayList();// 声母w的韵母集合private static ArrayList ym_x = new ArrayList();// 声母x的韵母集合private static ArrayList ym_y = new ArrayList();// 声母y的韵母集合private static ArrayList ym_z = new ArrayList();// 声母z的韵母集合private static ArrayList ym_sh = new ArrayList();// 声母sh的韵母集合private static ArrayList ym_zh = new ArrayList();// 声母zh的韵母集合private static ArrayList ym_ch = new ArrayList();// 声母ch的韵母集合static {sm.add("b");//sm.add("c");sm.add("d");sm.add("f");sm.add("g");sm.add("h");sm.add("j");sm.add("k");sm.add("l");sm.add("m");sm.add("n");sm.add("p");sm.add("q");sm.add("r");sm.add("s");sm.add("t");sm.add("w");sm.add("x");sm.add("y");sm.add("z");sm.add("sh");sm.add("zh");sm.add("ch");yy.add("a");//yy.add("ai");yy.add("an");yy.add("ang");yy.add("ao");yy.add("e");yy.add("en");yy.add("eng");yy.add("er");yy.add("o");yy.add("ou");yy.add("ong");ym_b.add("a");//ym_b.add("ai");ym_b.add("an");ym_b.add("ang");ym_b.add("ao");ym_b.add("ei");ym_b.add("en");ym_b.add("eng");ym_b.add("i");ym_b.add("ian");ym_b.add("iao");ym_b.add("ie");ym_b.add("in");ym_b.add("ing");ym_b.add("o");ym_b.add("u");ym_c.add("a");// cym_c.add("ai");ym_c.add("an");ym_c.add("ang");ym_c.add("ao");ym_c.add("e");ym_c.add("en");ym_c.add("eng");ym_c.add("i");ym_c.add("ong");ym_c.add("ou");ym_c.add("u");ym_c.add("uan");ym_c.add("ui");ym_c.add("un");ym_c.add("uo");ym_d.add("a");// dym_d.add("ai");ym_d.add("an");ym_d.add("ang");ym_d.add("ao");ym_d.add("e");ym_d.add("ei");ym_d.add("en");ym_d.add("eng");ym_d.add("i");ym_d.add("ia");ym_d.add("ian");ym_d.add("iao");ym_d.add("ie");ym_d.add("ing");ym_d.add("iu");ym_d.add("ong");ym_d.add("ou");ym_d.add("u");ym_d.add("uan");ym_d.add("ui");ym_d.add("un");ym_d.add("uo");ym_f.add("a");// fym_f.add("an");ym_f.add("ang");ym_f.add("ei");ym_f.add("en");ym_f.add("eng");ym_f.add("iao");ym_f.add("o");ym_f.add("ou");ym_f.add("u");ym_g.add("a");// gym_g.add("ai");ym_g.add("an");ym_g.add("ang");ym_g.add("ao");ym_g.add("e");ym_g.add("ei");ym_g.add("en");ym_g.add("eng");ym_g.add("ong");ym_g.add("ou");ym_g.add("u");ym_g.add("uai");ym_g.add("uan");ym_g.add("uang");ym_g.add("ui");ym_g.add("un");ym_g.add("uo");ym_h.add("a");// hym_h.add("ai");ym_h.add("an");ym_h.add("ang");ym_h.add("ao");ym_h.add("e");ym_h.add("ei");ym_h.add("en");ym_h.add("eng");ym_h.add("ong");ym_h.add("ou");ym_h.add("u");ym_h.add("ua");ym_h.add("uai");ym_h.add("uan");ym_h.add("uang");ym_h.add("ui");ym_h.add("un");ym_h.add("uo");ym_j.add("i");// jym_j.add("ia");ym_j.add("ian");ym_j.add("iang");ym_j.add("iao");ym_j.add("ie");ym_j.add("in");ym_j.add("ing");ym_j.add("iong");ym_j.add("iu");ym_j.add("u");ym_j.add("uan");ym_j.add("ue");ym_j.add("un");ym_k.add("a");//ym_k.add("ai");ym_k.add("an");ym_k.add("ang");ym_k.add("ao");ym_k.add("e");ym_k.add("en");ym_k.add("eng");ym_k.add("ong");ym_k.add("ou");ym_k.add("u");ym_k.add("ui");ym_k.add("un");ym_k.add("uo");ym_l.add("a");// lym_l.add("ai");ym_l.add("an");ym_l.add("ang");ym_l.add("ao");ym_l.add("e");ym_l.add("ei");ym_l.add("eng");ym_l.add("i");ym_l.add("ia");ym_l.add("ian");ym_l.add("iao");ym_l.add("ie");ym_l.add("in");ym_l.add("ing");ym_l.add("iu");ym_l.add("o");ym_l.add("ong");ym_l.add("ou");ym_l.add("u");ym_l.add("uan");ym_l.add("un");ym_l.add("uo");ym_l.add("v");ym_l.add("ve");ym_m.add("a");// mym_m.add("ai");ym_m.add("an");ym_m.add("ang");ym_m.add("ao");ym_m.add("e");ym_m.add("ei");ym_m.add("en");ym_m.add("eng");ym_m.add("i");ym_m.add("ian");ym_m.add("iao");ym_m.add("ie");ym_m.add("in");ym_m.add("ing");ym_m.add("iu");ym_m.add("o");ym_m.add("ou");ym_m.add("u");ym_n.add("a");// nym_n.add("ai");ym_n.add("an");ym_n.add("ang");ym_n.add("ao");ym_n.add("e");ym_n.add("ei");ym_n.add("en");ym_n.add("eng");ym_n.add("i");ym_n.add("ian");ym_n.add("iang");ym_n.add("iao");ym_n.add("ie");ym_n.add("in");ym_n.add("ing");ym_n.add("iu");ym_n.add("ong");ym_n.add("ou");ym_n.add("u");ym_n.add("uan");ym_n.add("un");ym_n.add("uo");ym_n.add("v");ym_n.add("ve");ym_p.add("a");// pym_p.add("ai");ym_p.add("an");ym_p.add("ang");ym_p.add("ao");ym_p.add("e");ym_p.add("ei");ym_p.add("en");ym_p.add("eng");ym_p.add("i");ym_p.add("ian");ym_p.add("iao");ym_p.add("ie");ym_p.add("in");ym_p.add("ing");ym_p.add("o");ym_p.add("ou");ym_p.add("u");ym_q.add("i");// qym_q.add("ia");ym_q.add("ian");ym_q.add("iang");ym_q.add("iao");ym_q.add("ie");ym_q.add("in");ym_q.add("ing");ym_q.add("iong");ym_q.add("iu");ym_q.add("u");ym_q.add("uan");ym_q.add("ue");ym_q.add("un");ym_r.add("an");// rym_r.add("ang");ym_r.add("ao");ym_r.add("e");ym_r.add("en");ym_r.add("eng");ym_r.add("i");ym_r.add("ong");ym_r.add("ou");ym_r.add("u");ym_r.add("ua");ym_r.add("uan");ym_r.add("ui");ym_r.add("un");ym_r.add("uo");ym_s.add("a");// sym_s.add("ai");ym_s.add("an");ym_s.add("ang");ym_s.add("ao");ym_s.add("e");ym_s.add("en");ym_s.add("eng");ym_s.add("i");ym_s.add("ong");ym_s.add("ou");ym_s.add("u");ym_s.add("uan");ym_s.add("ui");ym_s.add("un");ym_s.add("uo");ym_t.add("a");// tym_t.add("ai");ym_t.add("an");ym_t.add("ang");ym_t.add("ao");ym_t.add("e");ym_t.add("ei");ym_t.add("eng");ym_t.add("i");ym_t.add("ian");ym_t.add("iao");ym_t.add("ie");ym_t.add("ing");ym_t.add("ong");ym_t.add("ou");ym_t.add("u");ym_t.add("uan");ym_t.add("ui");ym_t.add("un");ym_t.add("uo");ym_w.add("a");// wym_w.add("ai");ym_w.add("an");ym_w.add("ang");ym_w.add("ei");ym_w.add("en");ym_w.add("eng");ym_w.add("o");ym_w.add("u");ym_x.add("i");// xym_x.add("ia");ym_x.add("ian");ym_x.add("iang");ym_x.add("iao");ym_x.add("ie");ym_x.add("in");ym_x.add("ing");ym_x.add("iong");ym_x.add("iu");ym_x.add("u");ym_x.add("uan");ym_x.add("ue");ym_x.add("un");ym_y.add("a");// yym_y.add("an");ym_y.add("ang");ym_y.add("ao");ym_y.add("e");ym_y.add("i");ym_y.add("in");ym_y.add("ing");ym_y.add("o");ym_y.add("ong");ym_y.add("ou");ym_y.add("u");ym_y.add("uan");ym_y.add("ue");ym_y.add("un");ym_z.add("a");//ym_z.add("ai");ym_z.add("an");ym_z.add("ang");ym_z.add("ao");ym_z.add("e");ym_z.add("ei");ym_z.add("en");ym_z.add("eng");ym_z.add("i");ym_z.add("ong");ym_z.add("ou");ym_z.add("u");ym_z.add("uan");ym_z.add("ui");ym_z.add("un");ym_z.add("uo");ym_ch.add("a");// chym_ch.add("ai");ym_ch.add("an");ym_ch.add("ang");ym_ch.add("ao");ym_ch.add("e");ym_ch.add("en");ym_ch.add("eng");ym_ch.add("i");ym_ch.add("ong");ym_ch.add("ou");ym_ch.add("u");ym_ch.add("ua");ym_ch.add("uai");ym_ch.add("uan");ym_ch.add("uang");ym_ch.add("ui");ym_ch.add("un");ym_ch.add("uo");ym_sh.add("a");// shym_sh.add("ai");ym_sh.add("an");ym_sh.add("ang");ym_sh.add("ao");ym_sh.add("e");ym_sh.add("ei");ym_sh.add("en");ym_sh.add("eng");ym_sh.add("i");ym_sh.add("ou");ym_sh.add("u");ym_sh.add("ua");ym_sh.add("uai");ym_sh.add("uan");ym_sh.add("uang");ym_sh.add("ui");ym_sh.add("un");ym_sh.add("uo");ym_zh.add("a");// zhym_zh.add("ai");ym_zh.add("an");ym_zh.add("ang");ym_zh.add("ao");ym_zh.add("e");ym_zh.add("ei");ym_zh.add("en");ym_zh.add("eng");ym_zh.add("i");ym_zh.add("ong");ym_zh.add("ou");ym_zh.add("u");ym_zh.add("ua");ym_zh.add("uai");ym_zh.add("uan");ym_zh.add("uang");ym_zh.add("ui");ym_zh.add("un");ym_zh.add("uo");ym.add(yy);ym.add(ym_b);ym.add(ym_c);ym.add(ym_d);ym.add(ym_f);ym.add(ym_g);ym.add(ym_h);ym.add(ym_j);ym.add(ym_k);ym.add(ym_l);ym.add(ym_m);ym.add(ym_n);ym.add(ym_p);ym.add(ym_q);ym.add(ym_r);ym.add(ym_s);ym.add(ym_t);ym.add(ym_w);ym.add(ym_x);ym.add(ym_y);ym.add(ym_z);ym.add(ym_ch);ym.add(ym_sh);ym.add(ym_zh);}public static String findsm(String py) {char[] py2 = py.toCharArray();// 将读入字符转为char数组int temp = 0;int index = 0;//// 遍历声母集合,匹对for (int i = 0; i }



推荐阅读
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 本文介绍了如何在给定的有序字符序列中插入新字符,并保持序列的有序性。通过示例代码演示了插入过程,以及插入后的字符序列。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
  • 多维数组的使用
    本文介绍了多维数组的概念和使用方法,以及二维数组的特点和操作方式。同时还介绍了如何获取数组的长度。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • SpringBoot uri统一权限管理的实现方法及步骤详解
    本文详细介绍了SpringBoot中实现uri统一权限管理的方法,包括表结构定义、自动统计URI并自动删除脏数据、程序启动加载等步骤。通过该方法可以提高系统的安全性,实现对系统任意接口的权限拦截验证。 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
author-avatar
0o墨滴成殇
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有