中科院分词ictclas50web项目linux,NLPIR/ICTCLAS2014中科院分词系统Api接口For易语言...

作者：歌歌了_618 | 来源：互联网 | 2023-10-11 09:16

NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK

NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词&＃xff1b;词性标注&＃xff1b;命名实体识别&＃xff1b;用户词典功能&＃xff1b;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。

中科院的NLPIR分词系统应该是目前公认做的比较好的&＃xff0c;支持自定义词典、支持批量分词、关键词提取、词性标注、文章指纹识别&＃xff0c;2014版本添加了新词(未登录词)的识别等。

之前因为准备用里面的一个接口&＃xff0c;找了一番发现其官方并没有提供易语言的api接口文档及源码示例。。。很多人对NLPIR分词系统还是很有需求的&＃xff0c;所以制作了一个易语言的模块&＃xff0c;封装了最新2014版的所有接口以供调用。

1、关键词提取接口&＃xff1a;NLPIR_GetKeyWords()、NLPIR_GetFileKeyWords()这两个接口&＃xff0c;分别为从文本中提取关键词和从文件中提取关键词&＃xff0c;支持指定数量的提取和TF/IDF权重的输出&＃xff0c;用来做tag标签啥的&＃xff0c;比较合适。

2、指纹识别接口&＃xff1a;NLPIR_FingerPrint()返回的貌似是一个多维度十六进制的向量&＃xff0c;可以用在检测文章相似度上面&＃xff0c;比如计算两篇文章指纹向量的余弦相似度&＃xff1b;或者对采集的多个文件进行去重等等。而且这个分词系统支持多线程&＃xff0c;大批量运行应该没太大问题。

3、新词识别接口&＃xff1a;除自己定义的词典&＃xff0c;此接口支持将识别到的新词自动导入到自定义词典中。里面新词识别接口有2个&＃xff0c;建议使用后添加的NLPIR_NWI_Start() API.

4、关于用户词典和核心词典中同时有的分词词汇&＃xff0c;谁优先? 可以在data/Configure.xml中设置

模块使用很简单&＃xff1a;

1、去官方下载通用的NLPIR/ICTCLAS2014分词系统下载包(2014.3.24发布的)&＃xff0c;并解压到本地&＃xff0c;只需要里面的NLPIR.dll(要找一下)和data目录文件即可

2、之后直接用易语言调用模块即可&＃xff0c;如果不会用模块调用&＃xff0c;请注意看模块里的每个参数说明&＃xff0c;或查看官方的接口文档说明。

文档信息

最后修改时间&＃xff1a;

2014年04月09日 11:50:42

看了此文的人貌似还看了这些:

∵2014-01-24

∴2014-01-24

推荐阅读

string
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
string
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
string
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
string
Linux系统中默认安装目录有哪些？Tomcat在Linux下的默认安装路径是什么？

在Linux系统中，默认安装目录通常包括 `/usr`, `/opt`, 和 `/var` 等。对于Tomcat而言，在Linux下的默认安装路径通常是 `/opt/tomcat` 或者 `/usr/local/tomcat`。具体路径可能会因不同的发行版和配置而有所差异。例如，在Ubuntu Server中，Tomcat的默认安装路径通常是 `/opt/tomcat`。这些目录的选择旨在确保系统的整洁性和可维护性。 ... [详细]

蜡笔小新 2024-11-11 18:51:37
filter
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
string
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
install
在Linux系统上彻底卸载Zimbra邮件系统

本文详细介绍了如何在Linux系统（以CentOS为例）上彻底卸载Zimbra邮件系统，包括停止服务、删除文件和用户等步骤。 ... [详细]

蜡笔小新 2024-11-13 14:32:16
request
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
request
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
request
Android 开发教程：SQLite 数据库使用详解

本视频教程将带你快速了解 Android 开发的基础知识，并详细讲解如何在 Android 应用中使用 SQLite 数据库进行数据存储和管理。 ... [详细]

蜡笔小新 2024-11-12 18:59:48
request
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
include
基于Linux开源VOIP系统LinPhone[四]

****************************************************************************************** ... [详细]

蜡笔小新 2024-11-12 11:00:11
filter
CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解

在 CentOS 7 系统中，iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表，包括编写脚本文件 `/usr/local/sbin/iptables.sh`，并使用 `iptables -F` 清空现有规则。此外，还深入探讨了 NAT 表的配置方法，帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]

蜡笔小新 2024-11-11 18:33:22
install
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
request
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51

歌歌了_618

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章