pyltp的使用教程

作者：徐涛 | 来源：互联网 | 2023-08-14 02:53

1LTP简介LTP提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看，LTP为用户提

1 LTP 简介

LTP提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看，LTP为用户提供了下列组件：

针对单一自然语言处理任务，生成统计机器学习模型的工具
针对单一自然语言处理任务，调用模型进行分析的编程接口
使用流水线方式将各个分析工具结合起来，形成一套统一的中文自然语言处理系统
系统可调用的，用于中文语言处理的模型文件
针对单一自然语言处理任务，基于云端的编程接口

官网在这：http://ltp.ai/

语义角色分析

2 pyltp 简介

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

github网址：https://github.com/HIT-SCIR/pyltp
在线文档：https://pyltp.readthedocs.io/zh_CN/latest/api.html

3 pyltp 安装步骤

第一步，安装 pyltp

使用 pip 安装

$ pip install pyltp
或从源代码安装

$ git clone https://github.com/HIT-SCIR/pyltp$ git submodule init$ git submodule update$ python setup.py install # Mac系统出现版本问题使用 MACOSX_DEPLOYMENT_TARGET=10.7 python setup.py install
第二步，下载模型文件

七牛云，当前模型版本 3.4.0,(下面代码里会介绍如何使用模型)
百度云，这里有各个版本的

我最开始在自己电脑（windows）上安装不上，主要有以下错误：

vc++ 14 找不到：到这里下载 Visual C++ 2015 Build Tools 安装重启电脑即可
安装的过程提示 winerror32：文件找不到：

安装wheel 下面两个文件针对不同的python版本下载一个即可
pyltp-0.2.1-cp35-cp35m-win_amd64.whl
pyltp-0.2.1-cp36-cp36m-win_amd64.whl
https://download.csdn.net/download/qq_22521211/10460778 可下载

4 基本组件使用

4.1 分句

from pyltp import SentenceSplitter sents = SentenceSplitter.split(&＃39;元芳你怎么看？我就趴窗口上看呗！&＃39;) # 分句 print(&＃39;\n&＃39;.join(sents))

输出：

元芳你怎么看？我就趴窗口上看呗！

4.2 分词

import os from pyltp import Segmentor LTP_DATA_DIR=&＃39;D:\Data\ltp_data_v3.4.0&＃39; cws_model_path=os.path.join(LTP_DATA_DIR,&＃39;cws.model&＃39;) segmentor=Segmentor() segmentor.load(cws_model_path) words=segmentor.segment(&＃39;熊高雄你吃饭了吗&＃39;) print(type(words)) print(&＃39;\t&＃39;.join(words)) segmentor.release()

输出

熊高雄你吃饭了吗

4.3 使用自定义词典

lexicon文件如下：

import os LTP_DATA_DIR=&＃39;D:\Data\ltp_data_v3.4.0&＃39; # ltp模型目录的路径 cws_model_path = os.path.join(LTP_DATA_DIR, &＃39;cws.model&＃39;) # 分词模型路径，模型名称为`cws.model`from pyltp import Segmentor segmentor = Segmentor() # 初始化实例 segmentor.load_with_lexicon(cws_model_path, &＃39;lexicon&＃39;) # 加载模型，第二个参数是您的外部词典文件路径 words = segmentor.segment(&＃39;亚硝酸盐是一种化学物质&＃39;) print(&＃39;\t&＃39;.join(words)) segmentor.release()

输出

[INFO] 2018-08-16 19:18:03 loaded 2 lexicon entries 亚硝酸盐是一种化学物质

4.4 词性标注

import os LTP_DATA_DIR=&＃39;D:\Data\ltp_data_v3.4.0&＃39; # ltp模型目录的路径 pos_model_path = os.path.join(LTP_DATA_DIR, &＃39;pos.model&＃39;) # 词性标注模型路径，模型名称为`pos.model`from pyltp import Postagger postagger = Postagger() # 初始化实例 postagger.load(pos_model_path) # 加载模型words = [&＃39;元芳&＃39;, &＃39;你&＃39;, &＃39;怎么&＃39;, &＃39;看&＃39;] # 分词结果 postags = postagger.postag(words) # 词性标注print(&＃39;\t&＃39;.join(postags)) postagger.release() # 释放模型

输出如下

nh r r v

4.5 命名实体识别

import os LTP_DATA_DIR=&＃39;D:\Data\ltp_data_v3.4.0&＃39; # ltp模型目录的路径 ner_model_path = os.path.join(LTP_DATA_DIR, &＃39;ner.model&＃39;) # 命名实体识别模型路径，模型名称为`pos.model`from pyltp import NamedEntityRecognizer recognizer = NamedEntityRecognizer() # 初始化实例 recognizer.load(ner_model_path) # 加载模型words = [&＃39;元芳&＃39;, &＃39;你&＃39;, &＃39;怎么&＃39;, &＃39;看&＃39;] postags = [&＃39;nh&＃39;, &＃39;r&＃39;, &＃39;r&＃39;, &＃39;v&＃39;] netags = recognizer.recognize(words, postags) # 命名实体识别print(&＃39;\t&＃39;.join(netags)) recognizer.release() # 释放模型

输出

S-Nh O O O

4.6 依存句法分析

import os LTP_DATA_DIR=&＃39;D:\Data\ltp_data_v3.4.0&＃39; # ltp模型目录的路径 par_model_path = os.path.join(LTP_DATA_DIR, &＃39;parser.model&＃39;) # 依存句法分析模型路径，模型名称为`parser.model`from pyltp import Parser parser = Parser() # 初始化实例 parser.load(par_model_path) # 加载模型words = [&＃39;元芳&＃39;, &＃39;你&＃39;, &＃39;怎么&＃39;, &＃39;看&＃39;] postags = [&＃39;nh&＃39;, &＃39;r&＃39;, &＃39;r&＃39;, &＃39;v&＃39;] arcs = parser.parse(words, postags) # 句法分析print("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs)) parser.release() # 释放模型

输出为:

4:SBV 4:SBV 4:ADV 0:HED

标注集请参考依存句法关系。

4.7 语义角色标注

import os LTP_DATA_DIR=&＃39;D:\Data\ltp_data_v3.4.0&＃39; # ltp模型目录的路径 srl_model_path = os.path.join(LTP_DATA_DIR, &＃39;pisrl_win.model&＃39;) # 语义角色标注模型目录路径，模型目录为`srl`。注意该模型路径是一个目录，而不是一个文件。from pyltp import SementicRoleLabeller labeller = SementicRoleLabeller() # 初始化实例 labeller.load(srl_model_path) # 加载模型words = [&＃39;元芳&＃39;, &＃39;你&＃39;, &＃39;怎么&＃39;, &＃39;看&＃39;] postags = [&＃39;nh&＃39;, &＃39;r&＃39;, &＃39;r&＃39;, &＃39;v&＃39;] # arcs 使用依存句法分析的结果 roles = labeller.label(words, postags, arcs) # 语义角色标注# 打印结果 for role in roles:print(role.index, "".join(["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments])) labeller.release() # 释放模

输出为：

[dynet] random seed: 1676210130 [dynet] allocating memory: 2000MB [dynet] memory allocation done. 3 A0:(1,1)ADV:(2,2)

例如上面的例子，由于结果输出一行，所以“元芳你怎么看”有一组语义角色。其谓词索引为3，即“看”。这个谓词有三个语义角色，范围分别是(0,0)即“元芳”，(1,1)即“你”，(2,2)即“怎么”，类型分别是A0、A0、ADV。
标注集请参考语义角色关系。

推荐阅读

copy
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
copy
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
io
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
char
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
char
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
controller
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
io
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
export
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
callback
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
export
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
const
C语言检测

字符串学习时间：1.5W（“W”周，下同）知识点checkliststrlen()函数的返回值是什么类型的？字 ... [详细]

蜡笔小新 2024-11-12 19:23:53
php
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新 2024-11-12 14:47:56
express
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
callback
Delphi 7下最小化到系统托盘（主要是WM_TRAYMSG和WM_SYSCOMMAND消息）

在Delphi7下要制作系统托盘，只能制作一个比较简单的系统托盘，因为ShellAPI文件定义的TNotifyIconData结构体是比较早的版本。定义如下：1234 ... [详细]

蜡笔小新 2024-11-12 12:32:15

徐涛

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章