标签_词类标签POStagging

作者：Edgar__一峰 | 来源：互联网 | 2023-10-11 15:47

本文由编程笔记#小编为大家整理，主要介绍了词类标签POStagging相关的知识，希望对你有一定的参考价值。part-of-spee

本文由编程笔记#小编为大家整理，主要介绍了词类标签 POS tagging相关的知识，希望对你有一定的参考价值。

part-of-speech (POS)

POS其实就是对词进行一些分类，比如名词、动词、形容词、副词等。通过研究POS我们可以学习到更多词于词之间的关系，比如冠词一般在名词前，名词后面可能是动词，更进一步的，POS可以被应用到其他任务中，比如推测作者、信息抽取等等。由于很多语言在不同环境下存在多种意思，词汇间的不同组合也会产生不同的含义，所以POS任务存在很多难点。目前对于词汇的分类有许多标准，如英语中 Brown (87 tags， Penn Treebank (45 tags) ， CLAWS/BNC (61 tags)， “Universal” (12 tags)。

Major Penn Treebank Tags

NN noun; JJ adjective; VB verb; RB adverb；DT determiner; CD cardinal number; IN preposition; PRP personal pronoun; MD modal; CC coordinating conjunction; RP particle; WH wh-pronoun; TO to

如果进一步细分，还可以

NN: NNS (plural, wombats), NNP (proper, Australia), NNPS (proper plural, Australians), VB: VB (infinitive, eat), VBP (1st /2nd person present, eat), VBZ (3rd person singular, eats), VBD (past tense, ate), VBG (gerund, eating), VBN (past participle, eaten), JJ: JJR (comparative, nicer), JJS (superlative, nicest) RB: RBR (comparative, faster), RBS (superlative, fastest), PRP: PRP$ (possessive, my), WH: WH$ (possessive, whose), WDT(wh-determiner, who), WRB (wh-adverb, where)

Tagging方法

1. 基于规则Rule-based

2. 基于统计Statistical taggers

? Unigram tagger

最简单的模型，把一个词出现最多的tag给它，一般用作baseline。

? Classifier-based taggers

选择一些特征，如环境词，已有标签等，然后使用一些分类器进行分类。

? Hidden Markov Model (HMM) taggers

隐马尔科夫模型是一种基于序列的模型，数据有两类，一类是可以观测到的，即观测序列，另一类数据是不能观察到的，即隐藏状态序列。

这个我们下一次讲！

推荐阅读

get
解决UIScrollView上Webview点击图片后无法立即滑动的问题

本文探讨了在UIScrollView上嵌入Webview时遇到的一个常见问题：点击图片放大并返回后，Webview无法立即滑动。我们将分析问题原因，并提供有效的解决方案。 ... [详细]

蜡笔小新 2024-11-18 21:13:13
ip
MyBatisCodeHelperPro 2.9.3 最新在线免费激活方法

MyBatisCodeHelperPro 2.9.3 是一款强大的代码生成工具，适用于多种开发环境。本文将介绍如何在线免费激活该工具，帮助开发者提高工作效率。 ... [详细]

蜡笔小新 2024-11-16 16:26:02
ip
App Store 加速审核通道

申请地址：https://developer.apple.com/appstore/contact/?topic=expedite 常见申请理由：1. 我们即将发布新产品，这是一个媒体活动，我们无法承担任何风险，因此在多个方面努力提升应用质量。 ... [详细]

蜡笔小新 2024-11-16 13:35:49
get
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
get
利用Windows EFS实现文件夹加密

Windows操作系统提供了Encrypting File System (EFS)作为内置的数据加密工具，特别适用于对NTFS分区上的文件和文件夹进行加密处理。本文将详细介绍如何使用EFS加密文件夹，以及加密过程中的注意事项。 ... [详细]

蜡笔小新 2024-11-20 18:57:46
main
线段树详解与实现

本文详细介绍了线段树的基本概念及其在编程竞赛中的应用，并提供了一个具体的线段树实现代码示例。 ... [详细]

蜡笔小新 2024-11-19 21:26:45
main
SDOI2008 Cave Exploration - 动态树结构应用

题目编号：2049 [SDOI2008]Cave Exploration。题目描述了一种动态图操作场景，涉及三种基本操作：断开两个节点间的连接（destroy(a,b)）、建立两个节点间的连接（connect(a,b)）以及查询两节点是否连通（query(a,b)）。所有操作均确保图中无环存在。 ... [详细]

蜡笔小新 2024-11-18 20:11:35
perl
在Linux中获取库源码及编译软件时如何收集依赖项

本文介绍了如何在Linux系统中获取库源码，并在从源代码编译软件时收集所需的依赖项列表。 ... [详细]

蜡笔小新 2024-11-17 20:34:02
utf-8
解决Python 3.x中argparse无法识别含&符号的输入参数问题

在使用Python 3.x的argparse模块时，如果输入参数中包含&符号，会遇到解析错误。本文介绍了如何解决这一问题，确保输入参数能够正确解析。 ... [详细]

蜡笔小新 2024-11-17 11:11:08
main
利用ChkBugReport工具分析Android Bugreport

本文介绍了如何使用开源工具ChkBugReport来解析和分析Android设备的Bugreport。ChkBugReport能够将复杂的Bugreport转换为易于阅读的HTML报告，并提供详细的图表和分析结论。 ... [详细]

蜡笔小新 2024-11-16 19:02:02
get
求助：C语言实现哈夫曼树编码与解码系统

最近遇到了一道关于哈夫曼树的编程题目，需要在下午之前完成。题目要求设计一个哈夫曼编码和解码系统，能够反复显示和处理多个项目，直到用户选择退出。希望各位大神能够提供帮助。 ... [详细]

蜡笔小新 2024-11-15 19:59:41
ip
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
ip
Confluence 6 其他 Cookie 及其用途

本文介绍了 Confluence 6 中使用的其他 Cookie，这些 Cookie 主要用于存储产品的基本持久性和用户偏好设置，以提升用户体验。 ... [详细]

蜡笔小新 2024-11-15 12:50:02
get
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
get
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26

Edgar__一峰

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章