NLP学习day02基本文本处理技能

作者：心诚新城 | 来源：互联网 | 2023-08-05 00:20

1，基本文本处理技能1.1分词的概念最大匹配法，最大匹配是指以词典为依据的，去词典罪当单词的第一次取字数量的扫描串。在词典中进行扫描&

1&＃xff0c;基本文本处理技能

1.1 分词的概念

最大匹配法&＃xff0c;最大匹配是指以词典为依据的&＃xff0c;去词典罪当单词的第一次取字数量的扫描串。在词典中进行扫描&＃xff08;为提升扫描效率&＃xff0c;还可以根据字数多少设计多个字典&＃xff0c;然后根据字数分别从不同字典中进行扫描&＃xff0c;下面以“我们在野生动物园玩’&＃39;为例说明一下这几种匹配方法。

分词的正向最大
正向即从前往后取词&＃xff0c;每次减一个字&＃xff0c;知道词典命中或剩下1个单字。
正向即从前往后取词&＃xff0c;从7->1&＃xff0c;每次减一个字&＃xff0c;直到词典命中或剩下1个单字。
第1次&＃xff1a;“我们在野生动物”&＃xff0c;扫描7字词典&＃xff0c;无
第2次&＃xff1a;“我们在野生动”&＃xff0c;扫描6字词典&＃xff0c;无
。。。。
第6次&＃xff1a;“我们”&＃xff0c;扫描2字词典&＃xff0c;有
扫描中止&＃xff0c;输出第1个词为“我们”&＃xff0c;去除第1个词后开始第2轮扫描&＃xff0c;即&＃xff1a;
第2轮扫描&＃xff1a;
第1次&＃xff1a;“在野生动物园玩”&＃xff0c;扫描7字词典&＃xff0c;无
第2次&＃xff1a;“在野生动物园”&＃xff0c;扫描6字词典&＃xff0c;无
。。。。
第6次&＃xff1a;“在野”&＃xff0c;扫描2字词典&＃xff0c;有
扫描中止&＃xff0c;输出第2个词为“在野”&＃xff0c;去除第2个词后开始第3轮扫描&＃xff0c;即&＃xff1a;
第3轮扫描&＃xff1a;
第1次&＃xff1a;“生动物园玩”&＃xff0c;扫描5字词典&＃xff0c;无
第2次&＃xff1a;“生动物园”&＃xff0c;扫描4字词典&＃xff0c;无
第3次&＃xff1a;“生动物”&＃xff0c;扫描3字词典&＃xff0c;无
第4次&＃xff1a;“生动”&＃xff0c;扫描2字词典&＃xff0c;有
扫描中止&＃xff0c;输出第3个词为“生动”&＃xff0c;第4轮扫描&＃xff0c;即&＃xff1a;
第4轮扫描&＃xff1a;
第1次&＃xff1a;“物园玩”&＃xff0c;扫描3字词典&＃xff0c;无
第2次&＃xff1a;“物园”&＃xff0c;扫描2字词典&＃xff0c;无
第3次&＃xff1a;“物”&＃xff0c;扫描1字词典&＃xff0c;无
扫描中止&＃xff0c;输出第4个词为“物”&＃xff0c;非字典词数加1&＃xff0c;开始第5轮扫描&＃xff0c;即&＃xff1a;
第5轮扫描&＃xff1a;
第1次&＃xff1a;“园玩”&＃xff0c;扫描2字词典&＃xff0c;无
第2次&＃xff1a;“园”&＃xff0c;扫描1字词典&＃xff0c;有
扫描中止&＃xff0c;输出第5个词为“园”&＃xff0c;单字字典词数加1&＃xff0c;开始第6轮扫描&＃xff0c;即&＃xff1a;
第6轮扫描&＃xff1a;
第1次&＃xff1a;“玩”&＃xff0c;扫描1字字典词&＃xff0c;有
扫描中止&＃xff0c;输出第6个词为“玩”&＃xff0c;单字字典词数加1&＃xff0c;整体扫描结束。
正向最大匹配法&＃xff0c;最终切分结果为&＃xff1a;“我们/在野/生动/物/园/玩”&＃xff0c;其中&＃xff0c;单字字典词为2&＃xff0c;非词典词为1。
逆向最大
逆向即从后往前取词&＃xff0c;其他逻辑和正向相同。即&＃xff1a;
第1轮扫描&＃xff1a;“在野生动物园玩”
第1次&＃xff1a;“在野生动物园玩”&＃xff0c;扫描7字词典&＃xff0c;无
第2次&＃xff1a;“野生动物园玩”&＃xff0c;扫描6字词典&＃xff0c;无
。。。。
第7次&＃xff1a;“玩”&＃xff0c;扫描1字词典&＃xff0c;有
扫描中止&＃xff0c;输出“玩”&＃xff0c;单字字典词加1&＃xff0c;开始第2轮扫描
第2轮扫描&＃xff1a;“们在野生动物园”
第1次&＃xff1a;“们在野生动物园”&＃xff0c;扫描7字词典&＃xff0c;无
第2次&＃xff1a;“在野生动物园”&＃xff0c;扫描6字词典&＃xff0c;无
第3次&＃xff1a;“野生动物园”&＃xff0c;扫描5字词典&＃xff0c;有
扫描中止&＃xff0c;输出“野生动物园”&＃xff0c;开始第3轮扫描
第3轮扫描&＃xff1a;“我们在”
第1次&＃xff1a;“我们在”&＃xff0c;扫描3字词典&＃xff0c;无
第2次&＃xff1a;“们在”&＃xff0c;扫描2字词典&＃xff0c;无
第3次&＃xff1a;“在”&＃xff0c;扫描1字词典&＃xff0c;有
扫描中止&＃xff0c;输出“在”&＃xff0c;单字字典词加1&＃xff0c;开始第4轮扫描
第4轮扫描&＃xff1a;“我们”
第1次&＃xff1a;“我们”&＃xff0c;扫描2字词典&＃xff0c;有
扫描中止&＃xff0c;输出“我们”&＃xff0c;整体扫描结束。
逆向最大匹配法&＃xff0c;最终切分结果为&＃xff1a;“我们/在/野生动物园/玩”&＃xff0c;其中&＃xff0c;单字字典词为2&＃xff0c;非词典词为0。
双向最大匹配法
正向最大匹配法和逆向最大匹配法&＃xff0c;都有其局限性&＃xff0c;我举得例子是正向最大匹配法局限性的例子&＃xff0c;逆向也同样存在&＃xff08;如&＃xff1a;长春药店&＃xff0c;逆向切分为“长/春药店”&＃xff09;&＃xff0c;因此有人又提出了双向最大匹配法&＃xff0c;双向最大匹配法。即&＃xff0c;两种算法都切一遍&＃xff0c;然后根据大颗粒度词越多越好&＃xff0c;非词典词和单字词越少越好的原则&＃xff0c;选取其中一种分词结果输出。
如&＃xff1a;“我们在野生动物园玩”
正向最大匹配法&＃xff0c;最终切分结果为&＃xff1a;“我们/在野/生动/物/园/玩”&＃xff0c;其中&＃xff0c;两字词3个&＃xff0c;单字字典词为2&＃xff0c;非词典词为1。
逆向最大匹配法&＃xff0c;最终切分结果为&＃xff1a;“我们/在/野生动物园/玩”&＃xff0c;其中&＃xff0c;五字词1个&＃xff0c;两字词1个&＃xff0c;单字字典词为2&＃xff0c;非词典词为0。
非字典词&＃xff1a;正向(1)>逆向(0)&＃xff08;越少越好&＃xff09;
单字字典词&＃xff1a;正向(2)&＃61;逆向(2)&＃xff08;越少越好&＃xff09;
总词数&＃xff1a;正向(6)>逆向(4)&＃xff08;越少越好&＃xff09;
因此最终输出为逆向结果。

2.1 unigram、bigram、trigram的概念

unigram 一元分词&＃xff0c;把句子分成一个一个的汉字
bigram 二元分词&＃xff0c;把句子从头到尾每两个字组成一个词语
trigram 三元分词&＃xff0c;把句子从头到尾每三个字组成一个词语

文本矩阵化&＃xff1a;要求采用词袋模型且是词级别的矩阵化

步骤有&＃xff1a;

3.1 分词&＃xff08;可采用结巴分词来进行分词操作&＃xff0c;其他库也可以&＃xff09;&＃xff1b;

3.2 去停用词&＃xff1b;构造词表。

3.3 每篇文档的向量化。

词向量矩阵生成过程

词向量矩阵生成按照以下过程&＃xff1a;
加载数据集->分词->生成词汇表->生成word_index->加载预训练词向量模型->生成词向量矩阵
以下过程以THUCnews 数据集为例

\# -*- coding: utf-8 -*- """ Created on Mon Jun 24 17:31:21 2019&＃64;author: Administrator NLP 第2天的学习任务 """import pandas as pd import numpy as np train_file &＃61; &＃39;cnews/cnews.train.txt&＃39; val_file &＃61; &＃39;cnews/cnews.val.txt&＃39; test_file &＃61; &＃39;cnews/cnews.test.txt&＃39;test_data &＃61; pd.read_csv(test_file,sep&＃61;&＃39;\t&＃39;,engine&＃61;&＃39;python&＃39;,names&＃61;[&＃39;label&＃39;,&＃39;content&＃39;],encoding&＃61;&＃39;UTF-8&＃39;) test_data &＃61; test_data.iloc[:100,:] train_data &＃61; pd.read_csv(train_file,sep&＃61;&＃39;\t&＃39;,engine&＃61;&＃39;python&＃39;,names&＃61;[&＃39;label&＃39;,&＃39;content&＃39;],encoding&＃61;&＃39;UTF-8&＃39;) train_data &＃61; train_data.iloc[:100,:] validation_data &＃61; pd.read_csv(val_file,sep&＃61;&＃39;\t&＃39;,engine&＃61;&＃39;python&＃39;,names&＃61;[&＃39;label&＃39;,&＃39;content&＃39;],encoding&＃61;&＃39;UTF-8&＃39;) train_data &＃61; train_data.iloc[:100,:]from multiprocessing import Pool, cpu_count import re import pkusegremove &＃61; re.compile(&＃39;[\s\d&＃xff0c;。&＃xff1f;&＃xff01;&＃xff5e;&＃xff1a;“”&＃xff1b;,.:?"!~$%^&&＃64;#&＃xffe5;#*()&＃xff08;&＃xff09;、|/]&＃39;) def parallelize_dataframe(df, func):df_split &＃61; np.array_split(df, cpu_count())pool &＃61; Pool(cpu_count())df &＃61; pd.concat(pool.map(func, df_split))pool.close()pool.join()return df seg &＃61; pkuseg.pkuseg() def pku_cut(df):df[&＃39;content&＃39;] &＃61; df[&＃39;content&＃39;].apply(lambda x: re.sub(remove, &＃39;&＃39;, str(x).strip()))#去除一些符号df[&＃39;content&＃39;] &＃61; df[&＃39;content&＃39;].apply(lambda x: seg.cut(x))#分词return df##分词 test_data &＃61; parallelize_dataframe(test_data, pku_cut) train_data &＃61; parallelize_dataframe(train_data, pku_cut) validation_data &＃61; parallelize_dataframe(validation_data, pku_cut)\## 去停词 stop_word_file&＃61;&＃39;cnews/中文停用词表.txt&＃39; def get_stop_words(filename&＃61;stop_word_file):stop_word&＃61;[]for line in open(filename,&＃39;r&＃39;,encoding&＃61;&＃39;utf-8&＃39;):stop_word.append(line.strip())return stop_word stop_word &＃61; get_stop_words() test_data[&＃39;content&＃39;]&＃61;test_data[&＃39;content&＃39;].apply(lambda x:[w for w in x if w not in stop_word]) train_data[&＃39;content&＃39;]&＃61;train_data[&＃39;content&＃39;].apply(lambda x:[w for w in x if w not in stop_word]) validation_data[&＃39;content&＃39;]&＃61;validation_data[&＃39;content&＃39;].apply(lambda x:[w for w in x if w not in stop_word])##标签转id categories &＃61; [&＃39;体育&＃39;, &＃39;财经&＃39;, &＃39;房产&＃39;, &＃39;家居&＃39;, &＃39;教育&＃39;, &＃39;科技&＃39;, &＃39;时尚&＃39;, &＃39;时政&＃39;, &＃39;游戏&＃39;, &＃39;娱乐&＃39;] cat_to_id &＃61; dict(zip(categories, range(len(categories)))) train_data[&＃39;label_id&＃39;]&＃61;train_data["label"].apply(lambda x:cat_to_id[x]) test_data[&＃39;label_id&＃39;]&＃61;test_data["label"].apply(lambda x:cat_to_id[x]) validation_data[&＃39;label_id&＃39;]&＃61;validation_data["label"].apply(lambda x:cat_to_id[x])##保存好分词后的数据 import pickle with open(&＃39;train.pickle&＃39;, &＃39;wb&＃39;) as handle: pickle.dump(train_data, handle, protocol&＃61;pickle.HIGHEST_PROTOCOL) with open(&＃39;test.pickle&＃39;, &＃39;wb&＃39;) as handle: pickle.dump(test_data, handle, protocol&＃61;pickle.HIGHEST_PROTOCOL) with open(&＃39;val.pickle&＃39;, &＃39;wb&＃39;) as handle: pickle.dump(validation_data, handle, protocol&＃61;pickle.HIGHEST_PROTOCOL)\## 加载数据 train &＃61; pickle.load( open ( &＃39;train.pickle&＃39;, "rb" )) test &＃61; pickle.load( open ( &＃39;test.pickle&＃39;, "rb" )) val &＃61; pickle.load( open ( &＃39;val.pickle&＃39;, "rb" ))all_content &＃61; pd.concat([train[&＃39;content&＃39;],test[&＃39;content&＃39;],val[&＃39;content&＃39;]]).values\## 计算词汇表与词频 from collections import defaultdict def build_vocab(sentences):vocab &＃61; defaultdict(int) #将词汇表初始化为一个字典for i, sentence in enumerate(sentences):for word in sentence: ## split的原因是我读取的数据每一行是一个字符串&＃xff0c;要将其分开&＃xff0c;转为listvocab[word] &＃43;&＃61; 1 #记录每个词出现的次数return vocab vocab &＃61; build_vocab(all_content)vocab_list &＃61; [ key for key,value in vocab.items() ] w2i &＃61; {w:i for i,w in enumerate(vocab_list)} ##将w2i存起来 import pickle with open(&＃39;cnews_w2i.pickle&＃39;, &＃39;wb&＃39;) as handle: pickle.dump(w2i, handle, protocol&＃61;pickle.HIGHEST_PROTOCOL) vocab_sort&＃61; sorted(vocab.items(), key&＃61;lambda d:d[1], reverse &＃61; True) vocab_list &＃61; [ key for key,value in vocab_sort] vocab_list &＃61; vocab_list&＃61;vocab_list[:7000]

推荐阅读

string
探索高效算法：寻找所有和为N的组合方案

本文探讨了一种高效的算法，用于生成所有数字（0-9）的六位组合，允许重复使用数字，并确保这些组合的和等于给定的整数N。该算法通过优化搜索策略，显著提高了计算效率，适用于大规模数据处理和组合优化问题。 ... [详细]

蜡笔小新 2024-11-08 09:58:47
string
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
random
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
install
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
install
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
php
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新 2024-11-13 12:35:53
utf-8
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
utf-8
macOS 上 Visual Studio Code 的安装与配置指南

Visual Studio Code (VSCode) 是一款功能强大的源代码编辑器，支持多种编程语言，具备丰富的扩展生态。本文将详细介绍如何在 macOS 上安装、配置并使用 VSCode。 ... [详细]

蜡笔小新 2024-11-12 19:45:55
string
Go语言高效处理大规模切片去重的算法优化

探讨如何在Go语言中高效地处理大规模切片的去重操作，特别是针对百万级数据量的场景。 ... [详细]

蜡笔小新 2024-11-12 12:56:52
string
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
tree
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
text
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
text
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
string
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
text
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47

心诚新城

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章