文本特征提取英文、中文

作者：吃羊的肉 | 来源：互联网 | 2023-10-12 10:13

在学习黑马程序员出品的机器学习视频做的代码笔记。代码中直接调用jie

在学习黑马程序员出品的机器学习视频做的代码笔记。
代码中直接调用jieba第三方库进行分词，还可再做改进，关于英文分词的文章可以看这个英文文本分词改进

from sklearn.feature_extraction.text import CountVectorizer import jieba def countvec(): """ 对文本进行特征值化 :return:None """ cv = CountVectorizer() data = cv.fit_transform(["life is short, i like python", "life is too long, i dislike python"]) print(cv.get_feature_names()) print(data.toarray()) # 转化成数组输出 return None def cutword(): con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某种事物，你就不会真正了解它。了解事物真正含义的秘诀取决于如何将其与我们所了解的事物相联系。") #转换成列表 content1 = list(con1) content2 = list(con2) content3 = list(con3) #把列表转换成字符串 c1 = ' '.join(content1) c2 = ' '.join(content2) c3 = ' '.join(content3) return c1, c2, c3 def hanzivec(): """ 中文特征值化 :return: None """ c1, c2, c3 = cutword() print(c1, c2, c3) cv = CountVectorizer() data = cv.fit_transform([c1, c2, c3]) print(cv.get_feature_names()) print(data.toarray()) # 转化成数组输出 return None if __name__ == "__main__": countvec() hanzivec()

运行结果示意图

词的占比

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer import jieba def cutword(): con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某种事物，你就不会真正了解它。了解事物真正含义的秘诀取决于如何将其与我们所了解的事物相联系。") #转换成列表 content1 = list(con1) content2 = list(con2) content3 = list(con3) #把列表转换成字符串 c1 = ' '.join(content1) c2 = ' '.join(content2) c3 = ' '.join(content3) return c1, c2, c3 def tfidvec(): """ 中文特征值化 :return: None """ c1, c2, c3 = cutword() print(c1, c2, c3) tf = TfidfVectorizer() data = tf.fit_transform([c1, c2, c3]) print(tf.get_feature_names()) print(data.toarray()) # 转化成数组输出 return None if __name__ == "__main__": tfidvec()

在这里插入图片描述

原文链接：https://blog.csdn.net/weixin_44436319/article/details/110523540

推荐阅读

ip
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
get
深入解析Java中的空指针异常及其预防策略

空指针异常（NullPointerException，简称NPE）是Java编程中最常见的异常之一。尽管其成因显而易见，但开发人员往往容易忽视或未能及时采取措施。本文将详细介绍如何有效避免空指针异常，帮助开发者提升代码质量。 ... [详细]

蜡笔小新 2024-11-15 15:04:40
ip
java解析json转Map

java解析json转Map前段时间在做json报文处理的时候，写了一个针对不同格式json转map的处理工具方法，总结记录如下：1、单节点单层级、单节点多层级json转mapim ... [详细]

蜡笔小新 2024-11-15 18:21:27
copy
面试题总结_2019年全网最热门的123个Java并发面试题总结

面试题总结_2019年全网最热门的123个Java并发面试题总结 ... [详细]

蜡笔小新 2024-11-15 11:58:13
uri
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
const
iOS 不定参数详解

iOS 不定参数详解 ... [详细]

蜡笔小新 2024-11-14 17:12:05
uri
Android异步处理系列文章四篇之三

Android异步处理一：使用Thread+Handler实现非UI线程更新UI界面Android异步处理二：使用AsyncTask异步更新UI界面Android异步处理三：Handler+Loope ... [详细]

蜡笔小新 2024-11-15 19:09:29
import
Android GUI 开发：ScrollView 和 HorizontalScrollView 的常见用法

本文介绍了 Android 开发中常用的滚动视图组件 ScrollView 和 HorizontalScrollView 的基本用法和注意事项，帮助开发者更好地处理屏幕内容超出显示范围的情况。 ... [详细]

蜡笔小新 2024-11-15 13:25:11
window
.NET Core 微服务内部通信：Thrift与HTTP客户端性能对比

本文通过基准测试（Benchmark）对.NET Core环境下Thrift和HTTP客户端的微服务通信性能进行对比分析。基准测试是一种评估系统或组件性能的方法，通过运行一系列标准化的测试来衡量其表现。 ... [详细]

蜡笔小新 2024-11-15 12:35:23
ip
TypeScript: 泛型的力量与价值

本文探讨了 TypeScript 中泛型的重要性和应用场景，通过多个实例详细解析了泛型如何提升代码的复用性和类型安全性。 ... [详细]

蜡笔小新 2024-11-15 12:12:42
ip
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
import
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
const
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
ip
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
foreach
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14

吃羊的肉

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章