python数据处理:对类别Category进行编码(转化为数值)

作者：等待1314578 | 来源：互联网 | 2023-09-03 19:43

今天在用tensorflow处理线性回归的时候,提到两个数据集,adult_set数据集,可以用来做逻辑回归.但是其中一些标记是列表标记,既然是做分析,就得将起转化为数值编码.比如男(

今天在用tensorflow处理线性回归的时候,提到两个数据集,adult_set数据集,可以用来做逻辑回归.但是其中一些标记是列表标记,既然是做分析,就得将起转化为数值编码.比如男(male),女(female),就得转化为1和2,或者one_hot编码.不少包都有对应的方式.总结一下.

sklearn.DictVectorizer

sklearn.feature_extraction中的DictVectorizer,将类别标签转化为one_hot编码

#coding:utf-8
#author:selous
measurements = [
    {'city': 'Dubai', 'temperature': 33.,'gender':'女'},
    {'city': 'London', 'temperature': 12.,'gender':'男'},
    {'city': 'San Fransisco', 'temperature': 18.,'gender':'男'},
    {'city': 'San Fransisco', 'temperature': 18.,'gender':'男'},
]
#list
measurements1 = [
    {'city': 'London', 'temperature': 10.,'gender':'女'},
    {'city': 'Dubai', 'temperature': 1.,'gender':'女'},
    {'city': 'San Fransisco', 'temperature': 1.,'gender':'男'},
    {'city': 'San Fransisco', 'temperature': 1.,'gender':'男'},
]
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()
trans_vec = vec.fit_transform(measurements).toarray();
print trans_vec
print vec.transform(measurements1).toarray();
print vec.get_feature_names()

结果(汉字没有处理):
这里写图片描述

具体的DictVectorizer例子可以参考链接

sklearn.OneHotEncoder

sklearn.preprocessing包下的OneHotEncoder.这个方法只能转化原来的值就是整数的.(也就是数据中的种类已经用整数表示了.),将其转化为one_hot编码

错误实例:

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
#list
enc.fit([["shanghai", 0, 3], ["guangzhou", 1, 0], ["shanghai", 2, 1], ["guangzhou", 0, 2]])  
enc.transform([["shanghai", 1, 3]]).toarray()

上面这个是错的,因为转化的元素必须是整数Interger.而shanghai是str类型

这里写图片描述

正确写法:

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  
enc.transform([[0, 1, 3]]).toarray()

如果:

这里写图片描述

字段意义的解释:

By default, how many values each feature can take is inferred automatically from the dataset. It is possible to specify this explicitly using the parameter n_values. There are two genders, three possible continents and four web browsers in our dataset. Then we fit the estimator, and transform a data point. In the result, the first two numbers encode the gender, the next set of three numbers the continent and the last four the web browser.

panda.get_dummies()*
最方便的还是panda提供的方法.
下面博客中提到的这两种编码:
1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码
2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}
两种编码我们可能都要用到.所以最好的方法还是panda提供的方法.
贴一篇别人写的博客.,写的很详细.

tensorflow中的方法

推荐阅读

import
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
require
Python 主成分分析（PCA）及其相关系数计算方法

本文详细介绍了如何使用 Python 进行主成分分析（PCA），包括数据导入、预处理、模型训练和结果可视化等步骤。通过具体的代码示例，帮助读者理解和应用 PCA 技术。 ... [详细]

蜡笔小新 2024-11-13 19:56:29
instance
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
case
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
case
PHP-Casbin v3.20.0 发布，性能显著提升

PHP-Casbin v3.20.0 已经发布，这是一个使用 PHP 语言开发的轻量级开源访问控制框架，支持多种访问控制模型，包括 ACL、RBAC 和 ABAC。新版本在性能上有了显著的提升。 ... [详细]

蜡笔小新 2024-11-15 10:54:38
list
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
数组
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
import
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
数组
Leetcode学习成长记：天池leetcode基础训练营Task01数组

前言这是本人第一次参加由Datawhale举办的组队学习活动，这个活动每月一次，之前也一直关注，但未亲身参与过，这次看到活动 ... [详细]

蜡笔小新 2024-11-14 18:01:31
header
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
list
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
const
更新vuex的数据为什么用mutation?

更新vuex的数据为什么用mutation?,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-13 18:30:04
import
如何在R中得到矩阵的右特征向量? - How to obtain right eigenvectors of matrix in R?

Edition:theprobleminmyquestionwasIvetriedtofindmatrixSfromequation8butthisequati ... [详细]

蜡笔小新 2024-11-13 17:16:49
list
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
list
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25

等待1314578

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

python数据处理:对类别Category进行编码(转化为数值)

tensorflow中的方法 var cpro_id = "u6885494";

tensorflow中的方法