SciKitLearn标签编码器导致错误“参数必须是字符串或数字”

作者：Happy的紫璐 | 来源：互联网 | 2024-09-26 18:39

我有点困惑-在这里创建ML模型。我正在尝试从“大”数据框（180列）中获

我有点困惑-在这里创建ML模型。

我正在尝试从“大”数据框（180列）中获取分类特征并对其进行一次热分析，以便我可以找到特征之间的相关性并选择“最佳”特征。

这是我的代码：

# import labelencoder from sklearn.preprocessing import LabelEncoder # instantiate labelencoder object le = LabelEncoder() # apply le on categorical feature columns df = df.apply(lambda col: le.fit_transform(col)) df.head(10)

运行此命令时，出现以下错误：TypeError ：（“参数必须是字符串或数字”，“在索引LockTenor处发生”）

所以我转到LockTenor字段并查看所有不同的值：

df.LockTenor.unique()

这将导致以下结果：array（[60.0，45.0，'z'，90.0，75.0，30.0]，dtype = object）

对我来说似乎是所有字符串和数字。...它是否消除了错误，因为它是浮点数，不一定是INT？

您会收到此错误消息，因为确实有浮点数和字符串的组合。看一下这个例子：

# Preliminaries import pandas as pd from sklearn.preprocessing import LabelEncoder # Create DataFrames # df1 has all floats d1 = {'LockTenor':[60.0,45.0,15.0,90.0,75.0,30.0]} df1 = pd.DataFrame(data=d1) print("DataFrame 1") print(df1) # df2 has a string in the mix d2 = {'LockTenor':[60.0,'z',30.0]} df2 = pd.DataFrame(data=d2) print("DataFrame 2") print(df2) # Create encoder le = LabelEncoder() # Encode first DataFrame 1 (where all values are floats) df1 = df1.apply(lambda col: le.fit_transform(col),axis=0,result_type='expand') print("DataFrame 1 encoded") print(df1) # Encode first DataFrame 2 (where there is a combination of floats and strings) df2 = df2.apply(lambda col: le.fit_transform(col),result_type='expand') print("DataFrame 2 encoded") print(df2)

如果运行此代码，您将看到df1的编码没有问题，因为它的所有值都是浮点数。无论是谁，您都会报告df2的错误。

一个简单的解决方法是将列强制转换为字符串。您可以在相应的lambda函数中执行此操作：

df2 = df2.apply(lambda col: le.fit_transform(col.astype(str)),result_type='expand')

作为其他建议，我建议您查看一下数据，看看它们是否正确。对我来说，在同一列中混合使用浮点数和字符串有点奇怪。

最后，我想指出sci-kit's LabelEncoder performs a simple encoding of variables，它不执行一键编码。如果您愿意，我建议您看看OneHotEncoder

试试这个：

df[cat] = le.fit_transform(df[cat].astype(str))

推荐阅读

js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
list
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
list
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
php
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
version
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
range
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
js
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
range
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
version
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
version
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
post
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
post
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
range
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
list
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
list
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55

Happy的紫璐

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章