使用带有列名称和值的字典对熊猫数据框进行一键编码

作者：我们的北京宫 | 来源：互联网 | 2024-10-20 13:42

我目前有以下代码，使用字典对熊猫数据框进行一次编码，其中的键是要素名

我目前有以下代码，使用字典对熊猫数据框进行一次编码，其中的键是要素名称，值是要素值列表。

def dummy_encode_dataframe(self,df,dummy_values_dict): for (feature,dummy_values) in sorted(dummy_values_dict.items()): for dummy_value in sorted(dummy_values): dummy_name = u'%s_%s' % (feature,dummy_value) df[dummy_name] = (df[feature] == dummy_value).astype(float) del df[feature] return df

dummy_values_dict具有以下结构：

feature name (key) list of possible values (strings) --------- --------------------------------- F1 ['A','B','C','MISSING'] F2 ['D','E','F','MISSING'] F3 ['G','H','I']

带有示例输入/输出：

df (one row): ==== F1 F2 F3 --- ----- ----- 'A' 'Q' 'H'

预期输出：

df_output: ==== F1_A F1_B F1_C F1_MISSING F2_D F2_E F2_F F2_MISSING F3_G F3_H F3_I --- ---- ----- --------- ---- ---- ---- ---------- ---- ---- ----- 1 0 0 0 0 0 0 0 0 1 0

问题在于for循环需要太长时间才能运行。有什么优化方法吗？

更新1：来自有关在scikit-learn中使用OneHotEncoder的评论...
您能否详细说明这段代码以获得所需的输出？

import pandas as pd df = pd.DataFrame(columns=['F1','F2','F3']) df.loc[0] = ['A','Q','H'] dummy_values_dict = { 'F1': ['A','MISSING'],'F2': ['D','F3': ['G','I'] } # import OneHotEncoder from sklearn.preprocessing import OneHotEncoder categorical_cols = sorted(dummy_values_dict.keys()) # instantiate OneHotEncoder # todo: encoding...

也许这个问题措辞不好。我设法使用下面的代码找到了一个更优化的实现（可能有更好的实现）：

import pandas as pd import numpy as np def dummy_encode_dataframe_optimized(df,dummy_values_dict): column_headers = np.concatenate(np.array( [np.array([k + '_value_' + s for s in sorted(dummy_values_dict[k])]) for k in sorted(dummy_values_dict.keys())]),axis=0) feature_values = [str(feature) + '_value_' + str(df[feature][0]) for feature in dummy_values_dict.keys()] one_hot_encode_vector = np.vectorize(lambda x: float(1) if x in feature_values else float(0))(column_headers) untouched_df = df.drop(df.ix[:,dummy_values_dict.keys()].head(0).columns,axis=1) hot_encoded_df = pd.concat( [ untouched_df,pd.DataFrame( [one_hot_encode_vector],index=untouched_df.index,columns=column_headers ) ],axis=1 ) return hot_encoded_df df = pd.DataFrame(columns=['F1','F2','F3']) df.loc[0] = ['A','Q','H'] dummy_values_dict = { 'F1': ['A','B','C','MISSING'],'F2': ['D','E','F','F3': ['G','H','I'] } result = dummy_encode_dataframe_optimized(df,dummy_values_dict)
,

pd.get_dummies应该适合您的情况，但是首先我们需要将不在字典中的所有值都设置为NaN

df = pd.DataFrame({'F1': ['A','F2': [ 'Q','I',5]}) # F1 F2 F3 # 0 A Q G # 1 B E H # 2 C F I # 3 MISSING MISSING 5 dummy_values_dict = {'F1': ['A','F2': [ 'D','I']}

我们可以将所有其他值设置为np.nan：

for col in df.columns: df.loc[~df[col].isin(dummy_values_dict[col]),col] = np.nan print(df) # F1 F2 F3 # 0 A NaN G # 1 B E H # 2 C F I # 3 MISSING MISSING NaN

然后我们可以使用pd.get_dummies来完成这项工作：

print(pd.get_dummies(df)) # F1_A F1_B F1_C F1_MISSING F2_E F2_F F2_MISSING F3_G F3_H F3_I # 0 1 0 0 0 0 0 0 1 0 0 # 1 0 1 0 0 1 0 0 0 1 0 # 2 0 0 1 0 0 1 0 0 0 1 # 3 0 0 0 1 0 0 1 0 0 0

请注意，如果我们没有一个值（例如“ F2”列中的“ D”），则不会出现“ F2_D”列，但是如果您确实需要该列，可以很容易地解决该问题

推荐阅读

java
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
java
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
java
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27
version
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
java
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
request
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
runtime
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
request
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
java
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
client
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
main
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
client
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
main
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
main
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
java
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49

我们的北京宫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章