【python】pandas库中的merge方法连接两个表后输出为空

作者：津pig | 来源：互联网 | 2023-10-12 20:29

importpandasaspd#读取数据，更换列表名datapd.read_table(u.data)datafeilds[userid,itemid

import pandas as pd



#读取数据，更换列表名

data = pd.read_table( 'u.data' )

datafeilds = ['user id', 'item id', 'rating', 'timestamp']

data.columns = datafeilds



#将文件中需要的数据分别存入两个列表

user_id = []

gender = []

userfile = open('u.user')

contents = userfile.readlines()

userfile.close()

for i in range(0,len(contents)):

    line = contents[i].split('|')

    user_id.append( line[0] )

    gender.append( line[2] )

    

#存入数据，为dataframe类型

dictuser = {'user id':user_id, 'gender':gender}

user = pd.DataFrame(dictuser)



rating = pd.merge( data, user, on = 'user id')

print rating

data和user的类型都是dataframe，用user id做为主键连接两张表，data和user中都有数据，
输出如下：
Empty DataFrame
Columns: [user id, item id, rating, timestamp, gender]
Index: []

怎么会是空的呢？

6 个解决方案

#1

因为两个表的user id没有一样的，注意它们的类型

#2

楼主问题解决了吗同求答案

#3

引用 1 楼 uiuiy1 的回复:

因为两个表的user id没有一样的，注意它们的类型

print data.columns[0], user.columns[1]

print type(data.columns[0]), type(user.columns[1])

输出为
user id user id

都是string啊

在variable explorer查看rating，有如下错误
TypeError: ufunc 'invert' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

#4

#!/usr/bin/python

# -*- coding:utf-8 -*-



import pandas as pd

import numpy as np

 

#读取数据，更换列表名

data = np.loadtxt('u.data',delimiter = " ", dtype=str)

#data = pd.read_table( 'u.data' )

datafeilds = ['user id', 'item id', 'rating', 'timestamp']

#data.columns = datafeilds

df = pd.DataFrame(data,columns=datafeilds)

 

#将文件中需要的数据分别存入两个列表

user_id = []

gender = []

userfile = open('u.user')

contents = userfile.readlines()

userfile.close()

for i in range(0,len(contents)):

    line = contents[i].split('|')

    user_id.append( line[0] )

    gender.append( line[2] )

     

#存入数据，为dataframe类型

dictuser = {'user id':user_id, 'gender':gender}

user = pd.DataFrame(dictuser)

 

rating = pd.merge( df, user, on = 'user id')

print rating

u.data

u.user

11|m|f

22|f|f

33|m|f

44|m|f

55|f|f

66|f|f

#5

十分感谢！按照你的思路解决了问题。

不过，你给出的这一段

df = pd.DataFrame(data,columns=datafeilds)

运行到这就出错了

我在variable explorer看了data的值，显示只有1列，所以我自己用代码清理了一下。

data = np.loadtxt('u.data',delimiter = " ", dtype=str)

datafeilds = ['user id', 'item id', 'rating', 'timestamp']



sline = []



for line in data:

    sline.append( line.split('\t') )

    

array = np.array(sline)

df = pd.DataFrame(array,columns=datafeilds)

最后，还是想请教一下，为何会出现题目中的问题呢？
两个数据都是
user id也都是
到底哪里不一样呢？

再次感谢！

#6

因为看不到你的表格数据，我估计可能是你user id 中的数据没有相同的，这样就会导致merge以后为空表。

推荐阅读

join
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
join
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
scala
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
input
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
string
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
string
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
数组
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
php
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
php
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
input
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
scala
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
join
Python编程基础练习题（进阶篇）

本文提供了一系列Python编程基础练习题，涵盖了列表操作、循环结构、字符串处理和元组特性等内容。通过这些练习题，读者可以巩固对Python语言的理解并提升编程技能。 ... [详细]

蜡笔小新 2024-12-25 13:42:47
merge
Tetris 排名系统 (拓扑排序与并查集的应用)

本题旨在通过给定的评级信息，利用拓扑排序和并查集算法来确定全球 Tetris 高手排行榜。题目要求判断是否可以根据提供的信息生成一个明确的排名表，或者是否存在冲突或信息不足的情况。 ... [详细]

蜡笔小新 2024-12-24 21:03:51
join
Python 使用 xlrd 库读取 Excel 文件

本文介绍如何使用 Python 的 xlrd 库读取 Excel 文件，并将其数据处理后存储到数据库中。通过实际案例，详细讲解了文件路径、合并单元格处理等常见问题。 ... [详细]

蜡笔小新 2024-12-24 17:29:27

津pig

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章