热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【python】pandas库中的merge方法连接两个表后输出为空

importpandasaspd#读取数据,更换列表名datapd.read_table(u.data)datafeilds[userid,itemid
import pandas as pd

#读取数据,更换列表名
data = pd.read_table( 'u.data' )
datafeilds = ['user id', 'item id', 'rating', 'timestamp']
data.columns = datafeilds

#将文件中需要的数据分别存入两个列表
user_id = []
gender = []
userfile = open('u.user')
contents = userfile.readlines()
userfile.close()
for i in range(0,len(contents)):
    line = contents[i].split('|')
    user_id.append( line[0] )
    gender.append( line[2] )
    
#存入数据,为dataframe类型
dictuser = {'user id':user_id, 'gender':gender}
user = pd.DataFrame(dictuser)

rating = pd.merge( data, user, on = 'user id')
print rating


data和user的类型都是dataframe,用user id做为主键连接两张表,data和user中都有数据,
输出如下:
Empty DataFrame
Columns: [user id, item id, rating, timestamp, gender]
Index: []

怎么会是空的呢?

6 个解决方案

#1


因为两个表的user id没有一样的,注意它们的类型

#2


楼主 问题解决了吗 同求答案  

#3


引用 1 楼 uiuiy1 的回复:
因为两个表的user id没有一样的,注意它们的类型

print data.columns[0], user.columns[1]
print type(data.columns[0]), type(user.columns[1])

输出为
user id user id
 
都是string啊

在variable explorer查看rating,有如下错误
TypeError: ufunc 'invert' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

#4


#!/usr/bin/python
# -*- coding:utf-8 -*-

import pandas as pd
import numpy as np
 
#读取数据,更换列表名
data = np.loadtxt('u.data',delimiter = " ", dtype=str)
#data = pd.read_table( 'u.data' )
datafeilds = ['user id', 'item id', 'rating', 'timestamp']
#data.columns = datafeilds
df = pd.DataFrame(data,columns=datafeilds)
 
#将文件中需要的数据分别存入两个列表
user_id = []
gender = []
userfile = open('u.user')
contents = userfile.readlines()
userfile.close()
for i in range(0,len(contents)):
    line = contents[i].split('|')
    user_id.append( line[0] )
    gender.append( line[2] )
     
#存入数据,为dataframe类型
dictuser = {'user id':user_id, 'gender':gender}
user = pd.DataFrame(dictuser)
 
rating = pd.merge( df, user, on = 'user id')
print rating

u.data
11 1 1 y1
22 2 2 y1
33 3 3 y1
44 4 4 y1
55 5 5 y1
66 6 6 y1

u.user
11|m|f
22|f|f
33|m|f
44|m|f
55|f|f
66|f|f


#5


十分感谢!按照你的思路解决了问题。

不过,你给出的这一段
df = pd.DataFrame(data,columns=datafeilds)
运行到这就出错了

我在variable explorer看了data的值,显示只有1列,所以我自己用代码清理了一下。
data = np.loadtxt('u.data',delimiter = " ", dtype=str)
datafeilds = ['user id', 'item id', 'rating', 'timestamp']

sline = []

for line in data:
    sline.append( line.split('\t') )
    
array = np.array(sline)
df = pd.DataFrame(array,columns=datafeilds)


最后,还是想请教一下,为何会出现题目中的问题呢?
两个数据都是
user id也都是
到底哪里不一样呢?

再次感谢!

#6


因为看不到你的表格数据,我估计可能是你user id 中的数据没有相同的,这样就会导致merge以后为空表。

推荐阅读
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • XNA 3.0 游戏编程:从 XML 文件加载数据
    本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件,并通过内容管道加载到游戏中。此外,还会涉及自定义类型读取器和写入器的实现。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 开发笔记:2020 BJDCTF Re encode
    开发笔记:2020 BJDCTF Re encode ... [详细]
  • 本文将详细探讨Linux pinctrl子系统的各个关键数据结构,帮助读者深入了解其内部机制。通过分析这些数据结构及其相互关系,我们将进一步理解pinctrl子系统的工作原理和设计思路。 ... [详细]
  • #点球小游戏fromrandomimportchoiceimporttimescore[0,0]direction[left,center,right]defkick() ... [详细]
  • Python处理Word文档的高效技巧
    本文详细介绍了如何使用Python处理Word文档,涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]
  • 社交网络中的级联行为 ... [详细]
  • 本文介绍了一种算法,用于判断给定年份范围内的回文日期,并考虑了闰年的特殊情况。通过该算法,可以准确找出符合条件的回文日期。 ... [详细]
  • 本文介绍如何使用 Python 的 xlrd 库读取 Excel 文件,并将其数据处理后存储到数据库中。通过实际案例,详细讲解了文件路径、合并单元格处理等常见问题。 ... [详细]
  • 反向投影技术主要用于在大型输入图像中定位特定的小型模板图像。通过直方图对比,它能够识别出最匹配的区域或点,从而确定模板图像在输入图像中的位置。 ... [详细]
author-avatar
津pig
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有