热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

从pandasDataframe删除重复数据

我试图每隔几个小时检索一次数据,由于该数据将包含大量重复数据,因此我将

我试图每隔几个小时检索一次数据,由于该数据将包含大量重复数据,因此我将删除所有具有相同日期的重复数据并保留第一个实例。
这是我执行此操作的代码:

import pandas as pd
import datetime
import pandas as pd
from pandas_datareader import data as web
import matplotlib.pyplot as plt
from alpha_vantage.foreignexchange import ForeignExchange
import os
from os import path
from alpha_vantage.timeseries import TimeSeries
import matplotlib.pyplot as plt
import sys
while True:
if path.exists('stockdata.csv') == True:
data1 = pd.read_csv('stockdata.csv',sep= ' ',index_col=0)
ts = TimeSeries(key='1ORS1XLM1YK1GK9Y',output_format='pandas')
data,meta_data = ts.get_intraday(symbol = 'spy',interval='1min',outputsize='full')
data = data.rename(columns={ '1. open':'Open','2. high': 'High','3. low': 'Low','4. close':'Close','5. volume': 'Volume'})
data1 = data1.append(data)
data1 = data1.loc[data1.duplicated(keep='first'),:] # This should remove the rows which have duplicate dates
data1.to_csv('stockdata.csv',sep= ' ')
break
else:
data1 = pd.DataFrame()
data1.to_csv('stockdata.csv',sep= ' ')

data1 = data1.loc[data1.duplicated(keep='first'),:]这应该删除具有重复日期的行的1个实例,但是如果我运行2次代码,我仍然会有两倍的行。

作为示例来说明我要完成的工作:

"2019-11-20 09:57:00" 311.405 311.44 311.4 311.41 42081.0
"2019-11-20 09:56:00" 311.38 311.425 311.33 311.41 63551.0
"2019-11-20 09:55:00" 311.34 311.4525 311.34 311.39 98011.0
"2019-11-20 09:53:00" 311.55 311.59 311.46 311.4832 125541.0
"2019-11-20 09:57:00" 311.405 311.44 311.4 311.41 42081.0
"2019-11-20 09:56:00" 311.38 311.425 311.33 311.41 63551.0
"2019-11-20 09:55:00" 311.34 311.4525 311.34 311.39 98011.0
"2019-11-20 09:54:00" 311.49 311.51 311.33 311.33 85857.0
"2019-11-20 09:53:00" 311.55 311.59 311.46 311.4832 125541.0

如您所见,正在添加数据,因此就像上面的示例一样,数据被粘贴了2次。但是,当添加新数据时将有一个新的唯一条目。因此,我在这里尝试删除所有重复项,以仅保留新条目。

如果我在另一个单元格中运行data1.loc[data1.index.duplicated(keep = 'last'),:],则会得到:

从pandas Dataframe删除重复数据

所有条目均被删除。


考虑以下DataFrame(每天2行):

Dat Val
2019-06-03 12:07 20
2019-06-03 16:10 23
2019-06-04 10:04 30
2019-06-04 14:47 32
2019-06-06 11:42 49
2019-06-06 18:17 51

要仅保留每天的第一阅读,您可以:


  • Dat 列按 D 频率分组,

  • 仅打印每个组的第一行,

  • 从没有输入行(选项)的日期中删除行。

执行此操作的代码是:

df.groupby(pd.Grouper(key='Dat',freq='D')).first().dropna()

结果是:

Val
Dat
2019-06-03 20.0
2019-06-04 30.0
2019-06-06 49.0

如果您的输入列是 integer 类型,并且您想保留它
作为整数,您可以在上面的代码中添加.astype(int)

编辑

如果上述解决方案的计算速度太慢,请尝试:

df.groupby(df.Dat.dt.date).first().drop(columns='Dat')

这次没有插入“空日期”,因此不需要 dropna


推荐阅读
author-avatar
黑洞里的筷子
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有