热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用Python轻松获取Binance历史交易

在制定交易策略时,即使用过去的数据执行我们的策略并分析收益和其他重要因素时,我们必须确保我们拥有合适的数据类型。鉴于某些策略需要一定水平的技术数据,而其他数据可能只需要花费一个小时

使用Python轻松获取Binance历史交易

但是为什么本文仅涉及获取“交易”数据,为什么我们使用Binance API?你可能对我的文章内容有些疑问。

数据频率和平衡

我想说,交易数据端点主要在99.99%的交易所中提供。它是细粒度的,提供了足够的详细信息(在某些非常特殊的情况下)用于回测高频交易(HFT)策略,并且可以用作 OHLC candles(1S至24H或更多,如果你想要的话)的基础。

交易数据是通用的,并且允许使用不同频率的策略进行大量实验。

为什么选择Binance?那只是因为它是我由于数量庞大而倾向于回溯的交易所之一。

我们将要进行的编码

我们将创建一个Python脚本,该脚本接收对符号,开始日期和结束日期作为命令行参数。它将包含所有交易的CSV文件输出到磁盘。该过程可以通过以下步骤进行详细说明:

1、解析symbol,starting_date和ending_date论据。

2、获取开始日期发生的第一笔交易,以获取第一笔交易trade_id。

3、循环获取每个请求1000笔交易(Binance API限制),直到ending_date达到为止。

4、最后,将数据保存到磁盘。对于示例,我们将其保存为CSV,但是你还有其他选择,不一定保存为CSV。

5、我们将使用pandas,requests,time,sys,和datetime。在代码段中,将不会显示错误验证,因为它不会为说明添加任何值。

编码时间

该脚本将使用以下参数:

1、symbol:交易对的符号,由Binance定义。可以在此处查询,也可以从Binance Web应用程序的URL复制(不包括 _ 字符)。

file

-starting_date and ending_date:不言自明。期望的格式为mm/dd/yyyy,或者使用Python lang语为%m/%d/%Y。

为了获取参数,我们将使用内置函数sys(这里没有什么花哨的地方),并且为了解析日期,我们将使用datetime库。

file

我们将添加一天并减去一微秒,以使ending_date时间部分始终处于23:59:59.999,这使得获取当天间隔更加实用。

提取交易

使用Binance的API并使用aggTrades端点,我们可以在一个请求中获得最多1000 笔交易,如果我们使用开始和结束参数,则它们之间的间隔最多为一小时。在出现一些失败之后,通过使用时间间隔获取(在某个时间点或另一个时间点,流动性会变得疯狂,我会失去一些宝贵的交易),我决定尝试from_id策略。

将aggTrades选择的端点,因为它返回压缩行业。这样,我们将不会丢失任何宝贵的信息。

获得压缩的总交易。在同一时间从同一订单以相同价格执行的交易将汇总数量。

该from_id策略是这样的:

我们要得到的第一笔交易starting_date 通过发送日期的时间间隔向终点。之后,我们将从第一个获取的交易ID开始获取1000个交易。然后,我们将检查最后一笔交易是否发生在我们之后ending_date。如果是这样,我们已经遍历了所有时间段,可以将结果保存到文件中。否则,我们将更新from_id变量以获取最后的交易ID,然后重新开始循环。

取得第一个交易编号

file

首先,我们创建一个new_end_date。那是因为我们aggTrades通过传递a startTime和endTime 参数来使用。现在,我们只需要知道该期间的第一个交易编号,因此我们将增加60秒。在低流动性货币对中,可以更改此参数,因为不能保证在请求的第一天发生交易。

然后,使用我们的辅助函数解析日期,以使用该calendar.timegm函数将日期转换为Unix毫秒表示形式。该timegm函数是首选函数,因为它将日期保留为UTC。

file

请求的响应是按日期排序的贸易对象列表,格式如下:

file

因此,由于我们需要第一个交易ID ,因此我们将返回该response[0]["a"]值。

主循环

现在我们有了第一个交易ID,我们可以一次提取1000个交易,直到达到ending_date。以下代码将在我们的主循环中调用。它将使用from_id参数,放弃startDate和endDate参数,执行我们的请求。

file

现在,这是我们的主循环,它将执行请求并创建我们的DataFrame。

file

我们检查是否current_time包含最近获取的交易日期大于to_date,如果是,则我们:

  • 使用from_id参数获取交易
  • 使用从最新交易中获取的信息来更新from_id和current_time参数
  • 打印nice调试消息
  • pd.concat 这些交易与我们之前的交易 DataFrame
  • 使用sleep让Binance不会给我们一个429 HTTP响应

清洁和保存

组装完之后DataFrame,我们需要执行简单的数据清理。我们将删除重复trim的交易和之后发生的交易to_date(我们有这个问题,因为我们要获取1000笔交易中的大部分,因此,我们有望在目标结束日期之后执行一些交易)。

我们可以封装我们的trim功能:

file

并执行我们的数据清理:

file

现在,我们可以使用以下to_csv方法将其保存到文件中:

file

我们还可以使用其他数据存储机制,例如Arctic。

最后:验证你的数据

在使用交易策略时,我们必须信任我们的数据,这一点很重要。通过应用以下验证,我们可以轻松地利用获取的交易数据来做到这一点:

file

在代码段中,我们将其转换DataFrame为NumPy数组,并逐行迭代,检查交易ID是否每行递增1。

Binance交易ID是以递增方式编号的,并且是为每个交易品种创建的,因此,很容易验证数据是否正确。

PS:创建成功的交易策略的第一步是拥有正确的数据。

文源网络,仅供学习之用,侵删。

在学习Python的道路上肯定会遇见困难,别慌,我这里有一套学习资料,包含40+本电子书,800+个教学视频,涉及Python基础、爬虫、框架、数据分析、机器学习等,不怕你学不会! https://shimo.im/docs/JWCghr8prjCVCxxK/ 《Python学习资料》

关注公众号【Python圈子】,优质文章每日送达。

file


推荐阅读
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
  • PHP引用的概念和用法详解
    本文详细介绍了PHP中引用的概念和用法。引用是指不同的变量名访问同一个变量内容,类似于Unix文件系统中的hardlink。文章从引用的定义、作用、语法和注意事项等方面进行了解释和示例。同时还介绍了对未定义变量使用引用的情况,以及在函数和new运算符中使用引用的注意事项。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题,并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息,同时也提到了相关的警告信息和函数的替代方案。通过阅读本文,读者可以了解到如何解决Python连接服务器失败的问题,并对aiohttp模块有更深入的了解。 ... [详细]
  • 本文介绍了Linux Shell中括号和整数扩展的使用方法,包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行,括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则,可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]
  • 本文介绍了Windows操作系统的版本及其特点,包括Windows 7系统的6个版本:Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统,具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本,缺乏Aero特效功能,没有64位支持,最初设计不能同时运行三个以上应用程序。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 如何提高PHP编程技能及推荐高级教程
    本文介绍了如何提高PHP编程技能的方法,推荐了一些高级教程。学习任何一种编程语言都需要长期的坚持和不懈的努力,本文提醒读者要有足够的耐心和时间投入。通过实践操作学习,可以更好地理解和掌握PHP语言的特异性,特别是单引号和双引号的用法。同时,本文也指出了只走马观花看整体而不深入学习的学习方式无法真正掌握这门语言,建议读者要从整体来考虑局部,培养大局观。最后,本文提醒读者完成一个像模像样的网站需要付出更多的努力和实践。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
author-avatar
余温
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有