一个适合小公司用的datapipeline工具

作者：奥巴马萨达姆_558 | 来源：互联网 | 2023-10-11 16:21

最近在Prettyyes一直想建立起非常专业的datapipeline系统，然后没有很多时间，这几个礼拜正好app上线，有时间开始建立自己的datapipeline，能够很好的做每

最近在Prettyyes一直想建立起非常专业的data pipeline系统，然后没有很多时间，这几个礼拜正好app上线，有时间开始建立自己的 data pipeline，能够很好的做每天的数据导入，数据收集，以及数据分析。

什么是ETL

ETL 是常用的数据处理，在以前的公司里，ETL 差不多是数据处理的基础，要求非常稳定，容错率高，而且能够很好的监控。ETL的全称是 Extract，Transform，Load，一般情况下是将乱七八糟的数据进行预处理，然后放到储存空间上。可以是SQL的也可以是NOSQL的，还可以直接存成file的模式。

一开始我的设计思路是，用几个cron job和celery来handle所有的处理，然后将我们的log文件存在hdfs，还有一些数据存在mysql，大概每天跑一次。核心是能够scale，稳定，容错，roll back。我们的data warehouse就放在云上，就简单处理了。

有了自己的ETL系统我觉得就很安心了，以后能够做数据处理和机器学习方面就相对方便一些。

问题来了

一开始我设计的思路和Uber一开始的ETL很像，因为我觉得很方便。但是我发觉一个很严重的问题，我一个人忙不过来。首先，要至少写个前端UI来监控cron job，但是市面上的都很差。其次，容错的autorestart写起来很费劲，可能是我自己没有找到一个好的处理方法。最后部署的时候相当麻烦，如果要写好这些东西，我一个人的话要至少一个月的时间，可能还不是特别robust。在尝试写了2两天的一些碎片处理的脚本之后我发觉时间拖了实在太久了。

隆重推荐的工具

airbnb是我很喜欢的公司，他们有很多开源的工具，airflow我觉得是最实用的代表。airflow 是能进行数据pipeline的管理，甚至是可以当做更高级的cron job 来使用。现在一般的大厂都说自己的数据处理是ETL，美其名曰 data pipeline，可能跟google倡导的有关。airbnb的airflow是用python写的，它能进行工作流的调度，提供更可靠的流程，而且它还有自带的UI（可能是跟airbnb设计主导有关）。话不多说，先放两张截图：

《一个适合小公司用的 data pipeline 工具》

什么是DAG

airflow里最重要的一个概念是DAG。

DAG是directed asyclic graph，在很多机器学习里有应用，也就是所谓的有向非循环。但是在airflow里你可以看做是一个小的工程，小的流程，因为每个小的工程里可以有很多“有向”的task，最终达到某种目的。在官网中的介绍里说dag的特点：

Scheduled: each job should run at a certain scheduled interval
Mission critical: if some of the jobs aren’t running, we are in trouble
Evolving: as the company and the data team matures, so does the data processing
Heterogenous: the stack for modern analytics is changing quickly, and most companies run multiple systems that need to be glued together

YEAH! It&＃8217;s awesome, right? After reading all of these, I found it&＃8217;s perfectly fit Prettyyes.

如何安装

安装airflow超级简单，使用pip就可以，现在airflow的版本是1.6.1，但是有个小的bug，这个之后会告诉大家如何修改。

pip install airflow

这里有个坑，因为airflow涉及到很到数据处理的包，所以会安装pandas和numpy（这个Data Scientist应该都很熟悉）但是国内pip install 安装非常慢，用douban的源也有一些小的问题。我的解决方案是，直接先用豆瓣的源安装numpy 和 pandas，然后再安装airflow，自动化部署的时候可以在requirements.txt 里调整顺序就行了

如何运行

摘自官方网站

# airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME=~/airflow # install from pypi using pip pip install airflow # initialize the database airflow initdb # start the web server, default port is 8080 airflow webserver -p 8080

然后你就可以上web ui查看所有的dags，来监控你的进程。

如何导入dag

一般第一次运行之后，airflow会在默认文件夹下生成airflow文件夹，然后你只要在里面新建一个文件dag就可以了。我这边部署在阿里云上的文件tree大概是这个样子的。

《一个适合小公司用的 data pipeline 工具》

以下是我自己写的我们公司prettyyes里需要每天处理log的其中一个小的dag：

from airflow import DAG from airflow.operators import BashOperator from datetime import datetime, timedelta import ConfigParser cOnfig= ConfigParser.ConfigParser() config.read('/etc/conf.ini') WORK_DIR = config.get('dir_conf', 'work_dir') OUTPUT_DIR = config.get('dir_conf', 'log_output') PYTHON_ENV = config.get('dir_conf', 'python_env') default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime.today() - timedelta(days=1), 'retries': 2, 'retry_delay': timedelta(minutes=15), } dag = DAG('daily_process', default_args=default_args, schedule_interval=timedelta(days=1)) templated_command = "echo 'single' | {python_env}/python {work_dir}/mr/LogMR.py"\ .format(python_env=PYTHON_ENV, work_dir=WORK_DIR) + " --start_date { { ds }}" task = BashOperator( task_id='process_log', bash_command=templated_command, dag=dag )

写好之后，只要将这个dag放入之前建立好的dag文件夹，然后运行：

python

来确保没有语法错误。在测试里你可以看到我的

schedule_interval=timedelta(days=1)

这样我们的数据处理的任务就相当于每天跑一次。更重要的是，airflow还提供处理bash处理的接口外还有hadoop的很多接口。可以为以后连接hadoop系统提供便利。很多具体的功能可以看官方文档。

其中的一个小的bug

airflow 1.6.1有一个网站的小的bug，安装成功后，点击dag里的log会出现以下页面：

《一个适合小公司用的 data pipeline 工具》

这个只要将

airflow/www/utils.py

文件替换成最新的airflow github上的utils.py文件就行，具体的问题在这个：

fixes datetime issue when persisting logs

使用supervisord进行deamon

airflow本身没有deamon模式，所以直接用supervisord就ok了，我们只要写4行代码。

[program:airflow_web] command=/home/kimi/env/athena/bin/airflow webserver -p 8080 [program:airflow_scheduler] command=/home/kimi/env/athena/bin/airflow scheduler

我觉得airflow特别适合小的团队，他的功能强大，而且真的部署方便。和hadoop，mrjob又可以无缝连接，对我们的业务有很大的提升。

Prettyyes 不以貌取人最肤浅

推荐阅读

string
Python 数据库操作指南：MySQL 与 Redis 实战技巧

本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先，针对 MySQL 数据库，通过 `pymysql` 模块展示了如何连接和操作数据库，包括建立连接、执行查询和更新等常见操作。接着，文章深入探讨了 Redis 的基本命令和高级功能，如键值存储、列表操作和事务处理。此外，还提供了多个实际案例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-07 12:55:01
bit
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
list
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
main
使用Python批量处理图片尺寸调整

本文介绍了如何利用Python进行批量图片尺寸调整，包括放大和等比例缩放。文中提供了详细的代码示例，并解释了每个步骤的具体实现方法。 ... [详细]

蜡笔小新 2024-12-22 17:13:05
spring
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
main
UNIX进程间通信（IPC）详解

本文深入探讨了UNIX/Linux系统中的进程间通信（IPC）机制，包括消息传递、同步和共享内存等。详细介绍了管道（Pipe）、有名管道（FIFO）、Posix和System V消息队列、互斥锁与条件变量、读写锁、信号量以及共享内存的使用方法和应用场景。 ... [详细]

蜡笔小新 2024-12-20 10:14:51
include
在Win10上利用VS2015构建Caffe2环境

本文详细介绍如何在Windows 10操作系统上通过Visual Studio 2015编译Caffe2深度学习框架的过程。包括必要的软件安装、环境配置以及常见问题的解决方法。 ... [详细]

蜡笔小新 2024-12-15 18:03:52
include
Python 3.6.3 转换为 Windows 可执行文件的解决方案

本文详细介绍了如何将 Python 3.6.3 程序转换为 Windows 可执行文件（.exe），并解决了使用 py2exe 和 cx_Freeze 时遇到的问题。推荐使用 PyInstaller 进行打包，提供完整的安装和打包步骤。 ... [详细]

蜡笔小新 2024-12-22 17:28:12
php
JavaScript 中创建对象的多种方法

本文详细介绍了 JavaScript 中创建对象的几种常见方式，包括对象字面量、构造函数和 Object.create 方法，并提供了示例代码和属性描述符的解释。 ... [详细]

蜡笔小新 2024-12-22 16:40:51
php
解决Windows和SSMS中未注册'microsoft.ACE.oledb.12.0'提供程序的问题

本文介绍了解决在Windows操作系统或SQL Server Management Studio (SSMS) 中遇到的“microsoft.ACE.oledb.12.0”提供程序未注册问题的方法，特别针对Access Database Engine组件的安装。 ... [详细]

蜡笔小新 2024-12-21 15:21:22
js
Linux进程间通信方式及JavaScript动态加载技术解析

本文介绍了Linux环境下的多种进程间通信方法，包括管道、信号、消息队列、共享内存、信号量和套接字等。同时，探讨了JavaScript动态加载脚本的优势与使用XMLHttpRequest对象获取JavaScript代码的优缺点。 ... [详细]

蜡笔小新 2024-12-13 16:13:48
string
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11
string
MongoDB核心概念详解

本文介绍了NoSQL数据库的概念及其应用场景，重点解析了MongoDB的基本特性、数据结构以及常用操作。MongoDB是一个高性能、高可用且易于扩展的文档数据库系统。 ... [详细]

蜡笔小新 2024-11-15 10:24:19
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
js
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28

奥巴马萨达姆_558

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章