【重磅】新一代Angel正式开源，性能超越XGBoost和Spark

作者：徘徊在堕落边缘的魔鬼 | 来源：互联网 | 2023-09-08 16:45

经过漫长的准备和打磨，新一代的Angel终于开源了！新一代的Angel由腾讯和北京大学联合开发，兼顾业界的高可用性和学术界的创新性，欢迎分布式架构师，算法工程师和数据科学家一起深入

经过漫长的准备和打磨，新一代的Angel终于开源了！新一代的Angel由腾讯和北京大学联合开发，兼顾业界的高可用性和学术界的创新性，欢迎分布式架构师，算法工程师和数据科学家一起深入使用和协同开发，激发机器学习领域更多的创新应用和良好生态。

Github：Tencent/angel 欢迎大家Star，Fork和提PR。

作为一个高维度的分布式机器学习框架，Angel的第一次对外亮相是在去年的五月（面向高维度的机器学习计算框架-Angel），并在去年12月份KDDChina大会上（腾讯大数据第三代高性能计算平台-Angel），宣布将全面进行开源。

为了迎接对外开源，团队成员对Angel进行了多次重构和升级，可谓是淬火重炼。在此期间，Angel的架构反复改进，性能持续提升。开源前夕，它的性能已经超越了XGBoost和Spark。新一代的Angel，性能更快，功能更强，开发更方便。其改进主要集中在三方面：

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

生态性

引入PSAgent，支持PS-Service，便于接入其它机器学习框架。

函数性

融合函数式编程特性，自定义psFunc，利于开发复杂算法。

灵活性

支持Spark-on-Angel，Spark无需修改内核，运行于PS模式之上。

本文将从架构和性能两方面，对新一代Angel，做一个初步的介绍，让大家了解它的改进，请移步Github(Tencent/angel)。

架构升级

1. PSService

在新一代的Angel开发中，我们对系统进行了一次重要的升级，引入了PSAgent，对PSServer的服务端进行隔离，从而提供了PS-Service的功能。升级后，系统的架构设计如下：

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

引入PSAgent后，PSClient不再直接和PSServer打交道了，而是通过PSAgent来沟通。作为新加的中间层PSAnget，有如下几个特性：

对外屏蔽了PSServer中的模型分片，路由以及模型重组等复杂细节，提供了封装好的模型操作接口
内置了Hogwild!机制，包含模型缓存和模型预取等性能优化
提供了模型缓存（Cache）的更新和合并的功能，大大降低网络通信开销

PSAgent的引入，解耦了PSServer和Worker，使得Angel具备了PSService的能力。Angel的PSServer，不再只服务于Angel的Client，其它机器学习框架，只要实现AngelPSClient接口了，都能可以接入Angel。

PSService的抽象，为Angel接入Spark和深度学习框架，从架构的层面上提供了便利

2. psFunc

标准Parameter Server功能之一，就是要提供Model的拉取（pull/get）和推送（push/update）。很多早期PS，拿HBase，Redis等分布式存储系统，简单改改，进行模型的更新和获取，就搭建了一个简单的PS系统。

但实际应用中，算法对PSServer上的参数获取和更新，却远远不只这么简单，尤其是当复杂的算法需要实施一些特定的优化的时候，简单的PS系统，就完全不能应对这些需求了。

举个例子，有时候某些算法，要得到矩阵模型中某一行的最大值，如果PS系统，只有基本的Pull接口，那么PSClient，就只能先将该行的所有列，都从参数服务器上拉取回来，然后在Worker上计算得到最大值，这样会产生很多的网络通信开销，对性能会有影响。
而如果我们有一个自定义函数，每个PSServer在远程先计算出n个局部最大值，再交换确认全局最大值，这时只要返回1个数值就可以了，这样的方式，计算开销接近，但通信开销将大大降低。

为了解决类似的问题，Angel引入和实现psFunc的概念，对远程模型的获取和更新的流程进行了封装和抽象。它也是一种用户自定义函数（UDF），但都和PS操作密切相关的，因此被成为psFunc，简称psf，整体架构如下：

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

随着psFunc的引入，模型的计算，也会发生在PSServer端。PSServer也将有一定的模型计算职责，而不是单纯的模型存储功能。合理的设计psFunc，将大大的加速算法的运行。

3. Spark on Angel

作为目前非常流行的分布式内存计算框架，Spark 的核心概念是RDD，而RDD的关键特性之一，是其不可变性，它可以规避分布式环境下复杂的各种奇奇怪怪的并行问题，快速开发各种分布式数据处理算法。然而在机器学习的时代，这个设计反而制约了Spark的发展。因为机器学习的核心是迭代和参数更新，而RDD的不可变性，不适合参数反复多次更新的需求，因此诸多Spark机器学习算法的实现，非常的曲折和不直观。

现在，基于Angel提供的PSService和psFunc，Spark可以充分利用Angel的PS，用最小的修改代价，具备高速训练大模型的能力，写出更加优雅的机器学习算法代码。

Spark on Angel实现的基本架构设计如下：

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

可以看出，该实现非常灵活，它对Spark没有任何侵入式的修改，是一种插件式设计，因此完全兼容社区Spark，对原生Spark的程序不会有任何影响。它的基本执行流程如下

启动SparkSession
初始化PSContext，启动Angel的PSServer
创建PSModelPool, 申请到PSVector
核心调用：在RDD的运算中，直接调用PSVector，进行模型更新。这将使得真正运行的Task，调用AngelPSClient，对远程PSServer进行操作。
终止PSContext
停止SparkSession

关于Spark on Angel的具体开发，可参考：Github《Spark on Angel编程手册》（(Tencent/angel) ）。在线上，基于真实的数据，我们对Spark on Angel和Spark的做了性能对比测试，结果如下：

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

显而易见，Spark on Angel能轻松获得30%或更多的加速比，越复杂的算法和模型，性能提高的比例越大。虽然PSServer会耗费了额外的资源，但是比起算法编写的便捷和性能的提升，这是划算的。对于Spark的老用户，这是低成本切入Angel的一个途径，也是算法工程师基于Spark实现高难度算法的优雅姿势。

Spark on Angel是Angel生态圈的第一个成员，后续会有更多基于PS-Service的框架接入，包括深度学习。

性能优势

新版本的Angel，添加了诸多新功能，最终的目的，就是让算法工程师能更加从容地进行算法优化，融入更多的算法的Trick，让算法的性能，得到了一个飞跃的提升。

相关性能的细节数据，在Github的各个算法介绍文档都可以看到，欢迎点击文末“阅读原文”移步GitHub。

1.GBDT

众所周知，XGBoost的强项之一，就是GBDT算法，性能飞快，使用简单，在众多算法比赛中，是选手们的最爱。尽管如此，Angel的GBDT算法，却还是超越了它，这是一个非常不错的性能背书。

性能比较

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

数据：腾讯内部某性别预测数据集，3.3×10^5 特征，1.2×10^8 样本
详细文档：GBDT on Angel（Tencent/angel）

2.LDA

众所周知，LDA是一个非常消耗资源的主题模型算法，新一代的Angel，在LDA上的性能，不但超越了Spark，也已经超越了之前开源过的Petuum。（由于Petuum已经不开源多时，所以比对数据，这里就不再贴出了）

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

数据：PubMED
详细文档: LDA on Angel(Tencent/angel)

3.GD-LR

LR是广告推荐中广泛应用的一个算法，Angel分别提供了利用Gradient Descent、ADMM两种优化方法计算的LR算法。这两种算法，无论是耗费的资源，还是性能、收敛速度，都远比原生的Spark实现优越。

GD-LR

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

数据：腾讯内部某推荐数据，5×10^7 特征，8×10^7 样本
详细文档： LR on Angel(Tencent/angel)

ADMM-LR

《【重磅】新一代Angel正式开源，性能超越XGBoost和Spark》

数据：腾讯内部某推荐数据，5千万特征，1亿样本

展望

一把好的宝剑，经过千锤百炼，讲究的是刚柔并济，不但削铁如泥，也要有极好的韧性，百折不断。同样的，一个好的开源项目，也是如此。它不但需要有强大的功能和性能，也需要有良好的适配性，能形成好的生态。

超大样本和超高维度的机器学习，在腾讯的多个真实生产环境中，有着非常普遍的应用场景，这是Angel的切入点，但不是终点和约束，在未来，Angel还将深入到图计算和深度学习领域，借助开源的力量，做出更多的探索，无论是Wider还是Deeper的模型，Angel都希望能像天使一样，在多个机器学习框架上为它们提速，帮助各个业务提升效果，为腾讯AI的发展插上翅膀。

更多内容欢迎关注“腾讯大数据”（微信号：tencentbigdata）公众号。

腾讯大数据平台关注大数据平台构建、数据挖掘、数据应用等。信息共享，促进行业交流。通过多年产品建设，腾讯大数据已成功为开发者提供腾讯移动分析（MTA）、腾讯移动推送（信鸽）、腾讯推荐等数据产品，同时与腾讯云合作，推出大数据处理套件（数智），对外提供了可靠、安全、易用的大数据处理能力。

推荐阅读

scala
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
scala
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
config
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
utf-8
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
utf-8
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
go
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32
config
Git命令基础应用指南

本指南详细介绍了Git命令的基础应用，包括如何使用`git clone`从远程服务器克隆仓库（例如：`git clone [url/path/repository]`）以及如何克隆本地仓库（例如：`git clone [local/path/repository]`）。此外，还提供了常见的Git操作技巧，帮助开发者高效管理代码版本。 ... [详细]

蜡笔小新 2024-11-11 09:19:38
foreach
深入探索HTTP协议的学习与实践

在初次访问某个网站时，由于本地没有缓存，服务器会返回一个200状态码的响应，并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新，从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略，帮助读者更好地理解和运用HTTP协议。 ... [详细]

蜡笔小新 2024-11-09 10:12:07
config
在Linux系统上编译安装MySQL 5.5源码详细指南

本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先，通过Yum安装必要的依赖软件包，如GCC、GCC-C++等，确保编译环境的完备。接着，下载并解压MySQL 5.5的源码包，配置编译选项，进行编译和安装。最后，完成安装后，进行基本的配置和启动测试，确保MySQL服务正常运行。 ... [详细]

蜡笔小新 2024-11-08 19:06:26
go
如何利用Java 5 Executor框架高效构建和管理线程池

Java 5 引入了 Executor 框架，为开发人员提供了一种高效管理和构建线程池的方法。该框架通过将任务提交与任务执行分离，简化了多线程编程的复杂性。利用 Executor 框架，开发人员可以更灵活地控制线程的创建、分配和管理，从而提高服务器端应用的性能和响应能力。此外，该框架还提供了多种线程池实现，如固定线程池、缓存线程池和单线程池，以适应不同的应用场景和需求。 ... [详细]

蜡笔小新 2024-11-07 17:05:32
config
掌握 Git 与 SVN 的高效使用技巧，轻松应对版本控制挑战

本文深入探讨了 Git 与 SVN 的高效使用技巧，旨在帮助开发者轻松应对版本控制中的各种挑战。通过详细解析两种工具的核心功能与最佳实践，读者将能够更好地掌握版本管理的精髓，提高开发效率。 ... [详细]

蜡笔小新 2024-11-06 11:05:37
config
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
config
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
uri
NVIDIA新一代Ampere架构详解：革新与优化并存的显卡技术飞跃

NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破，不仅在性能上实现了显著提升，还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进，为用户带来更加流畅的图形处理体验，同时降低了功耗，提升了计算效率。 ... [详细]

蜡笔小新 2024-10-29 14:10:54
text
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46

徘徊在堕落边缘的魔鬼

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章