数十亿用户的Facebook如何进行贝叶斯系统调优？

作者：红星闪闪爱哭的鱼 | 来源：互联网 | 2023-08-27 14:44

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd

AI前线导读：贝叶斯优化其实就是在函数方程不知的情况下根据已有的采样点预估函数最大值的一个算法。贝叶斯优化的主要目的是与大部分机器学习算法类似，学习模型的表达形式，在一定范围内求一个函数的最大（小）值。针对机器学习的高斯过程(Gaussian Processes，GP)是一个通用的监督学习方法，主要被设计用来解决回归问题。Facebook是全球最大的社交网站，如此庞大体量的在线系统要如何有效地调优呢？让我们看看贝叶斯优化在这方面是如何应用的。

Facebook依靠庞大的后端系统，每天为数十亿人提供服务。在这些后端系统中，许多都有大量的内部参数。例如，支持Facebook的Web服务器使用HipHop虚拟机（HHVM）来处理服务请求，而HHVM有几十个参数用于控制即时编译器。另一个例子是，用于各种预测任务的机器学习。这些系统通常都会涉及多层预测模型，具有大量参数，用于确定模型如何连接在一起，从而产生最终建议。这些参数必须通过使用实时随机实验仔细地进行调优，也称为A/B测试。这些实验中，每一项都可能需要一周或更长时间，因此挑战在于：用尽可能少的实验来优化一组参数。

A/B测试通常用作改进产品的一次性实验。我们的论文《Constrained Bayesian Optimization with Noisy Experiments》，现已在Bayesian Analysis期刊上发表。在这篇论文中，我们描述了如何使用一种被称为贝叶斯优化（Bayesian optimization）的人工智能技术，根据先前测试的结果自适应地设计一轮A/B测试。与网格搜索或手动调优相比，贝叶斯优化可以让我们用更少的实验共同调优更多的参数，并找到更好的值。我们已经在一系列后端系统中使用这些技术进行了数十次参数调优实验，发现它在机器学习系统调优方面特别有效。

AI前线注：论文《Constrained Bayesian Optimization with Noisy Experiments》见：https://projecteuclid.org/euclid.ba/1533866666

A/B测试的贝叶斯优化

在线系统参数调优的一种典型方法是手动运行小型网格搜索，分别对每个参数进行优化。贝叶斯优化构建了参数与感兴趣的在线结果之间关系的统计模型，并使用该模型来决定运行哪些实验。这种基于模型的方法具备几个关键的优势，特别是优化在线机器学习系统的方面。

使用参数维度进行更好地扩展：考虑到可运行的在线实验数量的限制，网格搜索或手动调优不能用于同时进行多个参数调优。模型的使用允许贝叶斯优化扩展到更多的参数；我们通常会共同优化多达20个参数。这对于机器学习系统而言很重要，因为在这些系统中，参数之间的交互经常需要进行联合优化（joint optimization）。

减少实验次数：贝叶斯优化允许我们在多轮实验中借用信息：对连续空间中的参数值进行测试不仅可获得有关其结果的信息，还可以获得有关附近点的信息。这使得我们能够大大减少探索空间所需的实验数量。

更好的实验结果：该模型能够识别不太可能产生良好结果的部分空间，并避免对这些参数值进行测试。这改善了实验组内的体验。

理解参数空间：建模允许我们可视化并更好地理解参数如何影响感兴趣的结果。如下图所示，显示了8参数实验的二维切片，这张可视化的典型图是为我们更好地理解参数空间而绘制的：

# 贝叶斯优化

我们将在本文中介绍贝叶斯优化的高级描述，然后阐述本论文的工作和一些实验结果。

贝叶斯优化

贝叶斯优化是一种解决优化问题的技术，其中目标函数（即感兴趣的在线指标）没有分析表达式，而是只能通过一些耗时的操作（即随机实验）来评估。通过数量有限的实验来有效地探索多维空间的关键是建模：真正的目标函数是未知的，但我们可以将模型拟合到目前为止的观察值，并使用该模型来预测参数空间的良好部分，我们应该进行额外的实验。

高斯过程（Gaussian process，GP）是一种非参数贝叶斯模型。因为高斯过程提供了很好的不确定性估计（uncertainty estimates），并且易于分析处理，因此它在贝叶斯优化中工作得很好。它提供了在线指标如何随感兴趣的参数变化的估计值，如下图所示：

AI前线注：高斯过程可参阅https://en.wikipedia.org/wiki/Gaussian_process

# 贝叶斯优化

上图中的每个数据标记对应于该参数值的A/B测试额度结果。通过平衡探索（高不确定性）和开发（良好的模型估计），我们可以使用GP来决定接下来要测试的参数。这是通过计算采集函数（acquisition function）来完成的，该函数使用任何给定参数值估计进行实验的值。

假设我们要尝试决定是否应该使用参数配置x进行实验。在x处的观察值是多少？这个问题的答案取决于效用函数（utility function）。假设我们计划在观察x之后结束优化，优化的效用就是它找到的最佳点的值。在这种情况下，观察x的效用就是它的f(x)值比当前最佳值提高了多少，我们称之为x*（假设我们正在最大化）：

I(x) = max(0, f(x) – f(x*)).

I(x)是一个随机变量，因为f(x)是一个随机变量，但f(x)的后验由GP模型解析可知。期望增量（expected improvement，EI）获取函数选择在GP后验下使I(x)的期望值最大化的点x。EI是一种常用的采集函数，因为这种期望具有易于计算的解析形式，在实践中表现良好。如下图所示，图上为模型拟合的EI值:

# 贝叶斯优化

将EI最大化的参数（红色虚线）在下次实验中进行测试。然后根据该实验结果更新模型，并重新计算EI以选择新的候选项。循环重复执行上述操作，直到搜索完成，如上面的动画中多次迭代所示。

高斯过程假设响应面是平滑的，这使我们能够从参数空间中的附近观测中借用信息。它使我们确信已彻底探索了这个空间，而无需实际测试每个可能的参数值。

在线实验中我们采用的贝叶斯优化方法

使用贝叶斯优化对在线系统进行调优有几个挑战，这些在线系统优化催生了本文中描述的工作。

噪声：通过随机实验观察到的噪声水平通常相当高，特别是与典型的贝叶斯优化（如超参数调优）的机器学习应用相比。

约束：除了要优化的指标之外，还必须始终满足约束条件。这些约束通常是噪声指标本身，因此我们必须考虑他们的可行性的后验分布。

批量实验：因为在线实验非常耗时，所以它们通常不以线性顺序运行，而是在大批量的并行测试中运行，如上面的动画所示。在我们的实验中，我们经常一次评估多达50种配置，因此需要贝叶斯优化过程，它可以返回大批待评估的点。

对EI的扩展可以处理这些问题，但是噪声通常是通过启发式方法处理的，当噪声水平达到典型的A/B测试时，我们发现这种方法的性能很差。对于观测噪声，我们现在不仅在f(x)的值上存在不确定性，而且我们也有其他不确定性：其中观测是当前最好的，x*及它的值f(x*)。处理观测噪声的一种常见方法是忽略它，并使用嵌入式估计量（plug-in estimator），通过替换GP的均值估计f(x*)。

在本文中，我们阐述了一种处理观测噪声的贝叶斯方法，其中包含了EI所期望的由噪声引起的后验不确定性。也就是说，我们不计算I(x)在f(x)后端的期望，而是计算在f(x)和f(x*)的联合后验下计算它。这种期望不再具有EI这样的封闭形式，但我们可以很容易地从GP后验中得到过去观测值f(x_1),...,f(x_n)绘制样本，并且条件分布f(x)|f(x_1),...,f(x_n)具有封闭形式。因此，期望值服从蒙特-卡洛近似值（Monte Carlo approximation），其中我们对f(x_1),...,f(x_n)进行采样，然后采用条件期望E[I(x) | f(x_1), …, f(x_n)]的封闭性是的f(x_1),...,f(x_n)]。我们在论文中证明了拟蒙特卡洛积分（quasi-Monte Carlo integration）能够很好地估计这种期望并能有效地进行优化。

Facebook的贝叶斯优化结果

我们使用了本文中描述的方法来优化Facebook上的多个系统，并在文中描述了两个这样的优化。首先是优化Facebook排名系统之一中的6个参数。索引器中涉及到这些特定的参数，这些参数将聚集要发送到预测模型的内容。第二个示例是优化HHVM的7个数字编译器标志。此优化的目标是降低Web服务器上的CPU使用率，同时限制不增加峰值内存使用率。下图显示了测试的每个配置的CPU使用率（总计100），以及每个点满足内存约束的概率：

# 贝叶斯优化

前30次迭代是随机生成的配置（直到绿线），然后使用贝叶斯优化来确定要评估的参数配置。在这个实验以及我们运行过的其他实验中，我们发现贝叶斯优化能够找到更好的配置，更有可能满足约束条件。在此优化中发现的编译器标志设置是在开源HHVM中设置的新默认值。

我们发现，利用本文描述的方法，贝叶斯优化是一种通过噪声实验进行优化的有效且强大的工具。它取代了手动探索多维空间的方式，让工程师的生活变得更加轻松，并改善了后端系统和机器学习基础设施的在线性能。

原文链接： Efficient tuning of online systems using Bayesian optimization

推荐阅读

install
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
install
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
install
在Linux系统中避免安装MySQL的简易指南

在Linux系统中避免安装MySQL的简易指南 ... [详细]

蜡笔小新 2024-11-11 13:22:28
install
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
install
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
python
C语言检测

字符串学习时间：1.5W（“W”周，下同）知识点checkliststrlen()函数的返回值是什么类型的？字 ... [详细]

蜡笔小新 2024-11-12 19:23:53
get
探索Web 2.0新概念：Widget

尽管你可能尚未注意到Widget，但正如几年前对RSS的陌生一样，这一概念正逐渐走入大众视野。据美国某权威杂志预测，2007年将是Widget年。本文将详细介绍Widget的定义、功能及其未来发展趋势。 ... [详细]

蜡笔小新 2024-11-12 18:36:54
jsp
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
install
如何在虚拟机中实现Linux与Windows主机之间的文件夹共享

为了在虚拟机中实现Linux与Windows主机之间的文件夹共享，首先需要确保Linux系统已安装VMware Tools。如果尚未安装，可以通过虚拟机软件提供的“安装VMware Tools”选项进行安装。安装完成后，通过配置共享文件夹设置，即可实现主机与虚拟机之间的文件互传。此外，建议检查虚拟机网络设置，确保网络连接正常，以提高文件传输的稳定性和速度。 ... [详细]

蜡笔小新 2024-11-11 20:53:31
jsp
CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解

在 CentOS 7 系统中，iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表，包括编写脚本文件 `/usr/local/sbin/iptables.sh`，并使用 `iptables -F` 清空现有规则。此外，还深入探讨了 NAT 表的配置方法，帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]

蜡笔小新 2024-11-11 18:33:22
command
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
get
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
python
深入解析C语言中结构体的内存对齐机制及其优化方法

为了提高CPU访问效率，C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制，并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用，从而提升程序性能。 ... [详细]

蜡笔小新 2024-11-11 11:53:59
python
在CentOS系统中安装Scrapy时常见的问题及解决方法

在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便，但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案，帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]

蜡笔小新 2024-11-09 15:28:11

红星闪闪爱哭的鱼

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章