大数据时代的机器学习：人工特征工程与线性模型的局限

作者：宛雨万青惠雯 | 来源：互联网 | 2024-12-07 11:58

本文探讨了在大数据背景下，人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步，传统的特征工程方法面临挑战，文章提出了未来发展的可能方向。

2011年，我加入百度，负责凤巢平台的广告点击预测工作。当时，最令人印象深刻的是数据量的迅速膨胀，以及业界对特征工程的极大关注。每次引入新特征都能显著提升AUC值和收入，这让大家坚信特征的重要性。基于这样的信念，我们预测数据量在未来两年将至少增加十倍，并据此规划了所有相关工作。

然而，数据的快速增长给模型训练带来了巨大压力。早在2011年，模型训练已成为新特征上线的主要瓶颈。出于对分布式系统和数值算法优化的兴趣，我启动了一个名为‘darlin’的项目，旨在设计一个新的模型训练系统，使其能在相同的资源条件下处理比当前多十倍的数据。该项目不仅成为了百度内部最常用的机器学习训练系统之一，而且其性能和稳定性也得到了验证。

随着项目的推进，我们发现最初设定的目标并未完全实现。一方面，新特征的获取变得越来越困难；另一方面，尽管数据量持续增长，但这种增长速度远低于预期。这背后的原因在于，人工特征工程所能挖掘的有效特征类型有限，且随着特征数量的增加，模型性能的提升逐渐放缓。

例如，在广告点击预测领域，可提取的特征类型相对固定，主要包括广告内容、广告主信息及用户属性等。即便通过不断努力寻找新的数据源，特征类型的上限依然难以突破。同样地，Google在其数据集中每个样本的特征数量也控制在100以内，表明特征种类的限制是普遍存在的。

在这样的背景下，机器学习的效益增长开始放缓，甚至停滞。例如，IBM的Watson项目，尽管每次性能的提升都依赖于新数据和新特征的引入，但这些提升的效果越来越微弱。这反映出，随着特征工程的深化，投入与产出之间的边际效应正在递减。

针对模型训练，我们以Google的Sibyl系统为例进行了分析。Sibyl是一个高效的线性分类器，支持多种损失函数和正则化技术，广泛应用于Google的搜索、Gmail和YouTube等产品中。为了保证模型的高精度和稳定性，Sibyl采用了并行增强技术，并在大规模数据集上实现了快速收敛。即使在在线或增量学习模式下，也能大幅缩短训练时间。

从工程实现的角度看，构建高效的模型训练系统并非不可能。通过合理的数据格式设计、计算优化和网络通信策略，可以有效提升系统的性能。当前，最先进的系统能够在几小时内处理PB级数据，这得益于硬件性能的不断提升。

然而，随着数据增长放缓和硬件性能的提升，人工特征工程与线性模型的发展模式已进入成熟阶段。为了突破这一瓶颈，我们需要探索新的技术路径。例如，利用自动特征组合或深度学习技术，从原始数据中提取更丰富的特征；或者采用更复杂的模型结构，如张量分解和学习排序，以更好地捕捉数据中的潜在关联。

总之，虽然人工特征工程和线性模型将继续在大数据应用中发挥重要作用，但它们已不再是唯一的选择。随着技术的进步，我们应当寻求更高效、更具创新性的解决方案，以应对未来的挑战。

推荐阅读

php
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
数组
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
php
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
数组
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
数组
rm: cannot remove `/usr/local/tmp/‘: Directory not empty

###问题删除目录时遇到错误提示：rm:cannotremoveusrlocaltmp’:Directorynotempty即使用rm-rf，还是会出现 ... [详细]

蜡笔小新 2024-12-25 16:27:05
get
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
get
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
text
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
php
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
php
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
php
Python 列表切片详解与应用

本文深入探讨了 Python 列表切片的基本概念和实际应用，通过具体示例展示了不同切片方式的使用方法及其背后的逻辑。 ... [详细]

蜡笔小新 2024-12-26 16:46:25
数组
C++ 中的数组与动态数组初始化

本文探讨了 C++ 中普通数组和标准库类型 vector 的初始化方法。普通数组具有固定长度，而 vector 是一种可扩展的容器，允许动态调整大小。文章详细介绍了不同初始化方式及其应用场景，并提供了代码示例以加深理解。 ... [详细]

蜡笔小新 2024-12-26 15:38:03
tree
长春大学软件工程：二叉排序树实验报告

本实验主要探讨了二叉排序树（BST）的基本操作，包括创建、查找和删除节点。通过具体实例和代码实现，详细介绍了如何使用递归和非递归方法进行关键字查找，并展示了删除特定节点后的树结构变化。 ... [详细]

蜡笔小新 2024-12-26 15:32:56
default
华为USG基于源地址的多出口策略路由配置

网络拓扑如下：组网情况：企业用户主要有技术部（VLAN10）和行政部(VLAN20)，通过汇聚交换机连接到USG。企业分别通过两个不同运营商（ISP1和ISP2）连接到 ... [详细]

蜡笔小新 2024-12-24 14:57:16
get
CentOS 6.8 上安装 Oracle 10.2.0.1 的常见问题及解决方案

本文记录了在 CentOS 6.8 系统上安装 Oracle 10.2.0.1 数据库时遇到的问题及解决方法，包括依赖库缺失、操作系统版本不兼容、用户权限不足等问题。 ... [详细]

蜡笔小新 2024-12-20 17:19:23

宛雨万青惠雯

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章