大规模搜索+预训练，百度是如何落地的？

作者：手机用户2502853355 | 来源：互联网 | 2023-08-24 19:21

大家好，我是kaiyuan。今天一起来看百度KDD2021的一篇工作，关于工业界语义检索召回系统，落地场景非常值得借鉴~Pre-train

大家好&＃xff0c;我是kaiyuan。今天一起来看百度KDD2021的一篇工作&＃xff0c;关于工业界语义检索召回系统&＃xff0c;落地场景非常值得借鉴~

Pre-trained Language Model for Web-scale Retrieval in Baidu Search

先简单介绍一下论文要解决的任务&＃xff0c;「根据用户搜索的query&＃xff0c;从千亿级别的候选池中筛选出一定量的满足用户要求的网页doc」。也可以简单理解为NLP中的文本匹配任务&＃xff0c;但是一旦涉及真实数据和工业应用场景&＃xff0c;就会复杂很多。

关于信息检索和网页搜索&＃xff0c;更详细的可以参考我们之前的综述文章&＃xff1a;

微软亚研院 | 智能信息检索综述

先验知识

最近特别有感触&＃xff0c;找到问题所在比找到答案更重要。来看看当前网页搜索面临的主要挑战&＃xff1a;

「语义匹配」&＃xff1a;这无疑是搜索最需要关注和解决的一块。目前query的形式多样化与口语化&＃xff0c;像一些传统的靠词之间的硬匹配算法&＃xff0c;很容易就错过同义表达&＃xff1b;并且&＃xff0c;query和doc两者长度另外&＃xff0c;除了query和doc这两个客观的实体&＃xff0c;更进一步的话还需要考虑用户的偏好&＃xff0c;这在电商搜索中尤为重要。
「数据分布」&＃xff1a;在搜索中&＃xff0c;大多数的query和doc对于搜索引擎来说都是第一次见的&＃xff0c;如何让模型很好地解决这种长尾数据。
「工程部署」&＃xff1a;召回系统面向的是千亿级别的候选池&＃xff0c;如何在保证模型效果的同时兼顾线上效率&＃xff0c;毕竟用户体验才是产品的第一位。

长期follow我们内容的同学应该对上述问题都已经有一些个人基础的解法&＃xff0c;下面来看看搜索巨头百度是如何做的。另外推荐一些下文所涉及的先验知识&＃xff1a;

NLP预训练模型
- 万字梳理&＃xff01;BERT之后&＃xff0c;NLP预训练模型发展史
- NLP预训练家族 | Transformer-XL及其进化XLNet
- 芝麻街跨界NLP | 预训练模型专辑&＃xff08;三&＃xff09;
- 芝麻街跨界NLP&＃xff0c;没有一个ERNIE是无辜的
- 详解ERNIE-Baidu进化史及应用场景
信息检索与文本匹配&＃xff1a;
- 基于表征(Representation)的文本匹配、信息检索、向量召回的方法总结
- 微软亚研院 | 智能信息检索综述
- 谷歌 ICLR 2020 | 向量化召回也需要『预训练』
- 谈谈文本匹配和多轮检索
- 文本匹配开山之作--双塔模型及实战
- 迈向NLP大师 | 自然语言推理入门

模型细节

任务目标是建模 query-doc之间的 「相关性匹配」&＃xff08;注意与「语义匹配」的区别&＃xff09;

模型骨架是ERNIE&＃xff0c;最近出了一波ERNIE-3&＃xff0c;不知道有没有更新安排上。双塔是工业届召回的标配&＃xff0c;另外顶层交互方式参考了poly-encoder的模式&＃xff0c;如下图。训练和预测阶段会有一点不同&＃xff1a;

模型的细节参考poly-encoder&＃xff1a;

顶层title端&＃xff1a;直接取Encoder最后的CLS向量&＃xff0c;经过FC转换后产出1个256维的向量表示

由于上线性能的要求&＃xff0c;计算相关性得分时在模型训练和预测阶段不一样&＃xff1a;

训练&＃xff1a;query端的16个向量分别与title端的向量做内积&＃xff0c;然后对16个内积取max产出最终的score

线上inference&＃xff1a;直接将query端16个向量做avg-pooling&＃xff0c;这样只需和title-emb做一次内积。既满足了性能的要求&＃xff0c;又丰富细化了query的表示。

数据挖掘

数据作为模型的上限&＃xff0c;自然是非常重要。搜索系统实际数据来源主要是&＃xff1a;

上述样本作为hard negative&＃xff0c;由于召回是从大量不相关doc中找到非常小部分的相关doc&＃xff08;

&＃xff09;&＃xff0c;所以还设计了easy negative&＃xff0c;即在同一batch中随机sample。最终batch训练正负样本数据如下

训练范式

损失优化

工程部署

向量压缩和量化

简单说&＃xff0c;压缩就是把768的ERNIE向量通过FC转成256维度&＃xff0c;量化就是把float32的变成int8。

召回框架

一起交流

想和你一起学习进步&＃xff01;『NewBeeNLP』目前已经建立了多个不同方向交流群&＃xff08;机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等&＃xff09;&＃xff0c;名额有限&＃xff0c;赶紧添加下方微信加入一起讨论交流吧&＃xff01;&＃xff08;注意一定要备注信息才能通过&＃xff09;

- END -

聊一聊大火的对比学习

2021-08-12

百度提前批算法工程师面筋&＃xff01;效率有、高

2021-08-09

Focal Loss --- 从直觉到实现

2021-07-28

动荡下如何自救 | 社招一年收割BATDK算法offer

2021-07-27

推荐阅读

数据挖掘
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
jsp
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
jsp
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
export
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
数组
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
数组
拼多多的崛起之路

随着4G通信技术的发展，互联网产品从PC端转向移动端，图像传输速度更快、更清晰，智能设备的应用提升了用户体验。移动互联网的普及为拼多多的崛起提供了时代背景。 ... [详细]

蜡笔小新 2024-11-13 00:53:05
ip
小程序与小视频：创业公司的左右抉择

对于众多创业公司而言，选择小程序或小视频的发展方向至关重要。本文将深入分析小程序和小视频的特点、优势及局限，帮助创业者做出更明智的选择。 ... [详细]

蜡笔小新 2024-11-12 18:48:34
ip
Webdriver中元素定位的多种技术与策略

在Webdriver中，元素定位是自动化测试的关键环节。本文详细介绍了8种常用的元素定位技术与策略，包括ID、名称、标签名、类名、链接文本、部分链接文本、XPath和CSS选择器。每种方法都有其独特的优势和适用场景，通过合理选择和组合使用，可以显著提高测试脚本的稳定性和效率。此外，文章还探讨了在复杂页面结构中如何灵活运用这些定位技术，以应对各种挑战。 ... [详细]

蜡笔小新 2024-11-11 11:34:38
ip
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
version
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
version
2015年互联网企业人人网产品岗位笔试题目解析与备考指南

2015年，互联网企业人人网在产品岗位的招聘中，设置了多项笔试题目，旨在全面考察应聘者的专业能力和综合素质。本文对这些题目进行了详细解析，并提供了备考指南，帮助考生更好地准备考试。内容涵盖填空题、选择题等多种题型，重点解析了如性别偏好等社会现象的应用题，为考生提供全面的参考和指导。 ... [详细]

蜡笔小新 2024-11-10 12:15:47
plugins
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36

手机用户2502853355

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章