热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

阿里飞猪旅行搜索技术的革新与实践

本文由林睿(阿里飞猪)分享,经杜正海、Hoh编辑整理,并由DataFunTalk平台发布。文章探讨了旅行搜索技术从满足基本需求到集成高级功能的发展历程,特别是在阿里飞猪平台上的应用与创新。
### 导读
旅行搜索技术最初旨在满足用户的特定需求,如查询航班、火车票或预订酒店等。随着技术的进步,用户对搜索体验的要求不断提高,促使旅行搜索技术不断演进,成为集多种搜索策略于一体的全文检索系统。本文将深入探讨阿里飞猪在旅行搜索领域的技术应用与创新。

#### 一、飞猪搜索背景
1. **全局搜索与行业小搜**
- 全局搜索:涵盖飞猪内部所有内容的搜索入口。
- 行业小搜:专注于特定领域,如酒店、机票和旅游度假产品的垂直搜索。
- 随着业务发展,用户越来越多地使用全局搜索,因为它能一站式满足跨类别的需求,减少用户操作步骤。

2. **猪搜框架**
- 主要流程包括:Query处理(QP)、分页服务(SP)、倒排索引(HA3)、粗排序、加权排序和最终结果展示。
- QP负责Query理解与召回生成,是整个搜索流程的关键环节。

3. **QP挑战**
- 性能要求高:响应时间需控制在总响应时间的1/10以内。
- 文本理解:提供文本相关性支持。
- 特殊要求:处理LBS与POI的理解,提供空间相关性。
- 用户特征:支持个性化相关性,满足多样化需求。

#### 二、基础建设
1. **Query Tagging**
- 功能:识别Query中的目的地和用户意图。
- 层次:数据层、算法层和应用层。
- 数据层通过离线挖掘建立tagging词库,算法层利用Tag消歧和CRF等技术进行在线打标,应用层则用于Query丢词和改写。

2. **商品POI挖掘**
- 从商品标题和详情中提取有价值的POI信息,扩充词表,提高召回质量。
- 使用CRF++模型进行序列标注,准确率超过99%,召回率超过95%。

3. **同义词挖掘**
- 处理翻译类、中英文词、包含关系和错别字等类型的同义词。
- 基于用户点击行为和word2vec模型生成候选词,通过特征工程和二分类模型进行筛选。

4. **纠错**
- 解决全Query级别的错误,采用隐马尔科夫模型进行统计纠错。
- 包括同音字和形近字的识别,通过字体图像和结构计算相似度。

#### 三、召回策略
1. **经典召回**
- 利用同义词挖掘、相似Query改写和商品POI挖掘等技术,提高召回质量。
- Learning To Rewrite:通过多路改写生成候选集合,再用Learning To Rank选取最佳结果。

2. **LBS召回**
- 识别用户地理位置,召回附近的相关商品。
- 通过POI识别、文本相似性和用户位置等特征进行建模,准确率可达95%。

3. **向量召回**
- 引入深度学习模型,通过Query和商品的embedding进行相似性计算。
- 在无结果情况下,通过向量召回补充召回结果,降低无结果率。

4. **个性化召回**
- 针对泛需求搜索和不明确的搜索意图,引入个性化召回策略。
- 结合推荐系统和用户行为数据,提供更符合用户需求的搜索结果。

#### 四、总结与展望
1. **Query & User Planer**
- 计划升级QP为Query & User Planer,增强个性化搜索能力。
2. **可解释性升级**
- 提升搜索结果的可解释性,更细致地理解用户意图,预测用户行为,提供更精准的服务。

### 结语
本文详细介绍了阿里飞猪在旅行搜索技术上的最新进展,展示了从基础建设到高级召回策略的全面技术体系,为提升用户体验提供了有力支持。
推荐阅读
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 导航栏样式练习:项目实例解析
    本文详细介绍了如何创建一个具有动态效果的导航栏,包括HTML、CSS和JavaScript代码的实现,并附有详细的说明和效果图。 ... [详细]
  • Docker的安全基准
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作,包括参数说明、事件生成及处理逻辑。详细解析了视图(View)对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 计算机网络复习:第五章 网络层控制平面
    本文探讨了网络层的控制平面,包括转发和路由选择的基本原理。转发在数据平面上实现,通过配置路由器中的转发表完成;而路由选择则在控制平面上进行,涉及路由器中路由表的配置与更新。此外,文章还介绍了ICMP协议、两种控制平面的实现方法、路由选择算法及其分类等内容。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • 本文探讨了如何在给定整数N的情况下,找到两个不同的整数a和b,使得它们的和最大,并且满足特定的数学条件。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
author-avatar
木扎尔特2502918527
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有