热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

阿里飞猪旅行搜索技术的革新与实践

本文由林睿(阿里飞猪)分享,经杜正海、Hoh编辑整理,并由DataFunTalk平台发布。文章探讨了旅行搜索技术从满足基本需求到集成高级功能的发展历程,特别是在阿里飞猪平台上的应用与创新。
### 导读
旅行搜索技术最初旨在满足用户的特定需求,如查询航班、火车票或预订酒店等。随着技术的进步,用户对搜索体验的要求不断提高,促使旅行搜索技术不断演进,成为集多种搜索策略于一体的全文检索系统。本文将深入探讨阿里飞猪在旅行搜索领域的技术应用与创新。

#### 一、飞猪搜索背景
1. **全局搜索与行业小搜**
- 全局搜索:涵盖飞猪内部所有内容的搜索入口。
- 行业小搜:专注于特定领域,如酒店、机票和旅游度假产品的垂直搜索。
- 随着业务发展,用户越来越多地使用全局搜索,因为它能一站式满足跨类别的需求,减少用户操作步骤。

2. **猪搜框架**
- 主要流程包括:Query处理(QP)、分页服务(SP)、倒排索引(HA3)、粗排序、加权排序和最终结果展示。
- QP负责Query理解与召回生成,是整个搜索流程的关键环节。

3. **QP挑战**
- 性能要求高:响应时间需控制在总响应时间的1/10以内。
- 文本理解:提供文本相关性支持。
- 特殊要求:处理LBS与POI的理解,提供空间相关性。
- 用户特征:支持个性化相关性,满足多样化需求。

#### 二、基础建设
1. **Query Tagging**
- 功能:识别Query中的目的地和用户意图。
- 层次:数据层、算法层和应用层。
- 数据层通过离线挖掘建立tagging词库,算法层利用Tag消歧和CRF等技术进行在线打标,应用层则用于Query丢词和改写。

2. **商品POI挖掘**
- 从商品标题和详情中提取有价值的POI信息,扩充词表,提高召回质量。
- 使用CRF++模型进行序列标注,准确率超过99%,召回率超过95%。

3. **同义词挖掘**
- 处理翻译类、中英文词、包含关系和错别字等类型的同义词。
- 基于用户点击行为和word2vec模型生成候选词,通过特征工程和二分类模型进行筛选。

4. **纠错**
- 解决全Query级别的错误,采用隐马尔科夫模型进行统计纠错。
- 包括同音字和形近字的识别,通过字体图像和结构计算相似度。

#### 三、召回策略
1. **经典召回**
- 利用同义词挖掘、相似Query改写和商品POI挖掘等技术,提高召回质量。
- Learning To Rewrite:通过多路改写生成候选集合,再用Learning To Rank选取最佳结果。

2. **LBS召回**
- 识别用户地理位置,召回附近的相关商品。
- 通过POI识别、文本相似性和用户位置等特征进行建模,准确率可达95%。

3. **向量召回**
- 引入深度学习模型,通过Query和商品的embedding进行相似性计算。
- 在无结果情况下,通过向量召回补充召回结果,降低无结果率。

4. **个性化召回**
- 针对泛需求搜索和不明确的搜索意图,引入个性化召回策略。
- 结合推荐系统和用户行为数据,提供更符合用户需求的搜索结果。

#### 四、总结与展望
1. **Query & User Planer**
- 计划升级QP为Query & User Planer,增强个性化搜索能力。
2. **可解释性升级**
- 提升搜索结果的可解释性,更细致地理解用户意图,预测用户行为,提供更精准的服务。

### 结语
本文详细介绍了阿里飞猪在旅行搜索技术上的最新进展,展示了从基础建设到高级召回策略的全面技术体系,为提升用户体验提供了有力支持。
推荐阅读
author-avatar
木扎尔特2502918527
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有