作者:blue秋夜听雨321 | 来源:互联网 | 2023-10-10 15:52
导读:旅行类商品(如机票、火车票、汽车票相对实物电商更加标品,用户决策因素更加单一,而行业内大多基于简单规则排序,如时间、价格或业务逻辑加权,难以满足用户的个性化出行需求。飞猪
导语:旅游产品(如机票、火车票、公交车票)比实体电商更规范,用户的决策因素更单一。但大部分行业都是基于时间、价格或业务逻辑权重等简单规则进行排序,难以满足用户的个性化出行需求。在过去的一段时间里,朱非一直在不断探索个性化的流量搜索排序技术。本次,阿里飞珠的首席老师将围绕智能交通导购,详细分享个性化交通搜索分拣技术的实践与创新。主要内容包括:
背景:交通业务介绍挑战:交通出行业务特殊性解决方案:从业务规则到个性化排序模型效果:模型优化迭代结果总结:进一步优化方向01背景:交通业务介绍
1.运输行业自身的痛点
从交通行业本身来看,目前交通排序策略比较简单,大多基于简单的规则。这种单一的规则排序无法高效匹配用户需求,难以满足用户多样化、个性化的出行需求。这是行业的一大痛点。
2.相比实体电商的不足。
与实体电商相比,运输的商品决策信息非常有限,商品高度标准化,如出行时间、价格等因素。在我们的搜索列表页面中,关键决策信息已清晰地显示给用户。不同于传统电商,即实物电商产品的一些决策信息比较大,而运输产品的信息决策只能展现一些决策因素,所以需要进入详情页才能看到真正的关键决策因素。在流量场景中,这个决策因素明显不同于实体电商。
3.相关理论研究
2018年之前,行业内有一些理论研究,主要集中在学术界,而相关的行业应用相对较少,多基于传统的线性模型和机器学习模型来做流量类别的搜索和排名。2018年,Amadeus发表了论文《Deep Choice Model Using Pointer Networks for Airline Itinerary Prediction》,利用深度序列模型对机票进行排序,在离线数据集上取得了很好的效果。
02挑战:运输业务的特殊性
1.挑战:基于领域、商品、人的用户性质差异。
首先,用户行为极其稀疏,用户出行的频率相对较低,比如一年三五次;其次,用户在出行时更注重服务体验;而且决策因素过于单一,决策过程复杂,决策周期很长。从商品角度看,商品是实时动态的,库存价格是实时动态变化的,运输资源也是实时动态约束的。此外,商品高度标准化,我们可以发现用户在不同场景下的需求差异很大,比如支付宝APP或者淘宝。他们的用户在三个终端上的属性差异很大,即使在同一个终端的不同入口、不同交通场景下,用户的属性也有很大的不同。如何满足这种差异,做到个性化?
2.挑战:与实体电子商务相比:信息孤岛
此外,在交通场景和物理电子商务场景中,搜索被排序。从技术对比来看,首先我们可以看到召回方面的明显差异。传统的实体电商很容易构建U-Q-I的网络结构,因为在同一个Q下,可以召回N个产品,通过查询连接工作产品,从而生成一个网络结构。然而,在交通场景中,这种网络结构是分离的,信息是一个接一个形成的。比如从杭州到新加坡的搜索,一个出发地,一个目的地,可以召回目的地下方的CA767,但不能召回VS251,只能通过上海到伦敦的一条路线召回。这样,很难通过查询将两个产品与用户联系起来。这给商品表示和用户表示带来了很大的困难。
03解决方案:从业务规则到个性化排序模型
1.排名系统架构
如何解决以上困难?这是一个整体在线系统架构图。底层是日志收集和数据预处理,进一步处理数据
2.深度列表模式
为
什么要使用DLM模型呢,DLM模型具有以下几个优点:交通排序结果多样性模拟用户决策过程工程打分延时低
Amadeus在论文中提到他们的方法获得了很好的优化效果,包括top N准确率有大幅提升。其核心思想是基于Pointer Net网络结构,对航班序列listwise打分。Pointer Net是在2015年NIPS上发表的一篇文章,2018年他们就把文章的核心思想引入到机票排序排序中。
3. DCM:Deep Choice Model
在Encoder阶段,使用的是RNN网络,比如说我们实验了LSTM、biLSTM以及transformer三个子网络,离线实验效果表现都比较接近,没有明显的差异性。第三个阶段是Decoder阶段,它类似于大意的小蝴蝶的角色,包含了上述序列的所有输入,Decoder输出信息可以看作是一个用户浏览完所有航班,然后对航班进行选择决策的过程。Attention阶段,本质上是计算Decoder和Encoder向量之间的相似度,等同于用户选择更合适的一个航班,α是Attention的权重,即航班序列打分结果。Online实验来看,总体转化率有一定提升,但提升幅度不是特别大。
4. PFRN:Personalized Flight Ranking Network
DCM第一版模型的效果对我们有很大启发,基于这一版模型的探索,我们进一步优化提出了PFRN模型,这篇论文已公开发表在CIKM’20。模型本身是经典的双塔结构,左边是航班序列的表征,右边是用户行为序列表征,上层对两个序列做Attention,表示用户对航班序列的偏好或者是感兴趣程度。我们提出了LFE序列编码结构,编码结构是一个比较大的创新点。
① PFRN:Listwise Feature Encoding ( LFE )
② PFRN:如何缓解用户行为的稀疏性
模型要解决第二个问题是如何缓解用户行为的稀疏性,我们目前的工作相对来说还比较简单:基于用户人群划分(基于业务规则),人群被划分为六大类,每一个用户又会映射到其中一类,在做用户行为表征的时候,除了用户个体的行为,还会把群体的行为引进来。例如,如果用户是旅行/出差意图用户,用户群体购买行为可以融合到现有的当前用户的行为中去,这种融合通过实验发现对整体的排序效果带来很大提升。
04效果:模型优化迭代结果
第一类模型:基于规则的Cheapest,按低价排序;第二类模型:传统机器学习模型;第三类模型:近几年一些搜索排序相关论文工作比较。Online实验效果,整体转化率提升接近4%。
05总结:进一步优化方向
当前的工作来看,初步建立了交通搜索排序算法体系,取得了一定的业务效果。在用户表征上面,除了用户的长短期行为以外,也引入了用户群体行为做数据增强,缓解个体行为稀疏性。
未来可能有三个方面工作:
出行意图的深入理解,比如对群体用户行为的划分,用户分群这一块工作要进一步完善;用户行为稀疏性建模,这块工作对整体排序效果提升有很大的影响;整体排序策略上,自然召回商品量有限,通过增加更多推荐坑位,同时内容运营把丰富的交通相关内容引进来,新的产品样式形态,多源信息的混排对我们也是比较大的挑战。
今天的分享就到这里,谢谢大家。
分享嘉宾:
素数
阿里飞猪 | 导购算法团队
2016年加入飞猪技术部,深度参与飞猪全局搜索项目用户意图预测、query推荐、个性化排序等工作,目前专注于智能交通的导购算法体系建设。
分享嘉宾:素数 阿里飞猪
编辑整理:眼睛大的时光
出品平台:DataFunTalk