热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

夸克搜索是阿里巴巴(阿里软件有哪些)

导读:旅行类商品(如机票、火车票、汽车票相对实物电商更加标品,用户决策因素更加单一,而行业内大多基于简单规则排序,如时间、价格或业务逻辑加权,难以满足用户的个性化出行需求。飞猪


导语:旅游产品(如机票、火车票、公交车票)比实体电商更规范,用户的决策因素更单一。但大部分行业都是基于时间、价格或业务逻辑权重等简单规则进行排序,难以满足用户的个性化出行需求。在过去的一段时间里,朱非一直在不断探索个性化的流量搜索排序技术。本次,阿里飞珠的首席老师将围绕智能交通导购,详细分享个性化交通搜索分拣技术的实践与创新。主要内容包括:


背景:交通业务介绍挑战:交通出行业务特殊性解决方案:从业务规则到个性化排序模型效果:模型优化迭代结果总结:进一步优化方向01背景:交通业务介绍




1.运输行业自身的痛点


从交通行业本身来看,目前交通排序策略比较简单,大多基于简单的规则。这种单一的规则排序无法高效匹配用户需求,难以满足用户多样化、个性化的出行需求。这是行业的一大痛点。


2.相比实体电商的不足。


与实体电商相比,运输的商品决策信息非常有限,商品高度标准化,如出行时间、价格等因素。在我们的搜索列表页面中,关键决策信息已清晰地显示给用户。不同于传统电商,即实物电商产品的一些决策信息比较大,而运输产品的信息决策只能展现一些决策因素,所以需要进入详情页才能看到真正的关键决策因素。在流量场景中,这个决策因素明显不同于实体电商。


3.相关理论研究


2018年之前,行业内有一些理论研究,主要集中在学术界,而相关的行业应用相对较少,多基于传统的线性模型和机器学习模型来做流量类别的搜索和排名。2018年,Amadeus发表了论文《Deep Choice Model Using Pointer Networks for Airline Itinerary Prediction》,利用深度序列模型对机票进行排序,在离线数据集上取得了很好的效果。


02挑战:运输业务的特殊性


1.挑战:基于领域、商品、人的用户性质差异。




首先,用户行为极其稀疏,用户出行的频率相对较低,比如一年三五次;其次,用户在出行时更注重服务体验;而且决策因素过于单一,决策过程复杂,决策周期很长。从商品角度看,商品是实时动态的,库存价格是实时动态变化的,运输资源也是实时动态约束的。此外,商品高度标准化,我们可以发现用户在不同场景下的需求差异很大,比如支付宝APP或者淘宝。他们的用户在三个终端上的属性差异很大,即使在同一个终端的不同入口、不同交通场景下,用户的属性也有很大的不同。如何满足这种差异,做到个性化?


2.挑战:与实体电子商务相比:信息孤岛




此外,在交通场景和物理电子商务场景中,搜索被排序。从技术对比来看,首先我们可以看到召回方面的明显差异。传统的实体电商很容易构建U-Q-I的网络结构,因为在同一个Q下,可以召回N个产品,通过查询连接工作产品,从而生成一个网络结构。然而,在交通场景中,这种网络结构是分离的,信息是一个接一个形成的。比如从杭州到新加坡的搜索,一个出发地,一个目的地,可以召回目的地下方的CA767,但不能召回VS251,只能通过上海到伦敦的一条路线召回。这样,很难通过查询将两个产品与用户联系起来。这给商品表示和用户表示带来了很大的困难。


03解决方案:从业务规则到个性化排序模型


1.排名系统架构




如何解决以上困难?这是一个整体在线系统架构图。底层是日志收集和数据预处理,进一步处理数据


2.深度列表模式





什么要使用DLM模型呢,DLM模型具有以下几个优点:

交通排序结果多样性模拟用户决策过程工程打分延时低

Amadeus在论文中提到他们的方法获得了很好的优化效果,包括top N准确率有大幅提升。其核心思想是基于Pointer Net网络结构,对航班序列listwise打分。Pointer Net是在2015年NIPS上发表的一篇文章,2018年他们就把文章的核心思想引入到机票排序排序中。

3. DCM:Deep Choice Model

在Encoder阶段,使用的是RNN网络,比如说我们实验了LSTM、biLSTM以及transformer三个子网络,离线实验效果表现都比较接近,没有明显的差异性。第三个阶段是Decoder阶段,它类似于大意的小蝴蝶的角色,包含了上述序列的所有输入,Decoder输出信息可以看作是一个用户浏览完所有航班,然后对航班进行选择决策的过程。Attention阶段,本质上是计算Decoder和Encoder向量之间的相似度,等同于用户选择更合适的一个航班,α是Attention的权重,即航班序列打分结果。Online实验来看,总体转化率有一定提升,但提升幅度不是特别大。

4. PFRN:Personalized Flight Ranking Network

DCM第一版模型的效果对我们有很大启发,基于这一版模型的探索,我们进一步优化提出了PFRN模型,这篇论文已公开发表在CIKM’20。模型本身是经典的双塔结构,左边是航班序列的表征,右边是用户行为序列表征,上层对两个序列做Attention,表示用户对航班序列的偏好或者是感兴趣程度。我们提出了LFE序列编码结构,编码结构是一个比较大的创新点。

① PFRN:Listwise Feature Encoding ( LFE )

② PFRN:如何缓解用户行为的稀疏性

模型要解决第二个问题是如何缓解用户行为的稀疏性,我们目前的工作相对来说还比较简单:基于用户人群划分(基于业务规则),人群被划分为六大类,每一个用户又会映射到其中一类,在做用户行为表征的时候,除了用户个体的行为,还会把群体的行为引进来。例如,如果用户是旅行/出差意图用户,用户群体购买行为可以融合到现有的当前用户的行为中去,这种融合通过实验发现对整体的排序效果带来很大提升。

04效果:模型优化迭代结果

第一类模型:基于规则的Cheapest,按低价排序;第二类模型:传统机器学习模型;第三类模型:近几年一些搜索排序相关论文工作比较。Online实验效果,整体转化率提升接近4%。

05总结:进一步优化方向

当前的工作来看,初步建立了交通搜索排序算法体系,取得了一定的业务效果。在用户表征上面,除了用户的长短期行为以外,也引入了用户群体行为做数据增强,缓解个体行为稀疏性。

未来可能有三个方面工作:

出行意图的深入理解,比如对群体用户行为的划分,用户分群这一块工作要进一步完善;用户行为稀疏性建模,这块工作对整体排序效果提升有很大的影响;整体排序策略上,自然召回商品量有限,通过增加更多推荐坑位,同时内容运营把丰富的交通相关内容引进来,新的产品样式形态,多源信息的混排对我们也是比较大的挑战。

今天的分享就到这里,谢谢大家。

分享嘉宾:

素数

阿里飞猪 | 导购算法团队

2016年加入飞猪技术部,深度参与飞猪全局搜索项目用户意图预测、query推荐、个性化排序等工作,目前专注于智能交通的导购算法体系建设。

分享嘉宾:素数 阿里飞猪

编辑整理:眼睛大的时光

出品平台:DataFunTalk


推荐阅读
  • 本文将深入探讨 Unreal Engine 4 (UE4) 中的距离场技术,包括其原理、实现细节以及在渲染中的应用。距离场技术在现代游戏引擎中用于提高光照和阴影的效果,尤其是在处理复杂几何形状时。文章将结合具体代码示例,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 使用 Jupyter Notebook 实现 Markdown 编写与代码运行
    Jupyter Notebook 是一个开源的基于网页的应用程序,允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码,并实时查看运行结果。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 本文详细介绍如何安装和配置DedeCMS的移动端站点,包括新版本安装、老版本升级、模板适配以及必要的代码修改,以确保移动站点的正常运行。 ... [详细]
  • Fiddler 安装与配置指南
    本文详细介绍了Fiddler的安装步骤及配置方法,旨在帮助用户顺利抓取用户Token。文章还涵盖了一些常见问题的解决方案,以确保安装过程顺利。 ... [详细]
  • CentOS下ProFTPD的安装与配置指南
    本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法,包括基本配置、安全设置及高级功能的启用。 ... [详细]
  • 本文详细介绍了在 Ubuntu 16.04 系统上安装和配置 PostgreSQL 数据库的方法,包括如何设置监听地址、启用密码加密、更改默认用户密码以及调整客户端访问控制。 ... [详细]
  • 机器学习(ML)三之多层感知机
    深度学习主要关注多层模型,现在以多层感知机(multilayerperceptron,MLP)为例,介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]
  • 一个转子曲线面积问题及其反问题的解答
    曾经解答过这样一个问题,从该ID的最后一次登录时间、该ID显示的专业信息,误以为是新闻里某个想不开的同学,不安了一阵子。经确认是我多虑了,不过把问题答案还是写出来。之后就收到一堆要求帮忙算 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
  • EST:西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...
    点击蓝字关注我们编译:祝新宇校稿:鞠峰、袁凌论文ID原名:PathogenicandIndigenousDenitrifyingBacte ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境,支持多种深度学习框架,并且提供免费的 GPU 计算资源。 ... [详细]
author-avatar
blue秋夜听雨321
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有