热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

来者如临高山,往者以观逝水--天猫品牌推荐算法比赛总结

四个月的比赛总算是落下帷幕了,作为单线程的动物,没有办法边写总结报告(其实就是拖延症)。比赛结束,总算可以静下心来想一些东西。我是从年级的群里知道阿里的这个比赛的,一直都推荐挺感兴趣的,那段

四个月的比赛总算是落下帷幕了,作为单线程的动物,没有办法边写总结报告(其实就是拖延症)。比赛结束,总算可以静下心来想一些东西。

我是从年级的群里知道阿里的这个比赛的,一直都推荐挺感兴趣的,那段时间又刚好看了一些推荐方面的书籍,就拿准备拿这个机会练练手,在第一赛季的时候比赛特别疯狂,第一次提交成绩是在326号,F1成绩是0.17%,当天排名在1428名,印象中是用的协同过滤算法,根据用户购买过的物品来做协同过滤,所有的点击,收藏和加购物车的信息全部都没有用,没过几天,阿里来到我们学校做宣传,突然间发现各种经典的推荐算法在这个比赛中都不怎么适用,就开始使用规则,比如说对于在日期半个月以前的用户点击这个物品多少次以上推荐购买,用户购买过多少次以上的推荐购买,用户在最近几天内点击多少次的推荐购买。用简单的规则来猜测用户的购买行为,F1成绩大概在6.5%左右,鉴于比赛太过凶残,基本上每天不提交就能掉个几十名。后期也尝试过贝叶斯,lr来做,那个时候对于特征的理解并不深,感觉成绩并不是很好。那段时间基本上都是每天早上两点多自然醒的看成绩,最后第一赛季以7.07%的成绩进入第二赛季。

第一赛季在简单规则上迟到了甜头之后,第二赛季一开始也是用sql大概写了下第一赛季规则的思路,成绩涨到4.6%左右(用了大概十天),开始和善善用lr来做,第一赛季我们俩都没有用过lr,所以,一直在尝试,比如说我们用最简单的点击来当做特征,做预测,熟悉了下lr的流程。然后,还尝试过用一个星期内有交互的ub对的点击值做归一化处理后做训练,四个月所有交互的ub对的所有点击值做归一化做预测,得到效果竟然不错,现在看来那个时候也真的是各种脑洞大开。我们也尝试了抽取LR特征,和其他队伍交流,才发现我们的差距,他们已经尝试了所有的算法,我们还在LR上面打转,连提取特征的方法都是暴力的提取,才有了时间片的概念,开始使用mr提取特征,估计刚刚开始用mr来写,特征经常写错,陷入了大概有十几天都没有进步的情况,每天晚上和善善在实验室写代码写到楼下的人来催,然后一路上很开心的设想:哎呀,明天马上就要上5了,怎么办,要进首页了,好紧张好激动。但是每天早上起床,总是一脸郁闷,没有一次是能够实现的。到了二十三号的晚上做融合的时候,写了三个版本,写完之后一直在算概率,感觉进步的希望不大,就推倒所有的思路,把我们现有的可以提交的版本分成长期预测以及短期预测,长期预测一般都是用户比较稳定会购买的品牌,短期预测是用户最近的需求,然后对所有分到长期预测的结果取交集,对所有短期预测的数据也一样取交集,在把两个合并。当天的成绩是达到了5.31%。当天排名是25,第一次进入到了第二版面。

第二赛季的第一个月结束后,又开始进入了一段蛰伏期,长期不进步,主要是有了几个坑,首先,我们都是通过两个月的数据预测第三月的,比如说比赛有四个月的数据,我们用了第一二月做特征,第三个月做y值,来做训练,然后第二三月做特征,进行线下预测,与用第四个月的购买情况来做评估。第三四月份直接用线下训练的模型做预测。后面改成,重新训练二三月份的数据,成绩大概提升了0.2%,其二,把两个月的数据换成三个月的数据,成绩也是相应的有提升。后来,根据这段时间的各种特征的尝试,写了第一个版本比较完整的特征,对于品牌特征主要从四个方面进行思考(品牌属性,品牌热度,最近行为,一些比值),用户特征也是主要从四个方面进行思考(购买能力,用户属性,最近行为,一些比值),对于ub交互信息主要是划分时间片,提取的都是简单的特征。算法也从rf逐步转移到gbrt,后面几天稳步提升,到了第二个月的24号,F1成绩是5.82%

第二赛季的最后一个月再次大换血的重新整理一份特征,这次特征的思考方式主要是想到衡量标准,所有的衡量标准只能想到个数,天数,品牌数,用户数,次数(不同品牌不同天),行为有点击,购买,收藏,加购物车,操作,按照这些量,加上时间片,组合了一份我觉得基本特征都包含在内的大杂烩特征。大杂烩特征第一次测是用的rf,成绩是5.69%,一度心碎,估计一下子加的特征太多了。本来想要抛弃的,第二天因为也没有其他东西可以交,就跑了一份gbrt交了,得到的成绩是5.88%,后面发现里面有部分特征是写错的,估计gbrt对特征的容错性比较强。然后在此基础上有加入了一些极值,单份成绩没有变,但是两份的融合结果涨到了5.92%,再然后,就是经常改改特征,基本上都是单份没有提高,融合慢慢提高,在20名左右徘徊,换数据前的最终F1值是5.98%

换数据之后,跑之前的最后成绩单份变成了5.99%,融合却不怎么能够提高,再加上最后一个星期的某次提交我还给失误了。最后的成绩在6.02%,幸好还在前三十。

这算是这次比赛四个月的一个流水账吧,有同学说走到现在,基本上很傻的方法都能做到这个成绩,我觉得这可能是因为做到了所以才这么说,如果说这仅仅是最傻的方法,我们也用了四个月才走到现在。在这个过程当中,对于很多算法,特征的抽取,正负样本的处理,采样方式,各种调参,特征的处理,y值处理,融合的方式都有了一个不一样的理解。这四个月,熬夜跑程序,早上四点起床看成绩,其中还经历连续感冒,胃镜,拔牙,各种身体上的折磨,最后竟然身残志坚的坚持下来了,真是佩服我自己!

第一赛季感谢主公,第二赛季感谢亲爱的好队友善善!

其他的一些总结与教训:

1、记录还是很有必要的,在记录的过程中经常会有很多的思路,这一点善善做的很好,向你学习。

2、有想法的时候,尽快实现,要不灵光一闪,经常就给闪没了。

3、多于其他队伍进行交流,从几次比较重要的提升都是因为和其他队的交流,才知道我们的缺陷。

4、在与其他队伍交流后能够多思考,思考其中影响的本质是什么,从中可以触类旁通,应用到其他方面。


推荐阅读
  • 非公版RTX 3080显卡的革新与亮点
    本文深入探讨了图形显卡的进化历程,重点介绍了非公版RTX 3080显卡的技术特点和创新设计。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射,详细解释了两者的创建、加载及删除操作,并提供了查看表详细信息的方法。通过对比这两种表类型,帮助读者理解如何更好地管理和保护数据。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • C++实现经典排序算法
    本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出,帮助读者全面了解这些排序方法的特点。 ... [详细]
  • 本文介绍如何利用动态规划算法解决经典的0-1背包问题。通过具体实例和代码实现,详细解释了在给定容量的背包中选择若干物品以最大化总价值的过程。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文探讨如何设计一个安全的加密和验证算法,确保生成的密码具有高随机性和低重复率,并提供相应的验证机制。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
author-avatar
苏小宝
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有