EBERT:电商领域语言模型优化实践

作者：jny2272191 | 来源：互联网 | 2023-09-07 10:46

来自：朴素人工智能最近跟几个做电商NLP的朋友们聊天，有不少收获。我之前从来没想过【搜索】在电商里的地位是如此重要，可能GMV的50%以上

来自&＃xff1a;朴素人工智能

最近跟几个做电商NLP的朋友们聊天&＃xff0c;有不少收获。我之前从来没想过【搜索】在电商里的地位是如此重要&＃xff0c;可能GMV的50%以上都是从搜索来的。巨大的经济价值也极大地推动了技术的发展&＃xff0c;他们的工作做得很细致&＃xff0c;毕竟一个百分点的点击率后购买率提升也许对应的就是几百亿的成交额。

其实之前做的汽车领域NLP工作跟电商有很多相似的地方&＃xff0c;场景先验都非常重要。直接使用开放域语料预训练的语言模型效果并不好。我们也尝试过一些方法&＃xff0c;例如用本领域语料训练语言模型&＃xff0c;结合一些词库词典等等。今天介绍最近看到的一篇针对电商场景调优BERT的论文《E-BERT: Adapting BERT to E-commerce with Adaptive Hybrid Masking and Neighbor Product Reconstruction》^[1]&＃xff0c;其中的一些方法应该对细分领域NLP有一些启发。

方法

论文的创新方法主要有两个&＃xff1a;Adaptive Hybrid Masking&＃xff08;AHM&＃xff0c;自适应混合掩码&＃xff09;和Neighbor Product Reconstruction&＃xff08;NPR&＃xff0c;相似商品重构&＃xff09;。

E-BERT总览

AHM

第一个方法AHM其实是对已有掩码方式的改进。原始版本的BERT采用的是随机mask&＃xff0c;这个大家应该都比较清楚。这种mask方式针对的是token&＃xff0c;而众所周知token是由单词通过wordpiece tokenizer分割而来。所以这种方式遮盖住的可能是单词的一个部分&＃xff0c;学习这种类似看三个字母猜剩下四个字母的任务不是很符合大家的直觉。随后就诞生了更加符合人类认知的Whole Word Masking&＃xff0c;这个方法就是说要遮就遮整个词。这里用一个网上的例子帮大家理解

Input Text: the man jumped up , put his basket on phil ##am ##mon &＃39; s head Original Masked Input: [MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon &＃39; s head Whole Word Masked Input: the man [MASK] up , put his basket on [MASK] [MASK] [MASK] &＃39; s head

philammon是一个词&＃xff0c;他会被tokenizer分解成三个token&＃xff0c;这时就体现了普通mask和WWM的区别。

怎么继续改进遮盖方法呢&＃xff0c;一个比较直观的方向是继续提高遮盖的整体性。前面是从token走到了word&＃xff0c;可以继续往前走一步到phrase。这个方向其实之前有人做了&＃xff0c;比如SpanBert^[2]随机mask一小段&＃xff0c;ERNIE^[3]mask实体等等。这篇论文做了两个工作&＃xff0c;一个是进一步提升遮盖phrase的质量&＃xff0c;用了一种叫AutoPhrase^[4]的方法来构建高质量的电商短语集合&＃xff1b;第二个是设计了一套自适应机制&＃xff0c;让模型训练在词语遮盖和短语遮盖间切换&＃xff0c;两个方面合在一起就叫做AHM。

AHM总体的流程如下图所示。对于一句输入&＃xff0c;首先用两种方式进行mask&＃xff0c;左边是常规word mask&＃xff0c;右边是phrase mask&＃xff0c;然后输入到BERT&＃xff0c;分别得到MLM的loss&＃xff0c;Lw和Lp。然后用一个函数f&＃xff0c;根据两个loss计算变量

&＃xff0c;跟预设的超参数

进行比较&＃xff0c;如果

就用word masking&＃xff0c;反之就用phrase masking。

的计算其实可以有很多方法&＃xff0c;论文也没有在这块做对比实验&＃xff0c;我也就不展开&＃xff0c;大家有兴趣可以去看原文。

AHM总体流程

NPR

NPR是个比较有意思的部分&＃xff0c;直观的解释是希望能通过一个商品重建出另一个相似商品的隐空间表示。具体的做法是把两个商品a和b的文本内容送进Bert&＃xff0c;得到各自的embedding矩阵&＃xff1b;然后对这两个句子做交叉注意力&＃xff0c;得到注意力矩阵&＃xff0c;然后用注意力矩阵加权a的embedding得到重构后的b的embedding&＃xff0c;反过来也从b重构a。得到重构后的embedding后再和原embedding计算距离作为loss&＃xff0c;论文采用的是欧氏距离。只做相似商品重构还不够&＃xff0c;论文还引入了不相似商品&＃xff08;随机采样&＃xff09;作为负样本&＃xff0c;采用triplet loss来计算最终的重构损失。

NPR示意图

效果

论文的实验和结果比较部分做的比较全面。

先介绍一下对照实验涉及的模型。baseline是裸BERT&＃xff08;BERT Raw&＃xff09;&＃xff0c;用电商数据finetune过的Bert外加SpanBERT作为对照组&＃xff0c;finetune有两种方法&＃xff0c;分别是word masking的Bert和phrase masking的Bert-NP。实验组是各种配置的E-Bert&＃xff0c;包括只使用phrase masking的E-Bert-DP&＃xff0c;使用AHM的E-Bert-AHM和AHM&＃43;NPR的E-Bert。

评估效果使用了4个电商场景场景的下游任务&＃xff0c;Review-based Question Answering&＃xff08;基于评论的问答&＃xff09;&＃xff0c;Review Aspect Extraction&＃xff08;评论方面抽取&＃xff1f;&＃xff09;&＃xff0c;Review Aspect Sentiment Classification&＃xff08;评论情感分类&＃xff09;和Product Classification&＃xff08;商品类别分类&＃xff09;。

不同模型在不同任务上的结果如下图

模型结果比较

从结果可以看出E-BERT在各种任务上都大幅领先裸BERT&＃xff0c;甚至也大幅领先基于领域语料预训练过的BERT。文章的方法其实可以在任何的垂直领域中使用&＃xff0c;可以说相当的实用。

最近一个讨论比较多的问题是在BERT时代&＃xff0c;NLP算法工程师的价值是什么&＃xff1f;我想这个结果可以从一个侧面给答案&＃xff0c;知道如何在模型中引入行业先验知识是可以大大提高模型在特定场景的表现的&＃xff0c;即使如BERT这样自身很强的超级模型也不例外。

参考资料

[1]

E-BERT: Adapting BERT to E-commerce with Adaptive Hybrid Masking and Neighbor Product Reconstruction: https://arxiv.org/pdf/2009.02835

[2]

SpanBERT: Improving Pre-training by Representing and Predicting Spans: http://arxiv.org/abs/1907.10529

[3]

ERNIE: Enhanced Language Representation with Informative Entities: http://arxiv.org/abs/1905.07129

[4]

AutoPhrase: https://github.com/shangjingbo1226/AutoPhrase

下载一&＃xff1a;中文版&＃xff01;学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套&＃xff01;后台回复【五件套】下载二&＃xff1a;南大模式识别PPT后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版&＃xff0c;公号内容将不再以时间排序展示&＃xff0c;如果大家想第一时间看到我们的推送&＃xff0c;强烈建议星标我们和给我们多点点【在看】。星标具体步骤为&＃xff1a;

&＃xff08;1&＃xff09;点击页面最上方“深度学习自然语言处理”&＃xff0c;进入公众号主页。

&＃xff08;2&＃xff09;点击右上角的小点点&＃xff0c;在弹出页面点击“设为星标”&＃xff0c;就可以啦。

感谢支持&＃xff0c;比心。

投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家&＃xff1a;

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

整理不易&＃xff0c;还望给个在看&＃xff01;

推荐阅读

ip
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
ip
使用R语言进行Foodmart数据的关联规则分析与可视化

本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况，然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]

蜡笔小新 2024-11-24 19:13:01
ip
尤洋：夸父AI系统——大规模并行训练的深度学习解决方案

自从AlexNet等模型在计算机视觉领域取得突破以来，深度学习技术迅速发展。近年来，随着BERT等大型模型的广泛应用，AI模型的规模持续扩大，对硬件提出了更高的要求。本文介绍了新加坡国立大学尤洋教授团队开发的夸父AI系统，旨在解决大规模模型训练中的并行计算挑战。 ... [详细]

蜡笔小新 2024-11-25 19:02:33
ip
高效且安全的Token存储策略

本文探讨了在不同场景下如何高效且安全地存储Token，包括使用定时器刷新、数据库存储等方法，并针对个人开发者与第三方服务平台的不同需求提供了具体建议。 ... [详细]

蜡笔小新 2024-11-24 17:02:36
ip
Web开发实践：创建连连看小游戏

本文详细介绍了如何在Web环境中开发一款连连看小游戏，适合初学者和技术爱好者参考。通过本文，您将了解游戏的基本结构、连线算法以及实现方法。 ... [详细]

蜡笔小新 2024-11-24 14:44:07
jar
Java中利用POI库读取Doc和Docx文件的方法

近期在研究Java IO流技术时，遇到了一个关于如何正确读取Doc文档而不出现乱码的问题。本文将详细介绍使用Apache POI库处理Doc和Docx文件的具体方法，包括必要的库引入和示例代码。 ... [详细]

蜡笔小新 2024-11-25 19:51:38
ip
A1166 峰会区域安排问题（25分）PAT甲级 C++满分解析【图论】

峰会是指国家元首或政府首脑之间的会议。合理安排峰会的休息区是一项复杂的工作，理想的情况是邀请的每位领导人都是彼此的直接朋友。 ... [详细]

蜡笔小新 2024-11-25 19:45:05
const
深入解析 cache-content-type 和 mime-types 的应用与优化

本文介绍了两个重要的Node.js库——cache-content-type和mime-types，它们在处理HTTP响应头时非常有用。cache-content-type是基于mime-types构建的，并且实现了缓存机制以提高性能。 ... [详细]

蜡笔小新 2024-11-25 16:51:02
ip
搜狐面试实战：技术问答与心得分享

本文详细记录了一位求职者在搜狐进行的两次面试经历，包括面试的具体时间、面试流程、技术问题及个人感受。通过本次面试，作者不仅获得了宝贵的经验，还成功拿到了搜狐的录用通知。 ... [详细]

蜡笔小新 2024-11-25 12:44:59
ip
CNN模型压缩——使用网络稀疏化方法（Learning Effcient Convolutional Network through Network Sliming）

文章目录IntroductionRelatedWork网络稀疏化（NetworkSlimming）whychoosechennel-levelspars ... [详细]

蜡笔小新 2024-11-25 12:18:05
ip
告别jQuery：Bootstrap5即将全面脱离jQuery依赖及其他前端热点

本文精选了2019年2月「前端大全」平台上的15篇热门文章，涵盖技术分享与资源推荐。关注前端大全，获取更多前沿信息，提升您的前端技能。 ... [详细]

蜡笔小新 2024-11-23 19:07:58
const
编译原理中的语法分析方法探讨

本文探讨了在编译原理课程中遇到的复杂文法问题，特别是当使用SLR(1)文法时遇到的多重规约与移进冲突。文章讨论了可能的解决策略，包括递归下降解析、运算符优先级解析等，并提供了相关示例。 ... [详细]

蜡笔小新 2024-11-19 14:44:19
import
java解析json转Map

java解析json转Map前段时间在做json报文处理的时候，写了一个针对不同格式json转map的处理工具方法，总结记录如下：1、单节点单层级、单节点多层级json转mapim ... [详细]

蜡笔小新 2024-11-15 18:21:27
import
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
import
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新 2024-11-13 12:35:53

jny2272191

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章