商品常识图谱作为新批发行业数字化的基石,提供了围绕商品的精准结构化了解,对业务利用起到了至关重要的作用。相比于美团大脑中原有的围绕商户的图谱而言,商品图谱需应答更加扩散、简单、海量的数据和业务场景,且面临着信息起源品质低、数据维度多、依赖常识以及专业知识等挑战。本文将围绕批发商品常识图谱,介绍美团在商品层级建设、属性体系建设、图谱建设人效晋升等方向的摸索,心愿对大家有所帮忙或启发。
近年来,人工智能正在疾速地扭转人们的生存,背地其实有两大技术驱动力:深度学习和常识图谱。咱们将深度学习演绎为隐性的模型,它通常是面向某一个具体任务,比如说下围棋、辨认猫、人脸识别、语音辨认等等。通常而言,在很多工作上它可能获得很优良的后果,同时它也有一些局限性,比如说它须要海量的训练数据,以及弱小的计算能力,难以进行跨工作的迁徙,并且不具备较好的可解释性。在另一方面,常识图谱作为显式模型,同样也是人工智能的一大技术驱动力,它可能宽泛地实用于不同的工作。相比深度学习,常识图谱中的常识能够积淀,具备较强的可解释性,与人类的思考更加贴近,为隐式的深度模型补充了人类的常识积攒,和深度学习互为补充。因而,寰球很多大型的互联网公司都在常识图谱畛域踊跃进行布局。
美团连贯了数亿用户和数千万商户,背地也蕴含着丰盛的日常生活相干常识。2018年,美团常识图谱团队开始构建美团大脑,着力于利用常识图谱技术赋能业务,进一步改善用户体验。具体来说,美团大脑会对美团业务中波及到的千万级别商家、亿级别的菜品/商品、数十亿的用户评论,以及背地百万级别的场景进行深刻的了解和结构化的常识建模,构建人、店、商品、场景之间的常识关联,从而造成生存服务畛域大规模的常识图谱。现阶段,美团大脑已笼罩了数十亿实体,数百亿三元组,在餐饮、外卖、酒店、金融等场景中验证了常识图谱的有效性。
美团逐渐冲破原有边界,在生存服务畛域摸索新的业务,不仅局限于通过外卖、餐饮帮大家“吃得更好”,近年来也逐渐拓展到批发、出行等其余畛域,帮大家“生存更好”。在批发畛域中,美团先后落地了美团闪购、美团买菜、美团优选、团好货等一系列相应的业务,逐渐实现“万物到家”的愿景。为了更好地反对美团的新批发业务,咱们须要对背地的批发商品建设常识图谱,积攒结构化数据,深刻对批发畛域内商品、用户、属性、场景等的了解,以便能更好地为用户提供批发商品畛域内的服务。
相比于围绕商户的餐饮、外卖、酒店的等畛域,批发商品畛域对于常识图谱的建设和利用提出了更大的挑战。一方面,商品数量更加宏大,笼罩的畛域范畴也更加广阔。另一方面,商品自身所具备的显示信息往往比拟稠密,很大水平上须要联合生存中的常识常识来进行推理,方可将暗藏在背地的数十维的属性进行补齐,实现对商品残缺的了解。在下图的例子中,“乐事黄瓜味”这样简略的商品形容其实就对应着丰盛的隐含信息,只有对这些常识进行了结构化提取和相应的常识推理后,才可能更好的反对上游搜寻、举荐等模块的优化。
咱们针对美团批发业务的特点,制订了多层级、多维度、跨业务的批发商品常识图谱体系。
多层级
在不同业务的不同利用场景下,对于“商品”的定义会有所差异,须要对各个不同颗粒度的商品进行了解。因而,在咱们的批发商品常识图谱中,建设了五层的层级体系,具体包含:
多维度
跨业务
美团大脑商品常识图谱的指标是心愿可能对主观世界中的商品常识进行建模,而非局限于单个业务之中。在商品图谱的五层体系中,规范商品、形象商品、品类体系都是与业务解耦的,围绕着主观商品所建设的,包含围绕这些层级建设的各维度数据也均是刻画了商品畛域的主观常识。
在利用于各个业务当中时,咱们将主观的图谱常识向上关联至业务前台类目,向下关联至业务商品SPU/SKU,则能够实现各个业务数据的接入,实现各个业务数据和主观常识之间的联通,提供更加全面的跨业务的全景数据视角。利用这样的数据,在用户方面咱们能够更加全面的建模、剖析用户对于业务、品类的偏好,对于价格、品质等的敏感水平,在商品方面咱们能够更精确的建模各品类的复购周期、地区/节令/节日偏好等。
商品常识图谱的构建的挑战次要来源于以下三个方面:
在理解了图谱建设的指标和挑战后,接下来咱们将介绍商品图谱数据建设的具体计划。
品类体系建设
实质品类形容了商品实质所属的最细类别,它聚合了一类商品,承载了用户最终的生产需要,如“高钙牛奶”、“牛肉干”等。实质品类与类目也是有肯定的区别,类目是若干品类的汇合,它是形象后的品类概念,不可能明确到具体的某类商品品类上,如“乳制品”、“水果”等。
品类打标:对商品图谱的构建来说,要害的一步便是建设起商品和品类之间的关联,即对商品打上品类标签。通过商品和品类之间的关联,咱们能够建设起商品库中的商品与用户需要之间的关联,进而将具体的商品展现到用户背后。上面简略介绍下品类打标办法:
通过上述的三个步骤,咱们便能够建设起商品与品类之间的分割。
品类体系:品类体系由品类和品类间关系形成。常见的品类关系包含同义词和上下位等。在构建品类体系的过程中,罕用的以下几种办法来进行关系的补全。咱们次要应用上面的一些办法:
规范/形象商品
规范商品是形容商品自身客观事实的颗粒度,和销售渠道和商户无关,而商品条形码是规范商品这层的主观根据。标品关联行将同属于某个商品条形码的业务SKU/SPU,都正确关联到该商品条形码上,从而在规范商品层级上建模相应的主观常识,例如规范商品对应的品牌、口味和包装等属性。 上面通过一个案例来阐明标品关联的具体任务和计划。
案例:下图是一个公牛三米插线板的规范商品。商家录入信息的时候,会把商品间接关联到商品条码上。通过商户录入数据实现了一部分的标品关联,但这部分比例比拟少,且存在大量的链接缺失,链接谬误的问题。另外,不同的商家对于同样的标品,商品的题目的形容是千奇百怪的。咱们的指标是补充缺失的链接,将商品关联到正确的标品上。
针对标品关联工作,咱们构建了商品畛域的同义词判断模型:通过远监督的形式利用商户曾经提供的大量有关联的数据,作为已有的常识图谱结构远监督的训练样本。在模型中,正例是置信度比拟高的标品码;负例是原始数据中商品名或者图像相似但不属于同一标品的SPU。结构准确率比拟高的训练样本之后,通过BERT模型进行同义词模型训练。最初,通过模型自主去噪的形式,使得最终的准确率可能达到99%以上。总体能做到品牌,规格,包装等维度敏感。
形象商品是用户认知的层面,作为用户所评论的对象,这一层对用户偏好建模更加无效。同时,在决策信息的展现上,形象商品粒度也更合乎用户认知。例如下图所示冰淇淋的排行榜中,列举了用户认知中形象商品对应的SKU,而后对应展现不同形象商品的特点、举荐理由等。形象商品层整体的构建形式,和规范商品层比拟相似,采纳标品关联的模型流程,并在数据结构局部进行规定上的调整。
对一个商品的全面了解,须要涵盖各个属性维度。例如“乐事黄瓜味薯片”,须要开掘它对应的品牌、品类、口味、包装规格、标签、产地以及用户评论特色等属性,能力在商品搜寻、举荐等场景中精准触达用户。商品属性开掘的源数据次要蕴含商品题目、商品图片和半结构化数据三个维度。
商品题目蕴含了对于商品最重要的信息维度,同时,商品题目解析模型能够利用在查问了解中,对用户疾速深刻了解拆分,为上游的召回排序也能提供高阶特色。因而,这里咱们着重介绍一下利用商品题目进行属性抽取的办法。
商品题目解析整体能够建模成文本序列标注的工作。例如,对于商品题目“乐事黄瓜薯片”,指标是了解题目文本序列中各个成分,如乐事对应品牌,黄瓜对应口味,薯片是品类,因而咱们应用命名实体辨认(NER)模型进行商品题目解析。然而商品题目解析存在着三大挑战:(1)上下文信息少;(2)依赖常识常识;(3)标注数据通常有较多的乐音。为了解决前两个挑战,咱们首先尝试在模型中引入了图谱信息,次要蕴含以下三个维度:
接下来咱们探讨如何缓解标注乐音的问题。在标注过程中,少标漏标或错标的问题无奈防止,尤其像在商品题目NER这种标注比较复杂的问题上,尤为显著。对于标注数据中的乐音问题,采纳以下形式对乐音标注优化:不再采取原先非0即1的Hard的训练形式,而是采纳基于置信度数据的Soft训练形式,而后再通过Bootstrapping的形式迭代穿插验证,而后依据以后的训练集的置信度进行调整。咱们通过试验验证,应用Soft训练+Bootstrapping多轮迭代的形式,在噪声比例比拟大的数据集上,模型成果失去了显著晋升。具体的办法可参见咱们在NLPCC 2020较量中的论文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。
常识图谱的构建往往是针对于各个领域维度的数据独自制订的开掘形式。这种开掘形式重人工,比拟低效,针对每个不同的畛域、每个不同的数据维度,咱们都须要定制化的去建设工作相干的特色及标注数据。在商品场景下,开掘的维度泛滥,因而效率方面的进步也是至关重要的。咱们首先将常识开掘工作建模为三类分类工作,包含节点建模、关系建模以及节点关联。在整个模型的训练过程中,最须要进行效率优化的其实就是上述提到的两个步骤:(1)针对工作的特征提取;(2)针对工作的数据标注。
针对特征提取局部,咱们摒弃了针对不同开掘工作做定制化特色开掘的形式,而是尝试将特色和工作解耦,构建跨工作通用的图谱开掘特色体系,利用海量的特色库来对指标的节点/关系/关联进行表征,并利用监督训练数据来进行特色的组合和抉择。具体的,咱们构建的图谱特色体系次要由四个类型的特色组形成:
针对数据标注局部,咱们次要从三个角度来晋升效率。
以后医药衰弱行业结构性正在发生变化,消费者更加偏向于应用在线医疗解决方案和药品配送服务,因而医药业务也逐步成为了美团的重要业务之一。相比于普通商品常识图谱的建设,药品畛域常识具备以下两个特点:(1)具备极强的专业性,须要有相干背景常识能力判断相应的属性维度,例如药品的实用症状等。(2)准确度要求极高,对于强专业性常识不容许出错,否则更容易导致严重后果。因而咱们采纳将智能模型和专家常识联合的形式来构建药品常识图谱。
药品图谱中的常识能够分为弱专业知识和强专业知识两类,弱专业知识即个别人可能较容易获取和了解的常识,例如药品的应用办法、适用人群等;而强专业知识则是须要具备业余背景的人才可能判断的常识,例如药品的主治疾病、适应症状等。因为这两类数据对专家的依赖水平不同,因而咱们别离采取不同的开掘链路:
在药品这类专业性强的畛域,专业知识的表述和用户习惯往往存在差别。因而咱们除了开掘强弱专业知识外,还须要填补专业知识和用户之间的差别,能力将药品图谱更好的与上游利用联合。为此,咱们从用户行为日志以及畛域日常对话等数据源中,开掘了疾病、症状和效用的别名数据,以及药品通用名的俗称数据,来买通用户习惯和业余表述之间的通路。
自从谷歌将常识图谱利用于搜索引擎,并显著晋升了搜寻品质与用户体验,常识图谱在各垂直畛域场景都表演起了重要的角色。在美团商品畛域中,咱们也将商品图谱无效的利用在围绕商品业务的搜寻、举荐、商家端、用户端等多个上游场景当中,接下来咱们举几个典型的案例进行介绍。
商品图谱的数据,对于商品的了解很有帮忙。例如,在商品搜寻中, 如用户在搜寻头疼腰疼时,通过结构化的常识图谱,能力晓得什么药品是有止疼效用的;用户在搜寻可爱多草莓、黄瓜薯片时,须要依赖图谱的常识常识来了解用户真正需要是冰淇淋和薯片,而不是草莓和黄瓜。
图谱的类目信息、品类信息、属性信息,一方面能够作为比拟强有力的相关性的判断办法和干涉伎俩,另一方面能够提供不同粗细粒度的商品聚合能力,作为泛化性特色提供到排序模型,能无效地晋升排序模型的泛化能力,对于用户行为尤为稠密的商品畛域来说则具备着更高的价值。具体的特色应用形式则包含:
现有的钻研工作曾经在多个畛域中证实了,将常识图谱的数据进行嵌入示意,以高维向量示意的形式和排序模型联合,能够无效地通过引入内部常识达到缓解排序/举荐场景中数据稠密以及冷启动问题的成果。然而,传统的图谱嵌入的工作往往漠视了常识图谱中的多模态信息,例如商品畛域中咱们有商品的图片、商品的题目、商家的介绍等非简略的图谱节点型的常识,这些信息的引入也能够进一步晋升图谱嵌入对举荐/排序的信息增益。
现有的图谱嵌入办法在利用到多模态图谱表征的时候会存在一些问题,因为在多模态场景下,图谱中边的含意不再是单纯的语义推理关系,而是存在多模态的信息补充的关系,因而咱们也针对多模态图谱的特点,提出了MKG Entity Encoder和MKG Attention Layer来更好的建模多模态常识图谱,并将其表征无效的接入至举荐/排序模型中,具体方法能够参考咱们在CIKM 2020发表了的论文《Multi-Modal Knowledge Graphs for Recommender Systems》。
商品图谱在用户端提供显式化的可解释性信息,辅助用户进行决策。具体的出现模式包含筛选项、特色标签、榜单、举荐理由等。筛选项的维度受以后查问词对应品类下用户关注的属性类别决定,例如,当用户搜寻查问词为薯片时,用户通常关注的是它的口味、包装、净含量等,咱们将会依据供应数据在这些维度下的枚举值展现筛选项。商品的特色标签则来源于题目、商品详情页信息与评论数据的提取,以简洁明了的结构化数据展现商品特色。商品的举荐理由通过评论抽取与文本生成两种渠道取得,与查问词联动,以用户视角给出商品值得买的起因,而榜单数据则更为主观,以销量等实在数据,反馈商品品质。
在商家端,即商家公布侧,商品图谱则提供了基于商品题目的实时预测能力,帮忙商家进行类目标挂载、属性信息的欠缺。例如,商家填写题目“德国进口德亚脱脂纯牛奶12盒”后,商品图谱提供的在线类目预测服务可将其挂载到“食品饮料-乳制品-纯牛奶”类目,并通过实体辨认服务,失去商品的“产地-德国”,“是否进口-进口”,“品牌-德亚”,“脂肪含量-脱脂”,“规格-12盒”的属性信息,预测实现后,由商家确认公布,升高商家对商品信息的保护老本,并晋升公布商品的信息品质。
雪智,凤娇,姿雯,匡俊,林森,武威等,均来自美团平台搜寻与NLP部NLP核心。
美团大脑常识图谱团队大量岗位继续招聘中,实习、校招、社招均可,坐标北京/上海,欢送感兴趣的同学退出咱们,利用自然语言和常识图谱技术,帮大家吃得更好,生存更好。简历可投递至:caoxuezhi@meituan.com。
浏览美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至tech@meituan.com申请受权。