热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

bert学到了什么

bert学到了什么1.bert不同层学到了什么?(1)在低层,token的embedding学到了短语信息,边界信息,位置信息。(2)在中层学到了句法特征。(3)高层学了语义特征。
bert学到了什么

1. bert不同层学到了什么?

(1)在低层,token的embedding学到了短语信息,边界信息,位置信息。

(2)在中层学到了句法特征。

(3)高层学了语义特征。

2.  BERT 的预训练比无预训练过程多学了什么?

    无预训练模型在句子长度预测任务表现要好于预训练模型BERT,说明了预训练模型靠牺牲部分表层特征表达能力,获得了更多、更丰富的复杂特征表达能力。

 

3. 预训练中bert的 attention heads学到了什么?

(1)同一层的head表现类似,注意力分布也非常相似。

(2)不同的head学到特定的语法知识。例如有的head学到动词的直接宾语、名词的限定词、介词的宾语和所有格代词的宾语。有的头学到共指消解。模型关于语法的总体知识分布在多个head上。

(3)当某个head指向是宾语时,没有宾语的token就会关注[SEP],因此[SEP]可能是一种“禁止操作”的含义。过多或过少地关注[SEP]并不会实质性地改变BERT的输出。

(4)低层关注比较宽泛,只有不到10%的注意力集中在单个token上,他们学到的是当前token的向量表示。

(5)注意图里有很多的句法信息,当前token会关注与之有句法信息的其他token。与注意图相比,BERT的向量表示中的句法信息很少。


推荐阅读
author-avatar
兔帽儿
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有