作者:兔帽儿 | 来源:互联网 | 2023-09-05 12:39
bert学到了什么1.bert不同层学到了什么?(1)在低层,token的embedding学到了短语信息,边界信息,位置信息。(2)在中层学到了句法特征。(3)高层学了语义特征。
bert学到了什么
1. bert不同层学到了什么?
(1)在低层,token的embedding学到了短语信息,边界信息,位置信息。
(2)在中层学到了句法特征。
(3)高层学了语义特征。
2. BERT 的预训练比无预训练过程多学了什么?
无预训练模型在句子长度预测任务表现要好于预训练模型BERT,说明了预训练模型靠牺牲部分表层特征表达能力,获得了更多、更丰富的复杂特征表达能力。
3. 预训练中bert的 attention heads学到了什么?
(1)同一层的head表现类似,注意力分布也非常相似。
(2)不同的head学到特定的语法知识。例如有的head学到动词的直接宾语、名词的限定词、介词的宾语和所有格代词的宾语。有的头学到共指消解。模型关于语法的总体知识分布在多个head上。
(3)当某个head指向是宾语时,没有宾语的token就会关注[SEP],因此[SEP]可能是一种“禁止操作”的含义。过多或过少地关注[SEP]并不会实质性地改变BERT的输出。
(4)低层关注比较宽泛,只有不到10%的注意力集中在单个token上,他们学到的是当前token的向量表示。
(5)注意图里有很多的句法信息,当前token会关注与之有句法信息的其他token。与注意图相比,BERT的向量表示中的句法信息很少。