当前位置: 开发笔记 > 编程语言 > 正文

bert学到了什么

作者：兔帽儿 | 来源：互联网 | 2023-09-05 12:39

bert学到了什么1.bert不同层学到了什么？（1）在低层，token的embedding学到了短语信息，边界信息，位置信息。（2）在中层学到了句法特征。（3）高层学了语义特征。

bert学到了什么

1. bert不同层学到了什么？

（1）在低层，token的embedding学到了短语信息，边界信息，位置信息。

（2）在中层学到了句法特征。

（3）高层学了语义特征。

2. BERT 的预训练比无预训练过程多学了什么？

无预训练模型在句子长度预测任务表现要好于预训练模型BERT，说明了预训练模型靠牺牲部分表层特征表达能力，获得了更多、更丰富的复杂特征表达能力。

3. 预训练中bert的 attention heads学到了什么？

（1）同一层的head表现类似，注意力分布也非常相似。

（2）不同的head学到特定的语法知识。例如有的head学到动词的直接宾语、名词的限定词、介词的宾语和所有格代词的宾语。有的头学到共指消解。模型关于语法的总体知识分布在多个head上。

（3）当某个head指向是宾语时，没有宾语的token就会关注[SEP]，因此[SEP]可能是一种“禁止操作”的含义。过多或过少地关注[SEP]并不会实质性地改变BERT的输出。

（4）低层关注比较宽泛，只有不到10%的注意力集中在单个token上，他们学到的是当前token的向量表示。

（5）注意图里有很多的句法信息，当前token会关注与之有句法信息的其他token。与注意图相比，BERT的向量表示中的句法信息很少。

推荐阅读

search
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
web
Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？

Cosmos生态系统为何迅速崛起，波卡作为跨链巨头应如何应对挑战？ ... [详细]

蜡笔小新 2024-11-08 09:25:06
post
微信服务器端示例类的功能解析与应用

本文详细解析了微信服务端示例类的功能与应用。其中，`ClientResponseHandler` 类主要用于处理微信支付所需的响应数据，而 `TenpayHttpClient` 则是对 HTTP 请求（包括 GET 和 POST 方法）进行了封装，以便在内部调用时更加便捷和高效。这些工具类在实际开发中起到了关键作用，开发者无需深入了解其底层实现细节，即可轻松集成微信支付功能。 ... [详细]

蜡笔小新 2024-11-06 14:08:24
match
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
search
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
random
Python 用凝聚层次聚类进行数据分组

本文主要参考《Python机器学习经典实例》在介绍凝聚层次聚类之前，我们需要先理解层次聚类（hierarchicalclustering）。层次聚类是一组聚类算法，通过不断地分 ... [详细]

蜡笔小新 2024-10-20 13:13:52
search
容联云亮相世界人工智能大会发布容犀机器人助力产业数字化转型

2021世界人工智能大会（“WAIC2021”）近日在上海开启，今年大会主题是“智联世界，众智成城”，容联云作 ... [详细]

蜡笔小新 2024-10-17 10:52:39
random
lightgbm过去版本安装包_集成学习算法LightGBM

LightGBM在Kaggle，KDD等各类数据竞赛中，无论是分类问题还是回归问题亦或是排序问题，以GBDT（分类回归决策树 ... [详细]

蜡笔小新 2024-10-16 20:53:55
search
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
random
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
search
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
char
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
match
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
jar
Java Web Start应用中InvocationTargetException异常的深度解析与解决方案

Java Web Start应用中InvocationTargetException异常的深度解析与解决方案 ... [详细]

蜡笔小新 2024-10-22 11:21:14
const
TensorFlow基础知识深化讲解

批标准化批标准化（batchnormalization,BN）是为了克服神经网络层数加深导致难以训练而诞生的。深度神经网络随着深度加深，收 ... [详细]

蜡笔小新 2024-10-22 10:19:31

兔帽儿

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章