作者:mobiledu2502906183 | 来源:互联网 | 2023-08-08 11:35
这里写目录标题
- 论文资源在这里
- 基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)
- chap1 面向产业链知识图谱构建的自然语言处理
- BERT模型
- BERT采用Transformer编码器作为模型主体结构,完全基于多头注意力机制实现语言建模:
- Self-Atten‐tion 的
- Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 (Self-Attention) 进行拼接,各维度的注意力计算参数并不共享
- chap2 在中文维基百科语料( BERT Base 语言模型)的基础上增加了金融领域语料,本文提出了预训练领域语言模型
- 基于 BERT 和领域知识的多头选择算法
- 1)Pre-training 层和 Fine-tuning(微调) 层:
- 2)NER(Named Entity Recognition ) 层:
- 3)Relation 层:初始化实体标签向量矩阵,获取每个 token 预测标签所对应的向量,把输入 的上下文表示以及实体标签向量拼接后组成的 ,与其他词 的 单独计算所有关系类别 k 的得分,确定它的最可能的头实体以及关系。
- 4)
- chap3 实验
- 1)在证券领域文本上
- 2)本文选择7个产业链要素,每一种人工进行分类语料标注,每个类别 10000 条,同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集,在验证集上的评估结果如表2所示
- 3)行业上下游识别
- 制定规则和人工校正,总共积累了近 2 万条语料,对语料进行均衡
论文资源在这里
点击跳转下载
基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)
chap1 面向产业链知识图谱构建的自然语言处理
BERT模型
BERT采用Transformer编码器作为模型主体结构,完全基于多头注意力机制实现语言建模:
Self-Atten‐tion 的
Q (query)、K (key) 和 V (value) 三个矩阵
均来自同一输入,先计算 Q 与 K 之间的乘积,再除
以尺度标度 dk;其中 dk 为一个 query 和 key 向量的
维度,利用 Softmax 操作将其结果归一化为概率分
布,再乘以矩阵 V 就得到权重求和的表示。
Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 (Self-Attention) 进行拼接,各维度的注意力计算参数并不共享
chap2 在中文维基百科语料( BERT Base 语言模型)的基础上增加了金融领域语料,本文提出了预训练领域语言模型
基于 BERT 和领域知识的多头选择算法
1)Pre-training 层和 Fine-tuning(微调) 层:
获取输入文本的 token 向量表示,把 token 的向量表示输入 BERT 模型进行调优
2)NER(Named Entity Recognition ) 层:
对微调层 token 输出计算 NER 每个标签的得分,对预测标签序列线性链 CRF 得分进行优化,使得预测的标签序列正确概率最大
3)Relation 层:初始化实体标签向量矩阵,获取每个 token 预测标签所对应的向量,把输入 的上下文表示以及实体标签向量拼接后组成的 ,与其他词 的 单独计算所有关系类别 k 的得分,确定它的最可能的头实体以及关系。
4)
chap3 实验
1)在证券领域文本上
2)本文选择7个产业链要素,每一种人工进行分类语料标注,每个类别 10000 条,同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集,在验证集上的评估结果如表2所示
3)行业上下游识别
制定规则和人工校正,总共积累了近 2 万条语料,对语料进行均衡