当前位置: 开发笔记 > 编程语言 > 正文

深度学习——day26NRP学习:基于自然语言处理的产业链知识图谱构建_毛瑞彬（2022情报学报）

作者：mobiledu2502906183 | 来源：互联网 | 2023-08-08 11:35

这里写目录标题论文资源在这里基于自然语言处理的产业链知识图谱构建_毛瑞彬（2022情报学报）chap1面向产业链知识图谱构建的自然语言处理BERT模型B

这里写目录标题

论文资源在这里
基于自然语言处理的产业链知识图谱构建_毛瑞彬&＃xff08;2022 情报学报&＃xff09;
- chap1 面向产业链知识图谱构建的自然语言处理
- - BERT模型
  - - BERT采用Transformer编码器作为模型主体结构&＃xff0c;完全基于多头注意力机制实现语言建模&＃xff1a;
    - Self-Atten‐tion 的
    - - Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 &＃xff08;Self-Attention&＃xff09; 进行拼接&＃xff0c;各维度的注意力计算参数并不共享
- chap2 在中文维基百科语料&＃xff08; BERT Base 语言模型&＃xff09;的基础上增加了金融领域语料&＃xff0c;本文提出了预训练领域语言模型
- - 基于 BERT 和领域知识的多头选择算法
  - - 1&＃xff09;Pre-training 层和 Fine-tuning&＃xff08;微调&＃xff09; 层&＃xff1a;
    - 2&＃xff09;NER&＃xff08;Named Entity Recognition &＃xff09; 层&＃xff1a;
    - 3&＃xff09;Relation 层&＃xff1a;初始化实体标签向量矩阵&＃xff0c;获取每个 token 预测标签所对应的向量&＃xff0c;把输入的上下文表示以及实体标签向量拼接后组成的 &＃xff0c;与其他词的单独计算所有关系类别 k 的得分&＃xff0c;确定它的最可能的头实体以及关系。
    - 4&＃xff09;
- chap3 实验
- - 1&＃xff09;在证券领域文本上
  - 2&＃xff09;本文选择7个产业链要素&＃xff0c;每一种人工进行分类语料标注&＃xff0c;每个类别 10000 条&＃xff0c;同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集&＃xff0c;在验证集上的评估结果如表2所示
  - 3&＃xff09;行业上下游识别
  - - 制定规则和人工校正&＃xff0c;总共积累了近 2 万条语料&＃xff0c;对语料进行均衡

论文资源在这里

点击跳转下载

基于自然语言处理的产业链知识图谱构建_毛瑞彬&＃xff08;2022 情报学报&＃xff09;

chap1 面向产业链知识图谱构建的自然语言处理

BERT模型

BERT采用Transformer编码器作为模型主体结构&＃xff0c;完全基于多头注意力机制实现语言建模&＃xff1a;

Self-Atten‐tion 的

Q &＃xff08;query&＃xff09;、K &＃xff08;key&＃xff09; 和 V &＃xff08;value&＃xff09; 三个矩阵
均来自同一输入&＃xff0c;先计算 Q 与 K 之间的乘积&＃xff0c;再除
以尺度标度 dk&＃xff1b;其中 dk 为一个 query 和 key 向量的
维度&＃xff0c;利用 Softmax 操作将其结果归一化为概率分
布&＃xff0c;再乘以矩阵 V 就得到权重求和的表示。

Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 &＃xff08;Self-Attention&＃xff09; 进行拼接&＃xff0c;各维度的注意力计算参数并不共享

chap2 在中文维基百科语料&＃xff08; BERT Base 语言模型&＃xff09;的基础上增加了金融领域语料&＃xff0c;本文提出了预训练领域语言模型

基于 BERT 和领域知识的多头选择算法

1&＃xff09;Pre-training 层和 Fine-tuning&＃xff08;微调&＃xff09; 层&＃xff1a;

获取输入文本的 token 向量表示&＃xff0c;把 token 的向量表示输入 BERT 模型进行调优

2&＃xff09;NER&＃xff08;Named Entity Recognition &＃xff09; 层&＃xff1a;

对微调层 token 输出计算 NER 每个标签的得分&＃xff0c;对预测标签序列线性链 CRF 得分进行优化&＃xff0c;使得预测的标签序列正确概率最大

3&＃xff09;Relation 层&＃xff1a;初始化实体标签向量矩阵&＃xff0c;获取每个 token 预测标签所对应的向量&＃xff0c;把输入的上下文表示以及实体标签向量拼接后组成的 &＃xff0c;与其他词的单独计算所有关系类别 k 的得分&＃xff0c;确定它的最可能的头实体以及关系。

4&＃xff09;

chap3 实验

1&＃xff09;在证券领域文本上

2&＃xff09;本文选择7个产业链要素&＃xff0c;每一种人工进行分类语料标注&＃xff0c;每个类别 10000 条&＃xff0c;同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集&＃xff0c;在验证集上的评估结果如表2所示

3&＃xff09;行业上下游识别

制定规则和人工校正&＃xff0c;总共积累了近 2 万条语料&＃xff0c;对语料进行均衡

推荐阅读

key
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
format
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
format
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
format
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
format
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
format
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
format
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
match
聊聊中国人工智能科技产业区域竞争力分析及趋势

原文链接：聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数（2021ÿ ... [详细]

蜡笔小新 2023-10-13 11:56:40
match
百度AI Studio人流密度常规赛火热进行中，快来报名！

早晨七点半。北京初秋的凉风叫醒了住在望京西的你，睁开眼睛，一想到又要为人类的信息化事业贡献满满的正能量，你不禁哼唱起那句“早晨起来 ... [详细]

蜡笔小新 2023-10-12 18:57:29
format
顶尖AI技术人才稀缺，在校生还能追上这波浪潮吗？

作为机器学习最重要的一个分支，近年来深度学习(DeepLearning)发展势头迅猛，借助庞大的数据 ... [详细]

蜡笔小新 2023-10-12 16:30:34
format
【跨越鸿沟】学术界与工业界的GAP有多大？

来自：美团技术团队2020年7月31日，由中国图象图形学学会主办、视觉大数据专委会承办，北京智源人工智能研究院和美团协办的ECCV2020 ... [详细]

蜡笔小新 2023-10-12 16:28:53
format
【疑难杂症】allennlp安装报错：Installing build dependencies ... error

背景：配置PURE的算法环境，安装allennlp0.9.0（pipinstallallennlp0.9.0）报错ÿ ... [详细]

蜡笔小新 2023-10-17 16:20:30

mobiledu2502906183

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章