构建基于BERT的中文NL2SQL模型:一个简明的基准
作者:书友62423539 | 来源:互联网 | 2024-12-27 17:36
本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。
在之前的文章《当BERT遇见Keras:最简单的实现方式》中,我们介绍了基于BERT微调的三个NLP示例,体验了BERT的强大功能和Keras的便捷性。本文将在此基础上进一步介绍基于BERT的NL2SQL模型。
NL2SQL指的是“自然语言到SQL语句”的转换任务,近年来受到了广泛关注,是AI领域中具有实际应用价值的研究方向之一。笔者参与了今年公司举办的首届“中文NL2SQL挑战赛”,该比赛使用金融和通用领域的表格数据作为数据源,提供自然语言与SQL语句的匹配对,鼓励参赛者训练能够准确转换自然语言到SQL的模型。
此次比赛投入了大量资源进行宣传推广,奖金丰厚,但NL2SQL作为一个相对冷门的研究领域,热度有限。主办方为此发布了一个基于PyTorch的Baseline模型,以降低入门门槛。本着提供Keras版本Baseline的心态,我利用业余时间完成了这个项目,加载预训练的BERT模型,简化并提升了模型效果。
每个数据样本包含一个表格ID、一个问题及相应的SQL语句。例如:
```json
{
"table_id": "a1b2c3d4",
"question": "世茂茂悦府新盘容积率大于1,请问它的套均面积是多少?",
"sql": {
"sel": [7],
"agg": [0],
"cond_conn_op": 0,
"conds": [
[1, 2, "世茂茂悦府"],
[6, 0, "1"]
]
}
}
```
SQL语句格式化清晰,便于处理。生成的SQL应在对应的数据表上可执行并返回有效结果。具体来说,`sel`字段是一个多标签分类问题,`agg`字段则与之对应,类别固定。`cond_conn_op`是单标签分类问题,而`conds`涉及条件列、运算符和值的预测。
模型架构如图所示,主要包括四个分类器:序列标注器等。首先,我们将问题句子和所有表头拼接输入BERT模型编码,每个表头视为一个句子,用[CLS]***[SEP]括住。通过BERT编码后,利用向量进行后续分类。
第一个[CLS]向量用于预测连接符,后续的[CLS]向量用于预测各列是否被选择及聚合函数。对于条件预测,分两步进行:先预测条件值,再预测条件列。条件值预测是一个序列标注问题,条件列预测则通过计算相似度完成。
整个模型的实现难点在于mask处理,代码主要集中在数据读取、预处理和后处理部分。最终,模型在离线验证集上的全匹配率约为50%,官方评估指标为(全匹配率 + 执行匹配率) / 2,估计得分约为55%。
欢迎读者尝试本模型,并提出宝贵意见。完整代码见GitHub链接。
推荐阅读
-
本文深入探讨 MyBatis 中动态 SQL 的使用方法,包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ...
[详细]
蜡笔小新 2024-12-27 16:20:10
-
本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包,从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例,并解释了每个步骤的实现细节。 ...
[详细]
蜡笔小新 2024-12-26 17:34:42
-
-
本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ...
[详细]
蜡笔小新 2024-12-07 14:28:06
-
本文综述了图神经网络(Graph Neural Networks, GNN)的发展,从传统的数据存储模型转向图和动态模型,探讨了模型中的显性和隐性结构,并详细介绍了GNN的关键组件及其应用。 ...
[详细]
蜡笔小新 2024-11-28 13:27:43
-
作者提供代码在https:github.comthunlpOpenNRE网址主要技术:文章主要是通过一对实体和对应的多个包含实体对的句子实例作为训练数据集ÿ ...
[详细]
蜡笔小新 2024-11-25 13:23:21
-
本文综述了视觉Transformer在计算机视觉领域的应用,从原始Transformer出发,详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构,还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ...
[详细]
蜡笔小新 2024-11-22 19:53:16
-
目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ...
[详细]
蜡笔小新 2024-11-14 18:21:21
-
目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ...
[详细]
蜡笔小新 2024-11-14 13:06:38
-
本文详细介绍如何在Windows 10操作系统上通过Visual Studio 2015编译Caffe2深度学习框架的过程。包括必要的软件安装、环境配置以及常见问题的解决方法。 ...
[详细]
蜡笔小新 2024-12-15 18:03:52
-
探索AI领域的高质量论文与代码资源,包括但不限于计算机视觉和深度学习框架PyTorch的实用资料。 ...
[详细]
蜡笔小新 2024-12-06 17:25:02
-
如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ...
[详细]
蜡笔小新 2024-12-06 11:54:09
-
本文探讨了如何在Python中处理长数据的完全显示问题,包括numpy数组、pandas DataFrame以及tensor类型的完整输出设置。 ...
[详细]
蜡笔小新 2024-12-02 11:17:26
-
本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ...
[详细]
蜡笔小新 2024-11-20 11:08:21
-
本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ...
[详细]
蜡笔小新 2024-11-13 21:23:34
-
在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ...
[详细]
蜡笔小新 2024-11-12 00:45:20
-
书友62423539
这个家伙很懒,什么也没留下!