构建基于BERT的中文NL2SQL模型:一个简明的基准
作者:书友62423539 | 来源:互联网 | 2024-12-27 17:36
本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。
在之前的文章《当BERT遇见Keras:最简单的实现方式》中,我们介绍了基于BERT微调的三个NLP示例,体验了BERT的强大功能和Keras的便捷性。本文将在此基础上进一步介绍基于BERT的NL2SQL模型。
NL2SQL指的是“自然语言到SQL语句”的转换任务,近年来受到了广泛关注,是AI领域中具有实际应用价值的研究方向之一。笔者参与了今年公司举办的首届“中文NL2SQL挑战赛”,该比赛使用金融和通用领域的表格数据作为数据源,提供自然语言与SQL语句的匹配对,鼓励参赛者训练能够准确转换自然语言到SQL的模型。
此次比赛投入了大量资源进行宣传推广,奖金丰厚,但NL2SQL作为一个相对冷门的研究领域,热度有限。主办方为此发布了一个基于PyTorch的Baseline模型,以降低入门门槛。本着提供Keras版本Baseline的心态,我利用业余时间完成了这个项目,加载预训练的BERT模型,简化并提升了模型效果。
每个数据样本包含一个表格ID、一个问题及相应的SQL语句。例如:
```json
{
"table_id": "a1b2c3d4",
"question": "世茂茂悦府新盘容积率大于1,请问它的套均面积是多少?",
"sql": {
"sel": [7],
"agg": [0],
"cond_conn_op": 0,
"conds": [
[1, 2, "世茂茂悦府"],
[6, 0, "1"]
]
}
}
```
SQL语句格式化清晰,便于处理。生成的SQL应在对应的数据表上可执行并返回有效结果。具体来说,`sel`字段是一个多标签分类问题,`agg`字段则与之对应,类别固定。`cond_conn_op`是单标签分类问题,而`conds`涉及条件列、运算符和值的预测。
模型架构如图所示,主要包括四个分类器:序列标注器等。首先,我们将问题句子和所有表头拼接输入BERT模型编码,每个表头视为一个句子,用[CLS]***[SEP]括住。通过BERT编码后,利用向量进行后续分类。
第一个[CLS]向量用于预测连接符,后续的[CLS]向量用于预测各列是否被选择及聚合函数。对于条件预测,分两步进行:先预测条件值,再预测条件列。条件值预测是一个序列标注问题,条件列预测则通过计算相似度完成。
整个模型的实现难点在于mask处理,代码主要集中在数据读取、预处理和后处理部分。最终,模型在离线验证集上的全匹配率约为50%,官方评估指标为(全匹配率 + 执行匹配率) / 2,估计得分约为55%。
欢迎读者尝试本模型,并提出宝贵意见。完整代码见GitHub链接。
推荐阅读
-
本文介绍了如何利用snownlp库对微博内容进行情感分析,包括安装、基本使用以及如何自定义训练模型以提高分析准确性。 ...
[详细]
蜡笔小新 2024-11-27 15:01:46
-
本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ...
[详细]
蜡笔小新 2024-12-27 19:05:41
-
-
本课程将带你从零开始,逐步掌握数据库内核开发的基础知识和实践技能,重点介绍如何搭建OceanBase的开发环境。 ...
[详细]
蜡笔小新 2024-12-27 16:38:48
-
欢迎订阅我们的技术博客,获取更多关于C#、ASP.NET和SQL的最新资讯和资源。 ...
[详细]
蜡笔小新 2024-12-26 13:54:47
-
尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ...
[详细]
蜡笔小新 2024-12-26 11:29:15
-
本题通过将每个矩形视为一个节点,根据其相对位置构建拓扑图,并利用深度优先搜索(DFS)或状态压缩动态规划(DP)求解最小涂色次数。本文详细解析了该问题的建模思路与算法实现。 ...
[详细]
蜡笔小新 2024-12-25 18:27:21
-
本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具,涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ...
[详细]
蜡笔小新 2024-12-21 14:45:11
-
本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念,结合具体的数据集,详细介绍了决策树的构建过程,并展示了其在实际应用中的效果。 ...
[详细]
蜡笔小新 2024-12-20 11:57:25
-
随着技术的发展,黑客开始利用AI技术在暗网中创建用户的‘数字孪生’,这一现象引起了安全专家的高度关注。 ...
[详细]
蜡笔小新 2024-12-12 17:45:26
-
本文由技术爱好者痞子衡撰写,详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程,为开发者提供一个强大的开源解决方案。 ...
[详细]
蜡笔小新 2024-11-26 16:27:12
-
作者提供代码在https:github.comthunlpOpenNRE网址主要技术:文章主要是通过一对实体和对应的多个包含实体对的句子实例作为训练数据集ÿ ...
[详细]
蜡笔小新 2024-11-25 13:23:21
-
本文讨论了在处理分页数据时常见的低级错误,并提供了优化后的代码示例,以减少重复代码并提高可读性和维护性。 ...
[详细]
蜡笔小新 2024-11-28 15:27:32
-
本文综述了视觉Transformer在计算机视觉领域的应用,从原始Transformer出发,详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构,还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ...
[详细]
蜡笔小新 2024-11-22 19:53:16
-
本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ...
[详细]
蜡笔小新 2024-11-20 11:08:21
-
整理于2020年10月下旬:总结过去,展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ...
[详细]
蜡笔小新 2024-11-17 10:24:41
-
书友62423539
这个家伙很懒,什么也没留下!