热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

构建基于BERT的中文NL2SQL模型:一个简明的基准

本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。
在之前的文章《当BERT遇见Keras:最简单的实现方式》中,我们介绍了基于BERT微调的三个NLP示例,体验了BERT的强大功能和Keras的便捷性。本文将在此基础上进一步介绍基于BERT的NL2SQL模型。

NL2SQL指的是“自然语言到SQL语句”的转换任务,近年来受到了广泛关注,是AI领域中具有实际应用价值的研究方向之一。笔者参与了今年公司举办的首届“中文NL2SQL挑战赛”,该比赛使用金融和通用领域的表格数据作为数据源,提供自然语言与SQL语句的匹配对,鼓励参赛者训练能够准确转换自然语言到SQL的模型。

此次比赛投入了大量资源进行宣传推广,奖金丰厚,但NL2SQL作为一个相对冷门的研究领域,热度有限。主办方为此发布了一个基于PyTorch的Baseline模型,以降低入门门槛。本着提供Keras版本Baseline的心态,我利用业余时间完成了这个项目,加载预训练的BERT模型,简化并提升了模型效果。

每个数据样本包含一个表格ID、一个问题及相应的SQL语句。例如:

```json
{
"table_id": "a1b2c3d4",
"question": "世茂茂悦府新盘容积率大于1,请问它的套均面积是多少?",
"sql": {
"sel": [7],
"agg": [0],
"cond_conn_op": 0,
"conds": [
[1, 2, "世茂茂悦府"],
[6, 0, "1"]
]
}
}
```

SQL语句格式化清晰,便于处理。生成的SQL应在对应的数据表上可执行并返回有效结果。具体来说,`sel`字段是一个多标签分类问题,`agg`字段则与之对应,类别固定。`cond_conn_op`是单标签分类问题,而`conds`涉及条件列、运算符和值的预测。

模型架构如图所示,主要包括四个分类器:序列标注器等。首先,我们将问题句子和所有表头拼接输入BERT模型编码,每个表头视为一个句子,用[CLS]***[SEP]括住。通过BERT编码后,利用向量进行后续分类。

第一个[CLS]向量用于预测连接符,后续的[CLS]向量用于预测各列是否被选择及聚合函数。对于条件预测,分两步进行:先预测条件值,再预测条件列。条件值预测是一个序列标注问题,条件列预测则通过计算相似度完成。

整个模型的实现难点在于mask处理,代码主要集中在数据读取、预处理和后处理部分。最终,模型在离线验证集上的全匹配率约为50%,官方评估指标为(全匹配率 + 执行匹配率) / 2,估计得分约为55%。

欢迎读者尝试本模型,并提出宝贵意见。完整代码见GitHub链接。
推荐阅读
author-avatar
书友62423539
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有