【CCTC:ACrossSentenceChineseTextCorrectionDatasetforNativeSpeakers论文精读】

作者：国民男神-权志龙 | 来源：互联网 | 2023-09-04 16:12

CCTC: A Cross-Sentence Chinese Text Correction Dataset for Native Speakers 论文精读InformationAbstract1

CCTC: A Cross-Sentence Chinese Text Correction Dataset for Native Speakers 论文精读

Information
Abstract
1 Introduction
2 Existing Datasets
- 2.1 English GEC Datasets
- 2.2 CSC Datasets
- 2.3 Chinese GEC Datasets
3 CCTC Dataset
4 Experiments
- 4.1 Training Dataset
- 4.2 Models
- 4.3 Metrics
- 4.4 Experimental Settings
- 4.5 Experimental Result
- 4.6 Analysis
5 Cross-Sentence Errors
6 Conclusion
Acknowledgements
References[^2]
A Appendix
自结

Information

标题&＃xff1a; CCTC&＃xff1a;面向中文母语使用者的跨句子文本纠错数据集
时间&＃xff1a; 2022/10
会议&＃xff1a; Proceedings of the 29th International Conference on Computational Linguistics 第29届国际计算语言学会议论文集
作者&＃xff1a; Baoxin Wang^1,2, Xingyi Duan², Dayong Wu^2,3, Wanxiang Che¹, Zhigang Chen^2,4, Guoping Hu²
链接&＃xff1a; https://aclanthology.org/2022.coling-1.294.pdf

Abstract

中文文本纠错&＃xff08;Chinese Text Correction, CTC&＃xff09;主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写检测和语法纠错的测试集都是由外国的汉语学习者撰写的单句级别的。Q&＃xff1a;我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同&＃xff0c;直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外&＃xff0c;一些错误通常还需要上下文信息来进行检测和纠正。在本文中&＃xff0c;我们 R&＃xff1a; 本文提出了一个基于中文母语使用者撰写的跨句子中文文本纠错测试集CCTC。具体来说&＃xff0c;我们人工标注了1500篇文章&＃xff0c;包含3万多个句子&＃xff0c;超过一百万的中文汉字。数据集主要包含拼写、冗余、缺失和乱序四种错误类型。 在该数据集上&＃xff0c;我们测试了一系列文本纠错的最新模型。实验结果表明&＃xff0c;NQ&＃xff1a;目前效果最好的模型距离人类表现依然相差20个百分点&＃xff0c;这说明文本纠错任务仍然有很大的提升空间。 我们希望新的数据集可以推动基于中文母语使用者的文本纠错和跨句子级文本纠错的发展。CCTC数据集开源至 https://github.com/destwang/CTCResources。

1 Introduction

中文文本纠错(CTC)旨在检测和纠正中文文本中的错误。文本纠错在教育、新闻、出版等领域有着重要的应用。对于许多以汉语为母语的人来说&＃xff0c;如记者、作家和博客&＃xff0c;一个以汉语为母语的文本纠错系统将大大提高他们的校对效率。在NLP领域&＃xff0c;中文文本纠错通常包括两项任务&＃xff1a;中文拼写检查(CSC)&＃xff08;Hong et al.&＃xff0c;2019&＃xff1b;Cheng et al.&＃xff0c;2020&＃xff1b;Wang et al.&＃xff0c;2021)和中文语法错误更正(GEC)(Yuan and Briscoe&＃xff0c;2016&＃xff1b;Omelianchuk et al.&＃xff0c;2020&＃xff1b;Wang et al.&＃xff0c;2020)。

现有的中文拼写检查(CSC)和中文语法错误更正(GEC)测试集&＃xff08;Tseng et al.&＃xff0c;2015&＃xff1b;Rao et al.&＃xff0c;2018&＃xff1b;Zhao et al.&＃xff0c;2018)主要来自汉语作为第二语言(CSL)学习者的论文。第二语言学习者写作的论文与母语为汉语的人写作的论文有显著的不同。具体来说&＃xff0c;中国英语学习者写作的文章往往包含更多更容易在用词方面出现错误。相比之下&＃xff0c;本族语者的文本包含的错误较少&＃xff0c;而通常是由疏忽造成的错误。这些显著的差异阻碍了研究者直接使用现有的测试集来评估本族语者的文本纠错系统。

图1分别显示了外国的汉语学习者(CSL)和汉语母语者所犯的错误。我们可以看到CSL学习者犯了一些对本族语者来说很明显的错误。“爱情”这个词通常指夫妇之间的爱&＃xff0c;而“关爱”表示长辈对年幼子女的爱。在汉语中&＃xff0c;这两个词不可互换。然而&＃xff0c;对于CSL学习者来说&＃xff0c;很容易把“关爱”写错为“爱情”&＃xff0c;因为它们在英语中都可以翻译成“love”。同样&＃xff0c;“利益”和“好处”在英语中都可以翻译成“benefit”&＃xff0c;但在汉语中“利益”不能与“健康”连用。汉语母语者不会犯这些错误。对于汉语母语者来说&＃xff0c;最常见的错误是由于疏忽造成的&＃xff0c;而作者自己也有能力纠正这些错误。例如&＃xff0c;“信心”被误拼为“信息”是因为xinxi和xinxin的拼音相似。 此外&＃xff0c;针对非母语者的测试集&＃xff0c;如CGED&＃xff08;Rao et al.&＃xff0c;2018)和Sighan&＃xff08;Tseng et al.&＃xff0c;2015)倾向于编写主题有限的简单句子。相比之下&＃xff0c;汉语母语者所写的语篇往往更复杂且主题多样。

图1 中文母语使用者和外国汉语学习者之间错误的比较

此外&＃xff0c;现有的CSC和GEC数据集主要用于句子级的纠错。 然而&＃xff0c;一些错误通常需要通过跨句信息来纠正&＃xff08;Chollampatt et al.&＃xff0c;2019&＃xff1b;Yuan and Bryant&＃xff0c;2021)。 例如&＃xff0c;在图2中&＃xff0c;很难单独看出每个句子有什么问题。根据前面的句子&＃xff0c;我们知道“蜘蛛”(spider)一词应该更正为“红蜘蛛”(red spider)。

在这里插入图片描述

为了更好地评价文本纠错系统对母语使用者生成的文档级文本的性能&＃xff0c;我们提出了一个新的数据集CCTC&＃xff08;Cross-Sentence Chinese Text Correction&＃xff09;。由于每一个汉字都有可能出现错误&＃xff0c;所以标注的规模很大。如果没有任何辅助提示&＃xff0c;标注者很容易漏掉错误。因此&＃xff0c;我们给标注者一些关于几个CSC和GEC系统产生的错误的位置和类型的提示。我们首先从200个文档中标注了所有的句子&＃xff0c;发现只有11.4%的句子有错误。有候选错误的句子中的错误占所有错误的90%以上。为了最大化主题的多样性和增加数据集中的错误数量&＃xff0c;我们只对另外1300个文档中有错误候选的句子进行标注。具体来说&＃xff0c;我们从网上批注1500篇文章&＃xff0c;批注的课文总共包括30811句&＃xff0c;100多万个汉字。

我们利用几种最先进的模型对我们的数据集进行实验和分析。我们还评估了汉语母语者在CCTC上的表现。实验结果表明&＃xff0c;即使是性能最好的模型&＃xff0c;仍然比人类差20个点&＃xff0c;这表明还有很大的改进空间。

概括而言&＃xff0c;我们的贡献如下&＃xff1a;

我们提出了一个新的中文文本纠错数据集&＃xff0c;该数据集可以更好地评价汉语母语者的文本纠错系统。
我们的数据集基于文档级文本。我们对跨句错误做了一些实验和分析&＃xff0c;希望对后续的跨句改错研究有所帮助。
我们系统地将我们的数据集与其他CSC和GEC数据集进行了比较&＃xff0c;并在新的数据集上测试了四个最先进的模型。

我们希望CCTC能为本族语者的跨句汉语文本校正的发展做出贡献。我们的数据集可以在https://github.com/destwang/CTCResources上公开获得。

2 Existing Datasets

中文文本纠错相关数据集主要包括中文拼写检查(CSC)和语法纠错(GEC)。统计信息见表1&＃xff0c;这些数据集的特征见附录。

2.1 English GEC Datasets

CoNLL14 测试集&＃xff08;Ng et al.&＃xff0c;2014)由新加坡国立大学英语作为第二语言(ESL)学习者撰写的文章组成&＃xff0c;由两名英语母语者对其语法错误进行注释。

JFLEG JFLEG语料库&＃xff08;Napoles et al.&＃xff0c;2017)包括英语学习者为托福考试写的句子。课文的语法错误和通顺性已得到纠正。

CWEB 这个数据集&＃xff08;Flachs et al.&＃xff0c;2020)旨在注释英语Web文本&＃xff0c;该文本对应于包含母语者和非母语者的数据集。

在已知的数据集中&＃xff0c;CWEB是最接近我们提出的数据集。主要有三个区别: (i)我们的数据集是文档级的&＃xff0c;而CWEB是句子级的&＃xff1b; (ii)我们的数据只集中在母语人士写的文本上&＃xff1b; (iii)我们建议的数据集是为中文设计的。

2.2 CSC Datasets

SIGHAN 2015 SIGHAN 2015(Tseng et al.&＃xff0c;2015)的文本是从基于计算机的对外汉语测试 (TOCFL) 的论文部分收集的。因此&＃xff0c;拼写错误主要是由CSL学习者造成的。 Sighan 2015以句子为基础&＃xff0c;人工调整错误句子的比率使其高于原文。

OCR文本 该数据集由视频中的中文字幕的OCR结果产生 (Hong等&＃xff0c;2019)。因此&＃xff0c;这些句子来自母语为汉语的人&＃xff0c;但这些错误是由OCR方法自动产生的&＃xff0c;而不是由人类写作引起的。

2.3 Chinese GEC Datasets

CGED 2018 使用的语料库(Rao et al.&＃xff0c;2018)取自HSK(汉语水平考示&＃xff0c;《汉语水平测试》拼音)写作部分。非本族语者也会产生语法错误。错误有四种&＃xff0c;分别是拼写错误、冗词、漏词和词序错误。

NLPCC 2018 GEC 训练数据 (Zhao等人&＃xff0c;2018) 主要从Lang-8收集。测试数据是从北京大学汉语言文学系构建的PKU汉语学习者语料库中提取的。

MuCGEC 数据集由从CSL学习者来源收集的7,063句子组成。MuCGEC (Zhang等&＃xff0c;2022) 是一个多参考多源评价数据集&＃xff0c;用于汉语语法纠错。

与CGED 2018、NLPCC 2018 GEC和MuCGEC数据集相比&＃xff0c;CCTC基于汉语母语人士编写的文档级文本。

3 CCTC Dataset

我们为汉语母语者构建了一个新的跨句中文文本校正数据集。我们从WuDao语料库(Yuan et al.&＃xff0c;2021)中提取原始文本&＃xff0c;主要包括新闻、博客&＃xff0c;以及一些科普文章。我们对收集到的文档进行预处理&＃xff0c;去除个人信息、广告和嘈杂的文章&＃xff0c;然后抽取1500个文档进行标注。我们从这些文件中拿100份来核实。根据作者的信息&＃xff0c;我们可以确定100篇文献都是以汉语为母语的人写的&＃xff0c;这说明几乎所有的文献都是以汉语为母语的人写的。表1显示了统计信息。

在这里插入图片描述

候选生成 为了方便人工标注和减少错误遗漏&＃xff0c;我们使用了几种不同的模型来生成错误候选。具体来说&＃xff0c;我们选择了以下三种不同的模型。训练集的详细信息将在下一节中描述。

BERT-CSC&＃xff1a;我们通过类似于Cheng等人的伪数据训练了一个BERT-based(Devlin et al.&＃xff0c;2019)的中文拼写检查模型(2020年)。
BERT-GEC&＃xff1a;通过随机替换、插入、删除和洗牌来构造GEC伪数据&＃xff0c;并训练一个BERT-based的序列标记模型。
BERT-CGED&＃xff1a;我们使用CGED训练数据集训练一个BERT-based的序列标记模型。

为了覆盖尽可能多的错误&＃xff0c;我们降低了三个模型的阈值。这样&＃xff0c;这些模型就会产生更多的候选来找出文档中的错误部分。

标注继Rao et al. (2018)之后&＃xff0c;错误分为四种&＃xff1a;拼写错误&＃xff08;选词错误&＃xff09;、冗余词、缺词、词序错误。数据由5名标注师标注&＃xff0c;平均约120小时&＃xff0c;每个2K句。我们的标注者在预先准备好的标注工具上标注数据集。我们根据标注句子的数量适当地向注释者支付费用。

我们首先从200个文档中标注了3784个句子&＃xff0c;包括有错误候选的句子和没有候选的句子。经过标注&＃xff0c;我们发现有错误的句子只有431个。候选句中的错误占所有错误的90%以上。为了最大化主题的多样性和增加数据集中的错误数量&＃xff0c;我们只对另外1300个文档中有错误候选的句子进行标注。我们将包含200个标注文档的数据集命名为CCTC-H&＃xff0c;这意味着一个高质量的数据集。剩下的1300个文档被分成两个部分&＃xff0c;其中650个文档被用作训练集&＃xff0c;另外650个文档被用作CCTC-W&＃xff0c;这意味着这个测试数据集包含了更广泛的文档。总之&＃xff0c;我们从互联网上标注了1500篇文档&＃xff0c;标注的文本总共包括30811个句子和100多万个汉字。不同候选生成方法的详细统计如表2所示。

在这里插入图片描述

为了保证标注数据的质量&＃xff0c;我们分别从训练集、验证集和测试集中抽取500个句子&＃xff0c;对这些句子进行无候选错误的标注。类似Flachs et al.(2020)&＃xff0c;标注者标准是使用Cohen的Kappa在句子级别计算的。 CCTCTRAIN、CCTC-W和CCTC-H的Kappa值分别为0.76、0.72和0.78&＃xff0c;表明我们的数据集与以前的数据集具有更高的一致性。

数据集分析 表3显示了四种错误类型的示例。图3显示了四种错误类型对应的句子率。我们可以看到&＃xff0c;汉语拼写错误(选词错误)在母语者书写的文档中最为常见&＃xff0c;约占总数的60%。词序错误在所有错误中所占的百分比最少。在CGED中&＃xff0c;非汉语母语者所写的文本中&＃xff0c;冗余词和缺失词的出现率相对高于汉语母语者所写的文本。语序错误的发生在汉语母语者写作中很少&＃xff0c;而在非汉语母语者写作中更加频繁。

在这里插入图片描述

为了更好地分析汉语母语者和非母语者所犯错误的差异&＃xff0c;我们对每种错误类型进行了统计词汇分析。在本文中&＃xff0c;我们使用LTP&＃xff08;Che et al.&＃xff0c;2010)对文本进行词性标注。统计结果如图4所示。我们发现母语者最常犯的错误是助动词的误用。相反&＃xff0c;非本族语者倾向于写一个多余或缺失助动词的句子。

在这里插入图片描述

我们计算错误跨度的长度&＃xff0c;如图5所示。除单词排序错误外&＃xff0c;带有一个token的错误占多数。两个连续标记的拼写错误百分比的下降速度快于冗余和缺失单词的百分比。三个以上连续token的错误很少发生。

在这里插入图片描述

我们对数据集进行手工统计分析&＃xff0c;发现68%的错误是由疏忽引起的&＃xff0c;比如拼音输入法引起的拼写错误。由于类似于表3所示的发音&＃xff0c;单词“接触”(meet)可能错误地输入为“结出”(bear)。这种类型的错误是多种多样的&＃xff0c;使这种类型的错误更难纠正。其余的错误主要是由于误用了一些语义或使用方法相似的词&＃xff0c;如助词“的”和“地”。在汉语中&＃xff0c;“的”通常用作形容词的后缀&＃xff0c;“地”用作副词的后缀&＃xff0c;它们的发音相同&＃xff0c;所以这两个词在汉语中经常被误用。

我们更具体地分析拼写错误。拼写错误可分为误用词语、单字错误、代词错误、助词错误和其他单字错误五种&＃xff0c;分别占28%、23%、8%、30%和11%。

4 Experiments

4.1 Training Dataset

以前没有专门针对母语人士造成的错误进行标注的训练数据集。

在本文中&＃xff0c;除了我们提出的训练集之外&＃xff0c;我们还使用了来自多个来源的训练数据&＃xff0c;包括CGED&＃xff08;Rao et al.&＃xff0c;2018)、SIGHAN&＃xff08;Tseng et al.&＃xff0c;2015)和NLPCC 2018 GEC DataSet&＃xff08;Zhao et al.&＃xff0c;2018)。对于CGED数据1&＃xff0c;我们使用2014-2016年的CGED训练数据&＃xff0c;总计约45K个句子。对于NLPCC DataSet2&＃xff0c;每个句子有多个校正句子。我们随机选取部分修正句子作为我们的训练集。对于SIGHAN&＃xff0c;我们使用SIGHAN的训练数据以及自动生成的语料库&＃xff08;Wang et al.&＃xff0c;2018)。此外&＃xff0c;我们还使用我们的CCTC训练集来训练这些模型。对于GECToR模型&＃xff0c;与Omelianchuk et al. (2020)一样&＃xff0c;我们只在伪数据训练后使用CCTC进行微调。

如上所述&＃xff0c;汉语母语者的错误种类较多&＃xff0c;因此我们使用启发式构造伪数据&＃xff0c;希望能涵盖尽可能多的错误类型。我们利用中文维基百科构建了一个大规模的伪数据。 GEC的伪数据生成方法类似于Zhao et al. (2019)&＃xff0c;它随机删除、添加、替换和洗牌令牌。为了更好地检查中文拼写错误&＃xff0c;对于替换操作&＃xff0c;80%的词来自Wu et al. (2013)提供的混淆集和20%的词来自语料库。CSC的伪数据由相同的替换操作生成。表4显示了训练数据的统计。

在这里插入图片描述

4.2 Models

我们使用CSC或GEC的四种最先进的方法来评估我们提出的数据集的性能。具体模型描述如下。

SpellGCN(Cheng et al.&＃xff0c;2020)&＃xff1a;该模型通过一个专门的图卷积网络将语音和视觉相似性知识纳入到BERT中。
ResBERT(Wang et al.&＃xff0c;2020)&＃xff1a;ResBERT是CGED竞赛中最先进的模型&＃xff0c;通过在BERT模型中添加Resnet来实现更好的性能。
GECToR(Omelianchuk et al.&＃xff0c;2020)&＃xff1a;GECToR通过BERT模型实现了对冗余词、漏词、拼写错误等错误的纠正。
CopyNet(Zhao et al.&＃xff0c;2019)&＃xff1a;CopyNet是一个基于Transformer的SEQ2Seq模型&＃xff0c;通过复制机制可以更多地关注语法错误。

4.3 Metrics

在以往的研究中&＃xff0c;GEC系统通常使用基于MaxMatch(Dahlmeier and Ng,2012)的F0.5-score进行评估&＃xff0c;因为GEC系统的精度对于ESL或CSL学习者来说更加重要。相反&＃xff0c;对于以汉语为母语的人来说&＃xff0c;召回率通常比准确性更重要&＃xff0c;因为大多数错误都是由于疏忽造成的。他们能够自己对大多数语法错误做出正确的判断。因此&＃xff0c;我们使用F2-score来评估CCTC数据集上的性能。具体方程式如下&＃xff1a;

在这里插入图片描述

鉴于汉语母语语者通常能够自己做出正确的判断&＃xff0c;他们也有必要发现错误的位置。对于CGED(Rao et al.&＃xff0c;2018)、SIGHAN(Tseng et al.&＃xff0c;2015)和NLPCC(Zhao et al.&＃xff0c;2018)&＃xff0c;我们执行三种评估&＃xff0c;即句子级别、位置级别和校正级别评估。句子级评估确定句子是否存在错误&＃xff0c;而位置级评估则需要正确标注错误位置。对于校正级评估&＃xff0c;我们通过类似于Rao等人 (2018) 的错误位置、错误类型和校正结果对系统进行统计评分。不同之处在于我们使用F2-score&＃xff0c;因为对汉语母语语者的召回率通常更重要。

4.4 Experimental Settings

我们使用RoBERTa-wwm (Cui等人&＃xff0c;2019) 作为SpellGCN、GECToR和ResBERT的基础模型。SpellGCN和CopyNet的训练超参数分别与Cheng等人 (2020) 和Zhao等人 (2019) 保持一致。对于ResBERT&＃xff0c;我们使用与Wang等人 (2020) 相同的BIO编码 (Kim等人&＃xff0c;2004)。我们使用CCTC-train中带有错误的句子来微调模型。

对于CopyNet和GECToR&＃xff0c;它们将生成一个更正的句子。为了评价这两个模型的位置检测性能&＃xff0c;我们使用Levenshtein¹距离将句子对转换为相应的错误类型。具体来说&＃xff0c;Levenshtein距离可以生成三种类型的操作&＃xff1a;删除、插入和替换&＃xff0c;分别对应冗余词、缺失词和拼写错误。然后我们将相邻的插入和删除操作转换为词序错误。这样&＃xff0c;我们就可以评价两个模型的检测性能。由于拼写错误在所有错误中所占比例最高&＃xff0c;我们还直接使用SpellGCN模型进行测试&＃xff0c;该模型只能纠正拼写错误。

4.5 Experimental Result

实验结果如表5所示。经过CCTC-Train训练后&＃xff0c;模型的整体性能优于其他数据集。用伪数据训练的CopyNet在CCTCH上获得了最好的句子级检测性能。对于所有没有CCTC-Train的模型&＃xff0c;使用CGED数据集的ResBERT在位置级检测上取得了最好的结果。然而&＃xff0c;ResBERT只检测错误&＃xff0c;却无法纠正句子。令人惊讶的是&＃xff0c;SpellGCN在更正方面表现最好。这可能是因为拼写错误占了大部分错误&＃xff0c;而SpellGCN可以更好地使用语音和视觉相似性知识来纠正它们。用CGED数据集训练的ResBERT模型比用伪数据训练的ResBERT模型取得了更好的性能。我们发现具有CGED的ResBERT能更有效地检测助词错误&＃xff0c;如在所有错误中占比较大比例的“的”和“地”的误用。

在这里插入图片描述

此外&＃xff0c;我们可以看到&＃xff0c;CCTC-H模型的精度总体上高于CCTC-W模型&＃xff0c;而召回率则较低。这可能是因为CCTC-H中的所有句子都有标签&＃xff0c;错误的覆盖面更大。

4.6 Analysis

为了更好地评估这些模型的有效性&＃xff0c;我们测试了人类对文本纠错的性能。实际文本中的错误密度很低使得人类很难纠正文本。因此&＃xff0c;我们从CCTC-H数据集中抽取了200个句子&＃xff0c;并将错误句子调整到50%左右。请两名未经训练的母语人士更正这200句子。我们想知道母语为汉语的人能达到什么样的表现。相应的实验结果如表6所示。更详细的结果见附录。

在这里插入图片描述

增加误差密度后&＃xff0c;几乎所有模型的性能都有所改善。人类的表现要比这些模型好得多。即使是效果最好的模型也比人类差20分&＃xff0c;这表明模型还有很大的改进空间。

此外&＃xff0c;在人类测试中&＃xff0c;母语人士经常在没有事先被告知错误位置的情况下漏掉错误&＃xff0c;尽管我们已经将错误率提高到了50%左右。例如&＃xff0c;在图7中&＃xff0c;一个标注者遗漏了错误“有限”(limited)&＃xff0c;因为这个词也经常出现。当我们指出这个位置时&＃xff0c;母语人士很容易纠正错误。

在这里插入图片描述

5 Cross-Sentence Errors

我们随机分析了100个错误&＃xff0c;发现只有11%的错误需要跨句信息。然而&＃xff0c;跨句信息可以帮助38%的错误&＃xff0c;例如当纠正的单词出现在上下文中时。

为了测试跨句信息对中文文本纠正的帮助&＃xff0c;我们尝试了一种简单的跨句纠正方法&＃xff0c;该方法增加了输入序列的长度。我们从单句校正到多句校正&＃xff0c;图6显示了实验结果。从实验结果可以看出&＃xff0c;对于一个训练好的模型&＃xff0c;随着输入序列长度的增加&＃xff0c;模型的性能提高。这也说明了跨句信息对汉语文本纠正有一定的帮助。

在这里插入图片描述

由于缺乏文档上下文&＃xff0c;这些模型经常会错误地纠正一些低频词。在图7中&＃xff0c;模型错误地将“天生桥自然”(Tiansheng Bridge)修改为“天生与自然”(Natural)。事实上&＃xff0c;在上下文中多次出现了“天生桥”。如果我们能更好地利用跨句语境信息&＃xff0c;将有助于更好地纠正句子。在此基础上&＃xff0c;我们不是简单地将文档拆分成单个句子&＃xff0c;而是保留完整的跨句信息。希望对后续跨句语篇校正的研究有所帮助。

6 Conclusion

在本文中&＃xff0c;我们为汉语母语人士提出了一个新颖的跨句中文文本校正数据集。具体来说&＃xff0c;我们手动标注了1,500母语人士从互联网上收集的中文文本。新的数据集包括30811个句子和100多万个汉字。它包含拼写错误、冗余词、缺词和词序错误。与以前的数据集相比&＃xff0c;在CCTC上可以更好地评估为母语人士开发的CSC和GEC系统。我们还在数据集中测试了一些最先进的模型。实验结果表明&＃xff0c;即使是性能最好的模型&＃xff0c;仍然比人类差20点&＃xff0c;这表明还有很大的改进空间。

Acknowledgements

本课题得到了国家重点研发计划资助2020AAA0106501和国家自然科学基金资助61976072和62176078的资助。感谢匿名审稿人和Xiaoxue Wang提出的精辟意见和建议。

References²

Wanxiang Che, Zhenghua Li, and Ting Liu. 2010. LTP: A Chinese language technology platform. In Coling 2010: Demonstrations, pages 13–16, Beijing, China. Coling 2010 Organizing Committee.

Xingyi Cheng, Weidi Xu, Kunlong Chen, Shaohua Jiang, Feng Wang, Taifeng Wang, Wei Chu, and Yuan Qi. 2020. SpellGCN: Incorporating phonological and visual similarities into language models for Chinese spelling check. In Proceedings ofthe 58th Annual Meeting ofthe Association for Computational Linguistics, pages 871–881, Online. Association for Computational Linguistics.

Shamil Chollampatt, Weiqi Wang, and Hwee Tou Ng. 2019. Cross-sentence grammatical error correction. In Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics, pages 435– 445, Florence, Italy. Association for Computational Linguistics.

Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019. Pretraining with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101.

Daniel Dahlmeier and Hwee Tou Ng. 2012. Better evaluation for grammatical error correction. In Proceedings ofthe 2012 Conference ofthe North American Chapter ofthe Association for Computational Linguistics: Human Language Technologies, pages 568–572, Montréal, Canada. Association for Computational Linguistics.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings ofthe 2019 Conference of the North American Chapter ofthe Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

Simon Flachs, Ophélie Lacroix, Helen Yannakoudakis, Marek Rei, and Anders Søgaard. 2020. Grammatical error correction in low error density domains: A new benchmark and analyses. arXiv preprint arXiv:2010.07574.

Yuzhong Hong, Xianguo Yu, Neng He, Nan Liu, and Junhui Liu. 2019. FASPell: A fast, adaptable, simple, powerful Chinese spell checker based on DAEdecoder paradigm. In Proceedings ofthe 5th Workshop on Noisy User-generated Text (W-NUT 2019), pages 160–169, Hong Kong, China. Association for Computational Linguistics.

Jin-Dong Kim, Tomoko Ohta, Yoshimasa Tsuruoka, Yuka Tateisi, and Nigel Collier. 2004. Introduction to the bio-entity recognition task at jnlpba. In Proceedings ofthe international joint workshop on natural language processing in biomedicine and its applications, pages 70–75. Citeseer.

Courtney Napoles, Keisuke Sakaguchi, and Joel Tetreault. 2017. Jfleg: A fluency corpus and benchmark for grammatical error correction. arXiv preprint arXiv:1702.04066.

Hwee Tou Ng, Siew Mei Wu, Ted Briscoe, Christian Hadiwinoto, Raymond Hendy Susanto, and Christopher Bryant. 2014. The conll-2014 shared task on grammatical error correction. In Proceedings ofthe Eighteenth Conference on Computational Natural Language Learning: Shared Task, pages 1–14.

Kostiantyn Omelianchuk, Vitaliy Atrasevych, Artem Chernodub, and Oleksandr Skurzhanskyi. 2020. GECToR – grammatical error correction: Tag, not rewrite. In Proceedings of the Fifteenth Workshop on Innovative Use ofNLP for Building Educational Applications, pages 163–170. Association for Computational Linguistics.

Gaoqi Rao, Qi Gong, Baolin Zhang, and Endong Xun. 2018. Overview of nlptea-2018 share task chinese grammatical error diagnosis. In Proceedings ofthe 5th Workshop on Natural Language Processing Techniques for Educational Applications, pages 42–51.

Yuen-Hsien Tseng, Lung-Hao Lee, Li-Ping Chang, and Hsin-Hsi Chen. 2015. Introduction to SIGHAN 2015 bake-off for Chinese spelling check. In Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing, pages 32–37, Beijing, China. Association for Computational Linguistics.

Baoxin Wang, Wanxiang Che, Dayong Wu, Shijin Wang, Guoping Hu, and Ting Liu. 2021. Dynamic connected networks for Chinese spelling check. In Findings ofthe Association for Computational Linguistics: ACL-IJCNLP 2021, pages 2437–2446, Online. Association for Computational Linguistics.

Dingmin Wang, Yan Song, Jing Li, Jialong Han, and Haisong Zhang. 2018. A hybrid approach to automatic corpus generation for Chinese spelling check. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2517–2527, Brussels, Belgium. Association for Computational Linguistics.

Shaolei Wang, Baoxin Wang, Jiefu Gong, Zhongyuan Wang, Xiao Hu, Xingyi Duan, Zizhuo Shen, Gang Yue, Ruiji Fu, Dayong Wu, Wanxiang Che, Shijin Wang, Guoping Hu, and Ting Liu. 2020. Combining ResNet and transformer for Chinese grammatical error diagnosis. In Proceedings of the 6th Workshop on Natural Language Processing Techniques for Educational Applications, pages 36–43, Suzhou, China. Association for Computational Linguistics.

Shih-HungWu, Chao-Lin Liu, and Lung-Hao Lee. 2013. Chinese spelling check evaluation at SIGHAN bakeoff 2013. In Proceedings of the Seventh SIGHAN Workshop on Chinese Language Processing, pages 35–42, Nagoya, Japan. Asian Federation of Natural Language Processing.

Sha Yuan, Hanyu Zhao, Zhengxiao Du, Ming Ding, Xiao Liu, Yukuo Cen, Xu Zou, Zhilin Yang, and Jie Tang. 2021. Wudaocorpora: A super large-scale chinese corpora for pre-training language models. AI Open.

Zheng Yuan and Ted Briscoe. 2016. Grammatical error correction using neural machine translation. In Proceedings of the 2016 Conference of the North American Chapter ofthe Association for Computational Linguistics: Human Language Technologies, pages 380–386, San Diego, California. Association for Computational Linguistics.

Zheng Yuan and Christopher Bryant. 2021. Documentlevel grammatical error correction. In Proceedings ofthe 16th Workshop on Innovative Use ofNLP for Building Educational Applications, pages 75–84, Online. Association for Computational Linguistics.

Yue Zhang, Zhenghua Li, Zuyi Bao, Jiacheng Li, Bo Zhang, Chen Li, Fei Huang, and Min Zhang. 2022. MuCGEC: a multi-reference multi-source evaluation dataset for Chinese grammatical error correction. In Proceedings of the 2022 Conference of the North American Chapter ofthe Association for Computational Linguistics: Human Language Technologies, pages 3118–3130, Seattle, United States. Association for Computational Linguistics.

Wei Zhao, Liang Wang, Kewei Shen, Ruoyu Jia, and Jingming Liu. 2019. Improving grammatical error correction via pre-training a copy-augmented architecture with unlabeled data. In Proceedings of the 2019 Conference ofthe North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 156–165, Minneapolis, Minnesota. Association for Computational Linguistics.

Yuanyuan Zhao, Nan Jiang, Weiwei Sun, and Xiaojun Wan. 2018. Overview of the nlpcc 2018 shared task: Grammatical error correction. In CCF International Conference on Natural Language Processing and Chinese Computing, pages 439–445. Springer.

在这里插入图片描述

A Appendix

表7显示了用于与人类比较的校正级实验结果。表8显示了不同数据集的特征。

自结

当前中文文本纠错数据集都是针对非汉语母语的人士所犯的错误产生的&＃xff0c;而对于汉语母语人士进行相关的错误评估就很不合适&＃xff0c;因为非汉语母语人士经常犯如冗余、缺失词等较为明显的错误&＃xff0c;而汉语母语人士犯的错误大多是由疏忽引起的。其次&＃xff0c;在纠错过程中往往需要上下文信息来帮助纠错哦&＃xff0c;而不仅仅只是单句级别的。所以本文产生了一个新的专门针对汉语母语人士的数据集&＃xff0c;以方便进一步研究。但是经过相关实验(实验中也采用F2-score来进行评估)表明&＃xff0c;虽然该数据集在各方面表现优于现有数据集&＃xff0c;但目前最先进的模型得出的结果仍然比人类纠错低20个点&＃xff0c;这表明在文本纠错方面仍然有很大的提升。