近期,中国第二大搜索引擎——搜狗搜索在中文自然语言处理有了创新性进展,大幅推动机器对中文语言的理解。搜狗搜索柳超博士带领搜狗数据科学研究院发表的题为“字根嵌入(Radical Embedding)”的学术论文,被国际自然语言处理与计算语言学领域最高级别的学术会议ACL(Annual Meeting of the Association for Computational Linguistics)录取,此论文首次提出了基于字根的中文自然语言处理的深度学习技术,作为该领域前沿的创新研究成果,得到了全球相关领域专家的高度认可,并引发了广泛讨论。
深度学习的基础便是对自然语言的分析,而进行中文自然语言处理极为困难的主要原因在于,中文在文本和对话等各个层次上会存在各种各样的歧义或者多义,同一个字、词在不同语境中的涵义千差万别,不同断句方法让句