热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

北京大学计算机语言学,基于认知的汉语计算语言学研究_袁毓林pdf

该楼层疑似违规已被系统折叠隐藏此楼查看此楼序言陆俭明在学术研究领域,袁毓林可以说是一位勤奋的耕耘者。他的论文集《汉语语法研究的认知视野)(商务印书馆)于2004年出版

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

序言

陆俭明

在学术研究领域,袁毓林可以说是一位勤奋的耕耘者。他的论文集《汉语语法研究的认知视野)(商务印书馆)于2004年出版,现在又推出了新的论文集《基于认知的汉语计算语言学研究》。我大略地翻阅了一下全书各篇的内容,论文集的书名“基于认知的汉语计算语言学研究”,点明了该书的基本内容——从认知的视角来研究计算语言学,特别是中文信息处理的问题。正文具体分四部分内容:

第一部分内容,作者取名为“计算理论和语言研究”,包括四篇文章:《计算语言学的理论方法和研究取向》、《基于统计的语言处理模型的有用性和局限性》、《认知科学和汉语计算语言学》和《面向当代科技的语言研究的理论和方法》。计算语言学的研究,大致可以分为两个层面,一个是理论模型的研究,一个是工程研究(或说具体的技术方法研究)。据我所知,袁毓林主要从事理论模型的研究,所以这一部分内容作者主要从宏观的角度介绍说明了计算语言学的理论方法和研究取向;评述了在自然语言处理中已运用过的基于规则和基于统计的两种处理模型,指出处理语言这种复杂的系统“必须走规则和统计相结合的道路”;从认知科学的视角作者把自己认为有价值的并且是可行的计算语言学研究模式介绍给读者,并结合作者自己的研究实践讨论说明了基于认知并面向计算的汉语语法研究的路线;展示了认知语言学和计算语言学相互结合的可能性。这部分内容对有兴趣了解或从事计算语言学研究的人来说,是值得一读的,是很有启迪意义的。

第二部分内容,作者取名为“论元结构和描述框架”,也包括四篇文章:《论元角色的层级关系和语义特征》、《一套汉语动词的论元角色的语法指标》、《汉语谓词的论元结构的描述框架》和《论元结构和句式结构互动的动因、机制和条件——表达精细化对动词配价和句式构造的影响》。袁毓林是我国最早研究配价问题的学者之一,特别是他第一个发表了有关汉语名词配价的研究成果,该成果被广为引用。

以乔姆斯基为代表的生成语法学派所提出的动词论元结构理论与法国依存语法学派特斯尼耶尔提出的动词配价结构理论有相同的一面,当然出发点不同,思考的角度不同,对语言事实解释的广度与深度也不同。十多年来袁毓林一直致力于动词论元结构的研究,在这

方面他发表了一系列有分量的文章。我所主持的两个重大科研项目“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(国务院973国家重点基础研究发展规划项目“图像、语音、自然语言理解与知识挖掘”子课题)和“汉语语义知识的形式化模型及语义分类系统研究”(教育部重点研究基地项目),袁毓林都参加了,其中的“汉语动词的题元系统及其语法指标”(包括“题元的层级体系”,“各别题元的定义、示例和句法语义特点”,“不同题元之间的配合关系”,以及“各别题元的语法指标”)就是由袁毓林执笔起草的。因此本书这一部分内容可以说是他对自己在配价问题和动词论元结构研究方面成果的汇集。在这部分内容中,他不仅建立并提出了汉语动词论元角色的层级体系,定义了各个语义角色,并细致描述了各个语义角色在述谓结构中所表现出来的动态性语义特征,同时通过十个各具特色、有代表性的实例(谓词“切、包1、包2、调查、帮忙1、帮忙2、飞1、飞2、吃、专政”)给出了谓词及其论元的句法配置方式,提出了汉语谓词论元结构的描写框架。更值得注意的是,他探讨了谓词论元结构和句式结构(constructions) 互动的动因、机制和条件,对汉语谓词所谓“变价”和“论元增容”作了进一步的解释。

第三部分内容,作者取名为“信息抽取和语义标注”,包括五篇文章:《信息抽取的语义知识资源研究》、《用动词的论元结构跟事件模板相匹配一-一种由动词驱动的信息抽取方法》、《用逻辑和篇章知识来约束模板匹配——逻辑结构和篇章结构知识在信息抽取中的运用》、《基于论元结构的语义标注的体系和规范》以及《新闻语体真实文本的语义标注的实践》。这部分内容作者主要提出并举例说明了要使计算机有效地自动从真实文本抽取信息,至少要有三种层面的语义知识:话语篇章知识、谓词论元结构知识和句子的逻辑结构知识;为对真实文本进行语义分析和标注,作者细致分析设计了篇章、谓词论元结构、句子逻辑结构这三种层面各自的语义关系,并为这三种层面各自的语义关系设计

并提出了一套可扩充的标记集;作者还以自己设计的这套标记对新闻报道中关于职务调动的真实文本进行了语义关系标注实践。作者标注得相当认真。通过这样的标注实践又有所发现——真实文本中代词或指示词的先行成分(一般称为先行语)常常是隐含的;段落之间的

衔接,其形式手段相当缺乏。这就促使大家去进一步思考、探索怎么为计算机自动处理真实文本解决这方面的难题。

第四部分内容,作者取名为“专题研究和个案分析”,也包括五篇文章:《容器隐喻和套件隐喻及相关的语法现象——词语同现限制的认知解释和计算分析》、《关于分词规范和规范词表的若干意见》、《中文信息处理中的语言难题问答》、《缓冲式移动通信及其发展方向——

一个语言学家的设计思想》和《走向多层面互动的汉语研究》。这部分值得细细阅读的是《容器隐喻和套件隐喻及相关的语法现象――词语同现限制的认知解释和计算分析》和《走向多层面互动的汉语研究》这两篇文章。前一篇文章主要通过对“满”、“全”,特别是“满+NP”、“全+NP”在意义、用法上的不平行性的解释,说明语言中的许多现象只有从认知的隐喻的视角来加以解释——用容器隐喻来解释“满”背后的概念结构以及由“满”构成的“满+NP”的使用特点,用套件隐喻来解释“全”背后的概念结构以及由“全”构成的“全+NP”的使用特点,这样才能说得清楚,说得圓满,说得充分,才能有解释力;通过对“满”和“全”又具有一定的可替换性的解释,说明隐喻分析有必要提升到更为抽象的意象图式水平,这样才更有解释力,才能最终解释说明既然“满”、“全”背后的概念结构是属于不同的隐喻范畴,为什么有时又具有可替换性,即才能说明为什么容器隐喻和套件隐喻在语言的实际使用中会出现二者中和化的现象;更积极的意义,还在于正如作者在文章中所指出的,有助于语言的认知解释有可能实现形式化和可计算,从而有可能实现认知和计算的统一(“有可能”三个字不是作者说的,是我加的)。后一篇文章是作者为徐杰所编的《词汇语法语音的相互关联——第二届肯特岗国际汉语语言学圆桌会议(2002.11.26-30.)论文集》所写的代前言。文章扼要回顾了20世纪汉语研究的历史,对今后的汉语研究发表了很有见地的看法。作者强调指出,汉语研究必须树立“互动观念”,走多层面互动研究之路,而这方面正是目前汉语学界所缺乏的。文章特别谈到了一段时间来成为人们热门话题的所谓“语法研究三个平面”的问题,作者强调指出,“我们不仅应该分清语法的三个不同的平面,而且应该观察这三个不同的平面之间的互动关系”,并应“引入语言类型学的视野”,“引进语法化这种动态性的概念,来审视语法、语义和语用这三个平面之间的互动关系”,“从而打破共时研究和历时研究之间的藩篱,把语言的共时研究和历时研究沟通起来”,以“推动语言研究走向更为全面、综合和多层面互动的道路”。文章以学界已有的研究成果和作者本人的研究成果具体说明了语法和语音之间、词库结构和句法操作之间的互动关系,以及这种互动所应有的限度。这是很有见地的看法,应引起大家重视。

我虽然只粗粗阅读了一遍,觉得收获良多,推荐大家一读。借此机会我也想发表两点看法,同时也想提出一些意见。



推荐阅读
  • Spring常用注解(绝对经典),全靠这份Java知识点PDF大全
    本文介绍了Spring常用注解和注入bean的注解,包括@Bean、@Autowired、@Inject等,同时提供了一个Java知识点PDF大全的资源链接。其中详细介绍了ColorFactoryBean的使用,以及@Autowired和@Inject的区别和用法。此外,还提到了@Required属性的配置和使用。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • Python的参数解析argparse模块的学习
    本文介绍了Python中参数解析的重要模块argparse的学习内容。包括位置参数和可选参数的定义和使用方式,以及add_argument()函数的详细参数关键字解释。同时还介绍了命令行参数的操作和可接受数量的设置,其中包括整数类型的参数。通过学习本文内容,可以更好地理解和使用argparse模块进行参数解析。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 关于extjs开发实战pdf的信息
    本文目录一览:1、extjs实用开发指南2、本 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 必备核心算法神经网络通俗讲解
    深度学习传统算法VS人工智能算法传统算法:都是人为去计算人工智能算法:部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
  • Linux环境变量函数getenv、putenv、setenv和unsetenv详解
    本文详细解释了Linux中的环境变量函数getenv、putenv、setenv和unsetenv的用法和功能。通过使用这些函数,可以获取、设置和删除环境变量的值。同时给出了相应的函数原型、参数说明和返回值。通过示例代码演示了如何使用getenv函数获取环境变量的值,并打印出来。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • 深入理解线程、进程、多线程、线程池
    本文以QT的方式来走进线程池的应用、线程、进程、线程池、线程锁、互斥量、信号量、线程同步等的详解,一文让你小白变大神!为什么要使用多线程、线程锁、互斥量、信号量?为什么需要线程 ... [详细]
author-avatar
mobiledu2502885523
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有