热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

语料库资源————(三)

语料库资源在线:http:www.cncorpus.orgResources.aspx语料库文档资料国家语委现代汉语语料库介绍※下载次数:5481国
语料库资源在线:

http://www.cncorpus.org/Resources.aspx

X  语料库文档资料
X   国家语委现代汉语语料库介绍   ※下载次数:5481 
X   国家语委现代汉语语料库词类标记集   ※下载次数:3894 
X   国家语委现代汉标注语料库数据及使用说明   ※下载次数:4797 
X  在线语料库字词频数据
X   现代汉语语料库词频表:在线现代语料库词频数据。   ※下载次数:10266 
X   现代汉语语料库分词类词频表:在线现代语料库带词类标注的词频数据。   ※下载次数:6860 
X   现代汉语语料库字频表:在线现代汉语语料库字频数据。   ※下载次数:4874 
X   古代汉语语料库字频表:在线古代汉语语料库字频数据。   ※下载次数:3256 
X  语料处理软件工具
X   汉语拼音标注工具:本站开发,用于对汉语文本自动标注拼音。   ※下载次数:3184 
X   分词和词性标注工具:本站开发,用于对汉语文本进行分词和词性标注。   ※下载次数:7412 
X   字词频率统计工具:本站开发,用于统计汉语文本字、词的出现频率,并生成字、词频率表。   ※下载次数:6252 
X  现代汉语字表
X   现代汉语常用字表:现代汉语3500常用字表,国家语言文字工作委员会1988年1月发布。   ※下载次数:4326 
X   现代汉语通用字表:现代汉语7000通用字表,国家语言文字工作委员会、新闻出版总署1988年发布。   ※下载次数:3374 
X   通用规范汉字表:通用规范汉字表收字8105个,其中一级字3500个,二级字3000个,三级字1605个。X   ※下载次数:528 

其他

北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn

北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm

清华大学的汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm

山西大学的语料库: http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm

台湾中研院的语料库:

现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus

 http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 
 http://www.sinica.edu.tw/ftms-bin/kiwi.sh

近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/

古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw3

 http://www.eastasian.ucsb.edu/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi 
            
 http://www.sinica.edu.tw/~tibe/2-words/old-words/

台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/

闽南语典藏:http://southernmin.sinica.edu.tw/

汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/

 http://www.sinica.edu.tw/ftms-bin/ftmsw3

香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.edu.hk/livac/

或 http://www.LIVAC.org

浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm

中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php

中文语言资源联盟:http://www.chineseldc.org/xyzy.htm

網站名稱網址及簡介

古漢語語料庫

http://www.sinica.edu.tw/ftms-bin/ftmsw3 
http://www.sinica.edu.tw/~tibe/2-words/old-words/

古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。部分資料取自史語所漢籍全文資料庫,故兩者間略有重疊。此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所製作的資料庫。

近代漢語標記語料庫

http://www.sinica.edu.tw/Early_Mandarin/

為應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,並視結果逐步提供上線檢索。

現代漢語平衡語料庫

http://www.sinica.edu.tw/SinicaCorpus/ 或
http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 或
http://www.sinica.edu.tw/ftms-bin/kiwi.sh

主要針對語言分析而設計,由中央研究院資訊所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。

唐詩三百首

http://cls.admin.yzu.edu.tw/300/

以國中、小學學生為主要使用對象,提供吟唱、繪畫、書法等多媒體資料,文字資料包含作者生平、讀音標注、翻譯、註解、評註、典故出處等資料;檢索點包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。

樹圖資料庫 http://treebank.sinica.edu.tw/

「中文句結構樹資料庫」是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中標示了中文句語意和語法的訊息。 目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。

中英雙語知識本體詞網 http://bow.sinica.edu.tw/

結合詞網,知識本體,與領域標記的詞彙知識庫。

搜文解字 http://words.sinica.edu.tw/

包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。

文國尋寶記 http://www.sinica.edu.tw/wen/

在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網路上國語文學習的素材。

漢籍電子文獻 http://www.sinica.edu.tw/~tdbproj/handy1/

包含整部25史 整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。

紅樓夢網路教學研究資料中心 http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫,提供使用者最完整的中國文學研究資料。





推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 如何使用Java获取服务器硬件信息和磁盘负载率
    本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务,并获取服务器的磁盘信息,并将结果输出。然后在本地使用JS编写一个AJAX脚本,远程请求服务端的程序,得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Python如何调用类里面的方法
    本文介绍了在Python中调用同一个类中的方法需要加上self参数,并且规范写法要求每个函数的第一个参数都为self。同时还介绍了如何调用另一个类中的方法。详细内容请阅读剩余部分。 ... [详细]
  • 本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因,文件需要分割成多个部分发送,因此无法按顺序接收。文章中提供了merge2.php的源码,通过使用shuffle函数打乱文件读取顺序,实现了乱序合并文件的功能。同时,还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 本文介绍了解决二叉树层序创建问题的方法。通过使用队列结构体和二叉树结构体,实现了入队和出队操作,并提供了判断队列是否为空的函数。详细介绍了解决该问题的步骤和流程。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
author-avatar
sdfaghasfdg4
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有