热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

中文分词_中文分词及词云在专利分析中的应用

篇首语:本文由编程笔记#小编为大家整理,主要介绍了中文分词及词云在专利分析中的应用相关的知识,希望对你有一定的参考价值。 一国的创新能力不仅仅体现在专利的数量和质量,而是应当看该国语言是否占有某领域的

篇首语:本文由编程笔记#小编为大家整理,主要介绍了中文分词及词云在专利分析中的应用相关的知识,希望对你有一定的参考价值。


一国的创新能力不仅仅体现在专利的数量和质量,而是应当看该国语言是否占有某领域的统治地位或极大的影响力。如十八世纪,法国成为启蒙运动的中心,法语成为欧美上流社会和知识分子的国际语言,更是外交和法律的统治语言。又如十九世纪,德国成为世界科学和研究的中心,当时的一流科技文献中德语占70%以上。二十世纪至今的英美语系取而代之成为当代的国际通用语言,包括在知识产权领域,各国不同语言的专利在Derwent专利数据库中被翻译成英语,并以英语作为科技界、法律界和知识产权界的通用工作语言。

 

一国的语言是一国人的表达方式,也是该国科技和文化的载体。每一位热爱自己祖国的人都会觉得本国的母语是世界上最美的语言,并为本国的语言而感到自豪和骄傲。汉语经历五千年文明的沉淀和演化,逐步形成现在人们所使用的现代汉语。而中国大陆伴随改革开放40年的经济发展,逐步从一国贫穷和落后的国家跻身世界经济大国,GDP稳居世界第二。同时,在科技和创新领域中国也在进一步缩短同发达国家的差距。

 

在知识产权方面,中文专利的重要性和影响力伴随中国科技的发展而显现。更多优秀本国企业开始崭露头角引领世界科技和发展趋势,他们会首先在中国大陆优先申请和公开专利。同时国际巨头和领先企业也更为重视中国市场,通常他们在获得国际PCT优先权的第一时间就会部署中国专利。

 

因此,直接研究和分析以中文专利文本就显得尤为必要,为拥有超前意识的企业提供了先决发展条件。同时,基于本国母语对专利文本进行分析和展示也非常直观,便于读者理解。








01




中文分词简介






在西方语言,如英语的行文中,单词之间是以空格作为自然分界符。而中文只有字、句和段能通过明显的分界符来划界,唯独词没有一个形式上的分界符。虽然英文在部分短语的划分问题也存在同样问题,不过在词这一层上,中文确实要比英文复杂得多、困难得多。


古代汉语中,除了人名、地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。现代汉语的基本表达单元也不再是单个的字了,而是以词作为最小单元,且以双字或者多字词居多。


中文分词是指将现代汉语中的句子切分成单独的表达含义的字或词。或者说,分词就是将连续的汉字序列按照一定的规范重新组合成字或词序列的过程。如下以一个顺口溜举例,如果没有进行分词,未经练习的人恐怕很难说得利索。经过分词后,分词符号为 | ,就变得比较容易理解和区分了。









原始语句:黑化肥发灰会挥发;灰化肥挥发会发黑。


分词结果:黑化肥 | 发灰 | 会 | 挥发;灰化肥 | 挥发 | 会 | 发黑。








但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对专利侵权者给予处罚”,“专利侵权者”本身是一个词还是一个短语,不同的人会有不同的标准。即使是完全相同的文本和句子,不同的分词会产生完全不同的语义,并给读者造成不同的理解,存在歧义。例如:“羽毛球拍卖完了”,可以切分成“羽毛 | 球拍 | 卖完了”、也可切分成“羽毛球 | 拍卖 | 完了”,如果没有上下文或其他的补充,恐怕谁也不能断言“拍卖”在这里算不算一个词。








02




中文分词算法






对于一句话,人可以通过自己的知识和智力来明白哪些是词,哪些不是词,但如何让计算机也能理解并进行处理,这样的过程就是中文分词算法。


分词算法是自然语言处理和文本挖掘的基础,中文分词算法指在输入一段中文字符串后,通过计算机自动识别语句中所应包含的字或词,最终能成功地输出该段语句所对应的分词结果,该分词结果经一步为语句和语义的识别奠定基础。


现有的中文分词算法可归纳为如下策略:首先基于公知的中文词典,先将常用的词在计算机中进行建档,随后将待处理的文本以字符串的方式同词典进行匹配和比较,若在词典中能找到某一对应的字符串,则成功匹配或识别出一个词。对于较难鉴定的词,则可根据不同的权重函数或文本中词出现的频率进行评估,最终通过评分,计算机得出结论,并认为已识别出了语句中的字或词。更先进的算法还可包含同义词和反义词的语义评估,以进一步提高分词和识别的正确率。









常用的中文分词算法举例如下:



  • 正向最大匹配算法 


  • 逆向最大匹配算法 


  • 正向最小匹配算法 


  • 逆向最小匹配算法 


  • 双向最大匹配算法 


  • 双向最小匹配算法 


  • 双向最大最小匹配算法 


  • 全切分算法 


  • 最少词数算法 


  • 最大多元分值算法 


  • 最大概率分词算法 
















03




中文分词应用








如下本文采用中文分词算法,先计算出分词结果,随后采用词云作为可视化方法进行展示。词云就是根据文本中关键词出现频率的高低,对关键词的文字大小进行突显,从而过滤掉文本中的次要信息,体现重要信息。


以我国2017年第十九届中国专利金奖获得项目中,5篇代表性专利文本在不同技术领域为例,中文分词及词云可视化效果如下,使浏览者只要扫一眼词云就可以领略文本的主旨。



中文分词及词云在专利分析中的应用


中文分词及词云在专利分析中的应用


中文分词及词云在专利分析中的应用


中文分词及词云在专利分析中的应用








04




总结






语言文字是一国科技和文化的载体和表达方式。


当且仅当一个国家的创新和技术,发明人采用本国语言记载和优先公布该发明的时候,这项创新和发明才更有尊严。


当且仅当一个国家的发明的数量和质量达到一定高度时,并在世界范围内产生影响力的时候,基于该国语言的专利分析才更有意义。








【作者简介】




















吴飞








任职于上海微电子装备(集团)股份有限公司,创新业务主管,发表专著1部,获发明专利授权24项。











【企业简介】

上海微电子装备(集团)股份有限公司(简称SMEE)主要致力于半导体装备、泛半导体装备、高端智能装备的开发、设计、制造、销售及技术服务。公司设备广泛应用于集成电路前道、先进封装、FPD面板、MEMSLEDPower Devices等制造领域。企业已通过GB/T29490企业知识产权管理规范认证,先后被评为“国家级知识产权示范企业”、“国家企业技术中心”、“上海市专利工作和知识产权示范企业”。




























“企业国际化智库”微信公号与本文作者对本文的全部内容以及可能附带的全部资料拥有全部知识产权,并受法律保护。网络转载请注明作者及内容来源,商业使用请联系:victoria.wang@clarivate.com









推荐阅读
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 自学编程与计算机专业背景者的差异分析
    本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处,结合实际案例分析两者的优势与劣势。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
  • PHP 编程疑难解析与知识点汇总
    本文详细解答了 PHP 编程中的常见问题,并提供了丰富的代码示例和解决方案,帮助开发者更好地理解和应用 PHP 知识。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程,该课程广受好评,被誉为Python学习的最佳选择。通过生动有趣的教学方式,帮助初学者轻松掌握编程基础。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 机器学习中的相似度度量与模型优化
    本文探讨了机器学习中常见的相似度度量方法,包括余弦相似度、欧氏距离和马氏距离,并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外,文章还涵盖了模型评估的各种方法和指标,以及不同分类器的工作原理和应用场景。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 英特尔推出第三代至强可扩展处理器及傲腾持久内存,AI性能显著提升
    英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存,全面增强AI能力和系统性能。 ... [详细]
  • Linux系统中权限修改命令详解:chmod使用方法与技巧
    在Linux系统中,`chmod`命令用于修改文件和目录的访问权限。文件和目录的访问控制由其所有权和权限设置决定。本文将详细介绍`chmod`命令的使用方法和技巧,帮助用户更好地管理和控制文件系统的安全性。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
author-avatar
丹愿人常久6688
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有