热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【自然语言处理】——(1)WhatisNLP?

NLP的概念NLP发展历程编程语言与自然语言NLP实际应用NLP技术要点结巴分词TF-IDF相似度计算NLP相关开源APINLP技术难点总结方法论之争和前景Naturallangu
  • NLP的概念
  • NLP发展历程
  • 编程语言与自然语言
  • NLP实际应用
  • NLP技术要点
  • 结巴分词
  • TF-IDF
  • 相似度计算
  • NLP相关开源API
  • NLP技术难点总结
  • 方法论之争和前景

 

Natural language processing (NLP) is a subfield of computer science,information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages,in particular how to program computers to process and analyze large amounts of natural language data.Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.

自然语言处理是一门研究人与人交际中,以及人与计算机交际中的语言问题的学科。NLP的目标是希望通过图灵测试,包括了语音、形态、语法、语义以及语用等方面,也要解决人类语言中的因果、逻辑和推理的问题。

NLP=NLU(Natural Language Understanding)+NLG(Natural Language Generation)

  • NLU:语音/文本—>意思
  • NLG:意思—>文本/语音

 

NLP的历史:

20世纪50年代起步--机器翻译   

 利用计算机自动地将一种自然语言翻译为另外一种自然语言  

  “I like Beijing Tiananmen Square”   ====》“我爱北京天安门”

 “我爱北京天安门” ====》“I like Beijing Tiananmen Square”

50-70年代—模式匹配

例如计算机答疑系统

用户输入——题库查找答案 ——返回结果

缺点:用户输入的信息,题库中没有匹配出来,就没有答案

改进:增加同义词、反义词等等

缺点:效率低,不灵活

90年代至今—基于统计

有一定时代背景,互联网的发展提供海量的自然语言供研究应(社 交对话、邮件、文章等等),方便学者和研究人员基于大量语料基 础之上构建自然语言处模型 又称“经验主义”语言模型,使用大规模真实语料库训练,得出结 果,避开一些歧义、语境等导致的技术难题

NLP的发展趋势:基于规则——>基于统计

自然语言中词的多义性很难用规则来描述,而是严重依赖于上下文, 语境,甚至是常识,基于统计理论避开了一些技术难题。

 

NLP技术难点:

Why NLP is Harder(i.e. than Computer Vision)?为什么自然语言处理要比计算机视觉要难一些呢?

  1. The Challenge:Multiple Ways to Express(多种表达方式)
  2. The Challenge:Ambiguity(一词多义)

Solving Ambiguity:Learning From Data(语义处理相对比较难,需要联系上下文,语境,还有一些情感色彩,这是自然语言处理中的难点)

自然语言处理的过程中会遇到语义,歧义和多义等问题。
例如:“我们把香蕉给猴子,因为它们饿了。”和“我们把香蕉给猴子,因为它们熟透了。”第一句中指的是“猴子”,第二句指的是“香蕉”,如果不了解猴子和香蕉的属性,无法区分“它们”指的是谁。这是语义问题。
切词中的歧义,即由字到词时的现象,是中文信息处理中独有的。又有组合型歧义和交集型歧义。例如:从马上跳下来(从 马 上 跳 下来),他将来我校讲学(他 将 来 我校 讲学)这是组合型歧义。使用户满意(使用 户 满意),研究生命的起源(研究生 命 的 起源),这是交集型歧义,组合型歧义出现的概率低,消解更为困难。

 

NLP案例:

Today's Case Study:Machine Translation

如果现在搭建一个机器翻译系统,该如何实现呢?

根据下面12句话,进行翻译

根据语料进行统计,单词匹配。

jjat arrat vat mat hilat oloat at-yurp

这样的翻译系统缺点:速度慢、语义解决不了、上下文没有考虑到,语法不对。

 

 

 

NLP实际应用

Question Answering(问答系统)

Sentiment Analysis(情感分析)【股票价格预测、舆情监控、产品评论、事件监测】

输入语句==》特征工程==》模型==》情感值

输入语句====》深度学习模型====》情感值

Machine Translation(机器翻译)

Text Summarization(自动摘要)

Chatbot(聊天机器人)

Information Extraction(信息抽取)

 

NLP技术要点

自然语言处理技术四个维度:

Semantic(语义)

Syntax(句子结构)

Morphology(单词)

Phonetics(声音)

 

Word Segmentation(分词)

Part-Of-Speech(词性)

Named Entity Recognition(命名实体识别)

Parsing(句法分析)

Dependency Parsing(依存分析)

Relation Extraction(关系抽取)

 

 

 

 

 

 

本文为自己学习过程当中的笔记,编写过程参考多篇文章和其他资料,如有侵权,请联系删除。


推荐阅读
  • 第三届人工智能、网络与信息技术国际学术会议(AINIT 2022)
    20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 本文详细解析了使用C++实现的键盘输入记录程序的源代码,该程序在Windows应用程序开发中具有很高的实用价值。键盘记录功能不仅在远程控制软件中广泛应用,还为开发者提供了强大的调试和监控工具。通过具体实例,本文深入探讨了C++键盘记录程序的设计与实现,适合需要相关技术的开发者参考。 ... [详细]
  • 在对WordPress Duplicator插件0.4.4版本的安全评估中,发现其存在跨站脚本(XSS)攻击漏洞。此漏洞可能被利用进行恶意操作,建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的,使用时需自行承担风险。漏洞编号:HTB23162。 ... [详细]
  • 在《ChartData类详解》一文中,我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色(Setting Colors)以及如何格式化数据值(Formatting Data Values),通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外,我们还将介绍一些高级配置选项,帮助开发者更好地定制和优化图表展示效果。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 点互信息在自然语言处理中的应用与优化
    点互信息(Pointwise Mutual Information, PMI)是一种用于评估两个事件之间关联强度的统计量,在自然语言处理领域具有广泛应用。本文探讨了 PMI 在词共现分析、语义关系提取和情感分析等任务中的具体应用,并提出了几种优化方法,以提高其在大规模数据集上的计算效率和准确性。通过实验验证,这些优化策略显著提升了模型的性能。 ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
  • 掌握DSP必备的56个核心问题,我已经将其收藏以备不时之需! ... [详细]
  • 在第七天的深度学习课程中,我们将重点探讨DGL框架的高级应用,特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧,帮助读者高效地构建和优化图神经网络的数据管道。此外,我们还将介绍如何利用DGL提供的模块化工具,实现数据的快速加载和预处理,以提升模型训练的效率和准确性。 ... [详细]
  • IamcleaningtextinR.Mytexthastheform我在R中清理文本。我的文字有表格buthecouldnotavoidthesubje ... [详细]
  • 中文分词_中文分词技术小结几大分词引擎的介绍与比较
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识,希望对你有一定的参考价值。笔者想说:觉得英文与中文分词有很大的区别, ... [详细]
  • 了解供应链简单来说,供应链涉及一系列旨在向最终用户提供产品或服务的步骤。企业组织及其供应商之间始终存在一个网络,来生产特定产品并将其交付给最终用户。该网络包括不同的活动、人员、实体 ... [详细]
author-avatar
jianji
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有