热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大神带你实现NLP从入门到获奖,还有免费算力可以薅

上次写了一篇如何利用百度AIStudio免费GPU资源来研究各种深度学习算法的文章,但有读者反馈说还不够深入,希望每个研究方向都出一个详细的介绍

上次写了一篇如何利用百度AI Studio免费GPU资源来研究各种深度学习算法的文章,但有读者反馈说还不够深入,希望每个研究方向都出一个详细的介绍,了解更多并用学到的知识去实战。这篇文章以NLP为主题,通过公开课、项目热榜、应用实践和比赛资讯四个方面带读者实现NLP从入门到获奖。

百度AI Studio有专门的NLP专题网站:

https://aistudio.baidu.com/aistudio/nlp?_=1571383513589

这篇文章将带读者走进NLP的世界,结合自己的学习过程,给读者介绍从入门到获奖的道路。

线上大神讲课,不容错过

AI Studio的NLP专区网站目前公布了三门免费公开课,这里介绍一下

  • 《中文自然语言处理知识入门与应用》百度自然语言处理部主任架构师 孙珂

  • 《篇章分析》百度自然语言处理部主任架构师 肖欣延

  • 《中文NLP预训练模型ERNIE》 百度自然语言处理部资深研发工程师 龚建

以上三个公开课都是百度的工程师大牛讲课,内容干货满满。由于页面篇幅原因,NLP专题页面的公开课只放了上面三个公开课。感兴趣的可以在AI Studio课程板块:

https://aistudio.baidu.com/aistudio/course

寻找更多公开课。

研究应用实践,走近工业

本栏目会更贴近工业实践,让读者能更了解各种深度学习模型在工业上是如何使用的。

  • 分类任务:如何在客服对话中,识别客户情绪的好坏

https://aistudio.baidu.com/aistudio/projectdetail/121630 

作者:资深NLP布道师 陈炳金 

有的智能音箱、智能车载可以识别用户的情绪,可以适当地进行情绪安抚。这样可以改善产品的用户交互体验。在智能客服场景中,为了分析客服服务质量、降低人工质检成本,我们也需要识别客户情绪,这能够帮助企业更好地把握对话质量、提高用户满意度。作者在示例首先介绍了模型评估指标,然后讲解了CNN的一些知识,最后用TextCNN来实现一个识别客户情绪的模型。

  • 匹配任务:如何根据用户的搜索语句,为用户推荐相似问题

https://aistudio.baidu.com/aistudio/projectdetail/125034 

作者:资深NLP布道师 李臻 

在问答类社区场景中,如何根据用户的问题推荐更多其感兴趣的相关内容?本节课程将基于此场景出发,讲解NLP的语义相似度匹配的任务,本案例介绍NLP最基本的任务类型之一——文本相似度匹配,Pairwise、Pointwise两种训练模式,来计算两个文本的相似程度。

  • 如何从快递单中抽取关键信息

https://aistudio.baidu.com/aistudio/projectDetail/131360 

作者:资深NLP布道师 梁一川 

在以前的快递表单信息填写产品流程中,用户需要识别表单概念再进行摘取对应关键信息填写,例如省、市、街道,都要一项项填。而大家现在在填快递地址时,会有粘贴地址就自动给你填上省市街道的体验吧?这就是NLP的效果之一。NLP序列化标注任务将允许用户直接输入个人自然表述,然后机器自动识别关键信息传入后台表单中。本项目将演示如何从用户提供的快递单中,抽取姓名、电话、省、市、区、详细地址等内容,形成结构化信息。这可以辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。

  • 语言的中外翻译,你应该知道的NLP生成任务 

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/120044 

作者:资深NLP布道师 毕天驰 

翻译是一个非常成熟的NLP生成任务的典型场景。但在成熟的产品背后,离不开不断提升和完善的NLP算法。常规的机器翻译方法有统计机器翻译和神经机器翻译,这里我们主要讨论神经机器翻译。本课将通过动手实践做一个简单的神经翻译程序。

看看项目热榜,巩固学习

NLP专题网站目前推荐了6个fork数比较高的项目,这里简单介绍下:

  • 深度学习入门NLP-文本分类 

本项目数据的来源是从网站上爬取的56821条数据中文新闻摘要, 包含了国际、文化、娱乐、体育、财经、汽车、教育、科技、房产、证券10种类别。项目利用CNN模型,实现根据文章摘要,自动给新闻分类。 

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/78959

  • 循环神经网络NLP-情感分类

IMDB是一个包含了来自互联网的50000条严重两极分化的评论的数据集。本项目采用IMDB数据集,利用LSTM模型,实现了一个对评论的情感进行分类的模型。

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/78968

  • PaddleHub 情感分析教程 

本示例展示如何使用PaddleHub Senta Module进行预测。Senta是百度NLP开放的中文情感分析模型,可以用于进行中文句子的情感分析,输出结果为正向/中性/负向中的一个,关于模型的结构细节,请查看Senta,(https://github.com/baidu/senta) 本示例代码选择的是Senta-BiLSTM模型。 

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/79398

  • 深度学习进阶NLP-机器翻译

机器翻译即用计算机实现从源语言到目标语言转换的过程,是自然语言处理的重要研究领域之一。本项目采用WMT-14数据集,建立了一个encoder和一个decoder,实现了机器翻译的简单算法,利用代码说明了RNN在机器翻译中的重要作用。

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/78973

  • ERNIE情感分类实验 

ERNIE是百度的自研模型, 通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力,以Transformer为网络基本组件,以Masked Bi-Language Model和Next Sentence Prediction为训练目标,通过预训练得到通用语义表示,再结合简单的输出层,应用到下游的 NLP 任务。本示例展示利用ERNIE进行文本分类任务。 

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/90231

  • 基于THUCNews数据集的文本分类 

THUCNews是清华大学根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本项目利用LSTM模型,利用THUCNews作为输入,训练一个能识别新闻类别的模型,例如预测某个新闻是属于游戏、财经还是时政等等。 

项目地址:

https://aistudio.baidu.com/aistudio/projectdetail/85638 

热榜篇幅有限,未能穷尽百度AI Studio社区里的所有优秀项目,更多的项目可以点击

https://aistudio.baidu.com/aistudio/projectoverview/public/1

关注比赛资讯,赢取奖金

目前NLP专题网站上有三个关于NLP的比赛,分别是 

飞桨常规赛: 机器阅读理解

https://aistudio.baidu.com/aistudio/competition/detail/4 

飞桨常规赛:知识驱动对话

https://aistudio.baidu.com/aistudio/competition/detail/3 

飞桨常规赛: 问答摘要与推理

https://aistudio.baidu.com/aistudio/competition/detail/14 

参与人数还没很多,现在参与能赢取奖金的几率很高,快去报名参加吧。

在线参加活动,获得礼物

百度AI Studio将从即日起到10月31日举行免费学AI送礼品的活动,在这期间完成:

  • 完成上述任意项目的Fork

  • 在AI Studio上新建自然语言处理相关并公开项目(注:不可直接fork公开或直接复制粘贴内容)

即可获得百度精美礼品一份,奖品包括百度智能音箱、定制移动电源、定制数据线、GPU算力卡(含100小时免费算力)等,不容错过。

详细参与方式和规则参考链接:

https://ai.baidu.com/forum/topic/show/956441 

最后,告诉大家一个好消息,AI Studio持续送算力,十月份深度学习开放月的活动,每天登陆送 24 小时算力。即便没有活动,一天也能送12小时,学习开发绰绰有余,大家赶紧过来薅羊毛啊!

点击文末阅读原文,马上申请免费算力!



推荐阅读
  • 从用户转型为开发者:一场思维升级的旅程 | 专访 StarRocks Committer 周威
    从用户转变为开发者,不仅是一次角色的转换,更是一场深刻的思维升级之旅。本次专访中,StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式,为开源社区贡献自己的力量。 ... [详细]
  • 掌握PHP框架开发与应用的核心知识点:构建高效PHP框架所需的技术与能力综述
    掌握PHP框架开发与应用的核心知识点对于构建高效PHP框架至关重要。本文综述了开发PHP框架所需的关键技术和能力,包括但不限于对PHP语言的深入理解、设计模式的应用、数据库操作、安全性措施以及性能优化等方面。对于初学者而言,熟悉主流框架如Laravel、Symfony等的实际应用场景,有助于更好地理解和掌握自定义框架开发的精髓。 ... [详细]
  • 利用PaddleSharp模块在C#中实现图像文字识别功能测试
    PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库,适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能,并进行了全面的功能测试,验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]
  • 六个接私活的平台,技术在手,财富自由!值得推荐给每一位专业人士!
    本文将介绍六个适合专业人士接私活的平台,帮助技术人才实现财富自由。这些平台不仅提供了丰富的项目机会,还为用户搭建了高效的合作桥梁,是每位技术人士不容错过的资源。 ... [详细]
  • 图像分割技术在人工智能领域中扮演着关键角色,其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析,探讨了它们在不同应用场景中的优缺点和适用范围,为研究人员和从业者提供了有价值的参考。 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 利用Redis HyperLogLog高效统计微博日活跃和月活跃用户数
    本文探讨了如何利用Redis的HyperLogLog数据结构高效地统计微博平台的日活跃用户(DAU)和月活跃用户(MAU)数量。通过HyperLogLog的高精度和低内存消耗特性,可以实现对大规模用户数据的实时统计与分析,为平台运营提供有力的数据支持。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • SpringBoot启动脚本详解:BAT文件应用与基础入门指南(SpringBoot系列第1篇)
    如果你还在为SSM框架的复杂搭建过程和繁琐的配置文件而烦恼,那么SpringBoot将是你的一大福音。作为SpringBoot系列的第一篇文章,本文详细介绍了如何使用BAT文件来启动SpringBoot应用,并提供了基础入门指南,帮助开发者快速上手,简化开发流程。 ... [详细]
  • 自回归与非自回归模型如何融合?预训练模型BANG提供可能解决方案
    近年来,预训练技术的快速发展显著提升了自然语言生成的性能。然而,自回归模型和非自回归模型在生成质量和效率上各有优劣。微软研究院提出了一种新的预训练模型BANG,通过巧妙地结合两者的优点,提供了一种有效的解决方案。该模型不仅在生成质量上表现出色,还在推理速度上实现了显著提升,为自然语言生成任务带来了新的可能性。 ... [详细]
  • NLP篇【01】tfidf与bm25介绍与对比
    上一篇:自然语言处理【NLP】遇上电商——专栏导读下一篇:NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介 ... [详细]
  • 在CentOS上部署和配置FreeSWITCH
    在CentOS系统上部署和配置FreeSWITCH的过程涉及多个步骤。本文详细介绍了从源代码安装FreeSWITCH的方法,包括必要的依赖项安装、编译和配置过程。此外,还提供了常见的配置选项和故障排除技巧,帮助用户顺利完成部署并确保系统的稳定运行。 ... [详细]
  • 从无到有,构建个人专属的操作系统解决方案
    操作系统(OS)被誉为程序员的三大浪漫之一,常被比喻为计算机的灵魂、大脑、内核和基石,其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案,涵盖从需求分析到系统设计、开发与测试的全过程,帮助读者深入理解操作系统的本质与实现方法。 ... [详细]
  • 作为140字符的开创者,Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播,甚至在多次全球性事件中超越传统媒体的速度。然而,为了支持2亿用户的高效使用,其背后的技术架构和系统设计则极为复杂,涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]
  • 上午8点一直等着ben,ben来了之后告诉我,他最近太忙,等着他发邮件。。。。****中午考完了学术规范,题目还是比较难新暖 ... [详细]
author-avatar
mobiledu2502928897
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有