上次写了一篇如何利用百度AI Studio免费GPU资源来研究各种深度学习算法的文章,但有读者反馈说还不够深入,希望每个研究方向都出一个详细的介绍,了解更多并用学到的知识去实战。这篇文章以NLP为主题,通过公开课、项目热榜、应用实践和比赛资讯四个方面带读者实现NLP从入门到获奖。
百度AI Studio有专门的NLP专题网站:
https://aistudio.baidu.com/aistudio/nlp?_=1571383513589
这篇文章将带读者走进NLP的世界,结合自己的学习过程,给读者介绍从入门到获奖的道路。
线上大神讲课,不容错过
AI Studio的NLP专区网站目前公布了三门免费公开课,这里介绍一下
以上三个公开课都是百度的工程师大牛讲课,内容干货满满。由于页面篇幅原因,NLP专题页面的公开课只放了上面三个公开课。感兴趣的可以在AI Studio课程板块:
https://aistudio.baidu.com/aistudio/course
寻找更多公开课。
研究应用实践,走近工业
本栏目会更贴近工业实践,让读者能更了解各种深度学习模型在工业上是如何使用的。
https://aistudio.baidu.com/aistudio/projectdetail/121630
作者:资深NLP布道师 陈炳金
有的智能音箱、智能车载可以识别用户的情绪,可以适当地进行情绪安抚。这样可以改善产品的用户交互体验。在智能客服场景中,为了分析客服服务质量、降低人工质检成本,我们也需要识别客户情绪,这能够帮助企业更好地把握对话质量、提高用户满意度。作者在示例首先介绍了模型评估指标,然后讲解了CNN的一些知识,最后用TextCNN来实现一个识别客户情绪的模型。
https://aistudio.baidu.com/aistudio/projectdetail/125034
作者:资深NLP布道师 李臻
在问答类社区场景中,如何根据用户的问题推荐更多其感兴趣的相关内容?本节课程将基于此场景出发,讲解NLP的语义相似度匹配的任务,本案例介绍NLP最基本的任务类型之一——文本相似度匹配,Pairwise、Pointwise两种训练模式,来计算两个文本的相似程度。
https://aistudio.baidu.com/aistudio/projectDetail/131360
作者:资深NLP布道师 梁一川
在以前的快递表单信息填写产品流程中,用户需要识别表单概念再进行摘取对应关键信息填写,例如省、市、街道,都要一项项填。而大家现在在填快递地址时,会有粘贴地址就自动给你填上省市街道的体验吧?这就是NLP的效果之一。NLP序列化标注任务将允许用户直接输入个人自然表述,然后机器自动识别关键信息传入后台表单中。本项目将演示如何从用户提供的快递单中,抽取姓名、电话、省、市、区、详细地址等内容,形成结构化信息。这可以辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/120044
作者:资深NLP布道师 毕天驰
翻译是一个非常成熟的NLP生成任务的典型场景。但在成熟的产品背后,离不开不断提升和完善的NLP算法。常规的机器翻译方法有统计机器翻译和神经机器翻译,这里我们主要讨论神经机器翻译。本课将通过动手实践做一个简单的神经翻译程序。
看看项目热榜,巩固学习
NLP专题网站目前推荐了6个fork数比较高的项目,这里简单介绍下:
本项目数据的来源是从网站上爬取的56821条数据中文新闻摘要, 包含了国际、文化、娱乐、体育、财经、汽车、教育、科技、房产、证券10种类别。项目利用CNN模型,实现根据文章摘要,自动给新闻分类。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/78959
IMDB是一个包含了来自互联网的50000条严重两极分化的评论的数据集。本项目采用IMDB数据集,利用LSTM模型,实现了一个对评论的情感进行分类的模型。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/78968
本示例展示如何使用PaddleHub Senta Module进行预测。Senta是百度NLP开放的中文情感分析模型,可以用于进行中文句子的情感分析,输出结果为正向/中性/负向中的一个,关于模型的结构细节,请查看Senta,(https://github.com/baidu/senta) 本示例代码选择的是Senta-BiLSTM模型。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/79398
机器翻译即用计算机实现从源语言到目标语言转换的过程,是自然语言处理的重要研究领域之一。本项目采用WMT-14数据集,建立了一个encoder和一个decoder,实现了机器翻译的简单算法,利用代码说明了RNN在机器翻译中的重要作用。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/78973
ERNIE是百度的自研模型, 通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于BERT学习原始语言信号,ERNIE直接对先验语义知识单元进行建模,增强了模型语义表示能力,以Transformer为网络基本组件,以Masked Bi-Language Model和Next Sentence Prediction为训练目标,通过预训练得到通用语义表示,再结合简单的输出层,应用到下游的 NLP 任务。本示例展示利用ERNIE进行文本分类任务。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/90231
THUCNews是清华大学根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本项目利用LSTM模型,利用THUCNews作为输入,训练一个能识别新闻类别的模型,例如预测某个新闻是属于游戏、财经还是时政等等。
项目地址:
https://aistudio.baidu.com/aistudio/projectdetail/85638
热榜篇幅有限,未能穷尽百度AI Studio社区里的所有优秀项目,更多的项目可以点击
https://aistudio.baidu.com/aistudio/projectoverview/public/1
关注比赛资讯,赢取奖金
目前NLP专题网站上有三个关于NLP的比赛,分别是
飞桨常规赛: 机器阅读理解
https://aistudio.baidu.com/aistudio/competition/detail/4
飞桨常规赛:知识驱动对话
https://aistudio.baidu.com/aistudio/competition/detail/3
飞桨常规赛: 问答摘要与推理
https://aistudio.baidu.com/aistudio/competition/detail/14
参与人数还没很多,现在参与能赢取奖金的几率很高,快去报名参加吧。
在线参加活动,获得礼物
百度AI Studio将从即日起到10月31日举行免费学AI送礼品的活动,在这期间完成:
即可获得百度精美礼品一份,奖品包括百度智能音箱、定制移动电源、定制数据线、GPU算力卡(含100小时免费算力)等,不容错过。
详细参与方式和规则参考链接:
https://ai.baidu.com/forum/topic/show/956441
最后,告诉大家一个好消息,AI Studio持续送算力,十月份深度学习开放月的活动,每天登陆送 24 小时算力。即便没有活动,一天也能送12小时,学习开发绰绰有余,大家赶紧过来薅羊毛啊!
点击文末阅读原文,马上申请免费算力!