热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

NLP,吹爆与落地

作者|zhpmatrix整理|NewBeeNLP周末分享一篇旧文,聊聊一些软技术方面的,关于NLP场景和技术上的问题。由于样本有限,以下思

作者 | zhpmatrix 

整理 | NewBeeNLP

周末分享一篇旧文,聊聊一些软技术方面的,关于NLP场景和技术上的问题。由于样本有限,以下思考仅代表个人过拟合观点,欢迎讨论交流 

故事是这样的...

“卧槽,这届标注人员不行啊,打标一致性不足50%,搞个锤子!”,隔壁工位的老吴面部通红,愤愤吐槽着。听道,带着厚厚黑色眼镜框的小李凑上来,“有可能这个打标任务太难了?”。“说多了都是泪,上次我的一个标注任务,一个标注同学给所有样本都打了正标签!”,对面老王补充道。这时,慢慢走过来一个身型微胖的人,用力拍打着老吴的肩膀,“兄弟,我要基于你的数据做模型,求你千万不要挖坑埋我,我还木有妹子呢…”

“哎……“,老吴长长地叹了一口气,起身泡枸杞菊花茶去了。

上述场景应该对大多数工业界NLP团队来说,应该都挺熟悉的吧。虽说不知道何方大佬说的“NLP是人工智能皇冠上的明珠”,但是依然存在很多类似这样的问题,“为什么NLP领域难出独角兽?”等。当写下这段文字时,作为CV领域的Face++正在准备上市。

这篇博客想从场景和技术上聊一聊最近的一些观察和思考,尝试回答一下上面的问题。

"缺乏相对独立且足够大的场景"

这句话是吕正东说的,个人表示非常同意。比如,CV领域的安防就是一个符合上述两个条件的场景。杭州的海康,宇视,大华正是安防三巨头。当然,这样的场景需要添加一个外部条件,“中国特色”。国内产品的海外市场化,需要去“中国特色”。这是另外一个问题了。

那么,NLP领域有没有接近上述条件的场景?

  1. 机器翻译。可以用独立的方式提供服务,比如提供在线实时多语种的翻译功能。比如翻译专用的硬件产品。

  2. 对话系统。智能客服,对话机器人(用软的方式呈现能力),智能音箱类(用硬的方式呈现能力)。

但是,你真的需要一个机器翻译的硬件吗?你经常和小冰谈人生聊理想?遇到问题和一个客服机器人扯淡半天,还不停地问你,你要解决的是问题是A/B/C?

其实,我是不需要的。这里谈的是独立但不大的问题。

但从另外一个方面讲,搜索,广告和推荐满足非独立但场景足够大,是头部公司的现金牛业务。这里,NLP更多地担当整个技术链条中的一个环节。个人的一个观点,在这些场景下,工程要求远大于算法要求

通过对比,就可以看到。为什么强调独立?和大业务耦合在一块儿,脱离了头部公司,玩儿个锤子。要玩儿,得先建立一个大盘子,这个能力不是所有团队都具有的。为什么强调场景足够大?不大,怎么融资、生存?

当满足上述两个条件时,可以直接做出面向C端的产品。不严格地讲,现在多数国内NLP创业公司打着做面向C端的产品,实际上是面向B端,且这种面向B端的能力无法规模化扩展。要知道,不是所有团队都有拿到大B的能力。实际上,B还是C本来也是一个大问题,是一种选择,并非哪种一定是最优的。只不过个人立场一直在C端而已。

但是,为什么会造成缺乏相对独立且足够大的场景的问题?这里想表达的一个观点是:虽然场景(这里基本等同了需求)与技术本来没有直接的关系,但是技术的突破会带来更有想象力的场景。

因此,这里的结论是:NLP的技术成熟度还不足以支撑满足上述条件的场景

到底技术上欠了哪些债?

  1. 认知层面上的数据标注问题。

在文章开头描述的场景几乎是一个NLP团队每天都会遇到的,问一个算法工程师做什么最花时间?一般回答可能都是处理数据。在数据处理之前,需要数据标注,那么如何设计一个科学友好的标注指南可能就是一个非常重要的问题。由于大多数NLP问题是认知层面的问题,因此主观性就比较强。对于同样的输入,不同背景和经历的标注者的认知不同,因此得到的数据标签也就不同。而对于DL场景下的模型训练,Data HungryData Unefficient几乎是一个无法避免的问题。

主观性导致的标注不一致,标注昂贵。老吴困晕在厕所。这几乎是工业界做NLP经常会遇到的第一个重要且难度较高的问题。对学术界刷公有数据集的读者来说,这个问题不存在的。

  1. 部分问题缺乏科学有效的评估指标。

BLEU的出现极大地推动了机器翻译的进展。但是对于一些任务,现行指标包括BLEU等仍旧不是对于相应任务的最佳指标,特别对于生成类任务。因此,多数时候,发现模型指标比较好的时候,预测结果较差,不一定是过拟合呀。

在现在绝大多数生成类任务的论文中,都会包括人类评估指标,目的是人肉评估生成文本的质量。对于黑心团队,去你大爷的。

  1. 模型,策略的进展问题。

假设有了(1)和(2)问题的解决,剩下的靠(3)就行了。多数学术界的工作目前都围绕在(3)来开展。虽然BERT流给NLP的发展带来了新一轮春天(个人围绕BERT做了很多工作),但是不得不承认,目前绝大多数模型,仍旧是黑盒模型,解释性不强。数据驱动的模型,多数情况下需要对特殊样本进行hotfix,但这种hotfix目前尚不能直接反馈在模型中。模型不够,规则来补。没写够一万条规则的人工智能工程师不是好工程师。

上述三者,均需要大量人力!所以,“有多少人力,就有多少智能”不是一句空话。回到场景下,这也是限制2B产品规模化扩展的一个方面。

技术不行,咋办?

用好的设计拟补算法的不足,是我司老板的一个观点,也是个人目前比较认同的观点。比如,在纠错场景下,由直接替换模型认为的错误文本改为推荐正确替换文本,将决定权交给人而非机器。但是,显然并非所有场景都可以用产品设计上的长处来拟补模型的短处。做不好模型,产品妹子和设计小哥都会来揍你的呀!他们就想问问,“怎么用好的设计拟补算法的不足?”,逃。

只见一产品妹子轻轻地走过来,“hi,小哥哥,小哥哥!你把这个需求做一下吧,根据用户手机壳颜色变换APP主题颜色!”

总结一下上面讨论的问题。没有理想的独立且大的场景,技术上似乎还不太行。不管怎样,在给定一个小场景下,似乎总还是可以用产品设计上的长处掩盖技术不行的短处。

对于国内目前的一些NLP领域创业公司,挂“羊头”这种事是必须的,资本应该不太会直接给“狗头”买账。不过,卖“狗肉”也是必须的,这是短期落地的一个可行方式,先活着,“羊肉”转正才有可能。

作为一个NLP技术从业人员,当然希望NLP无论在技术上还是在商业上都能取得成功。对于目前的NLP领域的创业公司,也保持有最大的敬意,他们是变革的引领者。”世之奇伟,瑰怪,非常之观,常在于险远。“如果这个世界到处都是CV的创业公司,那会多么无趣呀。

最后,真心祝愿“二十一世纪是生物的世纪”的落寞不会出现在“NLP是人工智能皇冠上的明珠”上。

推荐阅读

  • 硅谷顶级VC发声:AI技术公司毛利实在太低,人工和算力成本太高[1]

  • 知乎:为什么nlp没有像cv四小龙一样的创业公司?[2]

  • 知乎:NLP究竟能有哪些真正有意义的应用场景?[3]

  • 知乎:nlp到底还有多大的发展空间?[4]

  • 张俊林:对NLP以及推荐系统未来发展趋势的看法[5]

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定要备注信息才能通过)

本文参考资料

[1]

硅谷顶级VC发声:AI技术公司毛利实在太低,人工和算力成本太高: http://suo.im/62CPdy

[2]

知乎:为什么nlp没有像cv四小龙一样的创业公司?: https://www.zhihu.com/question/353060902/answer/952984073

[3]

知乎:NLP究竟能有哪些真正有意义的应用场景?: https://www.zhihu.com/question/264459321

[4]

知乎:nlp到底还有多大的发展空间?: https://www.zhihu.com/question/340682366/answer/792111030

[5]

张俊林:对NLP以及推荐系统未来发展趋势的看法: https://zhuanlan.zhihu.com/p/79677478

END -

我从吴恩达AI For Everyone中学到的十个重要AI观 2020-03-25

太难啦!面试官盘点NLP近五年招聘动态 2020-03-19

小破号月度干货总结 2020-03-07



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 马尔可夫决策过程Markov Decision Process,MDPKintoki
    Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]
  • 作为机器学习最重要的一个分支,近年来深度学习(DeepLearning)发展势头迅猛,借助庞大的数据 ... [详细]
  • 【跨越鸿沟】学术界与工业界的GAP有多大?
    来自:美团技术团队2020年7月31日,由中国图象图形学学会主办、视觉大数据专委会承办,北京智源人工智能研究院和美团协办的ECCV2020 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
  • 如何用R语言做词云图,以某部网络小说为例
    作者:horoR语言中文社区专栏作者知乎ID:https:www.zhihu.compeoplelin-jia-chuan前言一开始,我在 ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
author-avatar
wInnIe小店
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有