点击左上方蓝字关注我们
01
ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱
把老虎标成猴子,把青蛙标成猫,把码头标成纸巾……MIT、Amazon 的一项研究表明,ImageNet 等十个主流机器学习数据集的测试集平均错误率高达 3.4%。
在一篇新论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。
论文链接:https://arxiv.org/pdf/2103.14749.pdf
虽然这些基准测试数据中存在很多错误标签,但研究者发现,在移除或修正这些错误之后,基准中的模型相对排名并没有受到影响。但他们也发现,这些基准结果是不稳定的:与参数较少的模型(如 ResNet-18)相比,容量较大的模型(如 NasNet)在预测结果中更加能够反映这些系统性标签错误的分布,而且这种效应随着测试标签错误普遍性的增加而变得更加明显。
信息来源:机器之心
02
轻量级NLP工具Trankit开源,中文处理更精准,超越斯坦福Stanza,内存占用小45%
最新轻量级多语言NLP工具集Trankit发布1.0版本,来自俄勒冈大学。
基于Transformer,性能已超越之前的热门同类项目斯坦福Stanza。
Trankit支持多达56种语言,除了简体和繁体中文以外,还支持文言文。
Trankit在GPU加持下加速更多,且占用内存更小,作为一个轻量级NLP工具集更适合普通人使用。
统一的多语言Transformer
Trankit将各种语言分别训练的Pipelines整合到一起共享一个多语言预训练Transformer。
然后为每种语言创建了一组适配器(Adapters)作为传统的预训练模型“微调(Fine-tuning)”方法的替代,并对不同的NLP任务设置权重。
在训练中,共享的预训练Transformer是固定的,只有适配器和任务特定权重被更新。
在推理时,根据输入文本的语言和当前的活动组件,寻找相应的适配器和特定任务权重。
这种机制不仅解决了内存问题,还大大缩短了训练时间。
Github仓库:
https://github.com/nlp-uoregon/trankit
在线Demo:
http://nlp.uoregon.edu/trankit
相关论文:
https://arxiv.org/pdf/2101.03289.pdf
信息来源:量子位
03
飞桨与龙芯完成兼容性认证
近日,百度飞桨深度学习框架与龙芯国产通用处理器进行了安装部署测试、基本功能测试和稳定性兼容性测试,联合测试结果显示百度飞桨深度学习平台在龙芯3A4000平台上均能顺利安装,且系统整体运行稳定,满足用户的关键性应用需求。
图:百度飞桨与龙芯中科产品兼容互认证证书
本次适配是由飞桨团队和龙芯中科团队基于3A4000平台,在Loongnix release 1.0操作系统下进行了完备测试。目前在MIPS龙芯处理器加龙芯国产操作系统上安装飞桨,只支持源码编译的方式。完整的安装文档请见:
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/compile/mips-compile.html#anchor-0
信息来源:飞桨PaddlePaddle
04
10年重大更新!对决英特尔,ARM v9架构正式发布,华为海思还有使用权吗?
ARM推出了全新的Armv9架构,这是自Armv8十年前推出后,该架构首次重大变革,Armv9架构将会给接下来两代芯片带来30%的性能提升。
ARM是全球领先的半导体知识产权 (IP) 提供商。全世界超过 95% 的智能手机和平板电脑都采用 ARM 架构。当前,英特尔、苹果、华为海思都是ARM的主要客户。
ARM如果停止对华为授权,那华为海思将受到怎样的影响?
目前,华为海思只负责设计芯片,生产和封测都是交给像台积电半导体生产制造商。ARM本身不做实体产品,而是卖的销售技术授权,为海思、高通等IC厂家提供授权。ARM的授权大致分为两种一种是指令集授权,一种是微架构授权,ARM主要就是靠授权费和版税来盈利。所以,华为如果被ARM停止授权,若是想要在自家产品保持竞争力。华为就需要在完成在ARM+竞争对手工作量。即使 ARMV9 封杀华为,那也不用担心,备胎转正的高光时刻真来了。
幸好的是,华为早有准备,华为早已准备好自己的备胎CPU、NPU,也就是说,华为不怕ARM停止授权。再加上,华为已经获得了ARM8架构的永久授权,ARM8是ARM公司的32/64位指令集,目前的处理器都是这一指令集的产物。即便是ARM断供,华为可以完全自主设计ARM处理器,掌握核心技术和完整知识产权,具备长期自主研发ARM处理器的能力,不受外界环境制约。
也就是说,即便ARM迫于某些压力不再授权ARM指令集给华为,华为几乎不会受到影响。
信息来源:新智元
05
消费级GPU、速度提升3000倍,微软FastNeRF首次实现200FPS高保真神经渲染
近日,微软提出了一种基于 NeRF 的新系统 FastNeRF,用它来渲染逼真图像,速度能有多快呢?在高端消费级 GPU 上达到了惊人的 200FPS!
神经辐射场(Neural Radiance Fields, NeRF)领域的最新研究展示了神经网络编码复杂 3D 环境的方式,这类方法能以新的视角真实地渲染环境。渲染这些图像需要非常大的计算量,即使在高端硬件上,这些新进展与实现交互式速率仍然相去甚远。
在本文中,来自微软的研究者提出了一种名为 FastNeRF 的新系统,它以每秒数百帧的速度渲染对象的高分辨率真实性新视图。相比之下,NeRF 等现有方法在速度上要慢几个数量级,并且只能以交互速率渲染分辨率很低的图像。
FastNeRF 的提出受到了移动和混合现实设备上场景的启发,并且是第一个基于 NeRF、能够在高端消费级 GPU 上以 200Hz 渲染高真实感图像的系统(如上图右)。该方法的核心思想是图启发的分解,它允许:在空间中的每个位置紧凑地缓存一个深度辐射图;使用光线方向有效地查询该图以估计渲染图像中的像素值。
大量的实验表明,在运行速度上,FastNeRF 是原始 NeRF 算法的 3000 倍,比加速版 NeRF 至少快一个数量级,同时又保持了视觉质量和可扩展性。
在 Realistic 360 Synthetic 数据集中 Lego 场景图上,新方法与其他方法的速度评估对比结果。
论文地址:https://arxiv.org/abs/2103.10380
信息来源:机器之心
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。
END