热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

搞机器学习还敲什么代码

不写代码也能搞机器学习?!这是亚马逊云科技在最近亚马逊云科技re:Invent大会上公布的新工具,用于实现无代码可视化机器学习。亚马逊

不写代码也能搞机器学习?!

这是亚马逊云科技在最近亚马逊云科技 re:Invent 大会上公布的新工具,用于实现无代码可视化机器学习。

亚马逊云科技 re:Invent 大会可谓是云计算行业的“春晚”,IT 技术领域风向标级活动,连他们自家的西雅图总部大厦也随其更名为大会名,品牌影响之强,可见一斑。

10年来,这一活动上诞生了无数云计算乃至 AI 行业标杆产品,如 Amazon Mechanical Turk、Amazon Rekognition、Amazon SageMaker 等等。

今年亚马逊云科技 re:Invent 2021 同样信息量巨大,最引人关注的,莫过亚马逊云科技的机器学习平台服务 Amazon SageMaker 迎来了一次“大爆发”。

不只有无代码开发机器学习模型这一道“菜品”,整个 AI 餐桌上,纵向看,亚马逊云科技的12项产品已经覆盖了整个 AI 产业链——

再从横向看,从为个人开发者准备的入门免费算力池,到大厂专业人士所需的 AI 模型优化工具,相应发布也一应俱全。甚至,考虑到 AI 发展迅猛的中国市场用户,亚马逊云科技还在B站提供带中文字幕的大会实录。

现场演讲中,CEO 还专门强调:「亚马逊云科技会提供最广泛最完整的全栈式机器学习服务」。

不妨跟着我们一起回顾全程亮点,对亚马逊云科技的 AI 产品脉络有一番全面认识。
在这里插入图片描述


不用代码的机器学习

还是先探探一开始提及的无代码机器学习预测服务,看它是否真能让不懂代码的人上手。

按官方介绍,这款产品名为 Amazon SageMaker Canvas,面向零机器学习经验群体,他们中,也许有人是业务分析师,也许有人从事人力资源、财务或营销等工作。

可预见,上述群体中,多数人并没有机器学习经验,甚至对代码也毫无认知,却肯定有通过数据来衡量当前策略、预测市场趋势的需求。

Amazon SageMaker Canvas 就是将机器学习模型的诸多步骤可视化为可交互的 UI,旨在解决他们的业务问题,号称:不写一行代码,快速生成机器学习预测模型。
在这里插入图片描述
为了证实其有效性,亚马逊云科技的 AI/ML 部门自己分享了一个案例。

当中,该部门产品营销经理想通过 Amazon SageMaker Canvas 对当前营销活动进行评估,判断其是否具有足够影响力和有效性。

只需打开 Amazon SageMaker Canvas,上传数据。该过程中,平台还能自动纠正上传数据错误,比如补充缺失值或删除重复的行和列。其技术不出意外,同样来自自家 AI/ML。
在这里插入图片描述
接下来,指定模型预测的目标,再点击「快速生成」,所需模型即可训练得到。

从结果看,呈现效果确是一个可视化图表,模型准确度为93%。

在这里插入图片描述
生成模型后,还可共享给数据科学家等合作伙伴,帮业务人员来进一步检查或者优化这些的模型。

看完官方这一案例,该可视化界面的确有两把刷子——

那么合作方体验又如何?

目前,宝马集团已将亚马逊云科技 AI/ML 技术投入实际业务流程中的600多个应用中,涵盖生产线到销售端的多个场景,此外宝马还有1500万台互联汽车介入其中,一天产生数以百万公里数据均交由 Amazon SageMaker Canvas 分析预测。

西门子能源也是上手吃螃蟹者之一。他们将 Amazon SageMaker Canvas 作为自家机器学习工具包的补充,一位应用部门的数据科学组组长表示:Canvas 让我们能与数据科学团队共享协作,有助于生产更多机器学习模型,并确保模型符合质量标准和规范。

还有很多名不见经传的巨头也是 Canvas 体验者,比如全球最大的非上市公司科赫集团的子公司英威达,也已经用 Amazon SageMaker Canvas 来辅助处理业务流程中的数据科学问题。

多方评价及直观展示结果看完,大致可以判断,此次 Amazon SageMaker Canvas 确实值得期待。毕竟图形界面相比代码释放生产力创造价值的定律在过去已被反复证明。


免费的线上 AI 实验室

前文提及,在年度重磅发布会亚马逊云科技放下豪言:提供最广泛最完整的全栈式机器学习服务,既然是「最广泛最完整」,仅靠一个 Amazon SageMaker Canvas 的发布当然不够——

对广大学研机构、AI 爱好者们,前沿技术巨人也需要对得起自己的口号。

总结下来,三个字,降门槛。

最直观的,提供算力资源。

近年来,高昂的硬件价格、复杂软件配置一直阻碍初学者入门 AI 的脚步,也是限制行业发展,为更多人认知熟悉的巨大障碍。

亚马逊云科技发布功能 Amazon Sagemaker Studio Lab 提供一大团可薅的「羊毛」。无需额外环境配置、无需注册账户、直接用电子邮件就能登录进去的线上实验室。

在这一环境中,任何人创建的项目,都能直接拥有12个小时的 CPU 计算时间、4小时的 GPU 计算时间,以及15GB的存储空间:
在这里插入图片描述
这样的配置纵观整个行业,确实到位。

要知道,在使用 Pandas 或 XGBoost 进行经典 ML 算法训练的数据预处理时,12小时 CPU 时间基本足够。对于深度学习训练,也可选择 GPU 后端获得4小时计算时间,足以在较小的数据集上进行训练或微调模型。

换句话说,对初学者阶段 AI 模型,拿着上述资源基本都能免费训练完成。

同时,当下最流行的机器学习工具、框架和库也被预先打包进去,提供给注册者,能自定义 Conda 环境,也可安装开源的 JupyterLab 和 Jupyter Server 扩展。上述实验环境与 GitHub 紧密集成,使得创建的项目能够被轻松地复制和保存。

除免费“线上实验室”及算力资源,另一部分「羊毛」更直观——奖学金。

此番亚马逊云科技共拿出了1000万美金,推出一项亚马逊云科技 AI&ML 奖学金计划,旨在帮助16岁以上的高中、大学生,帮助他们铺平通往机器学习相关职业之路。

除此之外,亚马逊云科技的1:18比例自动驾驶赛车 Amazon DeepRacer 也在面向自动驾驶、机器学习爱好者们,提供一种更有趣、门槛更低的方式帮助他们入门机器学习,训练出可自己的强化学习模型。
在这里插入图片描述
Amazon DeepRacer 由强化学习驱动,并能将算法部署于云端的 3D 赛车模拟器中,也可以通过实体小车体验在真实世界中赛车的刺激感。

当然,表现优异者同样直通奖学金计划。
在这里插入图片描述
不仅自己发光发热,亚马逊云科技还拉上英特尔,Udacity 做起联名活动,面向16岁以上的经济困难、残疾等社会弱势群体发放2500份奖学金。

获得经济支持之外,这些弱势人群们也能得到 Udacity 导师、亚马逊云科技和英特尔技术大咖长达一年时间的指导和帮助。


机器学习“工业化”重塑

无论零代码机器学习发布,还是面向更广人群的普惠,背后还是技术撑腰。毕竟功能开发需要深刻场景理解及技术积淀,而「普惠」二字考验的,还是技术企业的降本水平。

相比上述两者,亚马逊云科技 re:Invent2021 面向专业从业者发布的 Amazon SageMaker 诸项新功能,更直观展现亚马逊云科技技术水准,从中,更可见技术巨头对 AI/ML 未来的谋划。

对于广大的 MLer 来说,一套完整的机器学习流程,包括数据准备、数据标注、训练、推理、部署。最终模型推理效果如何,既依赖于开发者个人的水平,也会受架构、算力、数据这些外化因素的影响。

亚马逊云科技之所以这么做,是想要降低个人水平影响,用他们的话说:让 AI/ML 从手工作坊走向工业化。

具体来看,为一揽子解决问题,Amazon SageMaker 给出一套组合拳,涵盖机器学习全流程:

数据准备阶段,数据工程师常常需要离开当前开发环境,手动配置一个满足正在运行的模型或分析要求的集群。

为此,Amazon SageMaker Studio 与 Amazon EMR 进行了集成,可直接从 Amazon SageMaker Studio Notebook中使用 SparkUI 来监视和调试运行在 Amazon ECR 集群上的 Spark 作业。

鉴于无论执行数据预处理、开发还是模型部署,都不必离开这个环境,上述动作无疑向一个理想的完全集成开发环境迈进了一步。
在这里插入图片描述
数据标注阶段也在告别劳动密集型,避免人工屈从于人工智能:

这一工作以前需要人力手动标注,或通过数据标注程序处理,但现在,在给出原始数据和需求之后,Amazon SageMaker Ground Truth Plus 会结合机器学习协助的预标记,辅助人类专家进行标记。

这种方式能降低错误率,同时将标注的成本降低40%,做到更高效地检测错误,避免低质量标签的出现。

训练阶段的提升更为关键。

强如业界经典的深度学习模型 BERT ,数以十亿级参数的复杂神经网络,需要用 GPU 训练数千小时,即使调参优化,也仍然需要几天的时间训练。

但现在,亚马逊云科技提供的机器学习模型优化编译器 Amazon SageMaker Training Compiler,实现无需增加太多代码,即可提升 GPU 实例训练速度。

借助该编译器,包括 BERT-base-cased、BERT-base-uncased、distilBERT-base-uncased 在内的诸多经典深度学习模型,训练速度都能直接提升50%
在这里插入图片描述


△添加两行代码就能使用Amazon SageMaker训练编译器


最后是推理阶段方面的提升。亚马逊云科技拿出了之前一举成名的「无服务器」概念,提供了一套无服务器推理功能的 Serverless Inference。

该功能针对数据计算量波动性较强的情况,能够将资源分配交给云端,享受一个弹性资源空间服务。让程序员关注高级语言,而不用去关注底层硬件,让专业人士专注擅长方向。

考虑到现实中,很多客户有专项需求,但很难判断多少计算资源合适,另一功能 Amazon SageMaker Inference Recommender 则提供推理阶段中的配置和实际运行参数推荐,在成本和速度之间找到最佳平衡点。
在这里插入图片描述
从数据准备到推理阶段,上述各个流程产品功能发布为全机器学习周期服务,而非单点拼凑而成,其目的在于:帮助企业实现机器学习的大规模运用,点连成线,打通了一条 AI/ML 工业化规模应用流程。

那么这套组合拳的效果如何?

可见案例中,美国最大基金管理公司之一 Vanguard 部署时间压缩96%,医药巨头阿斯利康在5分钟内即可完成机器学习环境部署,理财企业 NerdWallet 在原有训练需求增加前提下,成本反降75%。

除此之外,更多元的落地场景,也能看出亚马逊云科技对 AI/ML 的纵深挖掘。

比如 DevOps Guru for RDS 可以用来帮助开发者检测、诊断和解决 Amazon Aurora 中的性能和操作问题。
在这里插入图片描述
比如 CodeGuru Reviewer 来识别源代码中的密码、 API 密钥、 SSH 密钥和访问 token,提高代码审查的效率,帮助传统软件行业提升效能。
在这里插入图片描述
有趣的是,亚马逊云科技 re:Invent 2021 大会举办期间,CTO Werner Vogels 还忙里偷闲发表的一篇博客,文中暴露了这位技术男对 AI/ML 产业的高期待:


软件开发将从人力密集开始转变,人工智能支持的软件开发将占据主导地位。


最后硬件上,亚马逊云科技还发布了自研芯片,而且还是一口气推出了三款。

其中,CPU 芯片 Graviton3 就以机器学习为主打特征。

更有机器学习定制训练芯片 Trainium,支持 Trn1 实例,能够为用户在云中训练深度学习模型提供更高性价比和更快速度。
在这里插入图片描述
无论是打通 AI/ML 工业化规模应用流程,还是硬件自研芯片发布,更宏观层面看——

上述发布动作昭示了亚马逊云科技在 AI/ML 业务肉眼可见的延伸。


亚马逊云科技正在拓展 AI 疆界

根据 IDC 的数据,从2013年至2020年的7年内,全球 AI/ML 年支出规模从0迅速扩大到约500亿美元,该增速几乎是亚马逊云科技老本行云计算的2倍

正是看见这一趋势,亚马逊云科技多路出击似乎也是必然。

从无代码机器学习、无服务器应用深入 AI/ML,到底层算力继续升级,乃至诸多普惠计划…令人眼花缭乱的发布无不昭示亚马逊云科技正在重新划定机器学习的全新的疆界。

尽管上述发布还未落地结果,其展现出的价值普通大众一时未必肉眼可见,但从另一个视角看,所谓追求长期价值,所谓看重基础设施布局,不就显而易见地写在亚马逊云科技 DNA 里么?

回想1997年,贝索斯发布了那封广为人知的「致股东一封信」。

彼时初代互联网泡沫正在累积,「快钱」之于很多人尚且是全新概念,当时的 Amazon 就提出客户、销售和品牌增长无不为了长期价值服务,同样为长期价值,贝索斯强调了对「系统及其它基础设施」的持续投入。

此后,Amazon Web Services 独立运作,将云计算从「概念」变成实实在在的一个行业,更有 Amazon Redshift、Amazon Lambda 带出云原生数仓、无服务器路线发展…

一切的一切,似乎都早早写下序章。

现在亚马逊云科技带着同样心态持续押注 AI/ML 领域,本身也就不令人意外了。

这既是身为技术巨头的责任所在,也的确让人有所期待,正呼应今年亚马逊云科技 re:Invent 2021 的 Slogan :引领风向,重塑未来。

我们已能看到,AI/ML 领域人群覆盖在扩大,其行业场景在延伸,其技术也相应继续深探,这一过程还在被行业技术探路者们持续推进。

未来,AI/ML 的疆域究竟有多大?亚马逊云科技正在一点点划定新的轮廓。


推荐阅读
  • 尽管我们尽最大努力,任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑,本文探讨了多种策略和最佳实践,旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响,并提高整体服务质量和客户满意度。 ... [详细]
  • 线程能否先以安全方式获取对象,再进行非安全发布? ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 在 Linux 系统中,`/proc` 目录实现了一种特殊的文件系统,称为 proc 文件系统。与传统的文件系统不同,proc 文件系统主要用于提供内核和进程信息的动态视图,通过文件和目录的形式呈现。这些信息包括系统状态、进程细节以及各种内核参数,为系统管理员和开发者提供了强大的诊断和调试工具。此外,proc 文件系统还支持实时读取和修改某些内核参数,增强了系统的灵活性和可配置性。 ... [详细]
  • 在Cisco IOS XR系统中,存在提供服务的服务器和使用这些服务的客户端。本文深入探讨了进程与线程状态转换机制,分析了其在系统性能优化中的关键作用,并提出了改进措施,以提高系统的响应速度和资源利用率。通过详细研究状态转换的各个环节,本文为开发人员和系统管理员提供了实用的指导,旨在提升整体系统效率和稳定性。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先,通过Yum安装必要的依赖软件包,如GCC、GCC-C++等,确保编译环境的完备。接着,下载并解压MySQL 5.5的源码包,配置编译选项,进行编译和安装。最后,完成安装后,进行基本的配置和启动测试,确保MySQL服务正常运行。 ... [详细]
  • 利用ZFS和Gluster实现分布式存储系统的高效迁移与应用
    本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例,展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势,为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]
  • C语言中类型自动转换的深入解析与应用
    C语言中类型自动转换的深入解析与应用 ... [详细]
  • 第六章:枚举类型与switch结构的应用分析
    第六章深入探讨了枚举类型与 `switch` 结构在编程中的应用。枚举类型(`enum`)是一种将一组相关常量组织在一起的数据类型,广泛存在于多种编程语言中。例如,在 Cocoa 框架中,处理文本对齐时常用 `NSTextAlignment` 枚举来表示不同的对齐方式。通过结合 `switch` 结构,可以更清晰、高效地实现基于枚举值的逻辑分支,提高代码的可读性和维护性。 ... [详细]
  • Android中将独立SO库封装进JAR包并实现SO库的加载与调用
    在Android开发中,将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中,并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式,开发者可以更方便地管理和分发包含原生代码的库文件,提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案,帮助开发者避免在实际应用中遇到的坑。 ... [详细]
  • MySQL数据库安装图文教程
    本文详细介绍了MySQL数据库的安装步骤。首先,用户需要打开已下载的MySQL安装文件,例如 `mysql-5.5.40-win32.msi`,并双击运行。接下来,在安装向导中选择安装类型,通常推荐选择“典型”安装选项,以确保大多数常用功能都能被正确安装。此外,文章还提供了详细的图文说明,帮助用户顺利完成整个安装过程,确保数据库系统能够稳定运行。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破,不仅在性能上实现了显著提升,还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进,为用户带来更加流畅的图形处理体验,同时降低了功耗,提升了计算效率。 ... [详细]
  • 在第七天的深度学习课程中,我们将重点探讨DGL框架的高级应用,特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧,帮助读者高效地构建和优化图神经网络的数据管道。此外,我们还将介绍如何利用DGL提供的模块化工具,实现数据的快速加载和预处理,以提升模型训练的效率和准确性。 ... [详细]
author-avatar
luhd88112010_254
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有