热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习下一个万亿级的增长从哪来?

简介:果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具

简介:果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具的公司以及构建垂直集成机器学习应用的公司。


1.png

在“哈利.波特”的世界中,分院帽是一种算法,可以获得学生的行为历史、喜好和性格等方面的数据,然后据此作出决定,确定学生应该进入霍格沃茨学校里的哪一个分院。如果现实世界里存在这样的分院帽的话,它应该会是机器学习应用程序,可以根据复杂的数据集自主地做出决策。如今,机器学习正在推动数万亿规模的全球产业,例如医疗保健、安全和农业等。

如果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具的公司以及构建垂直集成机器学习应用的公司。

机器学习不仅仅是科技巨头的游戏

科技巨头在机器学习方面的创新广为人知,从新闻推送到推荐引擎不一而足,但是绝大部分人还没有意识到传统行业对机器学习的需求正在日益增长。预计到2023年,全球人工智能系统支出将达到980亿美元,比2019年支出规模的2.5倍还要多,其中金融服务,零售和汽车领域处于领先地位。

比如,掌管了超过7万亿美元资产的投资管理公司黑石(Blackrock)在2018年推出了几款机器学习支撑的ETF产品。而目前,机器学习也已经在医疗保健行业引发了广泛的关注,涉及医疗影像、诊断和药物发现的机器学习解决方案的预算有望在未来三年内达到100亿美元的规模。

在这些企业客户中,出现了三个广泛的客户群:软件工程师、数据科学家和业务分析师,业务分析师有时也被称为“公民数据科学家”。尽管业务分析师受过的技术培训水平较低,但是他们构成了一个庞大并且不断增长的用户群体,这个群体正在应用机器学习帮助他们的企业利用自身不断增长的数据存储库。

机器学习工具已经渗透进入各行各业

为了适应这些客户群体,希望在这轮淘金热中卖镐的公司数量不断激增。曾经在特斯拉和Snap担任过工程副总裁的Stuart Bowers表示:“挑战并不在于让机器学习变得透明,而是让痛苦的部分(例如日志记录、数据管理、部署和可再现性)变得容易,然后让模型训练变得高效并且可调试。”

作为销售更多基础架构服务策略的一部分,现存的供应商——特别是那些公有云供应商已经采用了“端到端平台”的方式。对于巨头来说,销售机器学习工具是一种推动其客户增加基础设施支出的方式,这意味着他们有能力以很低的成本提供这些工具。

然而,企业从业人员们开始要求“同类最佳”解决方案,而不是那些意在吸引他们购买更多基础架构的工具。为了解决这个问题,下一代的创业企业将会追求更具针对性的方法。和当前各大现有平台广泛采用的模式相反,初创企业可以选择特定问题并开发专用工具,这样可以更有效地解决这些问题。在机器学习工具领域,现在存在着三大问题对用户构成了重大挑战。

数据集管理

虽然机器学习的结果可能看起来很优雅,但实际上,从业人员要将大部分的时间花在数据清理、整理和转换工作上。因为数据越来越多地以各种不同的格式分散在多台机器和云之中,因此将数据变成同一种可消费的格式,让团队能够轻松使用并且将其用于协作是非常困难的一件事。

为了解决这个问题,Tecton 的联合创始人兼首席执行官 Mike Del Balso 正在通过他新的创业公司使他在 Uber 倡导的最佳实践民主化。他表示:“被破坏的数据是导致生产机器学习系统出现问题的最常见原因。建模人员将大部分时间都花在训练时选择和转换功能,然后建立管道,将这些功能传递到生产模型之中。” Tecton 构建了一个平台来管理这些“功能”,并以这种方式来简化数据层的复杂性,从企业原始数据中收集到的智能实时信号对于优化机器学习至关重要。

在更上游,Liquidata 正在为数据库构建开源的 GitHub 等效项。在我与 Liquidata 的联合创始人兼首席执行官 Tim Sehn (他曾经是 Snap 的前工程副总裁)的谈话中,他强调“就像开源软件一样,我们需要在开放数据方面进行协作——在互联网级别。这就是为什么我们创建了 DoltHub 的原因,DoltHub 是互联网上免费存储、托管和协作数据的地方。”

实验跟踪和版本控制

另一个常见的问题是结果之间缺乏可重复性。机器学习模型版本控制的缺位让实验变得很难复现。

正如 Weights and Biases 的联合创始人兼首席执行官 Lukas Biewald 在接受我们的采访时分享的那样,“如今,最大的痛苦是缺乏基本的软件和最佳实践来管理全新的编码风格。你无法使用糟糕的画笔很好地作画,你没有办法在糟糕的 IDE (集成开发环境)中很好地编写代码,你也无法使用我们现在拥有的工具构建和部署很棒的深度学习模型。”他的公司于 2018 年推出了一个实验跟踪解决方案,让 OpenAI 等客户能够将见解从单个研究人员扩散到整个团队。

模型可扩展

对于这个正在成熟的市场来说或,建立基础架构以在生产中扩展模型部署并监控结果是另一个重要的问题。

Anyscale 是开源框架 Ray 背后的公司,这家初创公司已经抽象出了分布式应用程序和可扩展机器学习的基础架构。在我同 Anyscale 的联合创始人兼首席执行官Robert Nishihara 的交谈中,他分享了自己的想法,“就像微软的操作系统为开发人员工具和应用程序创造了一个生态系统一样,我们也在创造基础架构,以支持应用程序和库的富生态系统,从模型训练到部署,让开发人员可以轻松地扩展机器学习应用程序。”

在自然语言处理或者被称为 NLP 的领域中,可扩展性也在飞速发展。Hugging Face 建立了一个开源库来构建、训练和共享 NLP 模型。该公司的联合创始人兼首席执行官 ClémentDelangue 表示:“过去三年中发生了范式转变,NLP 的转换学习开始极大地改变了将 NLP 集成到业务应用程序中的可用性和准确性。”他表示:“我们让企业有可能在一周而不是几个月之内,将最新研究的 NLP 模型应用于生产。”

其他有前途的初创公司包括 Streamlit,该公司让开发人员可以仅仅使用几行 Python 就创建机器学习应用并立刻进行部署。OctoML 为机器学习应用了附加的智能层,是系统变得更加易于优化和部署。Fiddler Labs 已经建立了 Explainable AI Platform (可解释的人工智能平台),可以不间断地解释和监控生产结果。

要想在与老牌公司的激烈竞争中建立起长期稳固的公司,初创公司必须问自己两个问题:对于哪些客户来说我们是必不可少的?接触这些客户的最佳方式是什么?

很多初创公司会提出想法,要在某个大市场中占据 1% 的份额,但是通常来说,这些大市场就算没有过度拥挤,其中的需求也已经得到了很好地满足。专注于赢得核心客户群的公司必须展现出强大的早期吸引力,这将转化为长期扩展潜力。为了吸引这些客户,Databricks 和 Datarobot 等大多数成型企业都采用了自上而下的企业销售方式。与我们在开发人员工具领域中看到的情况类似,我期待着机器学习初创企业最终将从单纯的企业销售发展为推动自下而上的采用,并获得更多优势,胜过当今以企业为中心的成型公司。

垂直集成的机器学习应用程序正在颠覆现状

机器学习领域中一些最令人兴奋的公司正在开拓新的商业模式以颠覆整个行业。汽车行业就是个最明显的例子,仅仅在 2019 年一年,就有 100 亿美元的资金投入到了这个行业。机器学习也将产生革命性影响的下一代垂直市场还包括医疗保健、工业、安全和农业。

Salesforce 的首席科学家 Richard Socher 表示:“在‘机器学习 + X’的模式下,机器学习最为有效。”他表示,“最好的机器学习公司都有着清晰的垂直重点。他们甚至不会将自己定义为机器学习公司。”他认为医疗保健领域是一个非常独特的领域,极有前途:Athelas 已将机器学习应用于免疫监测,通过收集病人白血球数量的数据帮助他们优化药物摄入。Curai 利用机器学习技术来提高医生推荐的效率和质量,让他们可以把更多的时间花在治疗患者的工作上。Zebra 和AIdoc 通过训练数据集来更快地确定医疗状况,从而提高了放射科医生的工作能力。

在工业和物流领域,Covariant 是一家结合了强化学习和神经网络的初创公司,该公司让机器人能够管理大型仓库设施中的物体;Agility and Dexterity 同样在构建机器人,以越来越复杂的方式适应各种不可预测的情况;Interos 应用机器学习技术评估全球供应链网络,帮助企业围绕供应商管理、业务连续性和风险做出关键决策。

在安全和国防领域,Verkada 通过智能地分析实时视频并从中学习,重新构想了企业物理安全;Anduril 建立了一个机器学习主干,该主干可以集成来自传感器塔的数据,以增强国家安全的智能;Shield AI 的软件让无人系统可以解释信号,并且在战场上智能行动。

农业是另一个从机器学习技术中获得巨大收益的垂直领域。John Deere 收购了 Blue River Technology,后者是一家开发智能农作物喷洒设备的初创公司。合并后的公司 Intelligent Solutions Group 的首席科学家Lee Redden 表示:“我们引入计算机视觉技术来识别单株植物并针对单株植物采取行动,通过这种方式改变了农业世界。”其他著名的农科企业还包括 Indigo,该公司将机器学习用于“精准农业”,利用数据,以更有利可图、更具可持续性的方式生产食品。

我们将何去何从?

总结来说,机器学习已经悄然成为我们日常生活的一部分,支撑我们的汽车,医院的运营并保障我们所吃的食物。到目前为止,大型企业孵化了最先进的技术,但是真正的希望存在于下一波机器学习应用程序和工具,将围绕着机器智能各种华而不实的炒作从哈利.波特式的幻想转化为有形的社会价值。

对于机器学习能够在未来几年内创造的价值,我们有很多理由保持乐观。传统企业将训练数以百万计的公民数据科学家,将破碎的行业重塑为更高效的行业。机器学习工具将降低构建智能应用程序的门槛,推动数以百万计的新想法变成产品。垂直机器学习业务模型将让人们获得健康的食品,可靠的人身安全保障和负担得起的医疗保健服务,这是一个民主化的进程。

我们将在这些地方找到机器学习的真正价值。


文章来源:https://yqh.aliyun.com/detail/17328

原文链接:https://developer.aliyun.com/article/768653?

版权声明:如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developerteam@list.alibaba-inc.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

推荐阅读
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 字节流(InputStream和OutputStream),字节流读写文件,字节流的缓冲区,字节缓冲流
    字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream,所有的输出流都继承子OutputStreamInput ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 三角测量计算三维坐标的代码_双目三维重建——层次化重建思考
    双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记,本文从宏观的角度阐 ... [详细]
  • 非计算机专业的朋友如何拿下多个Offer
    大家好,我是归辰。秋招结束后,我已顺利入职,并应公子龙的邀请,分享一些秋招面试的心得体会,希望能帮助到学弟学妹们,让他们在未来的面试中更加顺利。 ... [详细]
  • 本文回顾了作者初次接触Unicode编码时的经历,并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析,帮助读者更好地理解和使用这些编码。 ... [详细]
  • oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils
    createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 题目解析给定 n 个人和 n 种书籍,每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量:1. 每个人都必须获得他们喜欢的书籍;2. 每本书只能分配给一个人。通过使用深度优先搜索算法,可以系统地探索所有可能的分配组合,确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题,找到所有可行的解。 ... [详细]
  • 在Android平台中,播放音频的采样率通常固定为44.1kHz,而录音的采样率则固定为8kHz。为了确保音频设备的正常工作,底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时,需要通过重采样(resample)技术来调整采样率,以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 第三届人工智能、网络与信息技术国际学术会议(AINIT 2022)
    20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]
  • python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析
    前言:在利用机器学习方法进行数据分析时经常要了解变量的相关性,有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]
  • 一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
author-avatar
手机用户2602915215
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有