热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大模型,化繁为简归文心

大模型,已经变成今天AI产业最为关注、最受期待的技术方向,甚至没有之一。其原因在于,大模型带来了强大的泛化能力以及优异的效果,

cf83228c8836ad30b414765ffccd9657.jpeg

大模型,已经变成今天AI产业最为关注、最受期待的技术方向,甚至没有之一。

其原因在于,大模型带来了强大的泛化能力以及优异的效果,并且能够实现AI模型研发-部署-应用的标准化提升。这些价值与各界对AI工业化、大规模部署的期待不谋而合。于是,通过大模型进入AI工业大生产时代,已经在业界凝聚了高度共识。

近两年,围绕大模型的技术创新、工具创新层出不穷。在繁花似锦的整体趋势下,我们似乎也能看到隐藏的问题。比如大模型的门槛依旧偏高,与产业结合更多偏向案例性质,大范围应用还有非常多的挑战。参数繁荣、技术繁多、种类繁复的大模型,正有待迎接一次转变。

11月30日,由深度学习技术与应用国家工程研究中心主办、飞桨承办的WAVE SUMMIT+ 2022在线上举行。期间,围绕文心大模型的一系列更新、升级引发了开发者广泛关注。如果我们为文心大模型的升级进行一个简要描述,或许可以用到“化繁为简”这个词。

94d3d55ed134754c31284c359c7c806e.png

峰会期间,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰提出,深度学习平台加上大模型,贯通从硬件适配、模型训练、推理部署到场景应用的AI全产业链,夯实产业智能化基座,将进一步加速智能化升级。

而在构建智能化基座的过程中,大模型的产业化路径,必然是要封装复杂的模型生产过程,从而高效支撑千行百业应用。

大模型的复杂技术与研发挑战,应该是停留在产业上游的。具有算法、算力和数据综合优势的企业,应该将模型生产进行封装,在产业链上游就解决大数据、大算力、大模型的能力挑战。这样,应用场景与企业用户、开发者,将得到简单、易用、工业化的大模型能力。只有这样,大模型才能真正落下去、推广开。

两点之间,直线最短。大模型已经来到了化繁为简的临界点,而百度正在用飞桨+文心大模型,在技术与产业之间画出这条直线。

83358104aaa88ade1fe4779072bf3138.png

在路上的大模型,需要化繁为简

讨论大模型的新升级、新发展思路,必须建立在对大模型产业化的客观理解上。

在目前阶段,大模型正处在高速发展期。我们近乎每个月,甚至每星期都可以看到产业界、学术界公布大模型创新。并且在今天,已经很少看到大模型创新过分执着参数对比,更多是进行不同技术路线、不同应用领域的多样化创新。

与此同时,伴随着大模型种类、功能的繁复多样,辅助大模型的开发工具、软硬件基础设施、开源开放平台也丰富了起来,围绕大模型的产业生态开始壮大。

然而在这种情况下,我们依旧会发现大模型发展中有一个客观存在的核心问题:产业主要提升的,是“训大模型”的能力,而不是“用大模型”的能力。

一般来说,前者关注如何让大模型更加“繁华”;但后者却需要考虑实际场景,消弭应用门槛。在某种程度上需要反过来,化繁为简。

2e646daee1d97ebfee2066e248c45769.png

很多产业都在理论上、需求上适合大模型落地。但在实操过程中将面对一系列适配问题。比如说:

1.自己开发大模型难度太大,训练成本、存算成本过高。开发工具与社区支持也不足。

2.想要应用成熟的大模型,又往往缺少产业示范与行业路径。不知道自己的行业该用哪种大模型,行业知识与行业需求如何与大模型对齐。

3.即使选到想用的大模型,又会发现本地环境难以兼容适配。大模型应用的工程化能力很难让人满意。

面对这些问题,千行百业需要从基础模型、开发工具、开发社区,到行业路径的一系列帮助与加持,打通从大模型到产业的一系列关节。这种围绕行业需求与产业应用进行创新,而不是围绕大模型本身进行提升的思路,就是百度发展文心大模型,以及构建飞桨+文心产业智能化基座的独特思路。

WAVE SUMMIT+ 2022所展现的,就是这种思路的进一步完备与壮大。

为行业找路径:行业大模型已蔚为大观

7d6ae6fb10c241417518d0469d49a54e.png

行业需求与AI技术对齐,这件事本身经历了漫长的发展,在今天已经挑战重重。而当行业面向大模型这个更新、更强的技术时,需求难以对齐的矛盾就会更加明显。

面向这种困难,只有一个个行业去探索,在重点行业形成有效的大模型落地参考路径。这或许是“最重”的选择,但同时也是“最优解”。

今年5月,文心大模型面向具体的行业需求,发布了行业大模型这一全新发展路径。其通过文心大模型的基础模型能力,搭配对海量行业数据的挖掘,以及由合作机构、行业客户提供的行业特色数据和知识,加上行业特色的专家经验多方结合,进行相应的行业训练任务设计,最终形成了文心行业大模型。

在与行业结合的过程中,文心大模型知识增强与产业级两大特色得以充分发挥,形成了行业知识增强的关键路径。这一路径不仅解决了大模型的应用挑战,还凝结成了一系列面向重点行业的大模型产业落地方法。实现了大模型在行业场景中“不但能用还便捷好用”的价值。

在本次峰会上,文心行业大模型持续升级,在原有能源、金融、航天、传媒等行业的基础上,进一步升级到了11个行业大模型,将行业大模型延伸到了制造业、城市管理、汽车等关键领域。可以说,行业大模型已经从先锋、探索性质,发展到了覆盖行业众多、体系完备的新阶段。从应用效果与行业覆盖上来说,都已经实现了蔚为大观。

a31afd95f10ad3824d098e69e577fd66.png

举个例子,智慧城市建设是数字中国的重点发展方向。在今天,中国所有地级市都已经有智慧城市项目落地。而大模型与智慧城市的结合,在目前阶段还非常新颖。

在哈尔滨,近年来冰城探索了一系列AI技术赋能城市高质量发展、东北老工业基地振兴的尝试,取得了显著成效。而就在刚刚,哈尔滨市政府携手百度,联合发布面向城市领域的行业大模型——冰城-百度·文心。

冰城-百度·文心大模型,可以将城市中跨业务、跨结构、跨部门的数据知识和多种任务算法进行融合,基于百度文心NLP大模型ERNIE 3.0,打造统一预训练模型,提供强大的语言理解、语义分析等能力,支撑城市中各领域的AI规模化效果提升。文心行业大模型,至此可以从城市治理、产业发展、公共服务等多个领域支持哈尔滨的数字化发展。从产业路径上看,这一联合发布、联合打造,将大模型与智慧城市需求有效结合在了一起,为更多城市获得大模型价值提供了参考路径。

如今,行业大模型已经在多个领域取得可信的成果。比如文心大模型与电影频道结合,可以实现每天修复28.5万帧老旧影片。即使是精修,文心大模型的修复速度也较人工效率提升了3到4倍。在能源、金融等一系列领域,行业大模型已经形成了产业智能化的发展路标。

当然,除了行业大模型之外,文心大模型还以更多方式融入更广泛的行业应用。比如从2019年3月文心ERNIE1.0发布以来,几乎百度全系列产品都在逐步使用文心大模型。在千行百业,文心大模型已通过飞桨开源开放平台、百度智能云等赋能到工业、能源、金融、通信、媒体、教育等各行各业。

行业有路径,是文心大模型持续升级的首要目标。

eeaa24b8da566a367c52f33465f0dfa9.png

为应用备技术:

从模型、工具到应用的全线升级

如果说,大模型通向行业,与行业需求、行业知识融合的大模型向产业的纵向打通。那么大模型对各种开发需求、应用需求的覆盖,就是大模型走向产业的横向能力打开。

在真实的应用场景中,企业和开发者需要接入大模型的方式是十分多样的。有的企业确实需要自己开发大模型;也有企业需要以最低成本完成大模型适配;还有一些企业可能需要具有特殊能力的模型;有一部分企业需要产品级、可API接入的大模型能力。

只有从模型到工具,再到产品、社区都有完善、完整的技术储备,才有能力降低大模型应用门槛,才有机会成为产业智能化的基座。

为此,百度全面升级了文心大模型的全景图,既丰富了大模型的种类。同时也在大模型开发工具、产品能力、社区建设上进行了升级。

大模型因“大”而效果好,同时在产业应用中也会因为“太大”而难以落地部署。为了解决这个问题,百度全新发布了ERNIE 3.0 Tiny模型。其通过将千亿模型作为教师模型,经过知识蒸馏等方式,可以形成一系列轻量化模型。最终实现在效果损失非常有限的情况下,模型体量变小,但较比传统模型却有数十倍、上百倍的性能提升,以此满足产业场景的真实应用需求。

同时,在跨模态领域,百度发布跨模态理解大模型ERNIE ViL 2.0、跨模态生成大模型ERNIE ViLG 2.0、文档智能大模型 ERNIE-Layout。在生物计算方面,最新发布了蛋白质预测模型HelixFold-Single。而在任务大模型方面,则发布了代码大模型ERNIE-Code。其可以通过多语言学习的形式,在语料上更加丰富多样,使得模型能力更强,并且能够支持多个语种。

在一系列新加入的模型之外,百度也在推动大模型开发工具建设、产品化升级与社区建设。在工具与平台的技术升级上,百度提供面向场景化,以及行业大模型的配套能力。比如在模型精调方面提供的技术工具更加丰富,大模型的API当中将包含更丰富的精调能力。同时,在大模型训练中也会添加一系列可信学习工具,满足开发者对大模型的安全、可控需求。

在文心大模型的产品和社区方面,百度保留了旸谷社区作为创意社区。同时增加了两款以大模型为核心驱动的产品。这些产品既可以直接赋能给有相关需求的产业用户和泛科技用户,丰富大模型的应用价值。同时也为行业起到了示范作用,展示了大模型产品化的技术路径。

912bb6e2014c1fb0011eef6c4327849f.png

在最近备受关注的AIGC方面,百度打造的文心一格,在本次峰会上进行了一系列新能力的发布。比如近期非常火爆的以图生图能力、图片通过文字进行编辑的能力,以及一键生成视频的能力。

9f873d830495829d8b3d8b081c8faad8.png

另一项产品升级,是以大模型核心驱动的搜索产品“文心百中”。这一产品由百度搜索与文心大模型联合研制,可以满足开发者和企业用户的垂直搜索、企业搜索需求。其本身具有极简的逻辑架构,以及强大的语义理解能力,并且可以极大降低搭建垂直搜索带来的数据成本与人力成本。“文心百中”,可以说从搜索这个全新层面,向业界展现了大模型的应用价值与产业空间,并且同样也指向着清晰的应用场景。

从新的模型、新的工具,到产品与社区的升级,文心大模型可以说从多角度、全方位升级了技术储备。这些技术能力对应着不同类型开发者、企业对大模型的多样化需求。只有满足这些具体的需求,打通一个个关隘,大模型才能去向它最应该去的地方——应用。

为智能筑底座:

飞桨+大模型,画出一条直线

098400bac99acb281a926adecbe7ed34.png

两点之间,直线最短。但大模型与产业之间,往往会因为技术路线分歧、训练部署环境、行业知识无法对齐,而要七拐八拐,走大量弯路。这些弯路的存在,自然有大模型发展过程中的一系列客观因素的影响,但同时也确实影响着大模型的应用效率、产业效能。

为了解决这些问题,百度的思考是尽量画一条直线,让开发者与行业可以不走弯路,以最高效率直接抵达大模型的内在价值。

这条直线,需要包含工具集成性、技术丰富性、行业路径完善性等等价值。只有把这些能力合而为一,才能实现将化繁为简的目标。面向大模型的产业需求、应用场景,不仅需要做到有模型、有工具,同时需要将大模型与深度学习平台结合起来,满足企业、开发者从算力到应用的全流程需求。

为了更好帮助企业与开发者,实现从开发大模型到应用大模型的全流程实践,百度勾勒出了飞桨+文心,即深度学习平台+大模型的产业路径。二者结合,开发者可以获得从算力、框架、模型库,再到大模型调用、大模型行业化的所有能力,获得了完善、稳固的产业智能化基座。自然也就完成了从大模型到产业的最短距离直达。

5f9e9362e7013a1e29ce65e26cbac076.png

为了与文心大模型一道构建产业智能化基座,飞桨也进行了一系列升级。最新发布的飞桨核心框架2.4版本,就着重对大模型开发进行了一系列功能的支持,以及面向大模型推理部署需求提供了一系列模型封装能力,并且提供简单易用的模型开发工具,在业界首发端到端大模型开发套件PaddleFleetX。飞桨企业版AI开发平台EasyDL和BML也围绕大模型的技术应用进行了全新升级,发布了提供全流程开箱即用的大模型平台能力,加速大模型的产业落地。

至此,我们可以看到百度在搭建飞桨+文心产业基座,赋能大模型开发过程中的清晰思路:大模型并不仅仅是某种技术的创新,或者一个平台的搭建。而是需要从最终用户,最开发者与企业的应用需求出发。一步步倒推需要哪些支持,每一个环节还有哪些阻碍?

只要将这些阻碍一个个解决掉,将支持一个个搭建好,将所有复杂且具有挑战的事先行完成,那么开发者和企业最终就将得到最简单、可用的大模型。大模型与产业之间,也就实现了两点之间,直线最短的连接。

这就是百度式的大模型发展思路,这就是化繁为简归文心。

800b621bb90956eceebaff8b48239cc9.gif



推荐阅读
  • H5技术实现经典游戏《贪吃蛇》
    本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术,我们将探讨如何构建这款游戏的两种主要玩法:积分闯关和无尽模式。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 本文探讨了Java中有效停止线程的多种方法,包括使用标志位、中断机制及处理阻塞I/O操作等,旨在帮助开发者避免使用已废弃的危险方法,确保线程安全和程序稳定性。 ... [详细]
  • 如何高效学习鸿蒙操作系统:开发者指南
    本文探讨了开发者如何更有效地学习鸿蒙操作系统,提供了来自行业专家的建议,包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]
  • 视觉Transformer综述
    本文综述了视觉Transformer在计算机视觉领域的应用,从原始Transformer出发,详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构,还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]
  • 入门指南:使用FastRPC技术连接Qualcomm Hexagon DSP
    本文旨在为初学者提供关于如何使用FastRPC技术连接Qualcomm Hexagon DSP的基础知识。FastRPC技术允许开发者在本地客户端实现远程调用,从而简化Hexagon DSP的开发和调试过程。 ... [详细]
  • 小编给大家分享一下Vue3中如何提高开发效率,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获, ... [详细]
  • 本文详细介绍了PHP中的几种超全局变量,包括$GLOBAL、$_SERVER、$_POST、$_GET等,并探讨了AJAX的工作原理及其优缺点。通过具体示例,帮助读者更好地理解和应用这些技术。 ... [详细]
  • 电脑护眼模式_解决眼睛疲劳,f.lux软件安装与使用指南
    随着电子设备的普及,护眼成为显示器和操作系统的必备功能之一。本文将详细介绍如何通过安装和配置f.lux软件来有效减轻长时间面对电脑屏幕造成的眼部不适。 ... [详细]
  • 支付宝新功能:直接入口提升用户体验
    本文探讨支付宝最新推出的直接入口功能,旨在提升用户使用小程序的便捷性,并分析这一变化对支付宝及小程序开发者的影响。 ... [详细]
  • Java虚拟机及其发展历程
    Java虚拟机(JVM)是每个Java开发者日常工作中不可或缺的一部分,但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程,帮助读者深入了解这一关键技术。 ... [详细]
  • 本文介绍了记事本的基本保存方法以及通过辅助软件实现自动保存的技术,帮助用户更好地管理和保护重要数据。 ... [详细]
  • 2023年,Android开发前景如何?25岁还能转行吗?
    近期,关于Android开发行业的讨论在多个平台上热度不减,许多人担忧其未来发展。本文将探讨当前Android开发市场的现状、薪资水平及职业选择建议。 ... [详细]
  • 本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战,包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时,作者结合自身项目经验,分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]
  • 探索百度WebFE团队打造的强大HTML5上传插件Web Uploader
    本文将详细介绍由百度WebFE团队开发的Web Uploader,这是一款集成了HTML5与Flash技术的上传组件,以其卓越的用户体验和强大的功能著称。 ... [详细]
author-avatar
材女貝蒂_673_576
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有