热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

「春花秋月何时了」里面编码着「国恨家仇」

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。自然语言会不会机器语言效率更低呢?恰恰相反,自然语言是一种比机器语言高效,准确得多

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。
自然语言会不会机器语言效率更低呢?
恰恰相反,自然语言是一种比机器语言高效,准确得多的语言,越古老,语料越丰富的语言,就越高效,越准确。
这个结论非常反直觉,我来解释一下。
以 SMTP (简单邮件传输协议)为例,它定义了大约十几个命令,比如 HELO,OLEH,FROM,RCPT,DATA 等等。如果用二进制表达,2 的 4 次方差不多就够了。很简单,很高效对吗?
如果是用自然语言表达,可能是「你好」,「Hola」,或者「こんにちわ」或者 「م١ليب」。这些文字,通过一个类似于 GPT-3 一样的大语言模型,会被翻译成一个 1536 维的向量,也就是 1536 个浮点数字。如果一个浮点数用 4 个字节表达,那就 2 的 32 次方的 1536 次方的信息,或者等于 2 的 49152 次方这么一个数字。这个数字大得让我窒息。这个数字有多大,我不知大。至少我知道,我们现在已知的整个世界的原子数是 2 的 78 次方,多一位,就是 2 的 79 次方(就是两倍于宇宙的原子数)就已经让我无法想象了,不要说从 78 次方变成 49152 次方。
而传输的自然语言本身有多少信息量呢?你好用 Unicode 编码也就是四个字符,2 的 32 次方而已。
也就是是说,大语言模型可以把任何一个自然语言的词或者句子「扩展」成远远远远大于这个词本身的信息量。
也就是说,4 个字节的信息进6000 多个字节出。这不符合信息守恒定律呀。这是怎么做大的呢?
秘密就在于:人类的自然语言的历史上所有的语料,就是一本「密码本」。这个密码本被说的人和听的人共享。
举例子,如果我们有一本厚得不得了的书,几百亿页,包含了人类所有重要的知识。要是相隔几千公里的两个城市都有这个密码本,我们想把《三体》这一本书传递到另外一个城市,我们不用传递《三体》本身的 100 万字,而需要告诉对方一个索引,可能就是一个很小很小的数字,对方就可以从中根据密码本找到这本书。
人类历史上的所有的自然语言加和,就是这么一本密码本。我们只要说一句「春花秋月何时了」,不用加任何其他的信息,国恨家仇,幽怨的囚禁生活等等这些信息,不需要传递,就已经在每个懂这门语言的人的心里传递过去了。
两个人刚刚见面,表达一件事情需要说很多话;但是当两个人在一起合作了 20 年,可能三言两语,对方就心领神会。当两个人有共同的知识的情况下,可以通过传递更少的信息,而从共享的数据中获取多得多的信息。
我们回到 SMTP 的例子,我们看似几个命令非常简单,但是要是表达极为复杂的内容,根本无法用这几个命令组合完成。比如一个机器人决定礼貌的问候对方 ,而他只有 HELO 这一个指令,他将毫无办法。但是未来,一个机器人和另外一个机器人的问候语,可以是「你好」,可以是「吃了吗?」,可以是「」,可以是「你丫的跑哪去了?」,这几字节的信息能够传递的丰富的内涵,只要看一下汗牛充栋的小说,文献,就可以当作从这几句里面扩充信息的丰富的素材。
苹果」这两个字,如果让不懂自然语言的人看起来就是两个字的信息。但是大语言模型眼里面,这两个字里面包含了「」,包含了「」,有「」,也有「种子」,有「邪恶」的感觉,也有「七个小矮人」环绕,有「图灵」的不甘心。。。。你只要想想一下 2 的将近 50000 次方里面能放多少信息,苹果这两个字里面在大模型里面就有多少信息。
所以,用自然语言作为机器人和机器人之间的交流语言,不但不会低效,反而是无法想象的高效。就如同人类的一个眼神,就传递了无数的信息。这些信息其实不仅仅是由信息本身传递的,而是在人类的基因和文化的浩瀚的结构中包含的,眼神仅仅是一个索引

我进一步推论,历史越长,内容越浩瀚的语言,传递的效率越高。比如中文,就比毛利语更能准确的传递信息,因为中文的语料,有几千年的积累,而毛利语我们能找到的文献,相比来说小得多。或许,英语,中文这样的语言是最适合机器人交流的语言。

注:后台回复「文心一言」可以通过「文心一言智能号」直接开始体验。


推荐阅读
  • C语言标准及其GCC编译器版本
    编程语言的发展离不开持续的维护和更新。本文将探讨C语言的标准演变以及GCC编译器如何支持这些标准,确保其与时俱进,满足现代开发需求。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 小度科技完成B轮融资,估值突破330亿
    8月24日,百度宣布其智能生活事业群组业务——小度科技成功完成B轮融资,估值达到330亿元人民币。此次融资的具体投资方尚未公布。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • C语言入门精选教程与书籍推荐
    本文精选了几本适合不同水平学习者的C语言书籍,从基础入门到进阶提高,帮助读者全面掌握C语言的核心知识和技术。 ... [详细]
  • 转自:http:www.yybug.comread-htm-tid-15324.html为什么使用Twisted? 如果你并不准备使用Twisted,你可能有很多异议。为什么使用T ... [详细]
  • Linux环境下通过PHP SMTP发送邮件的配置指南
    本文详细介绍了如何在Linux系统中配置PHP通过SMTP发送邮件,包括防火墙设置、端口检查与释放、IPv6到IPv4的转换、DNS缓存刷新以及PHP相关配置等步骤。 ... [详细]
  • 深入理解IIS:全面解析与应用
    本文详细介绍了IIS(Internet Information Services)的功能及其在不同Windows系统中的应用,探讨了IIS如何支持多种网络服务,如Web、FTP、NNTP和SMTP,并解释了其在现代网站开发和服务器管理中的重要性。 ... [详细]
  • AIY计划由Google发起,旨在通过提供易于使用的工具包和技术支持,激发全球创客的创造力,推动人工智能技术的普及与创新。 ... [详细]
  • 本文提供了详细的指导,帮助开发者了解如何使用PHP插件进行网站内容的翻译,特别是针对WordPress插件和主题的汉化及多语言支持。 ... [详细]
  • 本文将详细介绍如何使用剪映应用中的镜像功能,帮助用户轻松实现视频的镜像效果。通过简单的步骤,您可以快速掌握这一实用技巧。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法,并提供了多个实际代码示例,帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目,具有很高的参考价值。 ... [详细]
  • 解决PHP与MySQL连接时出现500错误的方法
    本文详细探讨了当使用PHP连接MySQL数据库时遇到500内部服务器错误的多种解决方案,提供了详尽的操作步骤和专业建议。无论是初学者还是有经验的开发者,都能从中受益。 ... [详细]
author-avatar
帅气小子勇哥
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有