链兴·行研丨10分钟解读VSLAM技术与一级市场投资机会

作者：戴乐季206 | 来源：互联网 | 2023-09-25 15:54

Software is eating the world!ChatGPT 带来了 NLP 行业新范式，人机文本交互来到了全新的高度。那么移动机器人的行业新范式将如何跃迁呢？本文将试图以智能机器人传感器

Software is eating the world!

ChatGPT 带来了 NLP 行业新范式，人机文本交互来到了全新的高度。那么移动机器人的行业新范式将如何跃迁呢？本文将试图以智能机器人传感器的发展迭代为线索，探讨下一代移动机器人的新机会。

服务机器人写入“十四五”规划，国家战略顶格推动行业发展。随着劳动人数供给不足、成本提升以及人工智能和机器人技术的进一步成熟，机器人成本低于人工成本的拐点将近，这其中起到关键作用之一的就是基于 VSLAM（VisualSimultaneous Localization And Mapping）算法的机器人视觉融合导航技术。预计从 2022 年到 2031 年其市场规模年复合增长率将达到 25% 以上，2031 年全球市场规模将达到 171 亿美元。在五类潜在进入者中，VSLAM 技术创业者具有独特竞争优势，且有望实现垄断的行业终局，但仍需面临技术、资金、市场三大考验。

链兴资本致力于为前沿科技创业者提供一流股权投融资服务，成为创业者的资本合伙人。本文由链兴资本访谈行业一线专家，以及综合网络资料、研报后整理撰写。欢迎朋友们交流讨论。

人类发展史就是一部工具提升效率史

从石器时代到正在经历的第四次工业革命，人类的工具从石铁棍棒到机械装置，从蒸汽时代到信息时代，其最显著的特点就是从工具的“不动”到“动”，从“被动”到“主动”，并最终走向更加自主、更加智能决策。这其中最关键的环节就是从“被动”到“主动”，这意味着工具（机器）对外界的探索，从感知层面上升到了认知层面。

在机器人的发展过程中，最早期的机器人就是通过执行固定程序完成固定工作，如机械臂夹取、焊接。之后，在此基础上又加入了移动能力，通过遥控车辆完成特定作业，如探索、排爆。后续，加入了各类传感器的机器人可以更好地获得外界信息，如力觉、听觉、视觉等等，但在人工智能算法加入之前，机器人的操作人员仍然需要分析判断这些信息，并且给予机器人进一步的行动指令。当今前沿的科技探索，正是如何让机器人自己“动”起来以完成某些特定任务。

对机器而言，“自己动起来”即包括了观察（Watching），思考（Thinking），移动（Walking），工作（Working）的全过程。在这个过程中，Walking & Working 在各自领域已经有了相对成熟的解决方案，而 Watching & Thinking 正是从“被动”到“主动”的关键过程。

SLAM——Watching & Thinking，我在那？我去哪？怎么去？

SLAM (Simultaneous Localization And Mapping，同步定位与地图构建 )，主要为了解决移动机器人在未知环境运行时定位导航与地图构建的问题，这个问题一直是机器人和相关领域的热门话题。它主要解决的问题是：机器人在哪里？我周围的环境是什么样子的？我应该如何移动？

机器人可以配置多种传感器来实现 SLAM，包括激光雷达（3D，2D），毫米波雷达，超声波，RGB-D，摄像头（单目，多目）等，通常根据使用场景、制造成本、设备功率、算力的需求与约束，机器人采用不同传感器或组合的解决方案，以减少误差并提高准确性。目前两个主流的解决方案是基于激光雷达的 Lidar SLAM 以及基于摄像头的 Visual SLAM。

Lidar SLAM 使用 2D 或 3D 激光雷达传感器制作地图并在地图中定位。一般来说，2D 激光雷达用于室内应用，而 3D 激光雷达用于户外应用。由于使用了主动传感器和传感器融合算法，激光雷达 SLAM 是最精确的 SLAM 技术。但是，即使经过多年发展，几大核心问题始终无法被有效解决，以至于今天我们仍然很难见到他们的普遍应用：

首先，高精度激光雷达的相对成本较高，中大型机器人在安全和成本之间只能选择前者，其注定是商业场景（重型清洁机器人）或高端消费场景（智能汽车）的解决方案。
其次，激光雷达扫描结果缺乏语义信息，仅能对物体切面轮廓进行建模、进行基本的感知和避障，无法进行识别，更不用说进一步的认知以及交互决策。
第三，激光雷达解决方案高度依赖于高精地图信息的建立。受限于激光雷达扫描结果的特性影响，通常在初步扫描建图结束后，工程师团队仍然需要进行地图的人工效验、识别激光雷达风险区域、并设立大量“人工禁区”，否则机器人无法独立开展工作。而且，一旦场景中的物体发生了较多移动，用户又需要对地图进行重新建图。

从以上问题不难看出，一个配备昂贵的激光雷达解决方案的机器人，不仅需要工程师团队的辅助与支持，还无法识别周围的环境与物体信息，因此，这样的设备更多地可以理解为“移动的机器”，而非“机器人”。

人类的信息获得百分之九十来自于视觉感官

借助仿生学的研究、将生物 35 亿年进化的结果作为发明的参考，我们发现，对人类自身而言，至少有 80% 以上的外界信息经由视觉获得。对机器人而言，则是依赖各类传感器获取外界信息：从最早期的碰撞反馈（前后的一维感知），到激光雷达扫描（一个平面的二维感知），再到双（多）目摄像头组成的基于仿生的立体视觉系统（对空间的三维感知）。

对人类视觉的仿生，帮助机器获得了对空间的感知，使其具备了“人”的基本能力与前提，这就是 VSLAM 的意义与价值。

VSLAM——下一代机器人核心，构建机器认知与决策的基础设施

视觉传感器可以比任何其他传感器在颜色和每个像素上获取更多、更可行的位置信息。视觉传感器受到青睐，因为人和动物正在使用视觉作为主要传感器在复杂位置有效导航。VSLAM 的原理很简单，目标是根据图像序列中像素的感知运动顺序估计摄像头或机器人的运动。

VSLAM 传感器：

单目摄像头：由于很难测量与单个图像的真实距离，已逐渐不再被厂家采用。
立体（多目）摄像头：如双目摄像头，在两个摄像头之间存在一定距离（基线），模仿人的双眼可以有效测量物体距离，但同时需要大量实时计算。
RGB-D 摄像头：提供了出除 RGB 图像外，包含每个点深度值的深度图像的密集的点云。由于其对光线影响十分敏感，通常用于室内环境。

VSLAM 框架：

传感器数据读取：从摄像头读取数据，以便系统处理；
前端视觉里程计：进行前端的连续图像帧之间的运动估算（视觉里程），会产生一定的位置的累积漂移；
后端优化：根据传感器引起的噪音调整视觉里程测量结果；
回环检测：当一个点被识别两次时进行检测，校正整个地图的累积漂移误差；
建图：根据测量和校正步骤构建地图。地图可以是度量的（强调对象的度量位置）和拓扑的（强调地图对象之间的关系）。

VSLAM 主要技术类型：

语义 SLAM：多是对密集的点云（point cloud）通过 ICP 来进行点对点 alignment，这种做法比较准确，把所有的数据都联合起来就可以得到地图与 sensor 的轨迹。但因为纯是点对点运算，可能会丢失一些画面中属于画面特征的重要信息。
Direct SLAM：直接使用图像，没有任何特征检测器和描述符。这种无特征方法使用光度一致性来记录两个连续的图像（对于基于特征的方法，注册基于特征点的几何位置）。其中最著名的是 DTAM、LSD-SLAM、SVO 或 DSO 等算法。但 Direct SLAM 方法很耗时，通常需要基于 GPU 的处理。
RGB-D SLAM：基于结构化的光基 RGB-D 相机传感器的 SLAM 技术。可以实时提供 3D 信息，主要用于范围低于四到五米的室内导航。
Event Camera SLAM：可以通过检测视觉“事件”，即图像的变化来提供“无限”帧速率。这种传感器最近被用于 V-SLAM。然而，这项技术还不够成熟，无法就其在 SLAM 应用中的性能得出结论。

VSLAM 流行算法：

RTAB-Map SLAM：代表基于实时外观的映射，支持视觉和激光雷达 SLAM，允许用户为具有不同机器人和传感器的广泛应用程序实现和比较各种 3D 和 2D 解决方案。它使用带有 RGB 图像的深度图像来构建地图。
SLAM 的深度学习：基于深度学习的视觉里程法可以直接从数据中估计相机的姿势。对于监督视觉里程测量，它需要外部地面真相作为监督信号。相比之下，无监督视觉里程法使用其输出作为监督信号的成本更低。
‍
ORB-SLAM：用于计算相机轨迹和稀疏的 3D 重建。它可以实时检测循环并重新定位相机。该系统在各种环境中在标准 CPU 上实时工作。基于束调整的后端与单目和立体观测，允许使用公制尺度进行准确的轨迹估计。该系统包括一个轻量级本地化模式，该模式利用未映射区域的可视化里程测量轨道，并匹配允许零漂移定位的地图点。ORB SLAM 的主要功能是特征跟踪、映射、环路闭包和本地化。
‍

‍

视觉 SLAM 可全面替代激光 SLAM？

首先，从技术发展和演变历程来看，SLAM 技术主要分为三个阶段：经典阶段，算法分析阶段和鲁棒感知阶段（如下图）。激光 SLAM 自 2016 年 google 开源了 Cartographer 算法后，近几年几乎没有显著进展，主要原因就是受制于激光只能构建单纯的几何环境模型，机器人的交互能力严重受限，缺乏对环境内容的解读能力是限制其智能化的瓶颈之一。因此人们研究的重点转入了以视觉语义为基础的下一阶段。

内容摘自：公众号混沌无形《机器人环境感知研究现状简述》

经典阶段（1986-2004）：SLAM 算法的早期尝试，系统效率及鲁棒性方面有待提升。
算法分析阶段（2004-2015）：该阶段主要研究 SLAM 系统的基本性质，包括可观测性、收敛性和一致性，SLAM 算法在系统效率、鲁棒性及环境表达等方面已经取得非常大的突破，且已成功应用于部分实际场景。
鲁棒感知阶段（2016 至今）：要求 SLAM 系统具备更稳健的性能、更高阶的理解能力等多智能特征。要求语义 SLAM 将“环境语义信息”与“传统 SLAM 几何地图”有效结合，丰富环境模型表达内容，更利于机器人理解环境。

‍

其次，从实际商业应用角度对比激光 SLAM 与视觉 SLAM 解决方案（如下表），视觉 SLAM 在实际场景应用方面具有更高的商业价值。

注 1：即 50 元成本的视觉方案效果相当于 100 元成本的激光效果

最后，从人力替代的成本角度分析，以目前行业成熟度最高的商业清洁领域为例，国内一个普通清洁服务人员每月成本约 3000 元，年成本约 4 万元。虽然，机器人理论上可以做到 7*24 小时工作，相较于每天 8 小时的人工效率至少可以提升 5 倍，但由于受到机器人电池容量、日常维护、以及可用工作时间、工作环境等综合因素影响，仍然以 1:1 替代人工进行考虑计算。

在商业清洁机器人中，导航 BOM（Bill of Material）成本占比约 40%，以 50% 毛利率计算机器人售价，达到商业场景应用精度的导航模组，视觉 SLAM 解决方案 BOM 成本约 6000 元，整机售价约 3 万元，激光 SLAM 解决方案 BOM 成本约 1.2 万元，整机售价约 6 万元。按 3 年使用寿命计算，视觉 SLAM 解决方案回本时间约 10 个月，年均 ROI 约 87%，激光 SLAM 解决方案回本时间约 1 年 8 个月，年均 ROI 约 27%。

因此，视觉 SLAM 方案将更有机会带来机器人成本低于人工成本的拐点，率先实现产业爆发。

保守预计至 2031 年，全球导航模组供应市场规模可达 160 至 170 亿美元

潜在市场包括，所有遵循 Watching & thinking & Walking & Working 模式的工业、服务场景。对 VSLAM 来说，可以赋能自主移动机器人 (AMR)，让后者能够自动绘制环境地图、具备自动避障、上坡和越坎等功能，这是服务机器人是最主要的应用方向。根据世界机器人联合会（IRF）对服务机器人的分类，服务机器人包括家用机器人以及商用机器人两个大类，如下图：

根据可替代人类劳动的标准进行划定各个领域的成熟度，目前商用清洁机器人、终端配送机器人、讲解引导机器人、家用清洁机器人等细分领域对 VSLAM 规模化应用的潜力最大。将作为其目标市场做进一步分析。

根据 Globe Newswire 预测，2021 年全球清洁机器人市场规模约 92 亿美元，至 2031 年将以年化复合增长率 25% 快速增长，至 2031 年全球清洁机器人市场规将达到约 857 以美元，同样以机器人 50% 毛利率、导航成本占比 40% 进行计算，导航模组市场规模约 171 亿美元。

此外，根据 Research and Markets 预测，全球服务机器人 2028 年市场规模将达到 1686 亿美元，2022 至 2028 年年复合增长率约 23.1%。假设以该增长率至 2031 年，则全球服务机器人市场规模将达到 3145 亿美元，按清洁机器人占比 26% 计算，则清洁机器人市场规模将达到 818 亿美元，导航模组市场规模约 164 亿美元。

除了商用与家用清洁机器人，巡视、草坪修剪、配送、讲解、引导等众多领域将应用到导航模组，其市场规模会进一步提升。

VSLAM 主要有五类潜在进入者

首先从机器人产业链方面，会存在上游 SLAM 技术公司，以及中游机器人集成品牌厂商两种可能。

上游 SLAM 技术公司将以创业者姿态研发新技术，再不断通过与中游成熟厂商或下游终端客户的磨合提升技术成熟度，进一步扩大市场。
中游品牌厂商主要通过自研技术创新实现 VSLAM 突破，这中间又存在两种类型的厂商，传统设备厂商转型做机器人，以及原生机器人厂商。

其次从 AI 技术角度出发，同样存在两类潜在进入者：传统 AI 技术大厂以及车规级自动驾驶技术厂商。

传统 AI 技术大厂：综合 AI 技术储备较多，但往往深度不足，全球仅 Intel 和 Google 在立体视觉领域进行过体系化（全技术栈）的研究尝试，其他大厂对立体视觉方向尚未见到商业应用尝试（未推出相关产品，未参与机器人厂商相关技术招投标）。
车规级自动驾驶厂商：依赖预建高精地图以及超强的计算能力，对大量高精度高成本传感器获得的数据进行快速实时处理以实现超复杂情况下车辆的高速安全运行。与 AMR 要求的匹配相对低成本低功耗设备、达到高精度定位导航的需求，存在较大的技术路线差异。

从技术实力、市场销售能力、商业条件综合对比以上五类潜在进入者，其优劣势小结如下：（1 分为极弱，7 分为极强）

目前来看，VSLAM 的竞争主要存在于技术创业者与原生机器人厂商之间。鉴于 VSLAM 技术属于产业链上游，而产业链上游发展的终局目标应当是不断提升技术的通用性和易用性进而实现行业垄断。但原生机器人厂商的技术受其自身商业竞争影响又很难销售给其他品牌。因此，若其持续投入研发，最终将因为高昂的研发成本影响毛利率，甚至带来亏损，除非可以快速提升出货量摊薄研发成本。若不再持续投入研发，则其技术终将被上游 VSLAM 厂商超越，而其竞争对手更容易获得先进的第三方技术，从而在下游市场实现弯道超车。

VSLAM 创业者需要经历三大考验

首先就是全技术栈技术积累与研发能力：包括各类 VSLAM 技术能力和工程能力。VSLAM 技术能力主要指基于不同场景、光线、材质、信号源、终端业务要求，是否可以实现持续、稳定、精准、实时的定位与导航（最好能有一些技术名词）。工程能力主要指各类型传感器的适配，特别是对低端低成本传感器信号的解读优化，首先通过技术本身实现持续降本增效，其次才是通过量产规模压低硬件成本。

其次是启动资金与持续融资的能力。以相对创新的技术一般研发周期和规律来看，第 1-2 年通常属于实验室研发阶段，第 2-3 年开始获得种子客户的商业机会，与种子客户洽谈、POC、部署实施、持续反馈调优至打造首个行业标杆，通常也需要 1-2 年的时间。在此之前总计需要 4-5 年进行早期研发投入。以人工智能领域平均 50 万左右年人事费用计算，30 人左右团队 4 年人事投入需要约 6000 万元。且该阶段很难通过市场反馈或数据指标来证明公司价值。因此无论是对创业者估值融资，还是对机构或个人投资，都带来不小的压力。

最后是市场拓展与跨场景复制的能力：拥有标杆客户案例之后，是否可以成功的完成相同领域不同客户的销售，以及不同领域不同场景客户的销售，进一步验证技术的通用性以及公司的销售能力，将会是检验创业公司能否最终存活的关键一环，如果对于不同场景无法全面适配，仍然需要工程师逐一调参调优，将很容易进入项目制的商业模式，作为机器人上游厂商则无法形成最终的垄断地位。‍

更进一步，在商业模式方面的突破路径是否可以从技术买断、到按机器人台数收费、再到云服务收费呢？

链兴资本正在为全球领先的 VSLAM 创业公司进行股权融资，为上述三大考验提供经过市场实践的解决方案，欢迎沟通接洽！

注：因业务约束，本文提及行业规模测算及潜在进入者分析为删减版内容，具体 TAM 测算过程及行业探讨欢迎加作者微信，共同交流：‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

更多链兴·行研

链兴 · 行研 | 新的百亿级赛道诞生！谁将是中国版 PI 实时数据库？
‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

链兴 · 行研丨从「索辰信息」首发过会一窥中国 CAE 发展
链兴 · 行研丨从「达梦数据库」冲击 IPO 看中国数据库发展
链兴 · 行研丨从「星环科技」上市看中国基础软件发展
链兴 · 行研丨从「华大九天」上市看中国 EDA 市场

关于链兴

链兴资本是专注于科技创新领域的精品投行和股权投资机构，由国内顶尖投行和投资机构高层员工创办。2018 年成立至今，链兴资本已帮助数十家公司完成了私募融资交易，累计交易金额超过 60 亿人民币。代表项目包括：数字化运维企业云智慧、金融交易系统服务商盛立科技、区块链 + 大数据数融平台数秦科技、终端安全服务平台梆梆安全、云原生批流融合数据平台 ApachePulsar、分布式边缘云基础设施平台秒如科技等。
投资方面，公司旗下管理了多支人民币和美元基金，投资了数字化运维企业云智慧、人工智能医疗创新高科技企业推想医疗等科技创新领域的独角兽公司。

推荐阅读

go
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
byte
深入解析 Redis 的数据结构与对象系统

Redis 是一个高性能的开源键值存储系统，支持多种数据结构。本文将详细介绍 Redis 中的六种底层数据结构及其在对象系统中的应用，包括字符串对象、列表对象、哈希对象、集合对象和有序集合对象。通过12张图解，帮助读者全面理解 Redis 的数据结构和对象系统。 ... [详细]

蜡笔小新 2024-11-16 17:48:35
tree
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
char
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
main
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
main
禁止Mysql默认端口访问Internet

过去查询Mysql的时候，都见3306对所有端口开放着，感觉不安全。netstat -anlp | grep mysqltcp 0&am ... [详细]

蜡笔小新 2024-11-13 17:36:31
go
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
char
MySQL InnoDB 存储引擎索引机制详解

本文深入探讨了MySQL InnoDB存储引擎中的索引技术，包括索引的基本概念、数据结构与算法、B+树的特性及其在数据库中的应用，以及索引优化策略。 ... [详细]

蜡笔小新 2024-11-21 12:41:51
copy
UE4 中的距离场技术详解

本文将深入探讨 Unreal Engine 4 (UE4) 中的距离场技术，包括其原理、实现细节以及在渲染中的应用。距离场技术在现代游戏引擎中用于提高光照和阴影的效果，尤其是在处理复杂几何形状时。文章将结合具体代码示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-19 18:21:03
copy
低代码行业为何难以孕育大型企业？

探讨低代码行业发展现状，分析其未能催生大型企业的原因，包括市场需求、技术局限及商业模型等方面。 ... [详细]

蜡笔小新 2024-11-19 14:38:02
go
深入解析RelativeLayout、LinearLayout与FrameLayout的性能差异

本文详细分析了FrameLayout和LinearLayout的性能对比，通过具体的测量数据和源码解析，探讨了不同布局在不同场景下的性能表现。 ... [详细]

蜡笔小新 2024-11-17 16:09:35
char
开发笔记:前端之前端初识

开发笔记:前端之前端初识 ... [详细]

蜡笔小新 2024-11-16 16:05:59
char
自动驾驶中的9种传感器融合算法

来源丨AI修炼之路在自动驾驶汽车中，传感器融合是融合来自多个传感器数据的过程。该步骤在机器人技术中是强制性的，因为它提供了更高的可靠性、冗余性以及最终的 ... [详细]

蜡笔小新 2024-11-16 12:07:16
char
HTML 页面中调用 JavaScript 函数生成随机数值并自动展示

在HTML页面中，通过调用JavaScript函数生成随机数值，并将其自动展示在页面上。具体实现包括构建HTML页面结构，定义JavaScript函数以生成随机数，以及在页面加载时自动调用该函数并将结果呈现给用户。 ... [详细]

蜡笔小新 2024-11-06 12:20:41
char
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31