免费彩蛋一年秀一次！稚晖君的人形机器人上新了还有开源

作者： 2024年08月19日创投浏览

一年一秀，稚晖君的第二代人形机器人来了。

灵巧小手，正在麻将桌上叱咤风云：

不对不对，让我们先看看整体气质：

然后是常规家务，能看出来也是非常熟练：

在大模型风靡的 2024 年，如果说 AI 领域什么最火，「具身智能」这个方向必定位列其中。

视线放到国内，「智元机器人」这家具身智能公司备受瞩目。自 2023 年 2 月成立以来，「智元机器人」已马不停蹄地完成了 6 轮融资，迅速成为机器人创业圈的「顶流项目」。

创业半年，稚晖君和团队就拿出了首款产品「远征 A1」。一出道，「远征 A1」的行走能力和人机互动就是业界领先水平。不过，在「远征 A1」初次亮相之后，我们似乎再也没听说过它的下一步消息，甚至没有放出任何整活视频。

但今天的发布会之后，我们知道了，智元机器人在「闷声干大事」。

在这场发布会中，稚晖君一口气推出了三款远征系列机器人产品：交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节，智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作为「彩蛋」正式亮相。

相比上一代，五款机器人采用了家族化设计语言，对机器人的外形进行了系列化的规整，结合轮式与足式两种形态，覆盖交互服务、柔性智造、特种作业、科研教育和数据采集等应用场景。

关于量产进度，智元机器人也透露了最新消息：2024 年预估发货量将达到 300 台左右，其中双足 200 台左右，轮式 100 台左右。

新一代远征 A2

从「远征 A1」开始，智元在机器人产品上的落地方向就已经很清晰：「进厂打工」。今年的「远征 A2」更是为批量「进厂打工」做了更充分的准备。

我们来看下这个家族的成员：

「远征 A2」是一款交互服务机器人，全身具备超过 40 个主动自由度的关节和仿人的灵巧双手，能够模拟出丰富和复杂的人类工作。它拥有一个可以持续学习的大脑，由大语言模型加持。此外，它还具备多模态的感知，输入系统，可以通过视觉感知交互者的情绪。

「远征 A2-Max」是一款重载特种机器人，既力大无穷又具备灵巧作业的优势，在开场的情景剧中，它轻松地搬动了 40kg 的航空箱，目前「远征 A2-Max」还处于产品研发阶段。

「远征 A2-W」是一款柔性智造机器人，它的两条手臂既可以独立操作，也可以协同工作。它采用了轮式底盘，结合机身搭载的 rgbd 激光雷达、全景相机、为全域安全配置的传感器等等构件，使得它可以在各种环境中快速而平稳的移动。

在发布会前，「远征 A2-W」的表现简直像钢铁侠的「贾维斯」走进了现实。在听懂稚晖君的指令后，它完全自主地打开了可乐瓶子，在榨汁机中放入葡萄，按下榨汁机，一滴没撒地把榨汁机里的饮料倒进了杯子，给稚晖君端上了一杯「萄气可乐」。

除了颜值提升，「远征 A2」系列机器人更是内外兼修。对于机器人的核心零部件，「智元机器人」创新地将机器人系统划分为动力域、感知域、通信域、控制域。显然，「智元机器人」都是冲着全栈生态去的。

在动力域方面，「智元机器人」对 PowerFlow 关节模组实现了量产化迭代升级，从参数上看，PowerFlow 关节模组都有大幅提升。在稳定性和可靠性方面，「智元机器人」也对其峰值性能、老化速度等方面进行了大量测试和优化。

对于「干活」而言对重要的灵巧手，这回「智元机器人」也升级了一番：自由度数跃升至 19 个，主动自由度翻倍至 12 个，在感知能力方面也引入了更多模态，例如基于 MEMS 原理的触觉感知和视触觉感知技术。

此外，「智元机器人」还推出了高精度力控 7 自由度双臂，能够精准执行阻抗控制、导纳控制、力位混控等多种力控任务，也支持双臂拖拽示教模式和可视化调节。

对于感知域方面，新一代的远征机器人系列集成了 RGBD 相机、激光雷达、全景相机等传感器，引入自动驾驶 Occupancy 前沿感知方案，通过 SLAM 算法进一步提升环境理解能力。

在通信域方面，「智元机器人」自研了具身原生、轻量化、高性能的智能机器人通信框架 AimRT。相比 ROS 等第三方中间件，提升了性能、稳定性、系统部署的效率和灵活性，同时又完全兼容 ROS/ROS2 已有生态。AimRT 将于 9 月底开源。

对于控制域方面，「智元机器人」结合了 Model-based 与 Learning-based 两种算法，进一步提升机器人运动控制与适应能力。对于 Model-based，「智元机器人」进一步提升了系统的鲁棒性，因此，在发布会上机器人所做的展示才能如此流畅和丝滑。对于 Learning-based 算法，「智元机器人」在这里划了一个重点，希望能促成机器人训练方法从算法驱动 - 数据驱动的转变。

在运控算法的基础上，「智元机器人」预研了基于自然语言指令集驱动的、可以适配不同机器人本体的 AgentOS，基于强化学习，实现机器人技能的精准编排与高效执行。

首次提出 G1-G5 具身智能技术演进路线

在本次发布会上，智元机器人还首次提出了具身智能领域的技术演进路线，包含从 G1 到 G5 五个阶段：

G1 指的是基础自动化阶段，也就是基于手工设计的特征，配合简单的机器视觉去做一些反馈。这一阶段的部署是为特定的场景量身定制的，虽然可以解决某些场景下的任务执行问题，但无法在不同的场景里面做低成本快速迁移。

G2 是「通用原子技能」阶段，针对大量不同的场景任务和各种作业的任务需求，提炼出一些可以复用的原子能力。简而言之，是以相对通用的方式去实现类似场景任务的快速迁移，然后配合大语言模型框架去做任务编排，使得机器人具备一定的泛化能力。

G3 则意味着具身智能的整体架构开始调整为「端到端」的路线，尽管这个阶段与 G2 阶段的算法架构可能是类似的，但此时的各项「原子能力」的形成方式，已经由手工设计的算法驱动变为了大量数据采集之后的数据驱动。

区别于前三个阶段，G4 阶段将会出现一个通用的端到端操作大模型。到了这一阶段，即可引入大量跨场景的真实数据和仿真数据，同时引入世界模型帮助 AI 理解现实世界背后的物理原理，理解不同任务背后底层逻辑的相通之处。比如对于「拧开瓶子」和「拧开门把手」这两件事，就不再需要采集两份单独的数据以获得两项单独的技能。最终通向无限趋近 AGI 的 G5 阶段。

过去一年，智元机器人已经在 G2 路线取得了阶段性突破，实现了通用的位姿估计模型 UniPose、通用的抓取模型 UniGrasp，通用的力控插拔模型 UniPlug 等一系列 zero-shot 和 few-shot 的通用原子技能。在 G2 阶段的原子能力模型，面向柔性智造和交互服务场景，已经在多个实际场景中得到了商业应用。

在 G3 路线上，智元机器人也形成了一套完整的全流程具身数据方案 AIDEA（Agibot Integrated>