分层世界模型 LeCun新作 数据驱动的人型机器人控制

新智元报道

编辑:alan

【新智元导读】 在复杂的物理世界中,人型机器人的全身控制一直是个难题,现有的强化学习做出的效果有时会比较抽象。近日,LeCun参与的一项工作给出了基于数据驱动的全新解决方案。

有了大模型作为智能上的加持,人型机器人已然成为新的风口。

科幻电影中「安能辨我不是人」的机器人似乎已经越来越近了。

不过,要想像人类一样思考和行动,对于机器人,特别是人型机器人来说,仍是个艰巨的工程问题。

就拿简单的学走路来说,利用强化学习来训练可能会演变成下面这样:

道理上没什么问题(遵循奖励机制),上楼梯的目标也达到了,除了过程比较抽象,跟大部分人类的行为模式可能不太一样。

机器人之所以很难像人一样「自然」行动,原因在于观察和行动空间的高维性质,以及双足动物形态固有的不稳定性。

对此,LeCun参与的一项工作给出了基于数据驱动的全新解决方案。

论文地址:https://arxiv.org/pdf/2405.18418

项目介绍:https://nicklashansen.com/rlpuppeteer

先看疗效:

对比右边的效果,新的方法训练出了更接近于人类的行为,虽然有点「丧尸」的意味,但抽象度降低了不少,至少在大部分人类的能力范围之内。

当然了,也有来捣乱的网友表示,「还是之前那个看着更有意思」。

在这项工作中,研究人员探索了基于强化学习的、高度数据驱动的、视觉全身人形控制方法,没有任何简化的假设、奖励设计或技能原语。

作者提出了一个分层世界模型,训练高级和低级两个智能体,高级智能体根据视觉观察生成命令,供低级智能体执行。

开源代码:https://github.com/nicklashansen/puppeteer

这个模型被命名为Puppeteer,利用一个模拟的56-DoF人形机器人,在8个任务中生成了高性能的控制策略,同时合成了自然的类似人类的动作,并具有穿越挑战性地形的能力。

高维控制的分层世界模型

在物理世界中学习训练出通用的智能体,一直是AI领域研究的目标之一。

而人形机器人通过集成全身控制和感知,能够执行各种任务,于是作为多功能平台脱颖而出。

不过要模仿咱们这种高级动物,代价还是很大的。

比如下图中,人型机器人为了不踩坑,就需要准确地感知迎面而来的地板缝隙的位置和长度,同时仔细协调全身运动,使其有足够的动量和范围来跨越每个缝隙。

Puppeteer基于LeCun在2022年提出的分层JEPA世界模型,是一种数据驱动的RL方法。

它由两个不同的智能体组成:一个负责感知和跟踪,通过关节级控制跟踪参考运动;另一个「视觉木偶」(puppeteer),通过合成低维参考运动来学习执行下游任务,为前者的跟踪提供支持。

Puppeteer使用基于模型的RL算法——TD-MPC2,在两个不同的阶段独立训练两个智能体。

(ps:这个TD-MPC2就是文章开篇用来比较的那个动图,别看有点抽象,那实际上是之前的SOTA,发表在今年的ICLR,一作同样也是本文的一作。)

这个框架看上去大道至简:两个世界模型在算法上是相同的,只是在输入/输出上不同,并且使用RL进行训练,无需其他任何花里胡哨的东西。

与传统的分层RL设置不同的是,「木偶」输出的是末端执行器关节的几何位置,而不是目标的嵌入。

这使得负责跟踪的智能体易于在任务之间共享和泛化,节省整体计算占用的空间。

研究方法

研究人员将视觉全身人形控制,建模为一个由马尔可夫决策过程(MDP)控制的强化学习问题,该过程以元组(S,A,T,R,γ,∆)为特征,

其中S是状态,A是动作,T是环境转换函数, R是标量奖励函数, γ是折扣因子,∆是终止条件。

如上图所示,研究人员使用RL在人类MoCap数据上预训练跟踪智能体,用于获取本体感觉信息和抽象参考运动输入,并合成跟踪参考运动的低级动作。

然后通过在线互动,对负责下游任务的高级木偶智能体进行训练,木偶接受状态和视觉信息输入,并输出命令供跟踪智能体执行。

TD-MPC2从环境交互中学习一个潜在的无解码器世界模型,并使用学习到的模型进行规划。

世界模型的所有组件都是使用联合嵌入预测、奖励预测和时间差异 损失的组合端到端学习的,而无需解码原始观察结果。

在推理过程中,TD-MPC2遵循模型预测控制(MPC)框架,使用模型预测路径积分(MPPI)作为无导数(基于采样)的优化器进行局部轨迹优化。

为了加快规划速度,TD-MPC2还事先学习了一个无模型策略,用于预启动采样程序。

两个智能体在算法上是相同的,都由以下6个组件组成:

实验

为了评估方法的有效性,研究人员提出了一种新的任务套件,使用模拟的56自由度人形机器人进行视觉全身控制,总共包含8个具有挑战性的任务,用于对比的方法包括SAC、DreamerV3以及TD-MPC2。

8个任务如下图所示,包括5个视觉条件全身运动任务,以及另外3个没有视觉输入的任务。

任务的设计具有高度的随机性,包括沿着走廊奔跑、跳过障碍物和缝隙、走上楼梯以及绕过墙壁。

5个视觉控制任务都使用与线性前进速度成正比的奖励函数,而非视觉任务则奖励任何方向的位移。

上图绘制了学习曲线。结果表明,SAC和DreamerV3在这些任务上无法实现有意义的性能。

TD-MPC2在奖励方面的性能与本文的方法相当,但会产生不自然的行为(参见下图中的抽象动作)。

此外,为了证明Puppeteer生成的动作确实更「自然」,本文还进行了人类偏好的实验,对46名参与者的测试表明,人类普遍喜欢本文方法生成的运动。

参考资料:

https://x.com/ncklashansen/status/1795860968875917444


机器人编程怎么入门

机器人编程入门要选择合适的编程语言,避免难度太高打消孩子学编程的机器人,泊思地乐高EV3机器人可以作为编程入门课程,模块化编程,通过鼠标拖拽指令完成,图形化的编程还能增加学习编程的趣味性。 学少儿编程可以提高孩子逻辑思维、专注力先学习C语言,这是基础,然后学习单片机,然后就是实验步进电机的控制,译码器的工作原理和编程等等,这些是入门,有基础之后可以学点Arduino之类的,了解当前机器人最前沿的的系统,学会应用控制器,不同的机器人需要不同的控制器,,机器人越复杂需要用的控制器越多,所以如果想在机器人这方面深挖的话,学会应用不同的控制器也很重要。 机器人编程是机器人运动和控制问题的结合点,也是机器人系统最关键的问题之一。 当前实用的工业机器人常为离线编程或示教,在调试阶段可以通过示教控制盒对编译好的程序一步一步地进行,调试成功后可投入正式运行。 关于更多的编程学习问题可以到童程童美咨询一下。 童程童美专注于中国3-18岁青少儿编程教育,经过多年,研发出针对中国儿童的编程教育体系。 凝聚美国纳斯达克上市公司18年少儿编程课程培训经验,形成了以人工智能编程、智能机器人编程、信息学奥赛、创意启蒙课等课程体系为核心,集国内外大型赛事、国际国内游学、冬夏令营等为一体的中国青少年STEAM创客教育平台。 。 目前童程童美有少儿编程体验课,点击可免费报名试听

根据你所了解的理论知识,结合实际, 谈谈对计算机网络”的认识( 2000字左右 )

概要:从网络技术的总体概括计算机网络的相关知识介绍,主要包括:计算机网络的产生与发展、计算机网络的涵义、计算机网络的特点、计算机网络的基本功能组成、计算机网络的根本目标、分组交换技术、网络功能基本机制网络体系结构与协议。 一、计算机网络概述(一)计算机网络的产生与发展经历了四个阶段:(1) 远程联机系统(2) 计算机互连网络(3) 标准化网络阶段(4) 网络互连与高速网络远程联机系统是指:一台中央计算机连接多台、地理位置处于分散的终端构成的系统。 最突出特点是:终端无独立的处理能力。 计算机互连网络是指:计算机和计算机之间互连以数据交换和信息传输为根本目的。 标准化网络阶段是指:针对众多相同或不同体系结构的网络产品ISO提出OSI标准,实现广泛的互连。 网络互连和高速网络是指:以INTERNET为核心的高速计算机互连已经构成。 (二)计算机网络的涵义:将地理位置不同、具有独立功能的多个计算机系统通过通信设施连接起来,以功能完善的网络软件实现网络资源共享的系统。 计算机网络系统概念的关键点是:分布的地理位置不同;互连的计算机系统具有独立的功能;通过通信设施连接;通过网络软件的控制和管理;以资源共享为核心目的。 计算机网络系统与联机分时多用户的区别:从共享和并行两个角度来看。 计算机网络系统:网络用户能够共享网络的全部资源。 网络中的计算机具有独立的数据处理能力,各主计算机的运行不受其它主计算机的干扰。 而联机分时多用户系统:各终端用户只共享中心计算机资源。 各终端用户只是在一段时间内并行,同一时刻不可能存在两个或两个以上的用户都在运行的情况。 (三)计算机网络的特点:(1) 计算机之间数据交换(2) 各计算机是具有独立的功能的系统(3) 网络构建周期短、见效快(4) 成本低、效益高(5) 用户使用简单、方便(6) 易于实现分布式处理(7) 系统灵活性、适应性更强(四)计算机网络的根本目标:(1) 资源共享(2) 提高系统的可靠性(3) 提高工作效率(4) 分散数据的综合处理(5) 系统负载的均衡与调节处于不同目的,为满足具体需求建立的计算机网络,从不同角度可以将网络进行分类:按距离划分:广域网WAN、局域网LAN、城域网MAN。 按通信媒体划分:有线网、无线网。 按通信方式划分:点到点方式、广播方式。 按通信速度划分:低速网、中速网、高速网。 按数据交换方式划分:直接交换网、存储转发方式、混合交换方式。 按通信性能划分:资源共享计算机网络、分布式计算机网、远程通信网。 按使用范围划分:公用网、专用网。 按配置划分:同类网、单服务器网、混合网。 按对数据的组织方式划分:分布式数据组织网络系统、集中式数据组织网络系统。 (五)计算机网络的基本功能组成:通信子网(实现全网分为内的信息的传递功能),资源子网(实现全网的信息处理功能)。 从网络拓扑图上看,计算机网络由网络节点和通信介质构成,网络节点又称为网络单元,是网络的各种数据处理设备、数据通信设备和数据终端设备。 节点分为分转节点(中间节点)和访问节点(终端节点)。 通常的网络单元有:线路控制器LC通信控制器CC通信处理机CP前端处理机FEP集中器C接口报文处理机IMP主计算机HOST终端T网间连接器(六)计算机网络技术中里程碑性的技术——分组交换技术。 它是现代计算机网络的技术基础。 是信息在网络终传输技术,分组是网间传输的数据信息单位。 分组交换过程为:是在一个主机向另一主机发送数据时,首先将主机发出的数据划分成一个个分组,每个分组都带有关于目的地址的信息,系统根据分组中的目的地址信息,利用系统中的路径选择算法,确定分组的下一节点并将数据发往所确定的节点,最终将报文分组发往目的主机。 分组交换的特点:节点暂时存储的一个个分组数据,而不是整个数据文件。 分组数据是暂时保存在节点的内存中,而不是被保存在节点外的外存中,从而保证了较高的交换率。 分组交换采用的是动态分配新到的策略,极大地提高了线路的利用率分组数据在各节点存储转发时因排队而造成一定延迟、分组数据中带控制信息而产生的额外开销;管理控制复杂是缺点。 分组交换的任务:负责系统中分组数据的存储转发和选择合适的分组传输路径。 (七)网络功能基本机制网络体系结构与协议:网络协议:为实现网络节点间的有效通信和数据控制而制定规则、约定和标准。 主要解决节点间交换数据与控制信息中的规则、格式和时序。 网络协议的三个要素,语法:数据与控制信息的结构或格式;语义:用于协调和进行差错处理的控制信息;时序:对事件实现顺序的说明。 注意:协议只规定对象的外部特性,不对内部做具体实现规定。 为了理解网络体系结构,我们可以考察邮政系统的信件的传送过程。 收信方和发信方是通信的信宿和信源,信件在发送过程中实际经历的过程与收信过程是相对的,信件传递过程的每一步都可以视为整个系统的相对独立的功能层。 发信与收信方的对应层遵守相同的规则,可以理解为是一个协议。 不同角度看计算机网络结构:网络体系结构(抽象地从功能上描述网络结构);网络组织结构(从网络的物理结构、实现的方面描述);网络配置结构(从网络应用方面描述网络的布局、硬件、软件和通信设施)网络体系结构:网络体系结构采用结构化思想,分为若干层,层间的关系是服务与被服务的关系,网络上的节点间对应层遵守一致的规约。 分层结构的好处:独立性强功能简单适应性强易于实现和维护结构可分割易于交流和标准化网络分层结构的组成部分:系统:网络系统子系统:系统内的一个个在功能上相互联系,有相对独立的逻辑部分,一个个层次单元层次:子系统中一个子部分就是一个层次实体:子系统中的一个活跃单元等同实体:同一层次的实体通信服务:通信系统中的通信功能的外部表现物理通信:通信双方存在的某种媒体,通过某种手段实现双方信息交换。 虚拟通信:逻辑通信网络软件的基本结构是层次结构。 网络软件系统:网络系统的实现不可缺少的部分网络软件系统,它由如下部分组成:协议软件联机服务软件通信软件管理软件网络操作系统网络驱动软件网络应用软件OSI开放式互连参考模型:网络参照的国际标准,国际标准化组织ISO1978年提出的OSI是一个网络技术的国际标准,OSI是一个参考模型:ISO/OSI模型定义了不同计算机互连标准的框架结构和标准,标准中采用的是三级抽象:体系结构服务定义协议规格说明OSI的分层原则:划分层次要根据理论上的需要的不同等级划分层次划分要便于标准化各层内功能要尽可能独立相类似的功能应尽可能放在同一层内各层的划分要便于层与层之间的衔接各界面的交互要尽量少根据需要,在同一层内可以再形成若干子层扩充某一层次功能或协议,不能影响整体模型的主题OSI定义的各层的功能定义:物理:利用物理传输介质为数据链路层提供物理连接,提供透明的比特流传输。 数据链路层:在两通信实体间建立数据链路链机连接,实现稳定、无差错透明数据链路服务。 网络层:实现路由,流量控制与网际互连。 传输层:实现端到端的可靠通信服务,透明地实现报文传输。 会话层:实现网上两个进程间的通信。 表示层实现两个系统中信息表示形式的转换。 应用层:网络功能应用

雷丁电动汽车和比德文电动汽车是哪个好

雷丁电动汽车更胜一筹。 1、外观方面雷丁D50整车尺寸长3320mm*宽1540mm*高1480mm,轴距达2260mm,空间更大。 欧系风格外观,细节到位,体现人性化设计。 前端是经典沉稳大嘴造型,黑色蜂巢仿生网状格栅,美观同时具备良好的通风散热效果。 阔目设计的一体化复合大灯,灯罩精致打造,融合车身线条,使视野更良好。 独特掀背设计。 全尺寸后开门掀背设计,使整车背部线条流畅自然,让人心生喜欢。 2、内饰方面雷丁内饰整体以低调的银灰色内饰为主,面料采用针织材料,手感更为舒适,修饰美化乘车空间,舒适出行。 D50采用电动汽车简约显示盘,更清晰、直观的显示电量、里程等关键数据,实时掌握行车数据,安全出行。 宽体化设计车身,参照亚洲人身体参数对内部空间全新优化设计,是“小车大空间”秘密之处。 3、动力方面雷丁D50在动力系统方面,采用了IED底盘调教技术,全新优化动力组布局、悬挂布局、传动系统、刹车系统布,使前后平衡接近50:50,重新匹配独立悬挂配置方案、刹车和转向系统、减震阻尼,达到人体最优乘坐操控标准,行驶过程更加平稳舒适。 整车搭载了4KW直流驱动系统,转矩输出大,转速平台更宽,高效动力,持久耐用。 HES高效驱动系统匹配高效直流电机和直流他励电机控制器,带有刹车能量回馈功能,系统能量转化率高,续行能力提升约20%,同时,具备低速高扭,使得雷丁D50持续爬坡能力大为提高,各种路况下持续保持高效状态。 参考资料来源:网络百科-雷丁电动汽车

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://www.srwj168.com.cn/kuaibao/20818.html
云辇 三季度上市 2.0T
孔蒂愿意让他留队 英格兰和西班牙俱乐部有意小西蒙尼 罗马诺