DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型

473 篇文章 7 订阅
订阅专栏
274 篇文章 0 订阅
订阅专栏
225 篇文章 0 订阅
订阅专栏

23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。

大语言模型 (LLM) 编码了大量的语义知识,具有卓越的理解和推理能力。先前的研究已经探索了如何将 LLM 应用于机器人任务以生成可行且可执行的文本规划。然而,由于环境扰动或控制器设计不完善,物理世界中的低级执行可能会偏离高级文本规划。本文提出 DoReMi,一种语言模型落地框架,可以立即检测和恢复规划和执行之间的错位。具体来说,利用 LLM 发挥双重作用,不仅有助于高级规划,还可以生成可以指示执行过程中错位的约束。然后利用视觉-语言模型 (VLM) 持续检测约束违规。该流水线可以监控低级执行,并在发生某些规划执行错位时及时恢复。在包括机械臂和人形机器人在内各种复杂任务的实验表明,该方法可以提高任务成功率并缩短任务完成时间。

在网络规模数据上进行预训练的大语言模型 (LLM) ,具有常识推理能力和对物理世界的理解。先前的研究已将语言模型纳入机器人任务中,以帮助具身智体更好地对世界理解和互动,完成需要复杂规划和推理的具有挑战性长期任务 [1]、[2]、[3]。

为了使具身智体能够执行生成的规划,需要落地语言。其中一项研究以端到端的方式利用预训练的语言模型,将语言和图像输入直接映射到机器人的低级动作空间 [4]、[5]、[6]、[7]、[8]。这些方法通常需要大量的机器人动作数据才能成功进行端到端训练,而这些数据的获取成本很高 [4]。此外,这些动作输出模型通常包含大型基于 Transformer 的架构,无法以高频率运行。因此,它们可能不适合需要高频快速响应的复杂动态任务(例如,有腿的机器人)。最近,许多工作采用分层方法,其中语言模型执行高级任务规划,然后采用一些低级控制器来生成复杂的机器人控制命令 [1]、[2]、[3]、[9]。在这种分层框架下,可以利用强大的机器人控制方法(如强化学习)来高频率地处理复杂的机器人动态控制问题。

然而,这些落地方法,通常假设每个低级技能都能完美地执行语言模型生成的高级规划。在实践中,由于环境扰动或控制器设计不完善,低级执行可能会偏离高级规划,如图(a)所示。规划和执行之间的这些不一致,可能在任务过程中的任何时候发生。以前的研究考虑在完成前一个规划步骤后将执行反馈合并到语言提示中。如果该步骤不成功,则重复该过程 [9]。然而,这种延迟反馈可能效率低下。例如,如图 (b) 所示,当人携带一个箱子并执行低级技能“前往灰色桌子”时,如果箱子意外掉落,则继续执行当前技能将变得毫无意义。人将立即中止当前技能并调用技能“拿起箱子”。但是,没有立即重规划的智体将继续前进,并且在到达目的地后需要更多时间捡起中途掉落的箱子。

请添加图片描述

如图所示,以前的方法执行(a)开环规划或(b)仅在前一项技能完成后反馈重规划。(c)DoReMi 框架利用 LLM 生成规划和相应的约束。然后使用 VLM 来监督低级执行期,从而能够立即从规划执行不一致中恢复。

请添加图片描述

继之前利用 LLM 生成可行文本规划 [1] 的工作之后,利用 LLM 通过少样本上下文学习来规划下一步。此外,当约束检测器识别出规划执行不一致时,会使用语言模型进行重规划。在这种情况下,还会将不一致信息包含在提示中,并调用 LLM 进行重规划。实际上,在本地部署 Vicuna-13B 模型 [41],并选择具有最大输出概率的下一个技能。还通过 OpenAI API 尝试 GPT4 [42] 直接输出具有零温度的下一步。这两个 LLM 在任务中都表现出有效的规划能力。

LLM 规划器可帮助智体将长期任务分解为技能序列。然而,LLM 并非天生就集成到低级技能的执行中,这可能会导致规划和执行之间的不一致。为了进一步探索 LLM 在具体任务中的能力,不仅利用 LLM 进行下一步规划,还利用 LLM 根据历史信息生成约束。例如,考虑“拿起盒子”技能之后的“前往”技能的执行期。在这种情况下,必须满足“机器人拿盒子”的约束,违反此约束可能表示拾取失败或可能掉落盒子。同样,在“将红色块放在绿色块上”技能之后,应始终满足“红色块放在绿色块上”的约束。LLM 能够利用其对物理世界的编码理解,自动为规划步骤生成这些约束。此外,VLM 检测器可以专注于这些特定的约束,只需要从“是”或“否”中选择二进制答案,从而产生更精确的反馈。相比之下,VLM 的开放式场景描述可能会导致很大的歧义并遗漏重要信息,如图所示。VLM 的开放式场景描述具有模糊性。DoReMi 利用 LLM 推理特定约束,并主动向 VLM 查询关键信息,从而获得更精确的反馈。

请添加图片描述

实际上,在 LLM 选择具有最高输出概率的下一步后,继续从“约束:”开始生成以得出具体的约束。

在约束生成阶段之后,智体继续执行规划步骤,同时遵守 LLM 建议的约束。LLM 生成的约束可能包括各种类型,例如“红色块在蓝色块上”、“机器人前方没有障碍物”、“机器人拿着苹果”等等。本文采用视觉-语言模型 (VLM) [10] 作为通用“约束检测器”,通过视觉信息检查所有约束。VLM 的视觉输入,是从第一人称或第三人称视角摄像机捕获的,文本输入自动根据 LLM 提出的约束进行调整,形式为“问题:约束 cj 是否得到满足?答案:”。对于每个查询,VLM 仅需从 {“是”,“否”} 中选择一个答案,该答案由非常短的token长度组成,并且成本不到 0.1 秒。在检查约束 cj 时,使用 D(cj) 表示 VLM 的答案 D。如果满足 cj ,则 D(cj ) = True;否则,D(cj ) = F alse。流水线的伪代码在算法 1 中提供。

请添加图片描述

还值得一提的是,其他模态的检测器也与框架兼容,约束检测器可以与具有不同频率的低级控制器并行运行。

在实践中,用预训练的 BLIP-2 模型 [10] 作为通用“约束检测器”,每隔 ∆t = 0.2 秒定期检查智体是否满足所有约束。如果满足,机器人将继续执行当前的低级技能;否则,机器人将中止当前技能并触发重规划过程。除了那些具有极其复杂场景的任务外,预训练的零样本 VLM 可以在大多数任务中表现良好。为了提高此类复杂任务的性能,收集了一个小型数据集并使用参数高效的 LoRA 方法 [43] 对 VLM 进行微调。还验证微调后的 VLM 检测器可以推广到未见过的目标、未见过的背景甚至未见过的任务。

本文涉及机械臂操控任务和人形机器人任务的实验。这些任务包含各种环境干扰和不完善的控制器,例如机器人末端执行器的随机掉落、末端执行器放置位置的噪音、拾取失败以及机器人路径中出现的意外障碍物。如图所示:

请添加图片描述

机器臂操作环境改编自 Ravens [44],这是一个基于视觉的机器人操作基准,专注于拾取和放置任务。配备吸盘夹持器的 UR5e 机器人在黑色桌面上操作,而第三视角摄像头则提供桌面的全面视图。机器人拥有一套基本技能,包括“拾取物体”和“将物体放置在容器上”,这两者都是预训练的原语,以类似于 CLIPort [35] 和 Transporter Nets [44] 的单步指令为条件。为了评估算法的有效性,在原始环境和机器人控制器中引入额外的干扰。

人形机器人每条腿有 6 个自由度,每条手臂有 4 个自由度,总共 20 个自由度。用单一策略控制复杂的人形机器人具有挑战性。按照 [45] 中的框架,采用强化学习来训练运动策略,并利用基于模型的控制器来获取操纵策略。具体来说,利用 Deepmimic 算法 [46] 来训练以命令线速度和角速度为条件的运动策略,使机器人能够执行低级技能,例如“前进 10 米”、“以速度 v 前进”、“前往目标位置”、“向右/向左转”等。至于操纵策略,在模拟中引入类似于 [47] 的助手拾取原语;在现实世界中,使用灵巧的手和工厂设计的拾取原语。这些设置使机器人能够执行“拿起物体”和“将物体放在容器上”等低级技能。

语言模型数据工程理论支持的初步探索。第 1 部分:预训练
人工智能曾小健
09-07 308
Grokking 是指在训练的某个步骤,模型突然学会了一项技能,从记忆过渡到泛化对于特定的“技能”,例如模加法,我们引用 Pearce 等人的典型学习曲线。等人。2023。我们可以看到,在训练开始时,模型记忆了训练数据,测试性能没有变化。随着训练的进行,从第 35k 步到第 45k 步有一个相变期,模型突然从记忆过渡到泛化,在测试集上显示出 100% 的准确率。学习过程中的这种阶段性变化被称为“grokking”。
NeurIPS2023 大语言模型(LLM)方向优质论文汇总!
2401_82426425的博客
01-04 1964
实验表明,Parsel显著提升了LLM在分层推理任务如程序合成和机器人规划的表现,成功率在APPS数据集上提高75%,在HumanEval上pass@1性能从67%增至85%,同时提高了机器人规划的准确率。本文中提出了一种新的奖励模型参数化方法,简化了强化学习从人类反馈(RLHF)问题的标准解决方案,把这种算法称为直接偏好优化(DPO),它稳定、高效,计算需求低,简化了微调过程。研究人员微调了1000多个模型,结果表明,使用小型数据集的QLORA微调可获得最佳结果,即使使用较小的模型
探索DoReMi:用最小最大优化策略提升语言模型训练效果
gitblog_00059的博客
06-02 341
探索DoReMi:用最小最大优化策略提升语言模型训练效果???? 去发现同类优质开源项目:https://gitcode.com/ 在深度学习的世界里,优化数据混合是提升语言模型性能的关键步骤之一。现在,我们有幸引入DoReMi——一个基于PyTorch的算法,它利用分布鲁棒优化(DRO)来调整语言模型训练的数据集混合比例。这个创新性工具旨在解决一个问题:如何在没有特定目标分布的情况下,有效地融合不同领...
如何从头训练大语言模型: A simple technical report
Everly_的博客
10-17 589
自8月底训好自己的1.5B的LLM后,一直都没有发布一个完整的技术报告,不少小伙伴私信我催更,千呼万唤始出来。:搞定全流程之后,对LLM确实豁然开朗不少,不过,发现要学的新东西更多了…尤其是这三个月,qwen, meta, anthropic等等发布的好文章实在太多了,真不想落下,没时间"反刍"当年的剩饭。:对reasoning更感兴趣了(其实训1.5B模型的初衷,就是为了给将来从pretrain开始做reason的增强打基础)。:9月保研季,保研的事情忙的焦头烂额,各种预推免与考核…还好现在终于有书读了。
强化优势反馈(ReAd):实现具身多智体协作的高效LLM落地
yorkhunter的博客
09-16 1119
24年6月来自清华、上海AI实验室、西工大、浙大和中国电讯的论文“Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration”。
doremi服务器型号show,Doremi服务器检查与IMB 的通信-放映技术论坛
weixin_30043999的博客
08-09 363
该楼层疑似违规已被系统折叠隐藏此楼查看此楼Doremi服务器检查与IMB 的通信-放映技术论坛http://www.ffffly.comDoremi服务器检查检查与IMB 的通信检查与 IMB 的通信 先检 查 网络配置 ,确定没有问题后执行以下步骤:运 行 以 下 命 令 :/doremi/sbin/sbcsetup.out -a --get-temperature( 可 操 作 与 IMB...
doremi服务器维护,Doremi服务器检查与IMB 的通信-放映技术论坛
weixin_35719380的博客
08-02 613
该楼层疑似违规已被系统折叠隐藏此楼查看此楼Doremi服务器检查与IMB 的通信-放映技术论坛http://www.ffffly.comDoremi服务器检查检查与IMB 的通信检查与 IMB 的通信 先检 查 网络配置 ,确定没有问题后执行以下步骤:运 行 以 下 命 令 :/doremi/sbin/sbcsetup.out -a --get-temperature( 可 操 作 与 IMB...
Doremi服务器证书,Doremi服务器检查与IMB 的通信-放映技术论坛
weixin_42456372的博客
08-01 303
该楼层疑似违规已被系统折叠隐藏此楼查看此楼Doremi服务器检查与IMB 的通信-放映技术论坛http://www.ffffly.comDoremi服务器检查检查与IMB 的通信检查与 IMB 的通信 先检 查 网络配置 ,确定没有问题后执行以下步骤:运 行 以 下 命 令 :/doremi/sbin/sbcsetup.out -a --get-temperature( 可 操 作 与 IMB...
doremi服务器网页打开,放映机Doremi 服务器播放说明(12页)-原创力文档
weixin_36176188的博客
07-31 1051
Doremi 服务器播放影片创建新列表1.点击Menu键2.点击CineLister 图标21 1Doremi 服务器播放影片创建新列表1.选取影片2. 击加入播放列表212Doremi 服务器播放影片创建新列表1.已添加影片清单2.点击-属性123Doremi 服务器播放影片创建新列表1.选取...
Doremi:互动音乐学习应用-开源
07-03
对于Doremi,这意味着它不仅仅是一个单一团队的作品,而是全球音乐爱好者和编程者的集体智慧结晶。 在Doremiapp.weebly.com这个项目网站上,你可以找到关于Doremi的详细信息,包括项目背景、功能介绍、使用教程以及...
Doremi婚庆-婚庆服务(axure原型文件).rar
05-09
“Doremi婚庆-婚庆服务”是一个由Axure RP创建的原型文件,专为婚庆行业设计的系统界面。这个.rar文件包含了所有必要的组件和页面,以展示一个完整的、用户友好的婚庆服务平台。这个系统的设计目标是为新人提供一个...
Doremi婚庆后台-婚庆服务(axure原型文件).rar
05-09
Doremi婚庆后台-婚庆服务(axure原型文件).rar是一个专门为婚庆行业设计的系统原型设计文件。这个文件采用了Axure RP软件创建,旨在为婚庆公司提供一个高效、便捷的后台管理系统。通过该原型文件,婚庆公司可以轻松...
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)3.5-3.6
weixin_43597208的博客
10-15 1256
在 YOLO 算法中,对于这个方框(编号 1 所示),我们约定左上这个点是(0,0),然后右下这个点是(1,1) ,要指定橙色中点的位置,𝑏𝑥大概是 0.4,因为它的位置大概是水平长度的0.4,然后𝑏𝑦大概是 0.3,然后边界框的高度用格子总体宽度的比例表示,所以这个红框的宽度可能是蓝线(编号 2 所示的蓝线)的 90%,所以𝑏ℎ是 0.9,它的高度也许是格子总体高度的一半,这样的话𝑏𝑤就是 0.5。所以你要做的是,有一个输入𝑥,就是这样的输入图像,然后你有这些 3×3×8 的目标标签𝑦。
DINO&DINO v2:颠覆自监督视觉特征表示学习
家鸽的代码屋
10-15 1274
DINO系列学习总结
反向传播算法与随机搜索算法的比较
我想静静
10-17 379
在这篇文章中,我们将通过一个简单的线性回归问题来比较反向传播算法和随机搜索算法的性能。我们将使用Python代码来实现这两种算法,并可视化它们的梯度下降过程。
量子人工智能
最新发布
qh0526wy的博客
10-20 387
解铃还须系铃人,自然界背后的量子理论定律产生的算力提升难题,只有深刻地认识并加以利用,以物理计算逻辑的革新解决量子物理的限制,才可以真正地再次带来算力飞速提升的黄金时代,而智能算力的极速扩张仍然会是许多年之后社会经济和科学研究的主要诉求,量子人工智能是迎合以上需求的开端。相比量子计算编程,深度学习开发者已经颇具规模并形成了自己的生态,PyTorch 更是其中的佼佼者,重新开发一个深度学习工具包并不是最难的,难的是已经形成的开源代码和开发者技能、习惯的培养并不是一时能够改变的。
open-cd中的changerformer网络结构分析
始于足下
10-17 778
通过上述内容,我们可以根据参数文件中的内容提取opencd中任意网络结构,或采用timm来设置主干网络结构,或添加到自己的训练框架中如pytorch_segmentation中进行训练。相应的,我们可以进一步去学习mmalb的框架结构。
AI大模型带来哪些创业机遇?
金木编程
10-16 439
低代码开发平台:创业者可以构建基于大模型的低代码或无代码平台,帮助用户快速生成应用程序、自动化工作流程,尤其是为中小企业提供高效的数字化转型方案。数据治理工具:帮助企业管理和优化大数据集,确保数据的质量、安全性和隐私保护,特别是在医疗、金融等对数据合规性要求较高的领域。自动化写作:为市场营销、新闻、广告、社交媒体等行业开发自动内容生成工具,帮助企业快速生成高质量的文案、广告词和新闻稿。AI 艺术生成:通过大模型生成数字艺术作品、视频剪辑、音乐,帮助创作者快速创作,并提供创意工具给个人和企业用户。
新质技术之生成式AI、大模型、多模态技术开发与应用研修班
Lynn121的博客
10-17 638
在当前的科技飞速发展的时代,生成式人工智能、大模型、多模态技术的出现正为企业的数字化转型带来革命性变革。该研修班特别设计了为期四天的课程,从生成式AI的核心概念入手,逐步深入探讨大模型的应用开发以及多模态技术的集成运用。通过此次研修班,学员不仅能获得最新的AI技术知识,还能获得行业权威机构的职业技能认证,这将极大提升其在未来职场中的竞争力。本次研修班采取理论与实战相结合的培训模式,旨在让学员不仅能够全面掌握生成式AI、大模型和多模态技术的最新理论,还能通过实战练习,掌握将这些技术应用于实际业务。
Doremi DCP-2K4服务器操作与内容管理指南
- 日程表概述:提供了规划和管理放映日程的方法。 - 增加和移除节目列表:操作员可以根据需求添加或删除日程中的节目列表。 5. **在3D模式下播放2D内容** - 三维模式设置:指导如何配置服务器以在3D环境中播放...
写文章

热门文章

  • 综述论文“Generalizing from a Few Examples: A Survey on Few-Shot Learning” 7623
  • 综述论文“Advances and Open Problems in Federated Learning” 4176
  • arXiv综述论文“Image Segmentation Using Deep Learning: A Survey” 3577
  • Mooncake:LLM服务的KVCache为中心分解架构 3204
  • arXiv综述论文“Graph Neural Networks: A Review of Methods and Applications” 1878

分类专栏

  • 大模型 473篇
  • 人工智能 274篇
  • 机器学习 283篇
  • 智能体 225篇
  • 计算机视觉 173篇
  • 自动驾驶 89篇
  • 个人主页 8篇

最新评论

  • RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器

    CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单,全部的排名请看 https://bbs.csdn.net/topics/619344058。

  • 为通信游戏探索LLM:基于狼人杀的实证研究

    weixin_52231362: 这个图是咋画的呀

  • 综述:从LLM到基于LLM的软件工程智体

    CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单,全部的排名请看 https://bbs.csdn.net/topics/619235219。

  • Tulip Agent – 基于 LLM 智体使用大型工具库解决任务

    普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲,让人受益匪浅。【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • NLP参数高效的迁移学习:适配器

    ha_lydms: 非常不错的技术领域文章分享,解决了我在实践中的大问题!博主很有耐心,更有对知识的热忱和热爱,写了这么实用有效的分享,值得收藏点赞。

最新文章

  • Math-Shepherd:无需人工注释,一步步验证并强化 LLM
  • 通过一个验证器进行多步骤问题解决:模型-促进的过程监督实证分析
  • 通过自动化的过程监督提高语言模型中的数学推理能力
2024
10月 44篇
09月 72篇
08月 72篇
07月 89篇
06月 152篇
05月 152篇
04月 2篇
2020年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家玻璃钢花盆图片 组合滁州玻璃钢雕塑设计价格泡沫玻璃钢彩绘雕塑加工二七玻璃钢雕塑价格广东玻璃钢酿酒文化雕塑江西玻璃钢小品雕塑施工厂家北京常用商场美陈现价玻璃钢花盆雕塑那个比较好沈阳多彩玻璃钢雕塑哪家便宜河南不锈钢仿古玻璃钢卡通雕塑厂玻璃钢人物玻璃钢景观雕塑定制商场美陈鲨鱼玻璃钢肖恩羊雕塑南雄玻璃钢花盆花器营口玻璃钢雕塑工艺茂名红色玻璃钢人物雕塑高品质玻璃钢雕塑畅销全国四川玻璃钢花盆制造肇庆党建文化玻璃钢人物雕塑云浮玻璃钢人物雕塑图片供应玻璃钢花盆组合台州抽象玻璃钢雕塑订做价格户外植物园玻璃钢雕塑定做玻璃钢商场美陈宜昌公园玻璃钢雕塑厂家句容玻璃钢气球雕塑春季商场化妆品美陈白云区玻璃钢人物雕塑精工打造玻璃钢蜗牛雕塑厂家茂名玻璃钢雕塑沙发香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化