首发于 论文分享

论文分享:对软机械臂闭环动态控制的基于模型的强化学习

题目:Model-Based Reinforcement Learning for Closed-Loop Dynamic Control of Soft Robotic Manipulators [1]

作者:Thomas George Thuruthel, Egidio Falotico, Federico Renda, and Cecilia Laschi

机构:The BioRobotics Institute, Scuola Superiore Sant'Anna, Pisa, Italy; the Department of Mechanical Engineering and the Center for Autonomous Robotics Systems, Khalifa University of Science and Technology, Abu Dhabi, United Arab Emirates

发表于期刊 IEEE Transactions on Robotics

(阅读本文章前建议首先阅读前置文章 [2], [3], [4], [5], [6],在之后的内容中,前置文章将默认已被阅读。)

0. 摘要

柔性机器人的动态控制是一个有待深入研究和分析的问题。目前大多数软机器人的应用都是基于关节空间的运动学模型或线性的静态或准动态控制器。然而,这样的方法并没有真正地利用软体系统的丰富动态。本文提出了一种基于模型的软机械臂闭环预测控制策略学习算法。用递归神经网络表示正向动力学模型。利用轨迹优化和监督学习的方法推导出闭环策略。首先在索驱动欠驱动软机械臂分段恒应变仿真模型上对该方法进行了验证。此外,我们在一个柔性气动驱动机械臂上实验演示了如何推导闭环控制策略,以适应可变频率控制和未建模的外部负载。

1. 前期知识

A. 实体机器人

本文采取两段式软体机器人作为实体机器人,如图1所示。

图1. 两段式软体机器人

其中近端由三根线缆驱动,第二段无驱动。机器人状态由视觉追踪器记录。

B. 仿真模型

本文利用分段恒应变模型作为仿真模型,模型示意图与参数如图2所示。

图2. (a)两段式机器人仿真模型。(b)机器人参数。

C. 正动力学模型

本文利用NARX网络作为正动力学模型,映射关系为 (\tau_i,x_i,x_{i-1})\rightarrow x_{i+1}, 其中 x_{i-1},x_i,x_{i+1} 是上一个、本个与下个时间点的机器人状态, \tau_i 代表本时刻的机器人控制信号。对于仿真,以100Hz的频率采样7000个样本,线缆驱动最大力为3N,对于实体机器人,以50Hz的频率采样12000个样本,并且只记录远端的三个标记点的位置。具体正动力学模型细节可以参考本文和[4]。

D. 轨迹优化

对于轨迹优化问题的目标函数、约束条件也可以参考[4]。需要注意的是,[4]使用的SQP计算太慢,无法在MPC中实现闭环控制,所以本文采用了导向策略搜索(guided policy search)。

2. 策略学习

首先,收集样本。为了尝试收集多样性强的样本,作者尝试利用优化法对于一个目标点生成不同的轨迹,优化目标如下

\Pi_n^p(t)^*=\min_\tau({\Vert x^{tip}_{\frac{t_f}{dt}}-x^{des}\Vert}^2-\alpha\ min[dist(X^n,X)*dist(X^n,X)]) ,(1)\\ X^n \triangleq \{x_1^n,x_2^n,\dots x_{\frac{t}{dt}-k}^n\},\\ X \triangleq \{ X^1, X^2,\dots X^{n-1}\}\\ \forall\ n=1\dots N\ \forall\ p=1\dots P\\ 其中参数 \alpha 即可控制轨迹的多样性,参数 k 为每个轨迹的时间长度。基于该策略收集到的数据,训练一个神经网络控制器,映射为 (x_i,x_{i-1},x^{des})\rightarrow\tau_i .综上,控制器训练策略如图3所示。

图3. (a)控制器训练策略示意图。 (b)控制器训练策略算法。

对于仿真实验,作者对于65个随机目标生成各20个轨迹,而对于实际实验,由于正向动力学模型的误差,增加的轨迹会引起更大的误差,所以作者随机选择了200个目标,每个目标1个轨迹作为控制器的训练数据。

3. 仿真结果

在本段中,利用神经网络控制器作为控制器,并且将控制策略实行在仿真模型中。

A. 全局动态到达

为了验证控制器在工作空间中动态到达目标点的能力,作者随机选择50个目标点,并在仿真模型中进行试验。控制器的策略对于NARX模型与仿真模型而产生的误差如表1所示。

表1. 全局动态到达误差

B. 外部干扰下的到达

为了验证此闭环控制系统的鲁棒性,在到达任务中随机进行瞬时干扰,受干扰的机器人运动轨迹如图4所示。不同干扰情况对于末端误差与到达时间的影响如图5所示。可见此闭环控制对外部干扰有很强的鲁棒性。

图4. 受干扰的机器人运动轨迹
图5. 不同干扰情况对于末端误差与到达时间的影响

C. 多点到达

之前的实验都以原点作为起始点,为了验证该控制器对于其他点作为起点的情况的表现,作者提出了多点到达任务,即让机器人连续到达两个随机点。多点到达的误差如表2所示,其中一个轨迹示意图如图6。结果显示,尽管第二个目标点的到达需要更长时间,该控制器也能很好地完成多点到达任务。

表2. 多点到达的误差
图6. 一个多点到达任务的轨迹

D. 改变控制频率

尽管训练集的数据是以100Hz的频率收集,此控制器也可应用在更低频率上,不同的控制频率的效果示意图如图7所示,控制信号如图8所示。可见改变控制频率对到达误差与时间影响不大,但是控制信号更不光滑,对实际实验比较有参考意义。

图7. 不同控制频率下的误差与到达时间
图8. 不同控制频率下的控制信号

4. 实际实验

A. 全局动态到达

全局动态到达的误差如表3,两个轨迹示意图如图9。

表3. 全局动态到达误差
图9. 全局动态到达任务的两个轨迹

尽管该控制器能达到目标点,但是和模拟实验相比,机器人运动情况有更大的不确定性,这一现象可由同一起点的不同轨迹所体现。一个可能的解释是由机器人的高度非线性与随机摩擦的影响,气动腔的滞回效应也是可能的原因之一,还有原点在实际实验中的不确定性。

B. 低频到达

将控制器从20Hz降低到10Hz,机器人末端误差如表4所示。如仿真情况相同,控制器效果更差,甚至有无法到达的情况。

表4. 低频控制器下的机器人末端误差

C. 负载下到达

相比于开环控制,闭环控制的好处就是可以处理一些位置的扰动和影响,比如机器人末端的未知负载。在有105g负载情况下的机器人末端误差如表5所示,一个轨迹如图9所示。在图9中可以看到软体机器人由于负载需要一定时间的“能量存储”期,才能把末端“悠”到目标位置。

表5. 有负载情况下的机器人末端误差
图9. 有负载情况下的一个轨迹

参考

  1. ^Thuruthel T G, Falotico E, Renda F, et al. Model-based reinforcement learning for closed-loop dynamic control of soft robotic manipulators[J]. IEEE Transactions on Robotics, 2018, 35(1): 124-134.  https://ieeexplore.ieee.org/abstract/document/8531756
  2. ^论文分享:针对连续软体机器人的逆运动学学习解  https://zhuanlan.zhihu.com/p/570058144
  3. ^论文分享:非结构环境中连续体机械臂的闭环运动学控制器学习  https://zhuanlan.zhihu.com/p/570245062
  4. ^论文分享:针对受章鱼启发的软体机械臂的动力学学习与轨迹优化  https://zhuanlan.zhihu.com/p/570475520
  5. ^论文分享:软体机械手的稳定开环控制  https://zhuanlan.zhihu.com/p/570473808
  6. ^论文分享:用于控制器设计及刚度估计的柔性机器人机械臂的诱导振动  https://zhuanlan.zhihu.com/p/575590492

代做工资流水公司武汉打离职证明廊坊开签证流水南阳薪资流水打印长沙流水费用苏州车贷工资流水 样本福州打印流水单柳州个人工资流水 图片铜陵个人流水办理孝感工作收入证明多少钱滁州车贷银行流水 多少钱武汉打自存流水芜湖办房贷收入证明南京银行流水单办理南通收入证明常州流水昆明房贷工资流水 模板阜阳企业流水打印办理新乡薪资流水单多少钱兰州入职流水模板大庆工资银行流水模板淄博做自存银行流水宁波开流水单深圳收入证明模板保定工资流水app截图多少钱吉林办工资流水账单宁德购房银行流水开具赣州购房银行流水公司九江公司流水开具鞍山查银行流水修改常州入职工资流水模板香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化