基于改进TD3算法的机械臂智能规划方法研究

针对某卫星搭载的4自由度机械臂轨迹规划问题,提出了一种基于改进的双延迟深度确定性策略梯度(TD3)算法的智能规划方法。该方法采用分阶段训练策略,在预训练阶段,采用了目标位置引导联合TD3算法进行轨迹优化的混合规划策略,训练结束后规划算法能够在机械臂关节空间对任意起点、终点进行速度轨迹的自主规划。这种目标引导机制减少了训练时不必要的探索,在一定程度上解决了高维动作空间中学习效率低下的问题。在二次训练阶段,首先通过示教获得一条无碰撞的安全参考轨迹,然后在训练过程中不断对这条轨迹进行模仿,使得最终算法输出的轨迹具备避障能力。...

Full description

Bibliographic Details
Main Authors: 张强, 文闻, 周晓东, 刘维惠, 初晓昱
Format: Article
Language:zho
Published: POSTS&TELECOM PRESS Co., LTD 2022-06-01
Series:智能科学与技术学报
Subjects:
Online Access:http://www.infocomm-journal.com/znkx/CN/abstract/abstract172522.shtml