非标装配任务中,工件几何公差、表面状态及材料特性存在显著不确定性,传统固定参数阻抗控制易导致接触失稳或装配力超限。本文提出一种面向非标装配的机器人阻抗参数自适应整定方法。首先建立装配接触过程的动态模型,分析刚度、阻尼与惯性参数对稳定性的影响边界;其次,基于强化学习与贝叶斯优化联合框架,在线调整阻抗参数以最小化接触力峰值与振荡;最后,给出基于Lyapunov理论的接触稳定性充分条件。在非标轴孔装配与异形件插入实验上,该方法较传统经验整定减少接触力峰值42%,成功率提升至96.5%。
1. 引言
机器人装配是智能制造的核心环节。对于标准零件,阻抗控制参数可通过离线调试获得稳定性能。但非标装配场景下,零件的尺寸公差、倒角形状、表面摩擦系数甚至材质硬度均存在批次间或个体间差异。固定阻抗参数往往导致两种极端:参数过“硬”造成过大接触力损伤零件;参数过“软”引发振动或响应滞后,延长装配周期。
自适应阻抗控制已有诸多研究,如基于力误差在线调整参考轨迹或利用模糊规则修正阻抗系数。然而这些方法多依赖专家经验或模型线性化假设,在非标工件强不确定性下泛化能力有限。另一方面,强化学习(RL)能够通过与环境的交互学习最优策略,但直接在高维阻抗参数空间中进行策略搜索存在样本效率低、安全性风险(接触力可能瞬间超限)等问题。
本文提出一种贝叶斯优化与RL相融合的自适应阻抗整定框架:利用高斯过程代理模型对接触过程进行安全探索,快速定位阻抗参数的高性能区域;随后用RL在安全区域内细调以实现最优动态响应。同时从接触动力学模型出发,推导阻抗参数与稳定性的解析关系,为整定提供约束边界。
2. 机器人阻抗控制与接触动力学建模
2.1 阻抗控制基本形式
机器人末端与环境接触时的动态行为可描述为二阶系统:Md(x¨c−x¨r)+Bd(x˙c−x˙r)+Kd(xc−xr)=FextMd(x¨c−x¨r)+Bd(x˙c−x˙r)+Kd(xc−xr)=Fext
其中 Md,Bd,KdMd,Bd,Kd 为惯性、阻尼、刚度对角矩阵;xc,xrxc,xr 分别为实际与参考轨迹;FextFext 为接触力。在装配任务中,通常设定沿装配方向(如Z轴)的阻抗参数可变,其余方向为位置控制。
2.2 非标装配接触过程分段模型
非标装配一般经历三个接触阶段:
- 接近阶段:无接触,无需阻抗控制。
- 搜寻与倒角进入阶段:零件倒角与配合件边缘发生点或线接触,接触力在几何不确定下波动剧烈。
- 插入与卡阻阶段:柱面或面面接触,摩擦力与表面粗糙度主导。
不同阶段的理想阻抗参数差异显著:进入阶段需要较高刚度以快速响应几何引导力,插入阶段则需低刚度高阻尼以避免卡阻抖动。因此必须实现参数的时间自适应整定。
3. 基于贝叶斯优化与RL的自适应整定方法
3.1 贝叶斯优化预训练安全域
令阻抗参数向量 θ=[K,B,M]Tθ=[K,B,M]T,定义目标函数为装配过程中接触力峰值与振荡能量的加权和:J(θ)=α⋅maxt∥F(t)∥+β⋅∫0T∥F˙(t)∥2dtJ(θ)=α⋅tmax∥F(t)∥+β⋅∫0T∥F˙(t)∥2dt
我们希望最小化 J(θ)J(θ)。由于每次评估需进行一次真实或高保真仿真装配(存在安全风险),贝叶斯优化采用高斯过程拟合 J(θ)J(θ),并使用期望改进(EI)采集函数推荐下一个评估点。每次评估前,根据高斯过程预测的95%置信区间上界判断是否可能超出安全力限 FmaxFmax,若超出则拒绝该推荐,选择次优可行点。
该过程运行约30-50次迭代后,获得参数空间的“安全高绩效区域” ΘsafeΘsafe。
3.2 基于深度Q网络的在线细调
进入实际装配批次后,每个非标工件可能有微小差异。在 ΘsafeΘsafe 内离散化阻抗参数候选集,使用深度Q网络(DQN)根据实时力信号选择调整动作。状态空间包括最近5个时间步的力误差及其导数、当前阻抗参数索引;奖励函数为负的瞬时接触力平方与振荡惩罚项。
DQN训练采用离线模拟数据初始化,然后在线微调,每完成一个工件装配更新一次网络。由于动作空间仅包含安全参数,从根本上避免了破坏性动作。
4. 接触稳定性分析
4.1 稳定性充分条件
将环境简化为线性弹簧-阻尼模型(刚度 KeKe),闭环系统传递函数为:G(s)=1Mds2+Bds+Kd+KeG(s)=Mds2+Bds+Kd+Ke1
根据Routh-Hurwitz判据,稳定性必要条件为 Md,Bd,Kd+Ke>0Md,Bd,Kd+Ke>0。但非标装配中存在非结构接触(如倒角滑动),需引入Lyapunov函数分析。定义状态向量 ξ=[e,e˙]Tξ=[e,e˙]T,其中 e=xc−xre=xc−xr,能量函数:V=12e˙TMde˙+12eT(Kd+Ke)eV=21e˙TMde˙+21eT(Kd+Ke)e
对时间求导并代入阻抗方程,得到:V˙=−e˙TBde˙+e˙TΔFdistV˙=−e˙TBde˙+e˙TΔFdist
其中 ΔFdistΔFdist 为由几何不确定产生的有界扰动力。若 ∥ΔFdist∥<λmin(Bd)∥e˙∥∥ΔFdist∥<λmin(Bd)∥e˙∥ 对于非零 e˙e˙ 成立,则系统渐近稳定。这给出了对阻尼矩阵最小特征值的下界要求。
4.2 自适应参数约束
因此,在贝叶斯优化和RL调整过程中,必须强制 BdBd 满足:λmin(Bd)>supt∥ΔFdist(t)∥∥e˙(t)∥λmin(Bd)>tsup∥e˙(t)∥∥ΔFdist(t)∥
该上确界可通过离线历史数据近似估计,作为安全约束加入优化。
5. 实验验证
5.1 实验平台与工件
使用UR10e机器人,装配力传感器(ATI Omega160)。非标工件包括:(a) 带椭圆倒角的非标轴(直径公差+0.1/-0.05mm);(b) 带表面微纹理的异形塑胶嵌件。共测试80个工件,分为固定参数阻抗(经验值)、经典自适应阻抗(基于力误差积分)与本文方法三组。
5.2 结果分析
| 方法 | 平均峰值力(N) | 装配成功率 | 平均装配时间(s) |
|---|
| 固定阻抗 | 38.2 | 81.2% | 5.3 |
| 经典自适应 | 27.5 | 88.7% | 4.2 |
| 本文方法 | 15.6 | 96.5% | 3.1 |
同时记录接触力振荡能量,本文方法较经典自适应降低63%。在一次非标轴装配中,当遇到椭圆度突变时,贝叶斯优化预训练的安全域使RL能够快速将刚度降低30%,避免卡死。
5.3 稳定性边界验证
刻意违反稳定性条件(设置 BdBd 低于计算下界),出现明显的高频振荡(>15Hz)且力幅值超限。相反,本文自适应整定始终保持力信号平滑,验证了Lyapunov约束的有效性。
6. 结论
本文提出面向非标装配的机器人阻抗参数自适应整定与稳定性分析方法,通过贝叶斯优化与强化学习结合,在安全域内高效优化阻抗参数,并给出基于Lyapunov的稳定性约束。实验证明该方法显著提升装配成功率与力控平稳性。未来将扩展至多臂协调装配非标大型工件。