시뮬레이션 기반 조립 정책에 비대칭 실제 잔차를 결합한 스파르
본 논문은 시뮬레이션에서 학습된 기본 정책과 실제 환경에서 학습된 잔차 정책을 결합하여 조립 로봇의 시뮬‑리얼 격차를 효과적으로 메우는 하이브리드 프레임워크 SPARR를 제안한다. 기본 정책은 저레벨 상태와 밀집 보상을 이용해 시뮬레이션에서 강력한 사전 행동을 학습하고, 잔차 정책은 시각 관측과 희소 보상을 활용해 실제 세계의 동역학·센서 오차를 보정한다. 실험 결과, 다양한 2부품 조립 과제에서 성공률을 38.4% 향상시키고 사이클 타임을 2…
저자: Yijie Guo, Iretiayo Akinola, Lars Johannsmeier
본 논문은 조립 로봇 분야에서 오랫동안 제기되어 온 ‘시뮬‑리얼 격차(sim-to-real gap)’ 문제를 해결하기 위해, 시뮬레이션에서 학습된 기본 정책과 실제 환경에서 학습된 잔차 정책을 결합한 새로운 프레임워크 SPARR(Simulation‑based Policies with Asymmetric Real‑world Residuals)를 제안한다.
1. **배경 및 동기**
- 조립 작업은 접촉이 많고 정밀도가 요구되는 특성 때문에, 실제 로봇에서 직접 강화학습(RL)을 적용하면 샘플 효율이 낮고 인간 감독이 필수적이다.
- 반면 시뮬레이션 기반 학습은 빠른 데이터 수집과 안전성을 제공하지만, 물리 엔진과 실제 로봇 사이의 차이(동역학, 마찰, 센서 노이즈 등) 때문에 직접 전이 시 성능이 급격히 저하된다.
- 기존 연구는 도메인 랜덤화, 시뮬레이션 파라미터 최적화, 혹은 제로샷 전이 기법을 통해 격차를 줄이려 했지만, 여전히 복잡한 접촉 상황에서는 성공률이 낮았다.
2. **핵심 아이디어**
- **기본 정책(πₛ)**: 시뮬레이션에서 저레벨 상태(관절 각도, 속도, 힘)와 밀집 보상(접촉 유지, 위치 오차 최소화 등)을 이용해 학습한다. 이 정책은 빠른 수렴과 높은 샘플 효율을 보이며, 다양한 조립 동작에 대한 일반적인 행동 패턴을 제공한다.
- **잔차 정책(πʀ)**: 실제 로봇에서 시각 관측(카메라 이미지)과 희소 보상(조립 성공/실패)만을 사용해 학습한다. 기본 정책이 제공하는 행동에 대한 미세한 보정을 담당한다.
- **비대칭 잔차(Asymmetric Residual)**: 두 정책이 서로 다른 관측 공간을 사용한다는 점을 활용해, 상태‑이미지 매핑 네트워크를 도입한다. 시뮬레이션 상태를 이미지 특징 공간으로 변환하고, 이미지 특징을 상태 보정값으로 역투사한다. 이를 통해 시뮬레이션과 실제 사이의 관측 차이를 효과적으로 메운다.
3. **학습 절차**
- **시뮬레이션 단계**: PPO·SAC와 같은 최신 오프폴리시 알고리즘을 사용해 기본 정책을 학습한다. 도메인 랜덤화를 적용해 물리 파라미터(질량, 마찰계수 등)를 변동시켜 정책의 로버스트성을 강화한다.
- **실제 단계**: 기본 정책을 초기화된 행동으로 사용하고, 실제 로봇에서 수집된 이미지와 성공/실패 라벨을 이용해 잔차 정책을 학습한다. 여기서는 행동 클론 대신 강화학습 기반의 희소 보상 최적화를 적용해, 인간 감독 없이도 보상이 자동으로 생성되도록 설계한다(예: 부품 결합 시 전류 급감, 힘 센서 임계값 초과 등).
4. **네트워크 구조**
- 이미지 인코더는 ResNet‑ 기반 트랜스포머 블록을 사용해 고차원 시각 특징을 추출한다.
- 매핑 네트워크는 MLP와 어텐션 레이어를 결합해 시뮬레이션 상태와 이미지 특징 사이의 비선형 변환을 수행한다.
- 최종 행동은 a = πₛ(s) + πʀ(o) 형태로 합산되며, πʀ의 출력은 기본 정책의 행동에 작은 보정값을 더하는 형태이므로 안정적인 제어가 가능하다.
5. **실험 설정 및 결과**
- **테스트 베드**: 6가지 서로 다른 2부품 조립 작업(핀 삽입, 나사 체결, 플라스틱 부품 맞춤 등)과 3가지 환경 변동(조명 변화, 부품 위치 오프셋, 로봇 베이스 진동)을 적용했다.
- **비교 대상**: (1) 제로샷 시뮬‑리얼 전이 방법(Domain Randomization, SimOpt), (2) 인간 감독 기반 실제 RL(다중 단계 보상 설계), (3) 단순 시뮬‑리얼 전이만 적용한 기본 정책.
- **성능 지표**: 성공률, 평균 사이클 타임, 샘플 효율(실제 환경에서의 시도 횟수).
- **주요 결과**: SPARR는 평균 성공률 96.8%를 기록했으며, 제로샷 방법 대비 38.4%p 상승, 사이클 타임은 29.7% 단축했다. 인간 감독 기반 RL과 비교했을 때는 성공률이 4%p 높고, 학습에 필요한 인간 개입 시간이 0% (전혀 필요 없음)였다. 또한, 기본 정책만 사용했을 때 대비 15%p 이상의 성공률 향상을 보였다.
6. **장점 및 한계**
- **장점**: (1) 시뮬레이션의 샘플 효율과 실제 세계의 적응성을 동시에 확보, (2) 인간 감독 없이도 복잡한 접촉 작업을 학습, (3) 다양한 환경 변화에 대한 일반화 능력.
- **한계**: 초기 잔차 정책 학습 시 안전 제어가 필요하고, 고속 움직임에 대한 이미지 처리 지연이 존재한다. 또한, 매핑 네트워크의 학습 안정성이 일부 상황에서 민감하게 작동한다.
7. **향후 연구 방향**
- 시뮬레이션에서 생성된 가상 이미지와 실제 이미지를 교차 도메인 적대 학습(CycleGAN 등)으로 정교히 매핑해 매핑 네트워크의 일반화성을 강화.
- 시뮬‑리얼 동역학 예측 모델을 활용해 이미지 지연을 보상하는 모델 기반 제어와 결합.
- 다중 부품·다중 단계 조립 작업으로 확장하여 복합적인 조립 라인에 적용 가능하도록 프레임워크를 확장.
결론적으로, SPARR는 비대칭 잔차 구조를 통해 시뮬레이션과 실제 세계 사이의 관측 격차를 효과적으로 메우고, 인간 감독 없이도 높은 성공률과 효율성을 달성한 혁신적인 조립 로봇 학습 방법이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기