학습된 목표 공간을 활용한 자율 목표 탐색 및 로봇 비주얼 모터 스킬 습득

본 논문은 내재적 동기 부여 목표 탐색 과정(IMGEP)을 실제 6자유도 로봇 팔에 적용하고, 목표 공간을 사전에 설계된 특징이 아닌 VAE 기반의 학습된 잠재 공간으로 대체한다. 실험 결과, 학습된 목표 공간을 이용한 탐색이 무작위 파라미터 탐색보다 효율적으로 공의 위치를 다양하게 탐색함을 보여준다.

저자: Adrien Laversanne-Finot, Alex, re Pere

학습된 목표 공간을 활용한 자율 목표 탐색 및 로봇 비주얼 모터 스킬 습득
본 논문은 내재적 동기 부여 목표 탐색 프로세스(Intrinsically Motivated Goal Exploration Processes, IMGEP)와 최신 딥러닝 기반 표현 학습을 결합하여, 실제 로봇 시스템에서 자율적인 스킬 습득을 실현하고자 한다. 기존 IMGEP는 인간이 설계한 목표 공간(예: 물체 위치, 관절 각도 등)에 의존했으며, 이는 도메인 지식이 풍부한 실험에만 적용 가능했다. 저자는 이러한 제약을 극복하기 위해, 로봇이 직접 경험한 이미지 데이터를 이용해 변분 오토인코더(VAE)를 학습하고, 잠재 공간을 목표 공간으로 활용한다. 논문의 구조는 크게 네 부분으로 나뉜다. 첫 번째는 배경 및 동기 부여 단계로, 고차원 연속 모터 명령 공간의 탐색이 비효율적이며, 목표 기반 탐색이 더 효과적이라는 점을 강조한다. 두 번째는 IMGEP와 학습된 목표 공간을 결합한 알고리즘 설계이다. 여기서는 초기 부트스트랩 단계에서 무작위 DMP 파라미터를 사용해 데이터를 수집하고, 이를 VAE에 입력해 잠재 변수를 추출한다. 이후 목표 샘플링 단계에서 잠재 공간 내 임의의 점을 목표로 설정하고, 정책 Π가 현재 컨텍스트와 목표를 입력받아 최적의 DMP 파라미터를 출력한다. 실행 후 관측된 이미지가 다시 인코더를 통과해 잠재 벡터로 변환되고, 목표와의 거리(유사도)로 보상이 계산된다. 세 번째는 실험 설계이다. 실험 플랫폼은 6자유도 로봇 팔과 원형 아레나 안에 놓인 테니스 공으로 구성된다. 로봇은 48 차원의 DMP 파라미터(각 관절당 7개의 베이시스 가중치와 최종 관절 상태)로 제어되며, 관측은 64×64 픽셀 RGB 이미지로 제공된다. 목표 공간 학습 전략은 두 가지로 나뉜다. (1) RGE(VAE): 사전에 수집된 대규모 데이터베이스를 이용해 VAE를 미리 학습한다. (2) RGE(Online): 초기 무작위 탐색 단계에서 얻은 데이터만으로 온라인 학습을 진행한다. 비교 대상으로는 (a) Random Parameter Exploration(RPE) – 파라미터를 무작위로 샘플링, (b) Engineered Feature Representation(RGE‑EFR) – 극좌표(거리, 각도) 기반 목표 공간을 사용한다. 성능 평가는 공이 도달한 위치를 30×30 그리드(총 900 셀)로 이산화하고, 탐색 동안 방문한 셀 수를 측정한다. 실험 결과는 다음과 같다. RGE(VAE)와 RGE‑EFR는 모두 RPE보다 현저히 높은 셀 커버리지를 달성했으며, 두 방법 간 차이는 미미했다. 이는 VAE가 충분히 의미 있는 잠재 표현을 학습했음을 의미한다. RGE(Online)는 초기 2000 에피소드 동안은 RPE와 동등했지만, 이후 목표 공간이 정제되면서 탐색 속도가 급격히 상승했다. 이는 목표 공간이 점진적으로 개선될 경우, IMGEP가 자체 커리큘럼을 형성해 효율적인 탐색을 수행한다는 증거이다. 다만, 전체적인 성능 차이는 시뮬레이션 기반 이전 연구에 비해 작았다. 이는 실험 환경이 공 하나와 팔만을 포함한 단순 구조였으며, DMP 자체가 다양한 팔 궤적을 생성할 수 있었기 때문이다. 또한 로봇의 모터 정밀도가 낮아 역모델 학습이 어려웠으며, 이는 정책 업데이트 효율을 저하시켰다. 논문은 마지막으로 몇 가지 향후 연구 방향을 제시한다. 첫째, 복수 객체와 방해 요소가 존재하는 복잡한 환경에서 목표 공간의 분리성(disentanglement)을 활용한 모듈러 목표 선택 전략을 검증할 필요가 있다. 둘째, 목표 공간 학습과 정책 학습을 동시에 최적화하는 공동 학습 프레임워크를 개발하면, 데이터 효율성을 더욱 높일 수 있다. 셋째, 현재는 VAE를 사용했지만, 최신 자기지도 학습 모델(예: β‑VAE, InfoGAN, Contrastive Learning)도 탐색 효율에 미치는 영향을 조사할 여지가 있다. 결론적으로, 이 연구는 엔지니어링된 목표 공간에 대한 의존성을 없애고, 로봇이 스스로 경험을 통해 목표 공간을 구축함으로써 자율적인 스킬 탐색이 가능함을 실증하였다. 비록 현재 실험에서는 제한된 성능 향상에 그쳤지만, 복잡한 실제 환경에서의 적용 가능성을 열어준 중요한 단계라 할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기