인식과 추론을 분리한 데이터 효율적인 옷감 조작 학습
초록
본 논문은 옷감 조작을 위한 강화학습에서 이미지 기반 엔드‑투‑엔드 방식을 탈피하고, 시뮬레이션에서 완전한 상태 정보를 활용한 작은 규모의 Q‑네트워크를 설계한다. 오프라인 사전학습, 다목표 손실, 상태 이미지 표현, 그리고 Q‑레벨 시뮬‑투‑리얼 전이(시뮬레이션 Q‑함수를 시각 기반 정책으로 증류)라는 네 가지 원칙을 통해 SoftGym 벤치마크에서 기존 방법보다 적은 파라미터와 학습 시간으로 높은 성능을 달성한다.
상세 분석
이 연구는 옷감 조작 로봇의 핵심 난제인 고차원 상태공간, 비선형 동역학, 그리고 심한 자체 가림 현상을 해결하기 위해 ‘인식‑추론 분리’를 전략적 설계 원칙으로 채택하였다. 먼저 시뮬레이션 환경에서 옷감의 모든 노드 좌표를 3채널 이미지(각 채널이 x, y, z 좌표를 나타냄)로 변환함으로써, 고차원 벡터를 그대로 사용하지 않고도 컨볼루션 레이어의 위치 불변성을 활용한다. 이는 노드 간 연속성을 보존하면서도 네트워크가 지역적 패턴을 효율적으로 학습하도록 만든다.
행동 공간은 픽‑플레이스 방식으로 정의되는데, 픽 동작은 옷감 격자상의 노드 인덱스로, 플래이스 동작은 평면상의 2D 좌표로 표현한다. 노드 인덱스를 직접 사용함으로써 코너와 같은 고레버리지 지점을 자연스럽게 탐색하게 되고, 옷감 외부의 무효한 픽을 사전에 차단한다.
학습 단계는 두 단계로 나뉜다. 첫 번째는 6.5 백만 개의 오프라인 전이 데이터를 활용한 사전학습으로, 기본 Q‑손실 외에 ‘Cloth Fold Straight’와 ‘Cloth Fold Diagonal’이라는 두 개의 보조 목표를 도입한다. 이 보조 목표는 커버리지 면적 보상이 손실함수에 비해 정보가 부족한 상황에서, 동일 보상값을 갖는 서로 다른 상태 전이를 구분하도록 돕는다. 또한 Q‑값이 이론적 최대 반환을 초과하지 않도록 바운딩 손실을 추가해 오프라인 학습 시 발생할 수 있는 과대평가 문제를 완화한다.
두 번째는 시뮬레이션 내에서 ε‑탐욕적 정책을 사용한 온라인 파인‑튜닝이다. 여기서는 바운딩 손실을 제거하고, 사전학습 데이터로 초기화된 리플레이 버퍼에 새로운 전이를 지속적으로 추가한다. Double DQN 구조와 폴리악 평균(τ = 5e‑4)을 적용해 목표 네트워크의 안정성을 확보하고, 할인율 γ = 0.9, 종료 조건(커버리지 95 % 달성) 등을 설정하였다.
네트워크 아키텍처는 공유 컨볼루션 인코더와 두 개의 디코더 헤드(픽, 플래이스)로 구성된다. 인코더는 두 개의 Conv + LayerNorm + GELU 블록 뒤에 선형 레이어를 두어 4800 차원의 상태 이미지를 압축한다. 픽 헤드에서는 인코더 출력만, 플래이스 헤드에서는 인코더 출력에 선택된 픽 인덱스를 연결해 행동 간 의존성을 모델링한다.
시뮬‑투‑리얼 전이는 ‘Q‑레벨 전이’라는 독창적인 방식으로 수행된다. 시뮬레이션에서 학습된 Q‑함수를 라벨러로 활용해, 실제 로봇에 장착된 RGB‑D 카메라로 얻은 이미지와 대응되는 Q‑값을 대량 생성한다. 이후 이 데이터를 사용해 시각 기반 정책 네트워크를 지도학습으로 훈련함으로써, 동일한 Q‑함수를 시각 입력에 매핑한다. 이렇게 하면 하나의 시뮬레이션 에이전트를 여러 실제 환경에 재사용할 수 있다.
실험 결과는 SoftGym의 옷감 펼치기(task)에서 기존 최첨단 방법 대비 평균 커버리지 점수가 12 % 이상 상승했으며, 모델 파라미터는 약 0.8 M으로 5배 가량 경량화되었다. 학습 시간도 오프라인 사전학습과 온라인 파인‑튜닝을 합쳐 약 8 시간(단일 GPU)으로 크게 단축되었다.
핵심 인사이트는 (1) 완전한 상태 정보를 이미지 형태로 제공하면 작은 네트워크로도 강력한 표현을 학습할 수 있다, (2) 보조 목표와 바운딩 손실을 결합한 다목표 오프라인 학습이 데이터 효율성을 크게 향상한다, (3) Q‑레벨 전이를 통한 교차 모달리티 증류가 시뮬‑리얼 격차를 최소화한다는 점이다. 다만 현재는 1‑손잡이 픽‑플레이스 액션에 국한돼 있어 다중 로봇 협업이나 복합적인 접힘 동작에는 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기