폐기물 컨테이너 리프팅을 위한 잔여 강화학습
초록
본 논문은 대형 유압 로더 크레인에 부착된 언더액추에이티드 배출 장치를 이용해 폐기물 컨테이너를 정밀하게 들어올리는 과정을 다룬다. 명시적인 카르테시안 제어기와 PPO 기반 잔여 정책을 결합한 Residual Reinforcement Learning(RRL) 프레임워크를 제안하고, 시뮬레이션 환경에서 도메인 랜덤화와 에피소드 초기화 기법을 적용해 일반화 능력을 검증한다. 실험 결과, 잔여 정책이 기존 제어기에 비해 궤적 추적 오차를 크게 감소시키고, 스윙 억제와 적재 성공률을 향상시킴을 보여준다.
상세 분석
이 연구는 대형 크레인이라는 고관성·고비탄성 시스템에 대한 정밀 제어 문제를 해결하기 위해 두 단계의 제어 구조를 설계하였다. 첫 번째 단계는 명시적인 카르테시안 제어기로, (1) 어드미턴스 제어를 통해 목표 궤적을 추적하고, (2) 펜듈럼 모델 기반의 안티스윙 가속도 보정을 적용해 배출 유닛의 진동을 억제한다. 여기서 어드미턴스 제어는 가상 질량·감쇠·강성 파라미터를 이용해 외부 힘을 가상적으로 변환하고, 이를 다시 실제 관절 속도로 매핑한다. 안티스윙 보정은 작은 각도 근사식을 이용해 수평 가속도가 스윙 각도에 미치는 영향을 역으로 보정하는데, 이때 감쇠 비율 ζ와 고유 진동수 ωₙ을 조정함으로써 2차 시스템 형태로 스윙을 빠르게 감쇠시킨다.
두 번째 단계는 PPO로 학습된 잔여 정책이다. 잔여 정책은 명시 제어기의 출력에 작은 가중치 λ(오류 기반 가중치)를 곱해 보정한다. 특히, 수평 정렬 구간(B segment)에서만 잔여 입력을 활성화함으로써 학습 효율을 높이고, 불필요한 보정으로 인한 불안정을 방지한다. 관측 벡터는 78 차원으로 구성되며, 현재 관절 위치·속도, 배출 유닛 상태, 목표 TCP 포인트, 궤적 튜브 거리 δ_tube, 이전 행동 이력 등을 포함한다. 이러한 풍부한 상태 정보를 통해 정책은 시스템의 비선형 동역학과 명시 제어기의 한계를 실시간으로 추정하고, 적절한 속도 보정을 생성한다.
학습 단계에서는 에피소드 초기화를 통해 컨테이너 위치와 크레인 초기 TCP를 다양하게 샘플링하고, 도메인 랜덤화를 적용해 페이로드 질량·무게중심, 액추에이터 강성·감쇠, 비구동 관절 마찰 등을 변동시켰다. 이는 실제 현장 환경에서 발생할 수 있는 파라미터 불확실성을 시뮬레이션 단계에서 미리 경험하게 함으로써 정책의 일반화 능력을 크게 향상시킨다.
실험 결과는 세 가지 주요 지표(궤적 추적 오차, 튜브 거리 δ_tube, 스윙 각도)와 성공률을 통해 평가되었다. 특히, 스케일이 1.52.0인 강성 높은 설정에서는 평균 추적 오차가 0.049 m, 성공률이 92.3%에 달했으며, 스케일이 0.10.49인 부드러운 설정에서도 47.3%의 성공률을 유지했다. 이는 잔여 정책이 시스템 강성 변화에 대해 일정 수준의 견고함을 제공함을 의미한다. 또한, 초기 스윙 각도가 최대 17.5°였던 상황에서도 최종 스윙이 2.5° 이하로 감소하는 등 안티스윙 성능이 크게 개선되었다.
한계점으로는 모든 실험이 시뮬레이션 기반이며, 실제 유압 시스템의 비선형 유압 흐름·시스템 딜레이·센서 노이즈 등을 고려하지 않았다는 점이다. 또한, 잔여 정책이 관절 속도 보정에만 국한되어 있어, 보다 복합적인 힘/토크 레벨 보정이 필요할 경우 확장성이 제한될 수 있다. 향후 연구에서는 실제 크레인에 대한 하드웨어‑인‑더‑루프 검증, 시뮬레이션‑투‑리얼 전이 기법(예: 시스템 식별 기반 파라미터 튜닝) 및 다중 목표(예: 에너지 효율·작업 시간 최소화) 최적화를 포함한 다목표 강화학습으로 확장하는 것이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기