대화 기반 지속적 로봇 기술 학습
초록
본 논문은 로봇이 인간과의 대화를 통해 알지 못하는 기술을 질문하고, 몇 차례의 시연만으로 새로운 비주얼‑모터 스킬을 지속적으로 습득하도록 설계한 프레임워크와 ACT‑LoRA 정책을 제안한다. 시뮬레이션과 실제 인간‑로봇 실험에서 기존 GMM‑LoRA 대비 300 % 이상 성능 향상을 보이며, 사용자들은 새로운 요리 기술을 100 % 성공률로 가르칠 수 있었다.
상세 분석
이 연구는 로봇의 지속적 학습을 “대화”라는 인간 친화적 인터페이스와 결합함으로써 두 가지 핵심 문제를 동시에 해결한다. 첫 번째는 로봇이 자신이 모르는 스킬을 인식하고, 언어적 설명을 통해 해당 스킬을 검색하거나 인간에게 직접 학습을 요청하는 메커니즘이다. 이를 위해 저자들은 CLIP 기반 텍스트 임베딩을 활용해 스킬 라이브러리와 현재 요구 스킬 간의 코사인 유사도를 계산하고, 사전 정의된 임계값(ϵ_text = 0.95) 이상이면 기존 스킬을 바로 실행한다. 임계값 이하인 경우, LLM이 대화 상태 머신을 통해 인간에게 “이 스킬을 보여줄 수 있나요?” 라는 질문을 던지고, 텔레오퍼레이션 시연을 받아들인다.
두 번째 핵심은 새로운 비주얼‑모터 스킬을 소수의 시연(보통 3~5회)만으로 학습할 수 있는 정책 구조인 ACT‑LoRA이다. 기존 Action Chunking Transformer(ACT)는 고해상도 행동 청크를 효율적으로 예측하지만, 연속 학습 시 catastrophic forgetting 문제가 있었다. 저자들은 LoRA(Low‑Rank Adaptation) 어댑터를 ACT의 기본 가중치(ψ₀) 위에 각 스킬별로 별도 어댑터(ψ_i)를 부착한다. 새로운 스킬을 학습할 때는 ψ₀와 기존 어댑터를 고정하고, 오직 신규 스킬 전용 어댑터만 업데이트한다. 이렇게 하면 기존 스킬의 성능을 유지하면서도 새로운 스킬을 빠르게 습득한다. 실험 결과, ACT‑LoRA는 사전 학습된 스킬에 대해 500 % 이상의 향상을 보였으며, GMM‑LoRA 대비 새로운 스킬 학습에서 300 % 이상 높은 성공률을 기록했다.
시뮬레이션에서는 RLBench 기반 여러 연속 학습 벤치마크를 사용했으며, 인간‑로봇 실험에서는 샌드위치 제작 과업을 선택했다. 참가자 16명은 로봇에게 레터스 샌드위치와 베지 샌드위치를 만들도록 지시했으며, 로봇이 모르는 “후추 뿌리기”와 “버터 바르기” 같은 동적 스킬을 텔레오퍼레이션으로 시연했다. 결과적으로 COLADA(대화 기반 지속 학습 에이전트)는 전체 과업 성공률 87.5 %, 새로운 스킬 성공률 100 %를 달성했고, 사용자는 보조 작업(이메일 작성) 수행에 더 많은 시간을 할애할 수 있었다(p < 0.001, Z = 3.61).
이 논문의 주요 기여는 (1) 스킬 라이브러리와 LLM을 결합한 대화형 질의·학습 프레임워크, (2) LoRA 어댑터를 이용한 데이터 효율적인 지속적 비주얼‑모터 정책, (3) 시뮬레이션과 실제 인간‑로봇 상호작용 모두에서 입증된 실용성이다. 특히, “무엇을 모르는가”를 언어적으로 표현하고, 인간에게 직접 물어볼 수 있다는 점은 기존의 일방향 명령 수행 방식과 차별화된다. 다만, 현재 구현은 텍스트 임베딩과 CLIP 기반 유사도에 크게 의존하므로, 언어 표현이 모호하거나 다중 의미를 가질 경우 오탐이 발생할 가능성이 있다. 또한, 어댑터 수가 스킬 수와 비례해 증가하므로 메모리 관리와 실시간 추론 효율성에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기