언어 다양성으로 강화된 로봇 제어: OpenVLA의 LoRA 파인튜닝
본 논문은 대규모 로봇 데이터셋 Bridge Dataset V2에 LLM을 활용해 다형적인 명령문을 합성하고, 이를 Low‑Rank Adaptation(LoRA)으로 OpenVLA에 파인튜닝함으로써 언어 일반화 능력을 향상시킨다. 실험 결과, Top‑1 정확도는 약간 감소했지만 5‑Bin 허용 정확도가 크게 상승해 로봇 행동의 물리적 일관성이 개선되었음을 보여준다.
저자: Dongik Shin
본 논문은 로봇 임베디드 AI에서 언어 일반화가 여전히 큰 도전 과제임을 지적한다. 특히 Vision‑Language‑Action(VLA) 모델인 OpenVLA는 대규모 사전학습 덕분에 다양한 로봇 플랫폼에 zero‑shot으로 적용 가능하지만, 학습에 사용된 데이터셋인 Bridge Dataset V2는 스크립트 기반으로 수집된 트래젝터리 위주이며 인간이 작성한 자연어 명령이 부족해 언어 다양성이 제한적이다. 이러한 한계는 실제 현장에서 사용자가 다양한 표현으로 지시할 때 모델이 오해하거나 실패할 위험을 높인다.
이를 해결하기 위해 연구진은 두 단계의 접근법을 제안한다. 첫 번째 단계는 LLM을 활용해 기존 트래젝터리마다 다섯 개의 구조적으로 다양한 명령문을 자동 생성하는 것이다. 프롬프트 템플릿은 이미지 3프레임(시작, 중간, 종료)과 메타데이터를 입력받아, “In order to pick up the object, the robot should move it to the target”와 같은 목표‑지향형, “To relocate the item, the robot must execute a grasp and place action”와 같은 명령형, 그리고 “If the object is obstructed, the robot should first clear the path”와 같은 조건형을 포함하도록 설계되었다. 생성된 명령문은 어휘 다양성(‘object’, ‘item’, ‘utensil’, ‘target’)과 동사 다양성(‘grasp’, ‘pick up’, ‘relocate’, ‘manipulate’)을 강조하며, 인간 검수를 통해 품질을 보장한다.
두 번째 단계는 파라미터 효율적인 미세조정 기법인 Low‑Rank Adaptation(LoRA)를 적용하는 것이다. LoRA는 기존 Transformer 레이어의 가중치를 고정하고, 저‑랭크 행렬 A와 B를 삽입해 추가 파라미터만 학습한다. 본 연구에서는 rank = 32, α = 64 설정을 사용했으며, 전체 모델 파라미터 대비 약 0.1 % 수준만 업데이트한다. 손실 함수는 OpenVLA의 기본 행동 토큰 예측 손실을 그대로 사용해, 새로운 언어 입력에 대한 행동 매핑을 학습한다.
실험 설정은 Bridge Dataset V2에서 무작위 스크립트 정책으로 수집된 9,731개의 트래젝터리 중 100개(각 25프레임)를 선택해 진행되었다. 학습은 AdamW 옵티마이저(learning rate = 5e‑5)로 단일 Nvidia A100 GPU에서 수행되었다. 평가 지표는 Top‑1 정확도와 5‑Bin 허용 정확도이다. 결과는 LoRA‑파인튜닝 모델이 Top‑1 정확도에서 6.62 %→5.09 %로 약 1.5 % 감소했지만, 5‑Bin 정확도는 40.76 %→42.47 %로 1.71 %p 상승했다. 이는 모델이 정확한 토큰 일치를 놓치더라도 물리적으로 타당한 행동 범위 내에 머무는 경향이 강화되었음을 의미한다. 즉, 언어 다양성을 통해 모델이 “정확한 문장 매핑”보다 “작업 성공률”에 더 초점을 맞추게 된 것이다.
논문은 또한 한계점을 명확히 제시한다. 첫째, 평가가 소규모 샘플에 국한돼 실제 복잡한 작업이나 다중 단계 시나리오에서의 일반화 여부가 불확실하다. 둘째, 언어 다양성 증가가 Top‑1 정확도 감소와 트레이드‑오프 관계에 있음을 확인했으며, 이는 실제 로봇 시스템에서 정확한 제어와 유연한 해석 사이의 균형을 어떻게 맞출지에 대한 추가 연구가 필요함을 시사한다. 향후 연구 방향으로는 (1) 자동 생성 명령문의 품질을 향상시키기 위한 인간‑LLM 협업 프레임워크, (2) 대규모 데이터셋 전반에 걸친 다중 언어 및 다중 로봇 플랫폼 적용, (3) 실시간 로봇 제어 파이프라인에 LoRA‑파인튜닝 모델을 통합해 실제 물리 환경에서의 성능 검증을 제시한다.
결론적으로, 본 연구는 “언어 공간을 인위적으로 확장하고, 파라미터 효율적인 미세조정으로 기존 대형 VLA 모델에 적용”함으로써 로봇의 언어 일반화 능력을 실질적으로 향상시킬 수 있음을 입증한다. 이는 향후 로봇이 인간과 보다 자연스럽게 상호작용하고, 다양한 지시문을 이해하는 데 중요한 발판이 될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기