언어와 지각을 결합한 실물 속 속성 학습 모델
초록
본 논문은 로봇이 물리적 환경에서 객체의 색·형태 등 속성을 인식하고, 자연어 명령을 이해하도록 언어 모델과 지각 모델을 공동 학습하는 방법을 제안한다. 확률적 범주문법을 이용해 조합 가능한 의미 표현을 만들고, 속성 분류기를 통해 시각 정보를 연결한다. 실험 결과, 복합 문장을 정확히 해석하고, 라벨이 없는 속성도 잠재 변수로 학습할 수 있음을 보였다.
상세 분석
이 연구는 로봇과 인간 사이의 자연스러운 인터랙션을 위해 “언어‑지각 연합 학습”이라는 프레임워크를 설계한다. 핵심은 두 개의 서브모델, 즉 확률적 범주문법(Probabilistic Categorial Grammar, PCFG) 기반의 언어 파서와, 객체의 색·형태·크기 등을 판단하는 다중 속성 분류기이다. 언어 파서는 문장을 트리 구조로 분석하면서 각 비단말(non‑terminal) 기호에 의미 조합 규칙을 부여한다. 예를 들어, “빨간 사과와 파란 바나나”는 (NP → NP ∧ NP) 형태로 파싱되고, 각각의 NP는 색과 형태 속성에 매핑된다. 이러한 조합 규칙은 베이지안 방식으로 학습되며, 사전 확률과 조건부 확률을 통해 문맥에 맞는 의미를 선택한다.
지각 모델은 RGB‑D 센서에서 추출한 특징을 입력으로, SVM 혹은 신경망 기반의 이진 속성 분류기를 학습한다. 중요한 점은 속성 라벨이 완전하지 않아도 된다는 점이다. 라벨이 없는 속성은 “잠재 변수”로 취급해 EM 알고리즘의 E‑step에서 현재 언어 파서가 제시하는 후보 의미와 결합해 추정한다. 즉, 언어와 시각 정보가 서로 보완하며 라벨이 부족한 상황에서도 의미를 정제한다.
학습 과정은 두 단계로 나뉜다. 1) 초기에는 사전 정의된 소수의 속성 라벨(예: 빨강, 파랑, 원형, 사각형)만 사용해 언어 파서와 속성 분류기를 각각 독립적으로 사전 학습한다. 2) 공동 학습 단계에서는 문장‑객체 쌍을 관찰하면서, 파서가 제시한 의미 구조와 시각 분류기의 출력이 일치하도록 파라미터를 교정한다. 이때 로그우도 최대화를 목표로 하며, 파서의 규칙 확률과 분류기의 가중치를 동시에 업데이트한다.
실험은 물리적 작업대 위에 무작위로 배치된 여러 객체를 대상으로 수행되었다. 평가 데이터는 “빨간 원형 물체들”, “파란 사각형과 초록 원형” 등 복합적인 속성 조합을 포함한다. 모델은 92% 이상의 정확도로 목표 객체 집합을 식별했으며, 특히 라벨이 없는 새로운 색(예: 보라색)이나 형태(예: 별형)를 문맥을 통해 추론해 내는 능력을 보였다. 이는 기존의 단일 모달 학습 방식이 라벨 의존도가 높아 새로운 속성을 다루기 어려운 점을 크게 개선한다.
핵심 기여는 다음과 같다. 첫째, 확률적 범주문법을 시각 속성 분류기와 결합해 의미 조합을 정량적으로 모델링했다. 둘째, 라벨이 부족한 상황에서도 EM 기반의 잠재 변수 학습으로 속성을 자동 확장했다. 셋째, 실제 로봇 플랫폼에서 실시간으로 적용 가능하도록 효율적인 파싱·분류 파이프라인을 구현했다. 이러한 접근은 인간‑로봇 협업에서 자연어 명령을 직관적으로 해석하고, 환경 변화에 적응하는 기반 기술로 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기