내 물건은 어디에? 공간 관계 인식 대화형 시스템
초록
본 논문은 RGB-D 카메라를 이용해 작업 공간의 객체와 사람을 실시간으로 감지·추적하고, ‘안에’, ‘위에’, ‘옆에’, ‘가까이’, ‘소유’ 등의 공간 관계를 계산하여 자연어 대화로 사용자에게 알려주는 통합 시스템을 제시한다. 현재는 고정된 스마트 룸 환경에 적용되었으나, 향후 이동 로봇으로 확장해 환경을 탐색하고 공간 지식 베이스를 구축할 계획이다.
상세 분석
본 논문에서 제안된 시스템의 기술적 핵심은 세 가지 모듈로 구성된다. 첫째, 객체 및 에이전트 감지 모듈은 Microsoft Kinect RGB-D 카메라의 포인트 클라우드 데이터를 활용한다. 사람은 바닥에서 올라오는 ‘종유석’ 형태로, 객체는 작업대 위의 ‘돌기’ 형태로 모델링하여 실시간(30fps)으로 추적한다. 특히 객체가 손에 들려 형태가 변형될 경우, 손과 객체의 포인트 클라우드를 병합하여 지속적인 추적을 가능하게 한 점이 주목할 만하다. 이 데이터는 ZeroMQ pub-sub 채널을 통해 JSON 형식으로 스트리밍된다.
둘째, 공간 관계 계산 모듈은 기하학적 규칙에 기반한 명시적 로직을 사용한다. ‘안에(in)‘는 객체 부피의 80%가 포함될 때, ‘위에(on)‘는 한 객체의 바닥이 다른 객체의 꼭대기 위에 있을 때로 정의된다. ‘가까이(near)‘와 ‘옆에(next to)‘는 객체 크기를 기준으로 한 거리와 사이에 다른 객체의 존재 유무로 구분한다. 가장 혁신적인 관계는 ‘소유(belongs to)‘로, 이전에 보지 못한 객체가 특정 에이전트와 함께 처음 나타날 때 그 소유권을 추론한다. 이는 사용자가 “내 지갑"과 같은 자연스러운 언어를 사용할 수 있게 하는 중요한 기반이 된다.
셋째, 대화 시스템은 어레이 마이크로폰을 통해 사용자의 음성을 인식하고 합성 음성으로 응답한다. 시스템 호출은 “Celia"라는 키워드나 카메라를 직접 응시하는 행동으로 트리거된다. 이 모든 과정이 통합되어 사용자 질문에 대한 종단간(end-to-end) 자연어 응답을 생성한다.
본 시스템의 접근법은 최근 유행하는 대규모 데이터 기반 딥러닝 방식과 달리, 명시적 규칙과 실시간 기하학적 계산에 의존한다는 점에서 특징적이다. 이는 제한된 환경에서 높은 해석 가능성과 실시간 성능을 보장하지만, 복잡하거나 새로운 공간 관계로의 일반화에는 한계가 있을 수 있다. 저자들은 이러한 정적 시스템의 한계를 인지하고 있으며, 향후 이동 로봇 플랫폼으로의 이식을 통해 시야각 확보, 프라이버시 문제 완화, 능동적 환경 탐색 및 지식 축적을 목표로 하고 있다. 이는 단순한 객체 찾기 시스템을 넘어, 인간의 일상 공간을 이해하고 상호작용하는 보다 일반적인 인간-로봇 상호작용(HRI) 플랫폼으로의 진화 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기