- Title: Explaining Why Things Go Where They Go Interpretable Constructs of Human Organizational Preferences
- ArXiv ID: 2512.24829
- 발행일: 2025-12-31
- 저자: Emmanuel Fashae, Michael Burke, Leimin Tian, Lingheng Meng, Pamela Carreno-Medrano
📝 초록
이 논문은 서비스 로봇의 물체 재배치 문제를 다룬다. 이 문제는 사용자의 조직 선호도에 따라 공간 내에서 원하는 구성으로 아이템을 정리하는 것을 의미한다. 기존 연구들은 일정한 정돈 방식을 사용했지만, 본 논문에서는 사용자별로 다양한 선호도를 반영할 수 있는 해석 가능한 구조체를 제안한다.
💡 논문 해설
1. **해석 가능한 배치 선호도 공식화:** 사람들은 공간적 실용성, 습관적인 편리함, 의미론적 일관성, 상식적 적합성을 통해 물체를 어떻게 배치할지 결정한다.
2. **측정 도구 개발:** 설문지를 통해 각 구조체가 얼마나 중요한지 측정하고 신뢰도를 검증한다.
3. **선호도에 따른 배치 생성:** 몬테카를로 트리 탐색(MCTS) 계획자를 사용하여 인간 선호도와 일치하는 물체 배치를 생성한다.
이 연구는 로봇에게 사람처럼 사물을 정리할 수 있는 능력을 부여하고, 그 이유를 쉽게 설명할 수 있도록 한다. 이 방법은 로봇이 사용자의 개인적인 선호도에 맞게 행동하고 이를 이해하기 쉬운 용어로 설명하는 데 도움을 준다.
📄 논문 발췌 (ArXiv Source)
<ccs2012> <concept>
<concept_id>10010520.10010553.10010554</concept_id>
<concept_desc>컴퓨터 시스템 조직 로봇공학</concept_desc>
<concept_significance>500</concept_significance> </concept>
<concept>
<concept_id>10003120.10003121.10003122.10003332</concept_id>
<concept_desc>사람 중심 컴퓨팅 사용자 모델</concept_desc>
<concept_significance>500</concept_significance> </concept>
<concept>
<concept_id>10003120.10003121.10003122.10003334</concept_id>
<concept_desc>사람 중심 컴퓨팅 사용자 연구</concept_desc>
<concept_significance>300</concept_significance> </concept>
<concept> <concept_id>10010405.10010455.10010459</concept_id>
<concept_desc>응용 컴퓨팅 심리학</concept_desc>
<concept_significance>300</concept_significance> </concept>
<concept>
<concept_id>10010147.10010178.10010199.10010204</concept_id>
<concept_desc>컴퓨팅 방법론 로봇 계획</concept_desc>
<concept_significance>300</concept_significance> </concept>
</ccs2012>
소개
물체 재배치는 일정한 공간 내에서 원하는 구성으로 아이템을 정리하는 문제로, 일상 환경에서 서비스 로봇이 직면하는 중앙 과제이다. 여기서 로봇은 단순히 물체를 조작할 수 있어야 하는 것뿐만 아니라 사용자의 조직 선호도에 맞는 위치를 결정해야 한다. 사람의 조직 선호도는 다양하다 (예: 한 사람은 주전자 옆에 커피잔을 두고 싶어 할 수 있으며, 다른 사람은 냉장고 안에 두기를 원할 수도 있다). 이러한 차이점을 반영하지 못하는 일괄적인 정의는 실패할 가능성이 크다. 로봇이 이 맥락에서 유용하려면 사용자와 장면 간의 차이를 고려하고 특히 공유 환경에서 적응할 수 있는 물체 재배치 모델을 갖추어야 한다.
물체 재배치의 개인화에 대한 이전 연구는 개별 사용자의 주관적인 공간 선호도를 반영하도록 배치를 맞춤화하는 것을 목표로 했다. Abdo 등은 협업 필터링을 통해 사용자 특정 그룹을 예측했으며, 잠재 임베딩의 정돈 스타일을 학습하기 위한 프레임워크를 도입했다. 최근 시스템들은 영상-언어 모델에 대한 제로샷 시각적 유도를 사용하여 사용자 선호도를 근사화하거나 현재 및 이전 장면 컨텍스트에서 이를 추론한다. 그러나 이러한 방법은 잠재 표현을 사용하여 전반적인 선호 신호를 포착하지만, 그 뒤에 숨어 있는 요인들을 드러내지 않아 물체가 어디에 배치되는지 이해하거나 특정 우선순위에 따라 조정하는 것이 어렵다.
이 제한점을 해결하기 위해 우리는 사람들이 어떻게 환경을 조직화하는지를 반영하고 사용자와 컨텍스트 간의 변동성에 적응할 수 있는 해석 가능한 구조체를 제안한다. 구체적으로, 네 가지 구성 요소인 공간적 실용성, 습관적인 편리함, 의미론적 일관성, 상식적 적합성을 사용자의 조직 선호도를 표현하는 간결한 표현으로 제시하고 이러한 인간 중심의 구성요소가 일반 가정에서 물체 배치에 대한 사람들의 사고를 설명할 수 있는지 조사한다. 우리의 연구는 세 가지 기여를 제공한다:
해석 가능한 배치 선호도 공식화: 네 가지 명시적인 배치 구성 요소(공간적, 습관적, 의미론적, 상식적)가 개인과 장면 간의 변동성을 포괄한다는 것을 보인다.
제안된 구성요소에 대한 측정 도구: 설문지를 설계하고 검증하여 각 구성 요소가 얼마나 영향을 미치는지 측정하고 이를 신뢰할 수 있는 심리적으로 의미있는 기반으로 설정한다.
선호도에 따른 배치 생성: 구성 요소의 비용 함수를 공식화하고 이를 몬테카를로 트리 탐색(MCTS) 계획자에 통합하여 참가자의 가중치를 사용할 때 인간 선호도와 일치하는 배열을 생성한다.
관련 연구
대부분의 로봇 물체 재배치 시스템은 “좋은” 조직이 무엇인지에 대한 단일, 보편적인 정의를 최적화한다. 주거 환경에서, 예를 들어 주방과 거실에서는 조직이 주로 물체와 방 수준에서 정의된다. 이러한 방법론들은 시각-어휘 사전 지식 및 상식적 추론을 사용하여 물체를 가능한 위치로 이동하거나 공간 흐름 필드를 최소화하거나 배치 비용 함수를 학습한다. 그러나 이러한 방법은 다양한 사용자 특정 조직 스타일을 반영하지 못한다. 우리의 연구에서는 사용자의 물체 재배치 선호도를 네 가지 해석 가능한 구성 요소의 조합으로 공식화하여 다양성을 수용할 수 있다.
개인화된 재배치에 대한 Abdo 등은 협업 필터링을 사용하여 객체 그룹화의 공현 패턴을 모델링했지만, 이는 사전에 고정된 조직 체계를 가정하고 있으므로 기본 원칙을 설명하지 않고 통계적 규칙성을 포착한다. 다른 개인화된 재배치 접근법들은 사용자-정리 장면에서 잠재 “정돈 스타일"을 추출하거나 대형 언어 모델을 사용하여 예를 요약하는 규칙을 생성한다. 이러한 방법론은 개인화와 좋은 예측 성능을 가능하게 하지만, 생성된 배열을 지도하는 원칙을 숨기는 암묵적인 표현에 의존한다.
이 해석 불가능성은 실용적 채택을 제한한다. 인터랙션(HRI) 및 설명 가능한 로봇 연구는 사람들이 특히 개인 공간에서 로봇의 목표와 추론을 인간 용어로 설명하는 것이 유익하다고 강조한다. 사람들은 행동이 이해하기 쉬우면서도 설명할 수 있는 로봇을 선호한다. 로봇 공학 연구뿐만 아니라 더 광범위한 AI 맥락에서도 신뢰성과 투명성이 채택에 영향을 주므로 본질적으로 해석 가능한 모델이 후속 설명이 필요한 블랙박스 시스템보다 선호된다. 우리는 이러한 단점을 해결하기 위해 네 가지 해석 가능한 구성 요소로 배치 선호도를 명시적으로 공식화한다. 이 설계는 두 가지 주요 이점을 제공한다. 첫째, 통합된 프레임워크 내에서 개인과 그룹의 조직 스타일을 투명하게 특성화할 수 있다. 둘째, 간단하고 이해하기 쉬운 용어로 행동을 개인화하고 추론을 설명하는 로봇에 대한 기초를 제공한다.
방법론
현재 로봇 물체 재배치 연구에서 해석 가능한 구조체의 부족 문제를 해결하기 위해 Sec 3.1에 자세히 설명된 네 가지 구성 요소를 제안한다. 제안된 구성요소는 Sec 3.2에서 사용자 연구를 통해 검증하고, 간단한 용어로 인간과 유사한 배열을 생성하는 방법을 Sec 3.3에 자세히 설명한다.
이론적 동기
심리학 설계, 공간 인지, 인체공학 및 인간-환경 상호 작용 분석을 바탕으로, 그리고 로봇 공학 문헌 검토를 통해 네 가지 구성 요소를 제안하여 인간의 조직 사고를 포괄적으로 다룬다: 공간적 실용성, 습관적인 편리함, 의미론적 일관성 및 상식적 적합성.
공간적 실용성은 사람들이 물체가 방의 물리적 레이아웃에 맞게 배치되도록 하고 효율적으로, 물리적으로 가능한 사용을 지원하는 방법을 포착한다. 우리의 시나리오에서는 주거 환경인 주방과 거실에서 형상 및 뷰스타 공간 규모를 집중한다. 이 내부 규모에서 연구는 사람들이 기능적 영역 및 안정된 앵커 (예: 싱크대 또는 가스레인지)에 대한 물체의 일반적인 위치에 대해 정규성을 학습하고 이러한 정규성의 위반은 인식 가능성 감소와 측정 가능한 처리 비용을 초래할 수 있음을 보여준다. 컨텍스트 쿠잉 연구는 사람들이 반복되는 공간 구성에 암시적으로 학습하고 이를 시각 검색 동안 기대치와 주의를 지도하는 것을 보여준다. 로봇 공학에서 관련 아이디어는 물체 배치 시스템에서 나타나며, 후보 배치를 평가하기 위해 기하 구조 및 물리적 가능성 기준 (예: 지원 접촉, 안정성 등)을 사용한다.
습관적인 편리함은 사람들이 자주 사용하는 아이템이 쉽게 접근되도록 만드는 방법을 반영한다. 동일한 환경에서 반복된 행동은 의도적인 것이 아니라 자동화된다. 신경과학 연구에 따르면 익숙한 환경은 이러한 자동화된 행동을 트리거하고 의식적 의사결정 대신 작용한다. 이는 일상 작업에 필요한 노력 최소화의 자연스러운 동기로, 자주 사용되는 물체를 쉽게 닿을 수 있는 위치에 배치하도록 한다. 이 원칙은 디자인 가이드라인 및 인체공학 표준에도 적용되며 종종 고주파도 항목을 주요 도달 영역에 배치하여 신체적 피로를 줄이는 것을 권장한다. 제조 지침인 5S는 동일한 논리를 사용해 사용 빈도에 따라 도구를 정리하여 낭비된 움직임을 제거한다.
의미론적 일관성은 사람들이 같은 작업이나 컨텍스트적으로 관련된 아이템을 함께 배치하는 경우 발생한다. 사람들은 같은 활동에 참여하는 물체를 그룹화하려는 경향이 있으며 우리의 뇌는 이를 기능적인 관계로 연결한다. 이전 연구 결과 인간은 환경을 제공하는 활동에 따라 주로 분류하고 외관보다 한다. 따라서 함께 사용되는 항목들은 기억 검색 및 검색 효율성을 향상시키기 위해 정신적으로 덩어리화된다. 이것은 연관 학습 원칙에서 기원하며 경험에서 자주 공존하는 항목은 정신적으로 연결되고 뇌에 의해 함께 속하는 것으로 처리된다. 로봇공학의 최근 접근법, 예를 들어 ConSOR 및 ContextSortLM은 이러한 의미적 맥락을 활용하여 물체의 기능적인 관계와 조직 체계에 따라 그룹화한다.
상식적 적합성은 사람들이 사람들이 일반적으로 찾는 곳에 것을 놓도록 한다. 인간들은 객체가 “자리에서 벗어났다"고 인식하는 것이 매우 신속하다. 이러한 기대치는 무엇이 어디에 있어야 하는지에 대한 내재화된 기대를 반영하며, 이 기대치는 종종 안전, 위생 및 사회적 규범에 관한 축적된 지혜를 반영한다. 이 구성 요소는 강력한 이유가 있으며, 미적인 선호도가 문화 간에 다양할 수 있지만 많은 기본적인 안전과 사회적 규범 (예: 무거운 물체를 안정된 표면에 놓고, 식기류를 사용하는 곳 근처에 두고, 청소용 화학물질을 음식에서 멀리 두는 것)은 더 표준화되어 있다. TIDEE와 같은 시스템은 이러한 기본적인 규범 제약을 존중함으로써 인간과 유사한 정돈 성능을 달성함으로써 상식적 규칙이 체계적으로 학습되고 적용될 수 있음을 보여준다.
사용자 연구
주방에서의 조직 작업 예시를 보여주는 설문 조사 인터페이스. 참가자는 가능한 수용구 영역으로 물체를 드래그하여 배치했다. 인터페이스에 대한 자세한 내용은 부록을 참조하십시오.
p0.18 p0.78 구성 요소 & 확장형 양식 (3 항목)
& 각 아이템이 명확하게 배치될 수 있는 공간을 가지고 있었다.
& 부자연스럽거나 자리에서 벗어난 배치를 피했다.
& 가능한 한 이상적인 위치에 가깝게 배치하려고 했다.
& 일상 루틴에 따라 각 아이템을 배치했다.
& 가장 자주 사용하는 항목이 쉽게 잡히도록 했다.
& 각 항목의 사용 빈도를 배치 결정 시 고려했다.
& 함께 사용되는 항목은 서로 가까운 곳에 배치했다.
& 유사한 목적을 위해 사용되는 항목은 함께 배치했다.
& 서로 어울리지 않는 항목을 그룹화하지 않았다.
& 사람들이 찾기 쉽도록 배치했다.
& 일반적으로 방이 어떻게 정리되는지를 배운 것을 적용했다.
& 다른 사람들에게 이상하거나 난잡하게 보일 수 있는 배치를 피했다.
우리는 Qualtrics[^1]을 통해 온라인 사용자 연구를 수행하여 제안된 구성요소를 검증하려고 했다. 참가자는 각각 주방과 거실에서 두 가지 조직 작업을 완료하는 within-subjects 설계를 채택했다 (Fig. 1). 각 시나리오에서는 참가자는 Task 1과 Task 2를 수행하며, Task 1은 물체 세트를 처음부터 정리하는 것이며, Task 2는 기존 구성에서 선호하는 레이아웃으로 재배치한다. 두 가지 독립된 시나리오는 선택한 구성 요소가 설정 간에 일반화되는지 확인하기 위해 사용되었으며, 작업 변형은 측정 유효성을 증가시키기 위해 선택되었다.
참가자들은 Habitat Synthetic Scenes Dataset (HSSD-200D)에서 추출된 사전 렌더링 주거 장면과 상호작용했다. 각 시나리오에는 실제 조직 과제를 반영하기 위한 고정된 물체와 수용구 세트가 포함되어 있었다. 참가자들은 드래그 앤 드롭 인터페이스를 사용하여 장면 내에서 가능한 수용구 영역 중 하나에 각 물체를 배치하고 자연스럽고 적절한 배열을 만들었다 (Fig. 1). 각 작업이 완료된 후 참가자는 결과 배열에 대한 만족도를 0에서 100까지 평가했으며, Task 2의 경우 전후 평가를 모두 수집했다.
측정은 Section 3.1에 제시된 네 가지 조직 선호도 구성 요소에 대해 5점 리커트 척도로 수집되었다. 이를 캡처하기 위해 참가자는 각 구성 요소에 대해 세 개의 항목 (총 12개의 항목)에 대한 동의를 평가했다.