신뢰 기반 목표 추정과 정책 학습을 통한 공유 자율성 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 목표 불확실성과 환경 제약을 동시에 고려하여, 베이지안 목표 추정과 컨텍스트‑적응형 보조 정책을 엔드‑투‑엔드로 결합한 BRACE 프레임워크를 제안한다. 전체 목표 확률분포를 활용하고, 보조 수준을 목표 불확실성에 따라 감소·제약 강도에 따라 증가시키는 이론적 분석을 제시한다. 2D 커서, 로봇 팔, 복합 조작 과제에서 기존 IDA·DQN 대비 성공률·경로 효율성을 크게 향상시켰으며, 특히 목표 모호성이 높은 상황에서 통합 최적화의 이점이 두드러졌다.
상세 분석
BRACE는 공유 자율성 시스템에서 목표 추정과 보조 수준 결정이라는 두 핵심 문제를 하나의 신경망 구조 안에서 동시에 학습한다는 점에서 기존 연구와 차별화된다. 먼저 베이지안 목표 추정 모듈은 관측된 인간 입력을 기반으로 목표 집합 G 에 대한 전체 확률분포 b(g) 를 실시간으로 업데이트한다. 이때 MAP 추정에 머무르지 않고, 분포의 엔트로피와 집중도 λ 를 명시적으로 활용함으로써 목표 불확실성을 정량화한다.
보조 정책은 상태 s, 목표 믿음 b, 환경 제약 c (예: 장애물 거리)를 입력으로 받아 보조 비율 γ∈
댓글 및 학술 토론
Loading comments...
의견 남기기