ProAgent 온디맨드 감각 컨텍스트를 활용한 사전형 LLM 에이전트 시스템
📝 원문 정보
- Title: ProAgent: Harnessing On-Demand Sensory Contexts for Proactive LLM Agent Systems
- ArXiv ID: 2512.06721
- 발행일: 2025-12-07
- 저자: Bufang Yang, Lilin Xu, Liekang Zeng, Yunqi Guo, Siyang Jiang, Wenrui Lu, Kaiwei Liu, Hancheng Xiang, Xiaofan Jiang, Guoliang Xing, Zhenyu Yan
📝 초록 (Abstract)
** 대형 언어 모델(LLM) 에이전트가 일상 생활을 변화시킬 잠재력을 가지고 있지만, 기존 에이전트는 주로 사용자의 명시적 지시를 기다리는 반응형 패러다임에 머물러 있어 물리적·인지적 부담을 가중시킨다. 본 논문에서는 방대한 감각 컨텍스트와 LLM 추론을 결합해 사전형 지원을 제공하는 최초의 종단‑to‑종단 사전형 에이전트 시스템인 **ProAgent**를 제안한다. ProAgent는 온디맨드 계층형 인식을 통해 환경을 지속적으로 감지하고, 감각 정보와 사용자 페르소나를 포함한 계층적 컨텍스트를 추출한다. 이후 컨텍스트‑인식 사전형 추론기를 사용해 이러한 컨텍스트를 사용자 요구와 도구 호출로 매핑함으로써 사전형 지원을 실현한다. 우리는 ProAgent를 증강현실(AR) 안경과 엣지 서버에 구현하고, 실제 테스트베드, 공개 데이터셋, 사용자 연구를 통해 광범위하게 평가하였다. 실험 결과, ProAgent는 기존 최첨단 방법 대비 사전형 예측 정확도가 최대 33.4 % 향상되고, 도구 호출 F1 점수가 16.8 % 상승했으며, 사용자 만족도에서도 유의미한 개선을 보였다. 이는 사전형 어시스턴트 구현에 중요한 진전을 의미한다. 시연 영상은 https://youtu.be/pRXZuzvrcVs 에서 확인할 수 있다.**
💡 논문 핵심 해설 (Deep Analysis)

ProAgent 논문은 현재 LLM 기반 에이전트가 직면한 ‘반응형 한계’를 근본적으로 돌파하려는 시도로, 두 가지 핵심 기술을 제시한다. 첫 번째는 **온디맨드 계층형 인식(on‑demand tiered perception)**이다. 기존 연구들은 카메라, 마이크 등 단일 센서 스트림을 활용하거나, 사전 정의된 이벤트 트리거에 의존해 컨텍스트를 수집한다. 반면 ProAgent는 환경 변화에 따라 필요한 센서 모듈을 동적으로 활성화하고, 저전력·저지연의 엣지 컴퓨팅을 활용해 실시간으로 ‘감각 피라미드’를 구축한다. 이 피라미드는 저수준 이미지/음성 특징부터 고수준 장면 이해, 그리고 사용자 프로필·과거 행동까지 포괄하는 계층 구조를 만든다. 이렇게 하면 불필요한 데이터 전송을 최소화하면서도, 상황에 맞는 풍부한 정보를 확보할 수 있다.
두 번째 핵심은 **컨텍스트‑인식 사전형 추론(context‑aware proactive reasoner)**이다. ProAgent는 추출된 계층적 컨텍스트를 LLM에 입력할 때, ‘컨텍스트 프롬프트 엔지니어링’과 ‘멀티‑모달 임베딩 결합’ 기법을 사용한다. 구체적으로, 감각 컨텍스트는 시각·청각 임베딩으로 변환되고, 페르소나·목표 정보는 텍스트 토큰으로 결합된다. 이렇게 구성된 복합 프롬프트는 LLM이 “사용자가 지금 무엇을 필요로 할까?”를 추론하도록 유도하고, 동시에 적절한 도구(API) 호출을 자동으로 생성한다. 논문에서는 이 과정을 ‘프로액티브 매핑(need‑to‑tool mapping)’이라고 명명하고, 전통적인 ‘조건‑행동’ 규칙 기반 시스템보다 16.8 % 높은 F1 점수를 기록했다.
실험 설계도 주목할 만하다. 저자는 AR 안경을 착용한 사용자를 대상으로 3가지 시나리오(일상 업무 보조, 실시간 정보 탐색, 안전 경고)를 설정하고, ProAgent와 기존 반응형 LLM 에이전트, 그리고 최신 멀티‑모달 어시스턴트를 비교했다. 특히 공개 데이터셋 ‘EPIC‑KITCHEN‑PRO’에 맞춤형 평가 지표를 적용해 사전형 예측 정확도를 측정했으며, ProAgent가 최대 33.4 % 개선된 결과를 보였다. 사용자 설문에서는 ‘인지적 부담 감소’와 ‘사용 의도 충족도’ 항목에서 통계적으로 유의한 차이를 나타냈다.
하지만 몇 가지 한계도 존재한다. 첫째, 온디맨드 인식은 센서 활성화 정책에 따라 에너지 소비가 급증할 가능성이 있다. 논문에서는 엣지 서버와 로컬 디바이스 간의 작업 분할을 통해 이를 완화했지만, 실제 배터리 수명에 대한 장기 평가가 부족하다. 둘째, 컨텍스트 프롬프트가 복잡해질수록 LLM의 ‘프롬프트 혼잡(prompt overload)’ 문제가 발생할 수 있다. 현재는 사전 학습된 모델에 추가 파인튜닝 없이도 성능이 향상됐지만, 대규모 배포 시 모델 안정성 검증이 필요하다. 셋째, 개인정보 보호 측면에서 감각 데이터와 페르소나 정보를 동시에 처리하는 과정에서 데이터 최소화 원칙을 어떻게 적용할지에 대한 논의가 부족하다.
종합하면, ProAgent는 감각 인식과 LLM 추론을 긴밀히 결합해 사전형 AI 어시스턴트의 실현 가능성을 크게 높인 혁신적인 시스템이다. 향후 연구는 에너지 효율 최적화, 프롬프트 관리 자동화, 프라이버시‑보호 메커니즘 도입 등을 통해 실제 상용화 단계로 나아갈 필요가 있다.
**
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리