복합 지시문 이해와 활용: AI 에이전트를 위한 전 분야 설문
초록
본 설문은 복합·다단계 지시문을 다루는 연구들을 체계적으로 정리한다. 181편의 논문을 분석해 지시문 표현 방식(비구조·이벤트·엔터티·심볼릭)과 하위 과제(대화·웹·네비게이션·로봇·게임 등) 를 분류하고, 현재의 한계와 향후 연구 과제를 도출한다.
상세 분석
이 논문은 최근 LLM 기반 에이전트가 단일 지시문을 수행하는 데는 성공했지만, 시간·조건·계층적 의존성을 포함한 복합 지시문 처리에는 여전히 큰 격차가 있음을 강조한다. 이를 해결하기 위해 저자들은 PRISMA 가이드라인에 따라 2010년부터 현재까지 181개의 논문을 체계적으로 수집·선별하였다. 논문은 크게 네 가지 표현 체계로 구분된다. 첫째, 비구조화된 텍스트는 원시 문장 형태로 제공돼 전처리와 의미 파악이 핵심 과제이다. 둘째, 이벤트 중심 표현은 사건, 트리거, 인수 등을 구조화해 사건 간 인과관계와 순서를 명시한다. 셋째, 엔터티 중심 표현은 객체와 그 상태 변화를 추적하며, 특히 상태 추적 및 변화 예측에 활용된다. 넷째, 심볼릭 표현은 그래프, 워크플로, 비즈니스 프로세스 모델 등으로 명시적 논리와 제어 흐름을 제공한다.
하위 과제는 ‘그라운드된’과 ‘그라운드되지 않은’ 두 축으로 나뉜다. 그라운드된 과제로는 대화형 에이전트, 웹 탐색, 로봇 조작, 게임 플레이 등 실제 환경과 상호작용하며 지시문을 실행하는 작업이 있다. 이들 과제는 종종 멀티모달 입력(텍스트·이미지·센서)과 도구 사용(코드 인터프리터, API) 을 요구한다. 반면 그라운드되지 않은 과제로는 요약, 이벤트 정렬, 암시적 지시 탐지·수정, 엔터티 트래킹, 파싱, 질문응답 등이 포함되며, 주로 텍스트 내부의 논리 구조와 의미 일관성을 평가한다.
주요 도전 과제로는 (1) 지시문 내 모호성 해소와 언급 결합, (2) 장기 의존성 및 조건부 흐름의 정확한 모델링, (3) 다양한 도메인 간 표현 통합 및 전이 학습, (4) 평가 벤치마크의 현실성 부족이 있다. 특히 현재 벤치마크는 단일 단계 혹은 제한된 시뮬레이션에 머물러 있어 실제 복합 업무 수행 능력을 측정하기 어렵다. 저자들은 이러한 격차를 메우기 위해 (i) 멀티모달·멀티스텝 데이터셋 확대, (ii) 이벤트·엔터티 간 관계를 명시적으로 학습하는 그래프 기반 모델, (iii) 인간 피드백과 체인‑오브‑생각(Chain‑of‑Thought) 을 결합한 강화학습 프레임워크, (iv) 표준화된 평가 프로토콜 구축을 제안한다.
전체적으로 이 설문은 복합 지시문 연구가 NLP, 로봇공학, 비즈니스 인텔리전스, 컴퓨터 비전 등 여러 분야에 걸쳐 분산돼 있음을 밝히며, 통합적인 데이터·모델·평가 인프라가 필요함을 역설한다.
댓글 및 학술 토론
Loading comments...
의견 남기기