인터프레트: 비전문가를 위한 인터랙티브 정책 재구성·학습 프레임워크
초록
InterPReT은 사용자의 자연어 지시와 시연을 결합해 정책 구조를 동적으로 재구성하고, LLM을 활용해 코드 형태의 정책을 생성·학습한다. 비전문가가 레이싱 게임에서 에이전트를 가르칠 때, 기존 모방학습 대비 더 견고한 정책을 얻으며 사용성은 유지된다.
상세 분석
InterPReT은 기존 모방학습이 “대량의 전문가 시연 + 고정된 정책 구조”에 의존한다는 한계를 지적한다. 이를 극복하기 위해 두 가지 핵심 메커니즘을 도입한다. 첫째, 사용자가 제공하는 자연어 지시를 LLM(GPT‑5‑mini)에게 전달해 정책 구조(JαK) 를 자동 생성한다. 구조는 노드(V)‑연산(P)‑에지(E)‑가중치(Θ) 로 이루어진 가중치‑가능한 DAG이며, 각 노드는 관측, 잠재, 행동 등 의미론적 변수를 나타낸다. LLM은 체인‑오브‑생각 프롬프트와 사전‑학습된 예시(Lunar Lander) 를 활용해, 지시에서 필요한 피처를 추출하고, 영어 설명을 거쳐 연산과 연결을 설계한다. 이렇게 생성된 파이토치 모델은 미분 가능성을 보장하므로, 표준 역전파로 가중치를 최적화할 수 있다.
둘째, 시연(D) 은 구조에 고정된 파라미터 Θ 를 학습하는 전통적인 모방학습 목표와 동일하게 Adam 옵티마이저로 업데이트한다. 중요한 점은 LLM이 제공하는 초기 가중치 Θ₀ 가 사전 지식에 기반해 설정되므로, 희소하고 비대칭적인 구조에서도 로컬 최적점에 빠지는 위험을 크게 감소시킨다.
InterPReT은 지시 추가/삭제 와 시연 추가/삭제 를 모두 지원한다. 지시가 바뀌면 구조를 재생성하고, 기존 시연을 그대로 재학습한다. 시연이 바뀌면 구조는 유지한 채 가중치만 재조정한다. 이러한 양방향 인터랙션 루프 로 사용자는 “지시 → 구조 → 가중치 → 행동” 전체 과정을 반복 검증한다.
사용자 인터페이스는 네 가지 상호작용 모드(지시 입력, 시연 제공, 전략 요약, 롤아웃 시각화)를 제공한다. 특히 LLM이 생성한 영어 요약을 한국어로 번역해 사용자에게 정책의 논리적 흐름을 전달함으로써, 비전문가도 에이전트의 의사결정을 이해하고 수정 포인트를 파악할 수 있다.
실험에서는 34명의 비전문가를 대상으로 레이싱 게임(자동차 레이싱)에서 속도 조절·코너링 정책을 학습시켰다. Baseline은 기존 구조‑고정 모방학습이며, InterPReT은 동일한 시연 수와 시간 동안 성공률, 평균 랩 타임, 충돌 횟수 등에서 유의미하게 우수했다. 또한 NASA‑TLX 설문 결과, 인터페이스 사용성 차이는 통계적으로 의미 없었으며, 오히려 사용자는 “정책이 왜 이렇게 행동하는지 이해하기 쉬웠다”고 평가했다.
핵심 기여는 (1) 지시‑구조‑시연 삼중 루프를 통한 비전문가 친화적 학습 프레임워크, (2) LLM 기반 코드‑생성으로 정책 구조를 동적으로 재구성하는 방법, (3) 실제 사용자 실험을 통해 견고성·사용성을 동시에 확보했다는 점이다. 이 접근은 로봇, 드론, 가정용 AI 등 다양한 연속 제어 도메인에 확장 가능하며, 향후 LLM 성능 향상과 멀티모달 입력(음성·제스처) 결합을 통해 더 직관적인 인간‑AI 협업을 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기