자율 질문 생성으로 강화된 대형 언어 모델 기반 AI 시스템
초록
본 논문은 내부 상태, 환경 관찰, 그리고 타 에이전트와의 상호작용을 종합적으로 고려해 질문을 스스로 생성하고 이를 과제로 전환하는 인간‑시뮬레이션 프레임워크를 제안한다. 질문 형성을 첫 번째 의사결정 단계로 두고, 내부‑주도, 환경‑인식, 그리고 에이전트‑간 인식 프롬프트를 단계적으로 확장함으로써 인공지능의 적응성과 지속 가능성을 크게 향상시킨다. 다중 에이전트 시뮬레이션 실험에서 환경‑인식 프롬프트는 ‘no‑eat’ 사건을 현저히 감소시켰으며, 에이전트‑간 인식 프롬프트는 20일 시뮬레이션 동안 누적 ‘no‑eat’ 사건을 60 % 이상 감소시켰다.
상세 분석
이 연구는 기존 LLM‑기반 에이전트가 “무엇을 할 것인가”에 초점을 맞추는 한계를 극복하고, “무엇을 물어야 하는가”라는 질문 생성 과정을 독립적인 의사결정 단계로 끌어올렸다. 핵심 아이디어는 시스템 컨텍스트 Cₜ = (Sₜ, Eₜ, Aₜ)를 정의하고, 이를 기반으로 질문 형성 정책 π_Q, 과제 선택 정책 π_T, 실행 정책 π를 순차적으로 적용하는 파이프라인을 설계한 것이다. 질문 형성은 내부‑주도(int), 외부‑인식(ext), 그리고 상호‑에이전트 aware 세 가지 프롬프트 스코프를 계층적으로 적용한다.
-
내부‑주도 질문은 시스템 자체 센서 데이터 xₜ와 정상 범위 x_norm 사이의 편차를 감지(‖xₜ‑x_norm‖ > δ)함으로써 위험, 유지보수, 장기 목표와 연계된 질문을 자동 생성한다. 경험 메모리 M에 (Sₜ, Qₜ, τₜ, Rₜ) 를 축적해 장기 유틸리티 U(Sₜ)와의 상관관계를 학습함으로써, 즉시 위협이 없더라도 잠재적 중요 상태에 대한 질문을 사전에 발굴한다.
-
환경‑인식 질문은 관측 변수 eᵢₜ의 시간적 변화 Δeᵢₜ와 정상값 ¯eᵢ 대비 편차(|eᵢₜ‑¯eᵢ| > εᵢ)를 기반으로 중요도 함수 I(eᵢₜ|Cₜ)=f(eᵢₜ,G,Sₜ)를 계산한다. 이 과정은 차이 기반 스크리닝과 이상치 탐지를 결합해, 자원 고갈, 위험 상황, 새로운 기회 등을 자동으로 감지하고 LLM에 질의한다.
-
에이전트‑간 인식 질문은 타 에이전트의 행동·상태 Aₜ를 텍스트화하여 프롬프트에 삽입함으로써, 사회적 상호작용, 협업 기회, 자원 공유·경쟁 효과 등을 고려한다. 이렇게 확장된 컨텍스트는 LLM이 “다른 에이전트가 현재 수행 중인 작업이 내 목표에 어떤 영향을 미치는가”와 같은 메타 질문을 생성하도록 유도한다.
학습 메커니즘은 질문‑과제‑피드백 삼중 튜플을 지속적으로 기록하고, 강화학습 혹은 메타‑학습 기법을 통해 π_Q를 업데이트한다. 따라서 시스템은 반복적인 시나리오에서 질문 패턴을 내재화하고, 규칙 기반 접근법에 비해 높은 일반화 능력을 보인다.
실험은 자원 소비·재생·사회적 상호작용을 모델링한 다중 에이전트 시뮬레이션에서 수행되었다. 내부‑주도 베이스라인 대비 환경‑인식 프롬프트는 ‘no‑eat’ 사건(자원 고갈로 인한 행동 정지)을 현저히 감소시켰으며, 추가로 에이전트‑간 인식 프롬프트를 적용했을 때 누적 ‘no‑eat’ 사건이 20일 동안 60 % 이상 감소하였다(p < 0.05). 이는 질문 형성 단계가 사전 예방적 의사결정에 미치는 효과를 정량적으로 입증한다.
전반적으로 이 논문은 LLM‑기반 에이전트 설계에 질문 생성이라는 새로운 인지 레이어를 도입함으로써, 동적·개방형 환경에서의 자율성을 크게 확장한다는 점에서 학술적·실용적 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기