인간과 동조된 LLM 에이전트를 통한 추천시스템 평가을 위한 월드 모델 적용

2026년 02월 04일

읽는 시간: 8 분

...

#paper #AI 요약

📝 원문 정보

- Title: AlignUSER Human-Aligned LLM Agents via World Models for Recommender System Evaluation
- ArXiv ID: 2601.00930
- 발행일: 2026-01-02
- 저자: Nicolas Bougie, Gian Maria Marconi, Tony Yip, Narimasa Watanabe

📝 초록

추천 시스템을 평가하는 것은 오프라인 지표와 실제 사용자 행동 사이의 간극, 그리고 상호작용 데이터의 부족으로 인해 여전히 어려움이 있습니다. 최근 연구에서는 대규모 언어 모델(LLM) 에이전트를 합성 사용자로 활용하는 것을 탐색하고 있지만, 이들은 일반적으로 few-shot 프롬프팅에 의존하여 환경을 얕게 이해하게 되고, 이는 실제 사용자의 행동을 충실하게 재현할 수 있는 능력을 제한합니다. 저희는 AlignUSER라는 프레임워크를 소개하며, 이를 통해 인간의 상호작용에서 월드 모델 구동 에이전트를 학습하고 있습니다. 액션과 상태의 롤아웃 시퀀스가 주어지면, 저희는 다음 상태 예측 작업으로 월드 모델링을 형식화하여 에이전트가 환경을 내재화할 수 있도록 합니다. 인간의 개성과 행동을 일치시키기 위해, 저희는 데모 주변에 가상 경로를 생성하고 LLM에 대해 그 결정을 인간의 선택과 비교하도록 하여 비효율적인 행동을 식별하고 교훈을 추출합니다. 학습된 정책은 이후 추천 시스템과의 에이전트 상호작용을 주도하는 데 사용됩니다. 저희는 AlignUSER를 다양한 데이터셋에 걸쳐 평가하였으며, 미시 및 거시 수준에서 이전 연구보다 실제 인간에게 더 가깝게 맞춰졌음을 입증하였습니다.

💡 논문 해설

1. **세계 모델 학습**: 이 연구는 추천 시스템과 상호 작용하는 인공 사용자를 생성하기 위해 LLM 기반 에이전트를 사용한다. 이를 통해 에이전트가 환경의 변화를 이해하고, 실제 사용자의 행동을 더 정확하게 재현할 수 있다. 이 부분은 마치 자동차 운전자가 도로의 교통 패턴과 신호등 위치를 기억하여 더 효율적으로 주행하는 것과 같다.

역사적 경로와 대안적 경로 비교: 에이전트는 실제 사용자의 행동을 따라가면서도, 다른 가능한 행동 경로를 시뮬레이션하고 그 결과를 분석한다. 이를 통해 에이전트는 더 나은 결정을 내릴 수 있다. 이는 마치 여행자가 목적지에 도달하기 위해 여러 경로를 고려한 후 가장 효율적인 루트를 선택하는 것과 같다.
인물 중심의 반성: 에이전트는 실제 사용자의 행동 패턴을 반영하여, 그들의 성격과 선호도를 이해하고 이를 에이전트의 결정 과정에 통합한다. 이 부분은 마치 연극 배우가 캐릭터의 심리 상태와 동기를 파악하여 더 자연스럽게 연기하는 것과 같다.

📄 논문 발췌 (ArXiv Source)

# 소개

추천 시스템(RS)은 전자 상거래부터 미디어 플랫폼까지 다양한 온라인 서비스의 중심에 위치해 있으며, 컨텐츠를 개인화하고 사용자의 참여도를 높이는 역할을 합니다. 사용자 선호 모델링에서 많은 진전이 이루어졌음에도 불구하고 평가가 여전히 병목 지점입니다. 현재 평가는 정적인 데이터셋에서 계산되는 오프라인 메트릭(nDCG, Recall 등)에 의해 주도되지만, 이는 모델을 배포한 후 온라인 행동과 종종 맞지 않는 경우가 많습니다. 또한 이러한 메트릭은 판매나 만족도와 같은 비즈니스 가치로 쉽게 변환되지 않습니다.

반면에 온라인 A/B 테스트는 더 진실된 피드백을 제공하지만, 비용이 많이 들고 반복하기 어렵으며 윤리적이고 개인정보 고려사항으로 제한됩니다.

AlignUSER 프레임워크는 세계 모델을 간접적으로 모델링하고 다양한 시나리오를 탐색하여 추천 시스템을 평가합니다.

기대되는 대안 중 하나는 LLM 기반 에이전트를 사용해 추천 시스템과 상호 작용하는 시뮬레이션에서 합성된 사용자를 활용하는 것입니다. 이러한 에이전트는 자연어로 풍부한 선호도와 피드백을 표현할 수 있으며, 만족도나 인식된 관련성을 평가할 수 있습니다. 그러나 대부분의 기존 접근 방법은 몇 가지 예제를 통해 인간 행동을 모방하는 few-shot 프롬프팅에 의존합니다. 에이전트는 보통 “일반적인 사용자처럼 행동하라"는 지시를 받지만, 환경이 자신의 행동에 어떻게 반응하는지 명확한 이해가 없습니다. 따라서 에이전트는 세상을 단순히 표면적으로 이해하고 장기적인 결과(예: 카트에 추가할 때나 종료할 때)를 충실히 재현하기 어렵습니다.

본 논문에서는 에이전트가 인간 행동을 충실히 복제하려면 세상 작동 방식을 이해해야 한다고 제안합니다. 이에 따라 브라우징, 검색, 항목 추가와 같은 롤아웃 트래젝토리가 주어지면 먼저 에이전트 정책을 상태-행동 쌍에서 다음 상태를 예측하는 세계 모델 태스크로 사전 학습합니다. 이 태스크는 에이전트에게 환경 동역학을 내부화하게 합니다: 특정 항목을 클릭하거나 다음 페이지로 넘어갈 때 또는 떠나기 결정했을 때 어떤 일이 일어날 것인지 예측할 수 있습니다.

인간과의 정합성을 위해 우리는 각 상태에 대해 대안적인 행동을 고려하고 그 결과를 롤아웃한 후 LLM에게 인간 행동과 비교하도록 요청합니다. 이를 통해 비효율적 결정을 식별하고 미래 선택을 안내하는 통찰력을 추출합니다. 이 반성 과정은 에이전트가 환경 동역학에 대한 인식을 가진 상태에서 인간의 결정과 명시적으로 정합하도록 훈련됩니다. 평가 시, 학습된 정책이 에이전트와 추천 시스템 간의 상호 작용을 주도합니다.

MATH

\begin{equation}
    \mathcal{D}_{\text{human}} = \{ (s_t^{(n)}, a_t^{(n)}, \hat{s}_{t+1}^{(n)}, p^{(n)}) \}_{t}^{n},
\end{equation}

클릭하여 더 보기

여기서 $`a_t^{(n)}`$는 시간 $`t`$에서의 인간 행동을 나타내며, $`\hat{s}_{t+1}^{(n)}`$는 그 다음 상태입니다. 각 참조자는 또한 성격 $`p`$와 연관됩니다. 우리의 목표는 환경과 상호 작용할 때 인간 트래젝토리의 미세 수준(단계별 행동) 및 거시 수준(세션 결과)에서 유사한 경로를 생성하는 정책 $`\pi_\phi(a \mid s, p)`$을 학습하는 것입니다. 또한 무작위 상호 작용 또는 호기심 기반 전략에 따라 수집된 경험 데이터셋 $`\mathcal{D}_{\text{rollout}}`$도 가정합니다.

방법

AlignUSER의 핵심은 상태-행동 쌍에서 다음 상태를 예측하고 인간 행동과 대안적 예제를 비교하여 정합성을 얻는 것입니다. 이 사전 훈련 단계 후, 에이전트가 추천 시스템과 상호 작용합니다. Figure 1은 전체 아키텍처를 보여줍니다.

세계 모델링

우리는 먼저 LLM 기반 정책 $`\pi_\phi`$을 환경 전이 동역학을 근사하도록 훈련합니다. 우리의 연구에서는 상태가 완전히 자연어로 표현되어, 다음 상태 예측을 표준 다음 토큰 예측 목표로 모델링할 수 있습니다. 이전 LLMs를 세계 모델로 훈련하는 연구에서 영감을 받아, 롤아웃 세트 $`\mathcal{D}_{rollout}`$의 다음 상태를 언어 에이전트 정책 $`\pi_{\phi}`$의 직접적인 학습 신호로 사용합니다.

주어진 상태-행동 쌍 $`(s_t, a_t)`$에서 모델은 다음 상태 $`s_{t+1}`$을 토큰 시퀀스로 예측합니다: $`\hat{s}_{t+1} \sim \pi_{\phi}(\cdot \mid s_t, a_t)`$, 그리고 $`\pi_\phi`$를 인간의 다음 상태 $`s_{t+1}^{\ast}`$의 확률을 최대화하도록 훈련합니다:

MATH

\begin{equation}
    \mathcal{L}_{\text{wm}}(\phi)
    = - \sum_{(s_t, a_t, \hat{s}_{t+1} \in \mathcal{D}_{\text{rollout}}}
    \log p_\phi(\hat{s}_{t+1} \mid s_t, a_t).
\end{equation}

클릭하여 더 보기

예를 들어 전자 상거래 사이트를 브라우징할 때 모델은 특정 항목을 클릭하면 자세한 제품 페이지로 이동하고 비어 있는 검색 쿼리를 제출하면 “결과 없음” 상태가 발생한다는 것을 학습할 수 있습니다. 이러한 자연어 페이지 설명은 다음 상태에 대한 감독으로 작용하여 모델이 사용자의 다양한 행동이 쇼핑 세션을 어떻게 변화시키는지 이해하게 합니다.

인간 정합성: 대안적 추론

인간 행동과의 정합성을 위해 우리는 인간 트래젝토리를 대안적 예제와 비교합니다(Figure 2 참조). 각 인간 전이 $`(s_t, a_t, \hat{s}_{t+1},p) \in \mathcal{D}_{\text{human}}`$에 대해 현재 정책 $`\pi_\phi`$가 가능하다고 생각하지만 실제 행동에서 벗어난 대안적 행동 집합 $`\{a_t^{(1)}, \dots, a_t^{(K)}\}`$을 샘플링합니다. 상태 $`s_t`$에 대해 먼저 현재 정책 $`\pi_\phi(\cdot \mid s_t, p)`$에서 생성된 동작이 진실과 다르게 됨으로써 $`K`$ 개의 후보 행동 집합 $`\{a_t^{(1)}, \dots, a_t^{(K)}\}`$을 추출합니다:

MATH

\begin{equation}
    a_t^{(k)} \sim \pi_\phi(\cdot \mid s_t, p) \quad \text{s.t.} \quad a_t^{(k)} \neq a_t
\end{equation}

클릭하여 더 보기

이것은 모델이 현재 신뢰하는 가능한 행동을 탐색하고, 따라서 수정되지 않으면 가장 정합성을 저해할 가능성이 높은 행동입니다.

그런 다음 에이전트는 대안적 상태에 대해 추론하여 인간의 상태-행동 쌍과 비교합니다. 다음 상태를 주어진 후 LLM에게 현재 맥락에서 인간 선택이 더 나은 이유, 인간 선택이 그 성격 및 선호도와 얼마나 잘 정합되는지, 그리고 인간 행동이 대안보다 미래 결과를 어떻게 개선하는지를 설명하도록 요청합니다. 이러한 설명은 전문가 행동만으로는 제공하기 어려운 풍부하고 이전에 일반화 가능한 감독을 제공하며 LLM의 언어 처리 능력을 활용하여 결정 원칙을 내재화합니다.

실제로, 우리는 모델이 상태 $`s_{t}`$와 성격 $`p`$에 조건부인 인간 행동 $`a_{t}`$과 대안 $`a^{j}_{t}`$의 결과 상태 $`\hat{s}_{t+1}`$ 및 $`s^{j}_{t}`$ 사이의 차이를 기반으로 인간 동작 $`a_{t}`$가 더 우수한 이유를 설명하는 사고 체인 $`c^{j}_{t}`$을 생성하도록 프롬프트합니다. 이 프롬프트는 실제 상태 전환을 근거로 $`a^{j}_{t}`$의 잠재적 제약이나 비효율성을 강조하는 자연어 추론을 유도하도록 설계되었습니다.

이 반성은 환경에 따른 행동(예: 클릭, 검색)과 항목 중심적인 행동(예: 좋아요, 평가) 모두에 적용됩니다. 이 교훈들은 $`\mathcal{D}_{\text{CR}}`$에 저장됩니다. 그런 다음 에이전트는 상태 $`s_{t}`$, 성격 $`p`$, 사고 체인 $`c^{j}_{t}`$, 전문가 행동 $`a_t`$를 조건부로 예측하도록 훈련받습니다:

MATH

\begin{equation}
    \mathcal{L}_{\text{CR}} = - \sum_{(s_t, a_t, c_t^{j}, p) \in \mathcal{D}_{\text{CR}}}
    \log p_{\phi}(c_t^{j}, a_t \mid s_t, p),
\end{equation}

클릭하여 더 보기

여기서 $`p_{\phi}`$는 언어 모델의 출력 분포를 나타내며 에이전트 정책 $`\pi_{\phi}`$와 정합됩니다.

언어 에이전트 학습을 위한 전체 최적화 문제는 다음과 같이 표현할 수 있습니다:

MATH

\begin{equation}
    \mathcal{L}(\phi) = \lambda_{\text{wm}} \mathcal{L}_{\text{wm}}(\phi) + \lambda_{\text{CR}} \mathcal{L}_{\text{CR}}(\phi),
\label{eq:overall}
\end{equation}

클릭하여 더 보기

여기서 $`\lambda_{\text{wm}}`$과 $`\lambda_{\text{CR}}`$은 세계 모델 및 대안적 항목을 균형 있게 조정하는 스칼라입니다.