- Title: AlignUSER Human-Aligned LLM Agents via World Models for Recommender System Evaluation
- ArXiv ID: 2601.00930
- 발행일: 2026-01-02
- 저자: Nicolas Bougie, Gian Maria Marconi, Tony Yip, Narimasa Watanabe
📝 초록
추천 시스템을 평가하는 것은 오프라인 지표와 실제 사용자 행동 사이의 간극, 그리고 상호작용 데이터의 부족으로 인해 여전히 어려움이 있습니다. 최근 연구에서는 대규모 언어 모델(LLM) 에이전트를 합성 사용자로 활용하는 것을 탐색하고 있지만, 이들은 일반적으로 few-shot 프롬프팅에 의존하여 환경을 얕게 이해하게 되고, 이는 실제 사용자의 행동을 충실하게 재현할 수 있는 능력을 제한합니다. 저희는 AlignUSER라는 프레임워크를 소개하며, 이를 통해 인간의 상호작용에서 월드 모델 구동 에이전트를 학습하고 있습니다. 액션과 상태의 롤아웃 시퀀스가 주어지면, 저희는 다음 상태 예측 작업으로 월드 모델링을 형식화하여 에이전트가 환경을 내재화할 수 있도록 합니다. 인간의 개성과 행동을 일치시키기 위해, 저희는 데모 주변에 가상 경로를 생성하고 LLM에 대해 그 결정을 인간의 선택과 비교하도록 하여 비효율적인 행동을 식별하고 교훈을 추출합니다. 학습된 정책은 이후 추천 시스템과의 에이전트 상호작용을 주도하는 데 사용됩니다. 저희는 AlignUSER를 다양한 데이터셋에 걸쳐 평가하였으며, 미시 및 거시 수준에서 이전 연구보다 실제 인간에게 더 가깝게 맞춰졌음을 입증하였습니다.
💡 논문 해설
1. **세계 모델 학습**: 이 연구는 추천 시스템과 상호 작용하는 인공 사용자를 생성하기 위해 LLM 기반 에이전트를 사용한다. 이를 통해 에이전트가 환경의 변화를 이해하고, 실제 사용자의 행동을 더 정확하게 재현할 수 있다. 이 부분은 마치 자동차 운전자가 도로의 교통 패턴과 신호등 위치를 기억하여 더 효율적으로 주행하는 것과 같다.
역사적 경로와 대안적 경로 비교: 에이전트는 실제 사용자의 행동을 따라가면서도, 다른 가능한 행동 경로를 시뮬레이션하고 그 결과를 분석한다. 이를 통해 에이전트는 더 나은 결정을 내릴 수 있다. 이는 마치 여행자가 목적지에 도달하기 위해 여러 경로를 고려한 후 가장 효율적인 루트를 선택하는 것과 같다.
인물 중심의 반성: 에이전트는 실제 사용자의 행동 패턴을 반영하여, 그들의 성격과 선호도를 이해하고 이를 에이전트의 결정 과정에 통합한다. 이 부분은 마치 연극 배우가 캐릭터의 심리 상태와 동기를 파악하여 더 자연스럽게 연기하는 것과 같다.
📄 논문 발췌 (ArXiv Source)
# 소개
추천 시스템(RS)은 전자 상거래부터 미디어 플랫폼까지 다양한 온라인 서비스의 중심에 위치해 있으며, 컨텐츠를 개인화하고 사용자의 참여도를 높이는 역할을 합니다. 사용자 선호 모델링에서 많은 진전이 이루어졌음에도 불구하고 평가가 여전히 병목 지점입니다. 현재 평가는 정적인 데이터셋에서 계산되는 오프라인 메트릭(nDCG, Recall 등)에 의해 주도되지만, 이는 모델을 배포한 후 온라인 행동과 종종 맞지 않는 경우가 많습니다. 또한 이러한 메트릭은 판매나 만족도와 같은 비즈니스 가치로 쉽게 변환되지 않습니다.
반면에 온라인 A/B 테스트는 더 진실된 피드백을 제공하지만, 비용이 많이 들고 반복하기 어렵으며 윤리적이고 개인정보 고려사항으로 제한됩니다.
AlignUSER 프레임워크는 세계 모델을 간접적으로 모델링하고 다양한 시나리오를 탐색하여 추천 시스템을 평가합니다.
기대되는 대안 중 하나는 LLM 기반 에이전트를 사용해 추천 시스템과 상호 작용하는 시뮬레이션에서 합성된 사용자를 활용하는 것입니다. 이러한 에이전트는 자연어로 풍부한 선호도와 피드백을 표현할 수 있으며, 만족도나 인식된 관련성을 평가할 수 있습니다. 그러나 대부분의 기존 접근 방법은 몇 가지 예제를 통해 인간 행동을 모방하는 few-shot 프롬프팅에 의존합니다. 에이전트는 보통 “일반적인 사용자처럼 행동하라"는 지시를 받지만, 환경이 자신의 행동에 어떻게 반응하는지 명확한 이해가 없습니다. 따라서 에이전트는 세상을 단순히 표면적으로 이해하고 장기적인 결과(예: 카트에 추가할 때나 종료할 때)를 충실히 재현하기 어렵습니다.
본 논문에서는 에이전트가 인간 행동을 충실히 복제하려면 세상 작동 방식을 이해해야 한다고 제안합니다. 이에 따라 브라우징, 검색, 항목 추가와 같은 롤아웃 트래젝토리가 주어지면 먼저 에이전트 정책을 상태-행동 쌍에서 다음 상태를 예측하는 세계 모델 태스크로 사전 학습합니다. 이 태스크는 에이전트에게 환경 동역학을 내부화하게 합니다: 특정 항목을 클릭하거나 다음 페이지로 넘어갈 때 또는 떠나기 결정했을 때 어떤 일이 일어날 것인지 예측할 수 있습니다.
인간과의 정합성을 위해 우리는 각 상태에 대해 대안적인 행동을 고려하고 그 결과를 롤아웃한 후 LLM에게 인간 행동과 비교하도록 요청합니다. 이를 통해 비효율적 결정을 식별하고 미래 선택을 안내하는 통찰력을 추출합니다. 이 반성 과정은 에이전트가 환경 동역학에 대한 인식을 가진 상태에서 인간의 결정과 명시적으로 정합하도록 훈련됩니다. 평가 시, 학습된 정책이 에이전트와 추천 시스템 간의 상호 작용을 주도합니다.
관련 작업
추천 시스템 평가.
전통적인 추천 시스템 평가는 nDCG, Recall 또는 RMSE 등의 오프라인 메트릭을 기반으로 합니다. 이러한 메트릭은 모델 선택에 유용하지만 사용자 경험이나 비즈니스 가치를 직접 포착하지 못하며 온라인 A/B 테스트와의 상관성이 약합니다. 최근 연구는 대안적인 평가 방식, 특히 밴딧 시뮬레이터, 사용자 모델링 및 인과 추론 기법을 탐색하고 있습니다.
LLM 기반 에이전트.
최근 LLM은 가상 세계에서 인간 유사 에이전트를 시뮬레이션하는 새로운 가능성을 열었습니다. LLM 파워드 에이전트는 자연어를 통해 사고, 계획 및 상호 작용할 수 있습니다. 여러 연구가 추천 환경에서 사용자 시뮬레이터 또는 대화형 에이전트로 LLM을 활용하고 있습니다. RecMind와 InteRecAgent는 도구 강화된 에이전트의 계획 및 반성 메커니즘을 제안합니다. Agent4Rec과 관련 연구는 추천 모델과 상호 작용하며 평점을 제공하거나 텍스트 피드백을 주는 생성적 사용자 에이전트를 탐구하고 있습니다.
세계 모델과 자기 반성.
세계 모델은 강화 학습에서 미래 상태와 보상 예측기로 오랜 역사를 가지고 있으며, 최근 연구는 이러한 아이디어를 언어 에이전트에 확장하여 상태와 행동을 텍스트로 처리하고 다음 상태 예측기를 학습합니다. STaR와 같은 자기 반성 전략은 사고 과정 설명을 활용해 추론과 견고성을 개선합니다. 최근 “초기 경험” 방법에서 LLM 에이전트를 대안 트래젝토리 생성 및 전문가 행동의 대안 비교를 통해 훈련시키는 방식이 제시되었습니다.
문제 정의
환경은 마르코프 의사결정 과정 $`\mathcal{M} = (\mathcal{S}, \mathcal{A}, T)`$로 모델링되며, 상태 $`s \in \mathcal{S}`$는 페이지(예: 검색 결과, 상품 세부 정보, 카트)의 텍스트 표현이고 $`a \in \mathcal{A}`$는 [SEARCH], [CLICK], [ADD_TO_CART], [PURCHASE], [RATE], 또는 [EXIT]와 같은 행동입니다. 우리는 실제 사용자 세션에서 수집된 $`n`$ 개의 인간 트래젝토리 데이터셋을 가정합니다:
여기서 $`a_t^{(n)}`$는 시간 $`t`$에서의 인간 행동을 나타내며, $`\hat{s}_{t+1}^{(n)}`$는 그 다음 상태입니다. 각 참조자는 또한 성격 $`p`$와 연관됩니다. 우리의 목표는 환경과 상호 작용할 때 인간 트래젝토리의 미세 수준(단계별 행동) 및 거시 수준(세션 결과)에서 유사한 경로를 생성하는 정책 $`\pi_\phi(a \mid s, p)`$을 학습하는 것입니다. 또한 무작위 상호 작용 또는 호기심 기반 전략에 따라 수집된 경험 데이터셋 $`\mathcal{D}_{\text{rollout}}`$도 가정합니다.
방법
AlignUSER의 핵심은 상태-행동 쌍에서 다음 상태를 예측하고 인간 행동과 대안적 예제를 비교하여 정합성을 얻는 것입니다. 이 사전 훈련 단계 후, 에이전트가 추천 시스템과 상호 작용합니다.
Figure 1은 전체 아키텍처를 보여줍니다.
세계 모델링
우리는 먼저 LLM 기반 정책 $`\pi_\phi`$을 환경 전이 동역학을 근사하도록 훈련합니다. 우리의 연구에서는 상태가 완전히 자연어로 표현되어, 다음 상태 예측을 표준 다음 토큰 예측 목표로 모델링할 수 있습니다. 이전 LLMs를 세계 모델로 훈련하는 연구에서 영감을 받아, 롤아웃 세트 $`\mathcal{D}_{rollout}`$의 다음 상태를 언어 에이전트 정책 $`\pi_{\phi}`$의 직접적인 학습 신호로 사용합니다.
주어진 상태-행동 쌍 $`(s_t, a_t)`$에서 모델은 다음 상태 $`s_{t+1}`$을 토큰 시퀀스로 예측합니다:
$`\hat{s}_{t+1} \sim \pi_{\phi}(\cdot \mid s_t, a_t)`$, 그리고 $`\pi_\phi`$를 인간의 다음 상태 $`s_{t+1}^{\ast}`$의 확률을 최대화하도록 훈련합니다:
예를 들어 전자 상거래 사이트를 브라우징할 때 모델은 특정 항목을 클릭하면 자세한 제품 페이지로 이동하고 비어 있는 검색 쿼리를 제출하면 “결과 없음” 상태가 발생한다는 것을 학습할 수 있습니다. 이러한 자연어 페이지 설명은 다음 상태에 대한 감독으로 작용하여 모델이 사용자의 다양한 행동이 쇼핑 세션을 어떻게 변화시키는지 이해하게 합니다.
인간 정합성: 대안적 추론
대안적 경로로부터의 반성.
인간 행동과의 정합성을 위해 우리는 인간 트래젝토리를 대안적 예제와 비교합니다(Figure 2 참조). 각 인간 전이 $`(s_t, a_t, \hat{s}_{t+1},p) \in \mathcal{D}_{\text{human}}`$에 대해 현재 정책 $`\pi_\phi`$가 가능하다고 생각하지만 실제 행동에서 벗어난 대안적 행동 집합 $`\{a_t^{(1)}, \dots, a_t^{(K)}\}`$을 샘플링합니다. 상태 $`s_t`$에 대해 먼저 현재 정책 $`\pi_\phi(\cdot \mid s_t, p)`$에서 생성된 동작이 진실과 다르게 됨으로써 $`K`$ 개의 후보 행동 집합 $`\{a_t^{(1)}, \dots, a_t^{(K)}\}`$을 추출합니다:
이것은 모델이 현재 신뢰하는 가능한 행동을 탐색하고, 따라서 수정되지 않으면 가장 정합성을 저해할 가능성이 높은 행동입니다.
그런 다음 에이전트는 대안적 상태에 대해 추론하여 인간의 상태-행동 쌍과 비교합니다. 다음 상태를 주어진 후 LLM에게 현재 맥락에서 인간 선택이 더 나은 이유, 인간 선택이 그 성격 및 선호도와 얼마나 잘 정합되는지, 그리고 인간 행동이 대안보다 미래 결과를 어떻게 개선하는지를 설명하도록 요청합니다. 이러한 설명은 전문가 행동만으로는 제공하기 어려운 풍부하고 이전에 일반화 가능한 감독을 제공하며 LLM의 언어 처리 능력을 활용하여 결정 원칙을 내재화합니다.
실제로, 우리는 모델이 상태 $`s_{t}`$와 성격 $`p`$에 조건부인 인간 행동 $`a_{t}`$과 대안 $`a^{j}_{t}`$의 결과 상태 $`\hat{s}_{t+1}`$ 및 $`s^{j}_{t}`$ 사이의 차이를 기반으로 인간 동작 $`a_{t}`$가 더 우수한 이유를 설명하는 사고 체인 $`c^{j}_{t}`$을 생성하도록 프롬프트합니다. 이 프롬프트는 실제 상태 전환을 근거로 $`a^{j}_{t}`$의 잠재적 제약이나 비효율성을 강조하는 자연어 추론을 유도하도록 설계되었습니다.
이 반성은 환경에 따른 행동(예: 클릭, 검색)과 항목 중심적인 행동(예: 좋아요, 평가) 모두에 적용됩니다. 이 교훈들은 $`\mathcal{D}_{\text{CR}}`$에 저장됩니다. 그런 다음 에이전트는 상태 $`s_{t}`$, 성격 $`p`$, 사고 체인 $`c^{j}_{t}`$, 전문가 행동 $`a_t`$를 조건부로 예측하도록 훈련받습니다:
여기서 $`\lambda_{\text{wm}}`$과 $`\lambda_{\text{CR}}`$은 세계 모델 및 대안적 항목을 균형 있게 조정하는 스칼라입니다.
추천 시스템과 상호 작용
사전 훈련 후, AlignUSER는 학습된 정책 $`\pi_{\phi}`$를 사용하여 합성 사용자로 행동합니다. 성격 $`p`$를 가진 에이전트는 항목을 구매하거나 세션을 종료할 때까지 추천 시스템과 상호 작용합니다. 각 에이전트는 RS와의 상호 작용을 저장하는 회상 메모리를 갖추고 있습니다. 이 메모리는 처음에는 사용자의 조회 및 평점 기록으로 채워집니다. 에이전트가 새로운 행동을 실행하거나 항목에 대한 평점을 부여하면 해당 상호 작용은 회상 메모리에 추가됩니다.
각 단계에서 정책 $`\pi_{\phi}`$는 현재 상태의 자연어 설명 $`s_t`$(예: 추천된 항목 페이지)를 받고, 다음과 같은 의사 프롬프트로 내부적으로 상황을 고려하고 행동을 출력합니다:
[STATE] $`s_t`$ [PERSONA] $`p`$ [RECENT_HISTORY] $`H`$ [POSSIBLE_ACTIONS] $`a_1, a_2, \dots, a_M`$ Instruction:세부적인 사용자의 다음 행동을 고려해보세요. 그들의 목표와 선호도 그리고 각 행동의 미래 결과를 고려하세요. 결론에서 다음과 같은 형식으로 끝내세요: BEST-ACTION: <action_token> RATIONALE: <rationale>
선택된 행동은 환경에 실행(예: 항목 클릭, 다음 페이지 이동 또는 종료)되며, 터미널 동작이 선택될 때까지 과정이 반복됩니다. 에이전트의 추론 능력을 더욱 강화하기 위해, 우리는 vanilla AlignUSER와 그래프 메모리, 경로 기반 검색 및 인과 추론을 통합한 AlignUSER+를 비교합니다. 에이전트는 선호도를 그래프 기반 메모리에 저장하고 증거를 검색하여 항목을 좋아하거나 싫어하는지 결정합니다.
실험
기준선: AlignUSER은 RecAgent, Agent4Rec 및 SimUSER와 비교됩니다. 일부 실험에서는 AlignUSER의 두 버전인 AlignUSER과 AlignUSER+를 사용해 사전 훈련과 few-shot 프롬프팅의 효과를 분리합니다.