사용자 피드백 기반 선호 정렬 사용자 시뮬레이터 구축

사용자 피드백 기반 선호 정렬 사용자 시뮬레이터 구축
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 대규모 사용자 피드백을 활용해 LLM 기반 사용자 시뮬레이터를 선호에 맞게 정렬하는 프레임워크 USER‑MIRRORER를 제안한다. 피드백을 설명적 의사결정 과정으로 변환하고, 불확실성 기반 데이터 증류로 고품질 샘플을 추출해 경량 LLM을 미세조정한다. 실험 결과, 정렬 정확도와 도메인 내 추론 능력이 크게 향상됨을 확인하였다.

**

상세 분석

**
USER‑MIRRORER는 두 단계의 파이프라인으로 구성된다. 첫 번째 단계에서는 기존 RS(추천 시스템)에서 수집된 사용자 피드백을 “메모리”(프로필·히스토리)와 “노출 리스트”(추천 아이템 집합) 형태의 시뮬레이션 장면으로 변환한다. 여기서 핵심은 LLM에게 각 샘플에 대해 의사결정 과정을 서술하도록 프롬프트를 설계함으로써, 원시 클릭·평점 데이터에 내재된 모호성을 감소시키는 것이다. 두 번째 단계에서는 생성된 의사결정 서술문을 활용해 불확실성을 두 축(데이터 불확실성·모델 불확실성)으로 분해한다. 베이지안 드롭아웃과 다중 샘플링을 통해 모델 불확실성을 추정하고, 라벨링된 행동과 서술문 간의 일관성을 통해 데이터 불확실성을 측정한다. 높은 불확실성을 보이는 샘플은 노이즈 혹은 설명 부족으로 판단되어 제외하고, 낮은 불확실성·높은 설명 품질을 가진 샘플만을 추출한다. 이렇게 정제된 데이터셋은 경량 LLM(Llama‑3.2‑3B‑Instruct 등)을 미세조정하는 데 사용되며, 기존 대형 모델(Qwen‑2.5‑32B‑Instruct, GPT‑5) 대비 3~5배 적은 연산량으로도 인간 선호와 높은 일치도를 달성한다.

실험에서는 영화·도서·뉴스 등 8개 도메인에서 1,024개의 시뮬레이션 장면을 무작위 추출해 학습·평가하였다. 기본 LLM만 사용했을 때는 도메인별 정확도가 0.450.62 수준이었으나, USER‑MIRRORER를 적용한 후에는 0.710.84까지 상승하였다. 특히, Qwen‑2.5‑32B‑Instruct와 GPT‑5와 같은 초거대 모델보다 경량 모델이 더 높은 정렬 성능을 보인 점은 데이터 증류와 의사결정 서술문이 모델의 일반화 능력을 크게 보강했음을 시사한다.

기술적 기여는 다음과 같다. (1) 사용자 피드백을 “설명 가능한 의사결정 과정”으로 변환하는 프롬프트 설계법, (2) 불확실성 분해를 통한 고품질 학습 샘플 자동 선택 메커니즘, (3) 경량 LLM을 활용한 비용 효율적인 사용자 시뮬레이터 구축 파이프라인. 한계점으로는 노출 리스트를 인위적으로 구성한 점과, 현재는 정량적 정확도 외에 장기적인 RS와의 상호작용 시뮬레이션 평가가 부족하다는 점을 들 수 있다. 향후 연구에서는 실제 온라인 A/B 테스트와 사용자 감정·맥락 정보를 통합한 멀티모달 메모리 확장이 기대된다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기