사용자와 함께 진화하는 언어 모델: 동적 프로필 기반 맞춤 정렬
초록
본 논문은 대형 언어 모델(LLM)의 개인화 정렬을 위해 다중 턴 대화에서 사용자 프로필을 실시간으로 추론·갱신하는 강화학습 프레임워크(RLPA)를 제안한다. Qwen‑2.5‑3B‑Instruct를 RLPA로 미세조정한 Qwen‑RLPA는 기존 프롬프트 기반·오프라인 파인튜닝 방법을 넘어, Claude‑3.5·GPT‑4o 등 상용 모델을 능가하는 개인화 대화 성능을 보인다.
상세 분석
이 논문은 개인화 정렬을 정적 데이터에 의존하는 기존 접근법의 한계를 짚고, 사용자와의 상호작용을 통해 프로필을 동적으로 구축하는 MDP(마르코프 결정 과정) 모델을 설계한다. 상태 S는 현재까지의 대화 기록을, 행동 A는 모델이 생성한 응답을, 전이 T는 시뮬레이트된 사용자가 다음 발화를 생성하는 과정을 의미한다. 핵심은 두 단계의 보상 함수이다. 첫 번째인 프로필 보상(R_profile)은 슬롯‑값 형태로 정의된 사용자 속성 집합과 모델이 추론한 프로필 간의 정밀도·재현율을 조화한 F1 점수를 사용해, 모델이 점진적으로 정확한 프로필을 구축하도록 유도한다. 두 번째인 응답 보상(R_response)은 GPT‑4o‑mini 기반의 평가 모델이 자연스러움·관련성·논리성·참여도·정보성 다섯 가지 이진 기준을 모두 만족하는 경우에만 1점을 부여함으로써, 생성된 답변이 추론된 프로필과 일관되도록 강제한다. 두 보상의 합 R_t = R_profile_t + R_response_t 를 PPO(Proximal Policy Optimization) 알고리즘에 적용해 정책을 업데이트한다.
시뮬레이트된 사용자는 사전 정의된 프로필 P를 시스템 프롬프트에 삽입해 일관된 대화 스타일과 선호를 유지하도록 설계되었으며, 초기에는 프로필 정보를 점진적으로 드러내어 모델이 다중 턴 추론을 수행하도록 만든다. 사용자 시뮬레이터로는 GPT‑4o‑mini를 선택했으며, 인간 평가를 통해 프로필 충실도와 행동 일관성을 검증하였다.
실험에서는 Qwen‑RLPA를 기존 SFT, DPO, CoT, Self‑Critic 등 여러 베이스라인과 비교했으며, Vanilla 및 Extended ALOE 설정에서 정렬 점수(Alignment Score), 정규화 개선율(N‑IR), 정규화 결정계수(N‑R²) 모두에서 현저히 우수한 결과를 기록했다. 특히, Claude‑3.5‑Sonnet·DeepSeek‑V3 등 최신 상용 모델을 능가했으며, GPT‑4o와 거의 동등한 수준을 달성했다. 장기 대화(수십 턴)에서도 프로필 일관성을 유지하고, 상충되는 선호를 조정하는 능력이 검증되었다. 또한, 기존 추론 중심 LLM(DeepSeek‑R1·OpenAI‑o3) 대비 추론 효율성도 크게 향상되었다는 부가적인 장점이 보고되었다.
이 연구는 (1) 개인화 정렬을 다중 턴 MDP로 공식화, (2) 프로필·응답 두 축의 보상 설계, (3) 시뮬레이트된 사용자와의 온라인 RL 학습이라는 세 가지 핵심 기여를 통해, 동적 사용자 프로필 구축이 개인화 대화 시스템에 있어 보다 효과적인 패러다임임을 실증한다. 향후 실제 사용자와의 실시간 피드백을 통한 확장과, 프로필 슬롯 자동 확장, 멀티모달 정보 통합 등으로 연구를 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기