사용자 만족도 정렬을 위한 설문 기반 엔드투엔드 정렬 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 짧은 동영상 추천 시스템에서 행동 로그(클릭·시청시간)만으로는 사용자 만족을 충분히 파악하기 어렵다는 문제를 해결하고자, 설문을 통해 얻은 명시적 만족 피드백을 실시간으로 모델에 반영하는 EASQ 프레임워크를 제안한다. 다중 과제 구조와 경량 LoRA 모듈로 설문 신호 전용 파라미터 경로를 만들고, DPO 기반 목표함수로 온라인 학습 중에도 안정적으로 만족 정렬을 수행한다. 오프라인·온라인 A/B 테스트 결과, EASQ는 기존 모델 대비 만족도 지표와 비즈니스 KPI를 모두 크게 향상시켰다.

상세 분석

EASQ는 크게 네 가지 핵심 설계 요소로 구성된다. 첫째, 설문 기반 만족 신호를 기존 행동 데이터와 분리하기 위해 멀티태스크 아키텍처를 도입한다. 메인 과제는 클릭·시청시간 등 대규모 행동 로그를 학습하고, 별도 만족 정렬 과제는 설문 응답(‘만족’, ‘불만족’, ‘불확실’)만을 사용한다. 이렇게 하면 희소한 설문 데이터가 행동 데이터에 의해 희석되는 현상을 방지한다. 둘째, LoRA(Low‑Rank Adaptation) 모듈을 모델의 임베딩 단계에 경량으로 삽입한다. LoRA는 기존 파라미터를 고정한 채 낮은 차원의 추가 가중치를 학습함으로써, 설문 신호가 초기 표현 단계에서 바로 반영되도록 하면서 백본 모델의 안정성을 유지한다. 셋째, 온라인 학습 환경에 맞춘 DPO(Direct Preference Optimization) 목표함수를 적용한다. 기존 RLHF‑style 방법은 고정된 레퍼런스 모델에 의존하지만, EASQ는 현재 메인 모델을 레퍼런스로 삼아 설문 과제에서 얻은 쌍대 선호(pairwise preference)를 직접 정책에 반영한다. 이는 “π* ∝ π_ref·exp(β·r)” 형태의 닫힌 해를 이용해, 설문 응답이 나타내는 만족 보상을 로그 확률 차이로 변환하고, KL 발산 제약을 통해 급격한 파라미터 변동을 억제한다. 넷째, 시스템 차원에서 설문 트리거링 로직을 설계한다. 사용자가 7초 이상 시청하거나 50% 이상 시청한 경우에만 설문을 노출해 응답률을 높이고, 응답이 없는 경우는 자동으로 ‘불확실’ 클래스로 라벨링한다. 이러한 설계는 실제 서비스에서 설문 데이터의 수집 효율을 크게 개선한다. 실험 결과, 오프라인에서는 설문 기반 만족 점수(AUC, NDCG)에서 3~5% 상승을 보였으며, 대규모 온라인 A/B 테스트에서는 사용자 만족도(설문 긍정 비율)와 체류 시간 모두 유의미하게 증가했다. 특히, 모델 파라미터 변화량이 기존 방법 대비 40% 이하로 억제돼 서비스 안정성에 기여했다. 전체적으로 EASQ는 설문이라는 고품질·희소 신호를 행동 데이터와 효과적으로 결합하고, 온라인 환경에서도 지속적인 적응을 가능하게 하는 실용적인 프레임워크라 할 수 있다.

사용자 만족도 정렬을 위한 설문 기반 엔드투엔드 정렬 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기