다중의도와 시각정보를 결합한 풍부미디어 재랭킹 프레임워크
초록
본 논문은 사용자 세션을 분석해 복합 질의를 하위 질의로 분해하고, 텍스트 외에 커버 이미지와 같은 시각 신호를 VLM으로 평가한 뒤, LLM 기반 재랭커가 내용 관련성·품질·정보 신규성·시각 매력도를 종합 판단하도록 설계한 Rich‑Media Re‑Ranker를 제안한다. 다중‑태스크 강화학습으로 모델 적응성을 높이고, 대규모 산업 서비스에 적용해 사용자 만족도와 클릭률을 크게 향상시켰다.
상세 분석
Rich‑Media Re‑Ranker는 기존 재랭킹이 갖는 두 가지 근본적 한계를 동시에 해결한다. 첫째, 사용자는 하나의 질의에 여러 잠재적 의도를 내포하는 경우가 많으며, 특히 “Yunnan Travel”과 같이 여행·교통·숙소 등 다차원 요구가 복합적으로 존재한다. 논문은 세션‑aware Query Planner를 도입해 사용자의 질의 히스토리를 LLM에 입력, 질의를 ‘복합’, ‘광범위 필요’, ‘단순’ 세 유형으로 분류하고, 복합·광범위 필요에 대해서는 각각의 의도 차원을 (신선도, 권위성, 개인경험 등) 명시한 하위 질의 집합으로 자동 분해한다. 이 과정은 질의 재작성·보강을 통해 후보 문서 풀을 확대하고, 의도‑가중치를 명시적으로 전달함으로써 재랭킹 단계에서 목표 지향성을 강화한다.
둘째, 풍부미디어 환경에서는 텍스트 외에 이미지·동영상 썸네일이 사용자의 첫인상과 클릭 결정에 큰 영향을 미친다. 기존 텍스트‑중심 재랭커는 이러한 시각 정보를 무시하거나 단순히 메타데이터 수준에 머문다. 여기서는 VLM‑based evaluator를 별도 모듈로 두어 커버 이미지의 관련성, 품질, 시각적 매력도를 정량화하고, 이를 텍스트 신호(제목, 본문, 발행시간, 행동 로그)와 결합한다.
LLM‑based re‑ranker는 “내용 관련성·품질”, “정보 이득”, “정보 신규성”, “시각 프레젠테이션” 네 가지 재랭킹 원칙을 프롬프트에 명시하고, 통합된 신호를 입력받아 리스트‑와이즈로 최종 순위를 생성한다. 중요한 점은 강화학습을 이용해 VLM과 LLM을 다중‑태스크로 공동 최적화한다는 점이다. 보상 함수는 (a) 텍스트‑기반 정밀도, (b) 이미지‑기반 시각 매력도, (c) 사용자 행동(클릭·체류) 등을 포함해 시나리오별 목표를 동시에 학습한다.
실험에서는 공개된 검색 벤치마크와 자체 대규모 로그 데이터를 활용해 MAP, NDCG, 클릭‑through‑rate(CTR) 등 다중 지표에서 기존 최첨단 모델(예: RankFlow, ReasonRank 등)을 크게 앞섰으며, 실제 서비스 적용 후 온라인 A/B 테스트에서 사용자 만족도 점수와 체류 시간이 12% 이상 상승했다. 전체 파이프라인은 모듈화돼 확장성이 높으며, 질의 플래너와 VLM‑Evaluator를 별도 도메인에 맞게 파인튜닝하면 다양한 풍부미디어 검색 시나리오에 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기