다중모달 생성 검색 모델의 단계별 사전학습으로 배달 서비스 혁신
초록
본 논문은 음식 배달 플랫폼 메이투안에서 텍스트와 이미지 등 다양한 모달리티를 활용한 검색 성능을 높이기 위해, 각 단계별로 특화된 학습 목표를 부여하는 단계별 사전학습 전략과, 고차원 임베딩을 압축한 의미 ID(SID)를 효과적으로 학습·활용하는 생성·판별 혼합 과제를 제안한다. 실험 결과 R@5R@20와 N@5N@20에서 각각 2~5% 수준의 개선을 달성했으며, 온라인 A/B 테스트에서 매출·클릭률이 1% 이상 상승하였다.
상세 분석
이 논문은 기존의 멀티모달 듀얼‑타워 구조가 겪는 두 가지 근본적인 문제, 즉 ‘모달리티 편중’과 ‘원‑에폭 문제’를 정확히 짚어낸다. 공동 최적화 시 텍스트 기반 손실이 빠르게 수렴하면서 이미지와 같은 복잡 모달리티는 학습이 뒤처지는 현상이 관찰되었으며, 이는 이미지 임베딩을 무작위 벡터로 교체해도 성능 저하가 거의 없다는 실험으로 입증된다. 이러한 현상을 해결하기 위해 저자는 단계별 사전학습(staged pretraining) 을 도입한다. 첫 단계에서는 아이템 타워 내부에서 이미지‑텍스트 간의 이미지2텍스트 대조 학습을 수행해 멀티모달 정합성을 강화한다. 이후 단계에서는 쿼리‑아이템, 쿼리‑텍스트, 쿼리‑이미지 등 다양한 쌍에 대해 별도 대조 손실을 적용함으로써 각 모달리티가 균형 있게 학습되도록 유도한다. 단계마다 학습률과 배치 구성을 조절할 수 있어 ‘원‑에폭 문제’를 효과적으로 방지한다.
또한, 대규모 서비스 환경에서 고차원 임베딩을 그대로 저장·검색하는 비용을 줄이기 위해 잔차 양자화 변분 오토인코더(RQ‑VAE) 를 활용해 임베딩을 다중 레이어 코드북으로 양자화하고, 이를 Semantic ID(SID) 로 압축한다. 기존 연구는 SID를 단순히 판별 손실로만 미세조정했으나, 저자는 생성 과제(예: SID → 원본 임베딩 복원)와 판별 과제(예: SID‑쿼리 매칭)를 동시에 학습시켜 SID가 텍스트·이미지 간 의미적 연관성을 내재하도록 만든다. 이는 SID가 단순한 인덱스가 아니라, LLM 기반 쿼리와 의미적으로 교감할 수 있는 ‘의미 토큰’으로 기능하게 만든다.
실험에서는 메이투안의 실제 검색 로그(수억 건 규모)를 사용해 베이스라인인 기존 듀얼‑타워와 최신 멀티모달 모델을 비교하였다. R@5, R@10, R@20에서 각각 3.80%, 2.64%, 2.17%의 상대적 향상을 보였으며, N@5N@20에서도 25% 수준의 개선을 기록했다. 특히 이미지가 무작위화된 베이스라인 대비 성능 격차가 크게 벌어지는 것을 확인함으로써, 제안된 단계별 학습이 이미지 정보를 효과적으로 활용함을 증명한다. 온라인 A/B 테스트에서는 매출이 1.12%, 클릭률이 1.02% 상승했으며, 이는 대규모 실서비스에서 모델 개선이 직접적인 비즈니스 가치로 연결될 수 있음을 보여준다.
이 논문의 핵심 기여는 (1) 모달리티 간 학습 불균형을 단계별 목표 설계로 해결한 사전학습 프레임워크, (2) SID를 생성·판별 이중 과제로 학습시켜 의미적 활용도를 극대화한 방법, (3) 대규모 실서비스 데이터와 온라인 실험을 통해 제안 방법의 실효성을 입증한 점이다. 향후 연구에서는 더 다양한 모달리티(예: 동영상, 오디오)와 사용자 행동 로그를 통합한 다중 목표 학습, 그리고 SID 기반의 초저지연 검색 인프라 구축이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기