통합형 시맨틱 ID 생성으로 광고 추천 혁신
초록
UniSID는 기존 잔차 양자화(RQ) 기반 두 단계 파이프라인의 목표 불일치, 의미 손실, 오류 누적 문제를 해결하기 위해 광고 데이터를 원시 형태에서 바로 학습하는 엔드‑투‑엔드 시맨틱 ID(SID) 생성 프레임워크를 제안한다. 다중‑Granularity 대비 학습과 요약 기반 재구성 손실을 도입해 각 레벨의 의미 일관성을 유지하고, 고수준 의미를 SID에 내재시킨다. 실험 결과, Hit Rate 등 주요 지표에서 기존 최첨단 방법보다 최대 4.62%까지 향상됨을 입증한다.
상세 분석
본 논문은 생성형 추천(Generative Recommendation, GR) 시스템에서 아이템을 토큰화하는 핵심 요소인 시맨틱 ID(SID)의 생성 방식을 근본적으로 재설계한다. 기존 연구들은 아이템을 먼저 고차원 임베딩으로 인코딩한 뒤, Residual Quantization(RQ) 과정을 통해 단계별 잔차를 양자화해 SID를 만든다. 이 접근법은 (1) 임베딩 학습 목표와 SID 생성 목표가 서로 다르기 때문에 최적화 불일치가 발생하고, (2) 원시 멀티모달·구조적 특성을 직접 활용하지 못해 의미 손실이 일어나며, (3) 각 레벨이 이전 레벨의 잔차만을 받아들여 양자화 오류가 누적되는 구조적 한계를 가진다.
UniSID는 이러한 세 가지 한계를 동시에 해소한다. 첫째, 광고의 이미지, 텍스트, 구조화된 속성(산업, 카테고리 등)을 하나의 시퀀스로 선형화하고, 이를 멀티모달 대형 언어 모델(MLLM)에 입력한다. SID 토큰과 임베딩 토큰을 별도의 학습 가능한 프롬프트 형태로 삽입해, 모델이 원시 데이터 전체를 컨텍스트로 삼아 직접 SID와 임베딩을 예측하도록 설계하였다. 따라서 임베딩과 SID가 동일한 손실 함수 아래 공동 최적화되며 목표 불일치가 사라진다.
둘째, 기존 RQ가 단계별 잔차만을 사용해 정보가 점점 희박해지는 문제를 피하기 위해, 모든 SID 레이어가 동일한 전체 광고 컨텍스트를 입력받는다. 즉, 각 레이어가 독립적으로 전체 시퀀스를 바라보므로 정보 손실이 최소화되고, 깊은 레이어에서도 의미가 풍부한 토큰을 생성할 수 있다.
셋째, 의미 보존을 위한 두 가지 보조 목표를 도입한다. (a) 다중‑Granularity 대비 학습은 각 레벨별로 서로 다른 양성 샘플 집합을 구성해, 레벨이 깊어질수록 더 강한 의미 일치를 요구한다. 이를 통해 계층적 SID 구조가 각 단계에서 의미적으로 일관된 표현을 학습하도록 강제한다. (b) 요약 기반 광고 재구성 메커니즘은 SID 시퀀스로부터 광고의 핵심 속성(예: 제품 카테고리, 주요 키워드 등)을 복원하도록 학습한다. 이 과정은 SID가 암묵적인 고수준 의미를 내재하도록 하는 추가적인 감독 신호가 된다.
실험 설계는 산업 현장 광고 시나리오와 공개된 벤치마크 데이터셋을 모두 포함한다. SID 품질 평가, 다음 광고 예측, 광고 검색 등 다양한 downstream 태스크에서 UniSID는 기존 RQ‑VAE, RQ‑Kmeans 기반 방법보다 평균 2.14%~45.46%까지 성능 향상을 보였다. 특히 Hit Rate 기준으로는 최대 4.62% 상승을 기록했으며, ablation 연구를 통해 각 구성 요소(통합 입력 스키마, 다중‑Granularity 대비, 요약 재구성)의 기여도를 정량화하였다.
이 논문의 주요 기여는 (1) 두 단계 압축 패러다임의 근본적 한계를 명확히 규정하고, (2) 원시 광고 데이터를 직접 활용하는 엔드‑투‑엔드 SID 생성 프레임워크를 제시했으며, (3) 다중‑Granularity 대비와 요약 재구성이라는 새로운 의미 보존 기법을 도입해 SID의 표현력을 크게 향상시켰다는 점이다. 향후 연구에서는 더 큰 규모의 멀티모달 LLM과의 결합, 실시간 광고 서빙 시스템에의 적용, 그리고 다른 도메인(예: 전자상거래, 동영상 스트리밍)으로의 일반화 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기