대규모 광고 추천을 위한 다단계 시퀀스 모델링의 스케일링 법칙: LLaTTE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LLaTTE는 메타에서 실제 서비스 중인 두 단계(비동기 상위 모델 + 실시간 하위 모델) 구조의 트랜스포머 기반 시퀀스 모델이다. 실험을 통해 추천 시스템에서도 모델 크기·데이터·연산량이 거듭 제곱법칙(power‑law)으로 성능을 향상시킨다는 것을 확인했으며, 특히 의미론적 콘텐츠 임베딩과 같은 풍부한 비시퀀스 특징이 없으면 스케일링 곡선이 평탄해진다. 상위 모델이 45배 이상의 FLOP을 사용해 긴 사용자 히스토리를 처리하고, 하위 모델은 경량화된 버전으로 실시간 지연을 유지한다. 두 단계 간 전이율은 약 50%로, 상위 모델의 개선이 하위 랭킹에 직접 반영된다. 실제 배포 결과 페이스북 피드·릴스에서 전환율이 4.3% 상승했으며, 서비스 지연은 거의 증가하지 않았다.

상세 분석

본 논문은 광고 추천이라는 산업 현장에서 대규모 시퀀스 모델링을 실용화하기 위한 두 가지 핵심 아이디어를 제시한다. 첫 번째는 “Target‑Aware Adaptive Transformer”라는 변형을 도입해, 전통적인 FM(Factorization Machine) 기반 특성과 시퀀스 데이터를 하나의 토큰 공간에 결합한다는 점이다. 여기서는 Multi‑head Latent Attention(MLA)를 활용해 메모리 footprint를 크게 줄이고, 피라미드식 출력 트리밍을 통해 오래된 토큰을 단계적으로 삭제한다. 이 설계는 시퀀스 길이가 5,000까지 확장될 때도 GPU 메모리 한계를 초과하지 않으며, 연산량을 선형이 아닌 로그 수준으로 감소시킨다. 두 번째는 “Multi‑Stage Architecture”로, 고용량 상위 모델을 비동기적으로 실행해 사용자 전체 히스토리를 압축된 임베딩 형태로 저장하고, 실시간 랭킹 단계에서는 경량 하위 모델이 최신 100~200개의 이벤트만 처리한다. 이렇게 하면 상위 모델이 전체 45배 이상의 FLOP을 사용해도 온라인 지연에 영향을 주지 않는다.

스케일링 법칙 측면에서 저자들은 모델 깊이(L), 폭(d), 시퀀스 길이(T) 세 축을 독립적으로 변형하면서 성능(NE 감소)과 FLOP 사이의 관계를 로그‑선형 형태로 정량화했다. 특히 “semantic features bend the scaling curve”라는 현상을 발견했는데, 이는 콘텐츠 임베딩과 같은 풍부한 비시퀀스 특성이 없을 경우, 모델 규모를 늘려도 성능 향상이 미미해지는 것을 의미한다. 즉, 스케일링을 실현하려면 데이터의 질, 특히 의미론적 신호가 사전 조건으로 작용한다.

또한, 모델 폭이 충분히 확보되지 않으면 깊이 확장이 효율을 떨어뜨린다는 “capacity bottleneck”도 확인했다. 폭이 1,024 차원 이하에서는 깊이 24층까지 늘려도 NE 개선이 거의 없으며, 폭을 2,048 이상으로 확대해야 깊이 증가에 따른 이득이 나타난다. 이러한 발견은 LLM 스케일링 연구와 일맥상통하지만, 광고 추천이라는 도메인 특성(희소 ID, 고차원 비시퀀스 피처) 때문에 추가적인 데이터 풍부화가 필수적임을 강조한다.

전이율(transfer ratio) 실험에서는 상위 모델의 NE 개선 0.2%p가 하위 모델에 약 0.1%p 정도 그대로 전달되는 것을 측정했으며, 이는 50% 수준의 전이 효율을 의미한다. 이는 비동기 임베딩 캐시가 최신 행동과 결합될 때 정보 손실이 최소화된다는 증거이며, 실시간 랭킹 단계에서도 상위 모델의 학습 진보가 그대로 활용될 수 있음을 보여준다.

마지막으로, 실제 서비스 적용 결과는 4.3%의 전환율 상승과 0.25%p의 NE 개선을 기록했으며, 지연 시간은 2~3ms 수준으로 유지되었다. 이는 대규모 트랜스포머를 광고 추천에 적용하면서도 산업 현장의 엄격한 SLA(Service Level Agreement)를 만족시킬 수 있음을 실증한다.

요약하면, LLaTTE는 (1) 시퀀스와 비시퀀스 특성을 통합한 효율적인 토큰화·어텐션 설계, (2) 비동기·동시 다단계 아키텍처, (3) 데이터 풍부화가 전제된 스케일링 법칙 정량화, (4) 실서비스에서 검증된 성능·지연 트레이드오프라는 네 축을 통해 대규모 광고 추천 시스템에 LLM‑스타일 스케일링을 성공적으로 도입한 사례라 할 수 있다.

대규모 광고 추천을 위한 다단계 시퀀스 모델링의 스케일링 법칙: LLaTTE

초록

상세 분석

댓글 및 학술 토론

의견 남기기