계층형 이질 특성 변환기 기반 CTR 예측 모델 HHFT

계층형 이질 특성 변환기 기반 CTR 예측 모델 HHFT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HHFT는 사용자·아이템·쿼리·행동 시퀀스 등 이질적인 피처를 의미론적 블록으로 나누고, 블록별 QKV와 FFN을 갖는 이질 트랜스포머 인코더와 Hiformer 레이어를 결합해 고차원 상호작용을 학습한다. 실험 결과, 기존 DNN 기반 모델 대비 AUC가 0.4%p 상승하고, 타오바오 실서비스에서 GMV가 0.6% 증가하는 효과를 보였다.

상세 분석

본 논문은 대규모 전자상거래 환경에서 클릭‑Through‑Rate(CTR) 예측의 정확도를 높이기 위해 Transformer 구조를 재설계한 HHFT(Hierarchical Heterogeneous Feature Transformer)를 제안한다. 핵심 아이디어는 이질적인 피처를 “Semantic Feature Partitioning” 단계에서 사용자, 아이템, 쿼리, 행동 시퀀스 등 의미론적 블록으로 구분하고, 각 블록마다 독립적인 임베딩 차원(eₖ)과 선형 투사(W_projₖ)를 적용해 동일한 차원(d)으로 정렬한다. 이렇게 정렬된 토큰 행렬 H⁽⁰⁾은 블록별 Q, K, V 프로젝션 행렬(W_Qₖ, W_Kₖ, W_Vₖ)을 사용해 서로 다른 의미를 보존한 채 자기‑주의 연산을 수행한다. 블록‑특화 FFN은 ReLU 기반 2‑계층 구조로, 각 블록마다 별도 파라미터(W₁ₖ, b₁ₖ, W₂ₖ, b₂ₖ)를 갖아 비선형 변환 능력을 강화한다.

이러한 이질 트랜스포머 인코더 위에 Hiformer 레이어를 추가함으로써 단순 쌍별 자기‑주의를 넘어 복합적인 고차 상호작용을 모델링한다. Hiformer는 모든 블록 토큰을 concat 후 전역 복합 프로젝션(Ĥ)으로 변환하고, 동일한 방식으로 Q, K, V를 재구성해 다중 헤드 주의 연산을 수행한다. 이 설계는 고차원 상호작용을 효율적으로 캡처하면서도 파라미터 공유를 최소화한다.

실험에서는 타오바오의 수십억 건 로그 데이터를 사용해 오프라인 AUC와 온라인 GMV를 평가하였다. 베이스라인으로는 DLRM‑MLP, DCNv2, AutoInt, Hiformer, Wukong, RankMixer 등을 사용했으며, HHFT는 파라미터 300M, TFLOPs 1.22 수준에서 AUC 0.008p(베이스 대비) 상승을 기록했다. Ablation 연구에서는 (1) 기본 Transformer 도입만으로 +0.0035p, (2) 블록‑특화 QKV/FFN 추가 시 +0.0018p, (3) Hiformer 레이어 +0.0011p, (4) 가중치 초기화 최적화 +0.0040p, (5) 모델 스케일업 +0.0034p의 순차적 기여를 확인했다.

스케일링 법칙 검증에서는 토큰 차원(폭) 확대가 레이어 깊이 확대보다 AUC 향상에 더 큰 영향을 미침을 보여, 산업 현장에서 자원 효율적인 모델 확장을 위한 실용적인 가이드를 제공한다. 또한 고차 상호작용 파라미터(Hiformer 토큰 수·차원)를 확대하는 것이 저차 파라미터(Transformer 레이어 수)보다 효과적임을 입증했다.

마지막으로 30일간의 A/B 테스트에서 HHFT는 CTR AUC를 0.4%p, GMV를 0.6%p 상승시켰으며, 이는 수억 사용자와 수천억 거래 규모에서 수십억 위안 규모의 매출 증가로 직결된다. 전체적으로 HHFT는 이질 피처의 의미 보존, 블록‑특화 파라미터 설계, 고차 상호작용 레이어 도입을 통해 기존 DNN 기반 CTR 모델의 한계를 극복하고, 스케일링 법칙을 활용한 예측 성능 향상을 실증하였다.


댓글 및 학술 토론

Loading comments...

의견 남기기