크로스아답트: 대규모 온라인 사용자 반응 예측을 위한 효율적인 교차 아키텍처 지식 전이
초록
본 논문은 기존 모델을 새로운 아키텍처로 교체할 때 발생하는 높은 재학습 비용과 성능 저하 문제를 해결하기 위해, 오프라인 단계에서 차원 적응 임베딩 투사와 점진적 네트워크 증류를, 온라인 단계에서는 비대칭 공동 증류와 분포 인식 적응 메커니즘을 결합한 두 단계 프레임워크 ‘CrossAdapt’를 제안한다. 실험 결과, 공개 데이터셋에서 AUC 0.270.43% 향상과 학습 시간 4371% 감소를 달성했으며, 텐센트 위챗 채널 실서비스에서도 성능 저하를 크게 완화하였다.
상세 분석
CrossAdapt은 대규모 CTR/CVR 예측 시스템에서 새로운 모델 아키텍처를 도입할 때 발생하는 ‘모델 스위칭 비용’을 두 가지 차원, 즉 컴퓨팅 오버헤드와 성능 저하로 정의하고, 이를 최소화하는 전략을 제시한다. 첫 번째 단계인 오프라인 전이에서는 임베딩 테이블이 전체 파라미터의 99% 이상을 차지한다는 점에 착안해, 차원‑적응 임베딩 투사를 설계한다. 동일 차원일 경우 직접 복사, 차원 확장 시 QR 분해를 이용한 직교 행렬을 곱해 원래 내적을 보존하고, 차원 축소 시 PCA 기반 투사를 적용해 최소 내적 왜곡을 보장한다. 논문은 이 방법이 Gram 행렬의 Frobenius norm 오차를 최소화한다는 정리를 제시하며, O(d³) 복잡도로 효율성을 입증한다.
임베딩 전이가 완료된 후에는 점진적 네트워크 증류를 적용한다. 초기에는 임베딩을 고정하고 상호작용 네트워크만 학습해 노이즈가 임베딩에 역전파되는 것을 방지하고, 이후 전체 모델을 공동 최적화한다. 이와 더불어 전략적 샘플링을 도입해 정보 밀도가 높은 데이터와 다양성을 확보함으로써 학습 샘플 수를 크게 줄이면서도 성능 손실을 최소한다.
두 번째 단계인 온라인 적응에서는 비대칭 공동 증류를 도입한다. 학생 모델은 실시간 스트림에 대해 빈번히 업데이트되어 최신 트렌드를 빠르게 포착하고, 교사 모델은 일정 주기로만 업데이트해 안정적인 지식 기반을 유지한다. 또한 분포 인식 적응 메커니즘이 데이터 분포 변화를 감지하면, 히스토리 샘플의 비중을 낮추고 스트리밍 데이터에 더 큰 가중치를 부여해 급격한 변동에 신속히 대응한다. 이러한 설계는 역사적 지식 보존과 신속한 적응 사이의 트레이드오프를 동적으로 조절한다.
실험에서는 Criteo, Avazu, 그리고 Alibaba와 같은 공개 대규모 광고 데이터셋을 사용해, 기존 지식 증류(KD) 방법 대비 AUC 향상 0.270.43%와 학습 시간 4371% 감소를 기록했다. 특히 텐센트 위챗 채널(일일 1천만 샘플) 실서비스에 적용했을 때, 표준 KD 대비 AUC 감소를 0.12%p 이하로 억제하고 LogLoss 상승을 0.001 이하로 제한했으며, 예측 편향도 현저히 낮추었다.
전반적으로 CrossAdapt은 임베딩 전이의 수학적 최적화, 점진적 네트워크 학습, 샘플 효율성, 그리고 온라인 비대칭 증류라는 네 가지 핵심 기술을 결합해, 대규모 실시간 시스템에서 새로운 모델 아키텍처 도입 비용을 크게 낮추면서도 성능을 향상시키는 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기