압축 교차 스케일 효율적 확장을 위한 다단계 압축 교차 네트워크

압축 교차 스케일 효율적 확장을 위한 다단계 압축 교차 네트워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고차원 피처 상호작용을 효율적으로 모델링하기 위해 계층적 압축과 동적 교차 메커니즘을 결합한 MLCC 구조를 제안한다. 이를 다채널 확장인 MC‑MLCC와 결합해 파라미터와 FLOPs를 크게 감소시키면서도 AUC를 최대 0.52% 향상시킨다. 대규모 산업 데이터와 공개 벤치마크에서 실험을 수행했으며, 실제 광고 플랫폼에 적용해 latency 제한을 만족하면서 32% 이상의 광고 가치를 개선하였다.

상세 분석

MLCC는 “Compress‑Cross‑Scale”이라는 세 단계 파이프라인을 기반으로 한다. 첫 단계인 Global Compressor(GC)는 입력 임베딩 토큰을 전체 컨텍스트를 반영한 소수의 글로벌 토큰으로 압축한다. 이때 압축은 단순 차원 축소가 아니라 학습 가능한 가중치를 통해 중요한 정보를 보존하도록 설계되어, 고차원 피처 간의 중복을 최소화한다. 두 번째 단계인 Progressive Layered Crossing(PLC)은 원본 로컬 토큰과 압축된 글로벌 토큰을 동시에 입력받아, 동적 가중치 행렬을 통해 교차 연산을 수행한다. PLC는 기존의 Cross Network나 Self‑Attention과 달리, 로컬‑글로벌 상호작용을 단계별로 진행함으로써 고차원 상호작용을 저차원 표현에 효율적으로 매핑한다. 세 번째 단계인 Scale은 PLC에서 생성된 교차 토큰을 다시 원본 차원으로 복원하거나, 필요에 따라 추가적인 MLP 블록에 전달한다. 이 구조는 파라미터 복잡도를 O(N·d·k) 수준으로 유지하면서도, 깊이와 폭을 늘려도 계산량이 급격히 증가하지 않는 장점을 가진다.

MC‑MLCC는 MLCC를 여러 채널로 병렬화한다. 각 채널은 독립적인 압축‑교차 파이프라인을 갖으며, 서로 다른 하위 공간에서 피처 상호작용을 학습한다. 채널 간 결과는 단순 concatenation이 아니라, 가중치 공유된 어그리게이션 레이어를 통해 통합된다. 이 설계는 “embedding inflation” 방식보다 파라미터와 FLOPs를 20배 이상 절감하면서도, 채널 수를 늘릴수록 모델 용량이 선형적으로 증가하도록 만든다. 실험 결과, 채널 기반 스케일링은 임베딩 차원을 확대하는 전통적 방법에 비해 ROI가 현저히 높으며, 특히 메모리와 레이턴시가 제한된 실시간 광고 시스템에 적합함을 확인했다.

또한 논문은 스케일링 법칙을 정량적으로 분석한다. 임베딩 차원, 헤드 수, 채널 수를 각각 변화시켰을 때 AUC 향상률과 파라미터·연산량 비율을 그래프로 제시하고, 채널 기반 확장이 동일 성능 대비 6~26배 효율적임을 입증한다. 마지막으로, Bilibili 광고 플랫폼에서 진행된 A/B 테스트는 MLCC 기반 모델이 기존 DLRM 대비 32% 이상의 광고 가치(ADV V) 상승을 달성했으며, 2 ms 이하의 레이턴시 제한을 충족함을 보여 실운용 가능성을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기