멀티태스크 추천을 위한 전문가 희소성 기반 확장형 SMES 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SMES는 다중 작업 추천 시스템에서 파라미터를 효율적으로 확장하기 위해 전문가(Expert) 희소성을 활용한다. 작업 간 공유 전문가와 작업별 전용 전문가를 단계적으로 라우팅하고, 전체 작업에 걸친 로드 밸런싱 정규화를 도입해 인스턴스당 활성 전문가 수를 제한하면서도 각 작업에 충분한 용량을 제공한다. 실제 Kuaishou 서비스에 적용돼 GAUC 0.29%·시청시간 0.31% 향상을 달성했다.

상세 분석

본 논문은 대규모 산업용 추천 시스템에서 다중 작업(Multi‑Task Learning, MTL) 방식이 필수적이지만, 작업마다 데이터 양과 라벨 희소성이 크게 달라 파라미터를 균등하게 확대하면 비용 대비 효율이 급격히 떨어진다는 문제를 제기한다. 이를 해결하기 위해 저자는 ‘전문가 희소성(Expert Sparsity)’이라는 새로운 스케일링 패러다임을 제안한다. 기존의 Mixture‑of‑Experts(MoE) 구조는 각 작업마다 독립적인 라우터가 존재해 top‑k 전문가를 선택한다. 하지만 다중 작업 상황에서는 서로 다른 작업이 동일 인스턴스에 대해 서로 다른 전문가 집합을 선택하게 되면서, 전체 활성 전문가 수가 작업 수에 비례해 급증(‘exploded expert activation’)하고, 일부 인기 전문가에 트래픽이 집중돼(‘expert load skew’) 학습이 불안정해진다.

SMES는 이러한 두 가지 병목을 동시에 해소한다. 첫 번째로 ‘Progressive Expert Routing’ 메커니즘을 도입한다. 전체 작업이 공유하는 ‘Task‑Shared Router’를 통해 소수의 공통 전문가를 먼저 선택하고, 이후 각 작업별 ‘Task‑Adaptive Sub‑Router’가 제한된 수(k′)의 전용 전문가를 추가로 선택한다. 이렇게 하면 인스턴스당 실행되는 전문가 수는 |Shared| + k′ 로 고정돼, 라우팅 폭발을 방지하면서도 작업 특화 용량을 확보한다. 두 번째로 ‘Global Multi‑Gate Load‑Balancing Regularizer’를 설계해 모든 작업의 라우팅 로그를 하나의 집합으로 모아 균등 사용을 강제한다. 기존 MoE에서 각 작업별 라우터에만 적용되던 로드 밸런싱을 전체 라우터에 적용함으로써 인기 전문가에 트래픽이 몰리는 현상을 완화하고, 학습 안정성을 크게 높인다.

또한 구현 단계에서 ‘Deduplicated Expert Execution’ 전략을 적용해 여러 작업이 동일 전문가를 선택했을 경우 중복 계산을 제거한다. 이는 메모리 사용량과 연산량을 크게 절감해 실시간 서비스의 레이턴시 제한을 만족시킨다. 실험 결과, 공개 데이터셋 KuaiRand 및 사내 대규모 로그 데이터에서 SMES는 기존 Dense MoE, MMoE, PLE 등과 비교해 AUC/GAUC 향상뿐 아니라 파라미터 대비 FLOPs 효율이 크게 개선되었다. 실제 Kuaishou 짧은 동영상 서비스에 400M DAU 규모로 배포된 뒤, 온라인 A/B 테스트에서 GAUC 0.29% 상승과 사용자 시청시간 0.31% 증가라는 실질적인 비즈니스 효과를 확인했다.

핵심 기여는 (1) 다중 작업 환경에서 발생하는 ‘전문가 활성 폭발’과 ‘로드 스큐’ 문제를 명확히 정의하고, (2) 공유‑전용 라우팅 구조와 전역 로드 밸런싱 정규화를 결합한 SMES 프레임워크를 제시했으며, (3) 대규모 실서비스 적용을 위한 효율적인 실행 최적화 기법을 제공했다는 점이다.

멀티태스크 추천을 위한 전문가 희소성 기반 확장형 SMES 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기