분리된 관심 네트워크로 OOD CTR 예측 혁신
초록
본 논문은 클릭률(CTR) 예측에서 훈련·테스트 데이터가 다른 분포를 가질 때 발생하는 OOD 문제를 해결하기 위해, 사용자 관심을 인과관계적으로 분리(disentangle)하는 DiseCTR 모델을 제안한다. 희소 어텐션 기반 관심 인코더와 약한 지도 하에 독립성을 강제하는 관심 분리기, 그리고 가중합을 수행하는 관심 집계기를 결합해 P(Z|X)와 P(Y|Z)를 학습함으로써 기존 모델 대비 AUC·GAUC를 0.02 이상, 로그손실을 13.7% 이상 개선한다.
상세 분석
DiseCTR는 기존 CTR 예측 모델이 “P(Y|X)”를 직접 학습함으로써 발생하는 분포 이동 취약성을 인과 그래프 기반의 구조적 접근으로 극복한다. 논문은 사용자 관심 Z 를 관측되지 않은 잠재 변수로 설정하고, 이를 “관심 모델 P(Z)”, “노출 모델 P(X|Z)”, “클릭 모델 P(Y|X,Z)”라는 세 가지 인과 메커니즘으로 분해한다. 핵심 아이디어는 Z 가 부분적으로만 변동한다는 ‘partial‑distribution‑variation’ 가정이다. 즉, 전체 특성 X 가 크게 변하더라도, 변동이 일어나는 관심 Z_i 는 소수이며, 나머지 Z 는 안정적이므로 P(Y|Z)와 P(Z|X) 는 크게 흔들리지 않는다.
구현 측면에서 DiseCTR는 세 단계로 구성된다. 첫 번째인 ‘관심 인코더’는 입력 피처 X 를 고차원 임베딩으로 변환한 뒤, 희소 어텐션(sparse attention) 메커니즘을 적용해 각 관심 Z_i 가 제한된 피처 서브셋에만 집중하도록 설계한다. 이는 관심 간의 중복을 최소화하고, 해석 가능성을 높인다. 두 번째 단계인 ‘관심 분리기’는 약한 지도 학습을 이용해 각 Z_i 임베딩 사이의 독립성을 정규화한다. 구체적으로, 서로 다른 Z_i 가 동일한 피처에 과도하게 의존하지 않도록 KL‑divergence 기반의 상호 정보 억제와, 클러스터링 유사성을 활용한 자기 지도 손실을 결합한다. 이렇게 하면 학습 과정에서 라벨이 없는 Z_i 를 의미론적으로 구분된 ‘관심’으로 정제할 수 있다. 마지막으로 ‘관심 집계기’는 다중 관심 임베딩을 가중합하는 어텐션 메커니즘을 도입해 P(Y|Z) 를 추정한다. 각 Z_i 의 중요도는 현재 컨텍스트 X 와의 연관성을 기반으로 동적으로 조정되며, 이는 부분 변동이 발생한 관심에만 높은 가중치를 부여해 OOD 상황에서도 예측 정확도를 유지한다.
실험에서는 세 개의 실제 서비스 데이터셋(동영상·전자상거래·소셜 미디어)을 사용해 IID와 OOD 두 환경을 모두 평가하였다. Baseline으로 FM, DeepFM, AutoInt 등 최신 CTR 모델을 포함했으며, DiseCTR는 AUC·GAUC에서 평균 0.022, 로그손실에서 13.7% 이상의 개선을 기록했다. 특히 ΔP > 0.1인 고변동 사용자 그룹에서 성능 저하가 최소화되었으며, 관심 분리기의 독립성 정규화가 없을 경우 급격히 성능이 떨어지는 것을 확인했다. 추가 분석에서는 각 Z_i 가 실제 비즈니스 의미(가격·브랜드·소셜·미적 등)와 높은 상관관계를 보이며, 부분 변동이 발생한 Z_i 만을 업데이트함으로써 전이 학습 비용이 크게 감소함을 보였다.
한계점으로는 관심 수 M 의 사전 설정이 필요하고, 희소 어텐션의 구현 복잡도가 증가한다는 점이다. 또한 약한 지도 신호에 의존하기 때문에 라벨이 전혀 없는 극단적인 상황에서는 분리 효과가 감소할 수 있다. 향후 연구에서는 자동 M 탐색, 그래프 기반 피처 연관성 학습, 그리고 멀티‑도메인 전이 학습과의 결합을 통해 모델의 일반화 능력을 더욱 강화할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기