인과 그래프와 생성형 AI를 활용한 사용자 행동의 반사실 예측
초록
본 논문은 구조적 인과 모델(SCM)과 트랜스포머 기반 생성형 인공지능을 결합한 새로운 프레임워크를 제시한다. 사용자 상호작용, 채택 지표, 제품 특성 간의 인과 관계를 그래프로 명시하고, 이를 조건으로 삼아 생성 모델이 가상의 정책이나 환경 변화에 대한 행동 궤적을 시뮬레이션한다. 웹, 모바일, 이커머스 데이터셋에 적용한 실험에서 기존 시계열 예측·업리프트 모델 대비 예측 정확도와 정책 평가 효율성이 크게 향상되었으며, 인과 경로 시각화를 통해 결과 해석 가능성도 높아졌다.
상세 분석
이 연구는 두 가지 핵심 기술을 통합한다. 첫 번째는 구조적 인과 모델(SCM)로, 사용자 행동을 결정하는 잠재적 요인들을 변수로 정의하고, 이들 간의 인과 관계를 방향성 그래프 형태로 명시한다. 논문에서는 변수 선택 단계에서 도메인 전문가 인터뷰와 자동화된 변수 중요도 분석을 병행해, ‘페이지 뷰’, ‘클릭‑스루 레이트’, ‘푸시 알림 수신 여부’, ‘가격 할인율’ 등 12개의 핵심 노드를 도출하였다. 이후 Do‑Calculus와 백도어 조정(back‑door adjustment) 원리를 적용해 각 노드의 조건부 확률분포를 추정하고, 이를 기반으로 반사실(counterfactual) 시나리오를 정의한다.
두 번째 핵심은 트랜스포머 기반 생성형 모델이다. 기존 시계열 예측 모델은 관측된 시퀀스에만 의존하지만, 본 논문은 인과 그래프에서 추출한 변수값을 ‘조건 토큰’으로 삽입해, 가상의 정책(예: 할인율 20% 상승)이나 외부 충격(예: 신규 기능 출시) 하에서의 미래 행동 시퀀스를 샘플링한다. 모델 아키텍처는 인코더‑디코더 구조를 유지하면서, 인코더 입력에 인과 변수의 임베딩을 추가하고, 디코더 단계에서 ‘인과‑조건화 어텐션’ 메커니즘을 도입해 변수 간 인과 의존성을 학습한다. 학습 과정에서는 실제 관측 데이터와 인과 그래프가 제공하는 구조적 제약을 동시에 만족하도록, 변분 베이즈 정규화와 구조 손실(structural loss)을 결합한 다중 목표 함수가 사용된다.
실험에서는 세 가지 도메인(웹 로그, 모바일 앱, 이커머스 구매)에서 1억 건 이상의 이벤트를 수집했으며, 평가 지표로는 RMSE, MAE, 그리고 정책 효과를 측정하는 Uplift‑AUC를 채택했다. 기존 ARIMA, LSTM, 그리고 최신 uplift 모델(T‑Learner, X‑Learner)과 비교했을 때, 제안 프레임워크는 평균 12% 이상의 RMSE 감소와 9% 이상의 Uplift‑AUC 향상을 기록했다. 특히, 정책 변경 전후의 인과 경로를 시각화한 결과, ‘가격 할인 → 구매 전환’ 경로가 예상보다 강하게 작용함을 확인할 수 있었으며, 이는 제품 팀이 실제 프로모션 전략을 재조정하는 데 직접 활용되었다.
한계점으로는 인과 그래프 구축에 초기 도메인 전문가 비용이 소요되고, 고차원 변수 간의 인과 관계를 완전히 식별하기 어려운 점을 들었다. 또한, 생성 모델이 학습 데이터에 내재된 편향을 그대로 전달할 위험이 존재한다는 점을 인식하고, 향후 편향 완화 기법과 온라인 실험을 통한 지속적 검증이 필요하다고 제언한다.
댓글 및 학술 토론
Loading comments...
의견 남기기