사용자 인터랙션 시퀀스를 활용한 트랜스포머 기반 체류시간 예측 모델

사용자 인터랙션 시퀀스를 활용한 트랜스포머 기반 체류시간 예측 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 클릭, 스크롤, 커서 이동 등 다양한 인터랙션 행동을 임베딩하고 위치 인코딩으로 통합한 뒤, 멀티‑헤드 셀프 어텐션과 피드포워드 네트워크를 결합한 트랜스포머 구조로 UI 체류시간(dwell time)을 예측한다. Avazu 데이터셋을 활용한 실험에서 BILSTM, DRFormer, FedFormer, iTransformer 등 기존 모델들을 모두 능가하는 MSE·RMSE·MAPE·RMAE 성능을 달성했으며, 어텐션 헤드 수, 시퀀스 윈도우 길이, 디바이스 환경 등에 대한 민감도 분석을 통해 모델의 견고함을 입증하였다.

상세 분석

이 연구는 인간‑컴퓨터 인터랙션(HCI) 분야에서 체류시간을 정량화하고 예측하는 문제를 시계열 회귀 과제로 정의하고, 기존의 통계· shallow 머신러닝 접근법이 고차원·비선형 의존성을 포착하지 못한다는 한계를 명확히 제시한다. 저자는 사용자 행동 로그를 “dwell duration, click frequency, scrolling behavior, contextual features” 네 가지 차원으로 정규화하고, 각각을 고정 차원의 임베딩 벡터로 변환한 뒤, 시간 순서를 보존하기 위해 sinusoidal 혹은 학습형 위치 인코딩을 더한다. 이렇게 구성된 입력 시퀀스 X∈ℝ^{T×d}는 선형 변환 W_e를 통해 잠재 공간 h_t에 매핑된다.

핵심 모델은 표준 트랜스포머 인코더와 동일하게 멀티‑헤드 셀프 어텐션(Multi‑Head Attention, MHA)과 포지션‑와이즈 피드포워드 네트워크(FFN)로 이루어진다. Q, K, V를 각각 W_Q, W_K, W_V 로 선형 변환한 뒤, Scaled Dot‑Product 어텐션을 적용해 각 타임스텝이 전체 시퀀스와 어떻게 연관되는지를 학습한다. 어텐션 헤드 수 M을 1~8까지 변화시킨 실험에서, 헤드 수가 증가할수록 전역 의존성 포착 능력이 향상되어 RMAE가 현저히 감소함을 확인하였다. 이는 다양한 행동 패턴(예: 초기 빠른 스크롤 → 중간에 긴 체류) 등을 다차원적으로 표현할 수 있음을 의미한다.

FFN은 두 개의 선형 층 사이에 GELU(ReLU 대체) 활성화를 두어 비선형 변환 능력을 강화한다. 레이어 정규화와 드롭아웃을 적절히 삽입해 과적합을 방지하고, 잔차 연결을 통해 깊은 네트워크에서도 안정적인 그래디언트 흐름을 유지한다. 인코더 출력 h’_t를 전체 시퀀스에 대해 평균 풀링(Global Average Pooling)한 뒤, 최종 선형 회귀 레이어를 통해 체류시간 ŷ를 예측한다.

실험에서는 Avazu Click‑Through Rate 데이터셋을 재구성해 체류시간 라벨을 부여하였다. 데이터는 수천만 건 규모이며, 디바이스 종류, OS, 브라우저, 광고 슬롯 등 풍부한 메타 정보를 포함한다. 이를 통해 모델이 다양한 컨텍스트와 사용자 특성을 동시에 학습하도록 설계하였다. 비교 대상인 BILSTM, DRFormer, FedFormer, iTransformer와 동일한 전처리·학습 파이프라인을 적용했으며, 평가 지표는 MSE, RMSE, MAPE, RMAE 네 가지를 사용했다.

결과적으로 제안 모델은 MSE 0.1361, RMSE 0.3690, MAPE 7.12%, RMAE 0.2745 로 모든 지표에서 최우수 성능을 기록했다. 특히 MAPE와 RMAE는 상대 오차를 직접 반영하므로, 개인별 체류시간 차이가 큰 상황에서도 예측 정확도가 높다는 점을 강조한다. 민감도 분석에서는 어텐션 헤드 수 외에도 시퀀스 윈도우 길이(예: 20, 40, 60)와 디바이스 환경(모바일 vs 데스크톱) 변화에 대한 실험을 수행했으며, 모델이 어느 환경에서도 안정적인 성능을 유지함을 확인했다.

이 논문의 주요 기여는 (1) 다중 행동 특성을 통합한 임베딩 설계, (2) 트랜스포머 기반 장기 의존성 학습을 통한 고차원 시퀀스 모델링, (3) 다양한 베이스라인 대비 전반적인 성능 우위 입증, (4) 하이퍼파라미터·환경 민감도 분석을 통한 실용성 검증이다. 향후 연구에서는 그래프‑기반 트랜스포머와 메타‑러닝을 결합해 사용자 개인화와 도메인 적응성을 강화하거나, 실시간 추론을 위한 경량화 모델 설계가 고려될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기