하나의 트랜스포머로 통합된 피처 상호작용 및 시퀀스 모델링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OneTrans는 순차적 행동 데이터와 정적 피처를 하나의 토큰 시퀀스로 변환해 단일 Transformer 백본에서 동시에 처리한다. 순차 토큰은 파라미터를 공유하고, 비순차 토큰은 토큰별 전용 파라미터를 부여해 효율적인 특성 교차를 구현한다. KV‑캐싱과 피라미드 토큰 축소 기법을 통해 학습·추론 비용을 크게 낮추면서도 모델 규모 확대에 따라 로그선형 성능 향상을 보이며, 실제 서비스에서 GMV 5.68% 상승을 달성했다.

상세 분석

OneTrans는 기존 추천 시스템에서 흔히 볼 수 있는 “시퀀스 인코딩 → 피처 인터액션” 파이프라인을 근본적으로 재구성한다. 핵심 아이디어는 통합 토크나이저를 도입해 사용자 행동 시퀀스(다중 행동 타입 포함)와 정적 사용자·아이템·컨텍스트 피처를 동일한 차원의 토큰으로 매핑하고, 이를 하나의 연속된 토큰 스트림으로 결합하는 것이다. 이렇게 만든 토큰 시퀀스는 Mixed Parameterization 방식을 적용한 OneTrans 블록을 통해 처리된다.

파라미터 공유와 토큰‑특화 파라미터
- 모든 순차 토큰은 동일한 Q/K/V와 FFN 가중치를 공유한다. 이는 행동 시퀀스가 길어질수록 메모리와 연산량을 억제하면서도 시계열 내 장기 의존성을 학습하게 한다.
- 반면 비순차 토큰(예: 사용자 연령, 아이템 카테고리 등)은 각각 독립적인 Q/K/V와 FFN 파라미터를 할당받아, 각 피처의 고유 의미를 보존한다. 이 설계는 HiFormer에서 영감을 얻었으며, 이질적인 피처 그룹 간의 비대칭 상호작용을 자연스럽게 모델링한다.
인과적 마스크와 양방향 정보 흐름
- 전통적인 인코더‑디코더 구조와 달리 OneTrans는 인과적( causal ) 마스크만을 사용한다. 순차 토큰은 앞 토큰만을 참조하지만, 비순차 토큰은 전체 순차 토큰을 자유롭게 바라볼 수 있다. 따라서 정적 피처가 행동 시퀀스의 표현을 직접 조정하고, 반대로 행동 시퀀스도 비순차 피처에 영향을 미치는 양방향 정보 교환이 가능해진다.
피라미드 토큰 축소와 KV‑캐싱
- 모델 깊이가 증가함에 따라 순차 토큰을 단계적으로 잘라내는 피라미드 전략을 적용한다. 초기 레이어에서는 전체 행동 이력을 보존하고, 상위 레이어로 갈수록 핵심 정보를 압축해 비순차 토큰 수와 동일하게 만든다.
- 또한 Cross‑Request KV Caching을 도입해 동일 사용자에 대한 여러 후보 아이템을 평가할 때, 사용자‑측 토큰(순차 토큰)의 KV 값을 재사용한다. 이는 후보 수 C에 대한 시간 복잡도를 O(C) → O(1) 로 감소시켜 대규모 온라인 서비스에서 실시간 추론 지연을 크게 낮춘다.
스케일링 법칙과 실험 결과
- 논문은 파라미터 수, 레이어 깊이, 넓이 등을 단계적으로 확대하면서 로그선형 성능 향상이 지속됨을 실증한다. 이는 LLM에서 관찰된 스케일링 법칙과 유사하게, 데이터와 모델 규모가 동시에 증가할 때 예측 정확도가 예측 가능하게 개선됨을 의미한다.
- 산업 현장 데이터(수십억 샘플, 수백 개 피처)에서 OneTrans는 기존 최첨단 시퀀스 모델(LONGER)와 피처 인터액션 모델(Wukong, RankMixer)을 모두 능가했으며, 온라인 A/B 테스트에서는 per‑user GMV가 5.68% 상승하는 실질적인 비즈니스 효과를 기록했다.
시스템 구현 및 최적화
- FlashAttention, RMSNorm, mixed‑precision(FP16) 등 최신 LLM 최적화 기법을 그대로 적용했으며, 토큰 별 파라미터 차별화에도 불구하고 메모리 사용량을 효율적으로 관리한다.
- 비순차 토큰 수를 조절하는 두 가지 토크나이저(그룹‑와이즈 vs 자동‑스플릿) 실험을 통해, 실제 서비스에서는 자동‑스플릿 방식이 커널 호출 오버헤드를 최소화해 더 높은 처리량을 제공한다는 결론을 내렸다.

종합적으로, OneTrans는 통합 토큰화 → 혼합 파라미터 Transformer → 피라미드/캐시 최적화라는 일관된 설계 흐름을 통해, 기존 두 갈래로 나뉘던 추천 시스템 아키텍처를 하나의 백본으로 압축하면서도 확장성을 확보하고, 실시간 서비스 요구사항을 만족시키는 혁신적인 접근법이라고 평가할 수 있다.

하나의 트랜스포머로 통합된 피처 상호작용 및 시퀀스 모델링

초록

상세 분석

댓글 및 학술 토론

의견 남기기