시계열 집합 변환 트랜스포머
초록
**
Set2Seq Transformer는 순서가 없는 집합을 시간 단계별로 배치하고, 각 단계의 절대 시점과 상대 순서를 동시에 인코딩하는 새로운 트랜스포머 기반 구조이다. 이를 통해 미술 작품 집합을 이용한 작가 성공 예측과 단기 산불 위험 예측 두 가지 이질적인 과제에서 기존 정적 MIL 모델 및 전통적인 시계열 모델을 능가한다.
**
상세 분석
**
본 논문은 “시퀀셜 다중‑인스턴스 학습”(Sequential Multiple‑Instance Learning, SMIL)이라는 비교적 새롭고 복합적인 문제 설정을 정의한다. SMIL에서는 각 시간 단계가 순서가 없는 인스턴스 집합으로 구성되며, 시간 단계 간의 순서와 절대 시점 정보가 동시에 모델링되어야 한다는 두 가지 핵심 요구사항이 존재한다. 기존 연구는 (1) 집합 내부의 순열 불변성을 학습하는 DeepSets·Set Transformer와 같은 정적 MIL 방법에 머물러 시간적 변화를 무시하거나, (2) RNN·Transformer와 같은 시계열 모델이 개별 인스턴스를 순차적으로 처리하면서 집합 구조를 손실한다는 한계를 가지고 있었다.
Set2Seq Transformer는 이러한 한계를 극복하기 위해 세 가지 주요 설계 요소를 도입한다. 첫째, 각 시간 단계 t에 대해 “Set Encoder”를 적용한다. 이 Encoder는 자체‑어텐션을 이용해 집합 내 원소 간 관계를 포착하면서, 평균 풀링 혹은 Set Attention Pooling을 통해 순열 불변성을 보장한다. 둘째, “Positional Encoding”과 “Temporal Embedding”을 각각 시간 단계의 상대 순서와 절대 시점(예: 연도, 날짜)으로 독립적으로 학습한다. Positional Encoding은 기존 트랜스포머의 사인‑코사인 방식과 유사하지만, 시간 단계 인덱스에만 적용되어 순서 정보를 제공한다. Temporal Embedding은 연속적인 실수값을 임베딩 레이어에 통과시켜 절대 시점의 의미론적 차이를 학습한다. 셋째, 위 두 임베딩을 Set Encoder의 출력과 합산한 뒤, “Sequence Encoder”인 다중 레이어 트랜스포머에 입력한다. 이 단계에서 시간 단계 간 장기 의존성을 캡처하면서도, 각 단계의 집합 표현이 그대로 전달된다. 최종적으로 풀리 커넥트 레이어를 통해 회귀 혹은 분류 결과를 얻는다.
학습 과정은 전통적인 엔드‑투‑엔드 방식이며, 손실 함수는 태스크에 따라 MSE(예: 산불 위험 점수) 혹은 RankNet‑기반 순위 손실(예: 작가 성공 점수)으로 설정한다. 중요한 점은 Set Encoder와 Sequence Encoder가 동시에 최적화되므로, 집합 구조와 시간적 흐름이 상호 보완적으로 학습된다는 것이다.
실험에서는 두 개의 이질적인 데이터셋을 구축하였다. 첫 번째는 58,458개의 작품을 849명의 작가에게 매핑하고, 외부 성공 지표(전시 횟수, 경매 가격 등)를 라벨로 사용한 WikiArt‑Seq2Rank이다. 작품은 연도별로 집합화되어 시간 순서와 절대 연도가 명시된다. 두 번째는 미국 메소스케일 기상 관측소에서 수집한 1시간 간격의 대기·식생 변수 집합을 이용한 단기 산불 위험 예측 데이터이다. 두 데이터 모두 “시간 단계 → 집합 → 라벨” 형태를 만족한다.
비교 대상은 (1) DeepSets·Set Transformer와 같은 정적 MIL, (2) LSTM·Temporal Convolution·Time2Vec을 적용한 시계열 모델, (3) 기존 Transformer에 개별 인스턴스를 직접 입력한 방법이다. Set2Seq Transformer는 평균 7.3%‑12.5%의 RMSE 감소와 4.1%‑9.8%의 NDCG 향상을 기록했으며, 특히 시간 단계가 많을수록(예: 12개월 이상) 성능 격차가 확대되는 경향을 보였다.
추가적인 ablation study에서는 (a) Positional Encoding을 제거하면 순서 민감도가 급격히 떨어지고, (b) Temporal Embedding을 제외하면 절대 시점 변화에 대한 적응력이 감소해 특히 산불 데이터에서 성능 저하가 크게 나타난다. (c) Set Encoder를 단순 평균 풀링으로 교체하면 순열 불변성은 유지되지만 복잡한 집합 내 상호작용을 놓쳐 전체 성능이 3‑5% 감소한다.
한계점으로는 (i) 시간 단계가 매우 불규칙하거나 누락된 경우 현재 구현이 강건하지 않으며, (ii) 대규모 집합(수천 개 원소)에서는 Set Encoder의 O(n²) 어텐션 비용이 병목이 된다. 저자는 향후 샘플링 기반 어텐션이나 계층적 집합 표현을 통해 확장성을 개선할 계획이라고 밝힌다.
전반적으로 Set2Seq Transformer는 “집합 → 시간 → 위치”라는 3중 구조를 효과적으로 통합함으로써, 기존 방법이 놓치던 복합적인 패턴을 포착한다는 점에서 SMIL 분야의 중요한 전진을 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기