계층형 이벤트 스트림 변환기 NEST: 멀티셋 시퀀스의 효율적 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
NEST는 이벤트 스트림을 시간 순서가 있는 멀티셋(집합) 시퀀스로 모델링하여, 세트 내부는 순서 무시, 세트 간은 순서를 보존한다. 세트‑와 크로스‑세트 인코더를 교차 배치한 계층형 트랜스포머 구조와 Masked Set Modeling(MSM) 사전학습 목표를 도입해 희소 어텐션을 구현하고, 집합 수준 표현을 직접 학습한다. 실험 결과, 기존 평탄화 모델 대비 연산 효율과 다운스트림 성능이 모두 향상되었다.
상세 분석
본 논문은 의료 전자건강기록(EHR)과 같은 복합 이벤트 스트림이 “시퀀스‑오브‑멀티셋(SeqSet)”이라는 계층적 구조를 가진다는 점에 주목한다. 기존 트랜스포머 기반 파운데이션 모델(FM)은 이러한 구조를 일차원 시퀀스로 평탄화해, (1) 토큰 간 불필요한 전밀도 어텐션으로 계산량이 급증하고, (2) 세트 내부의 순열 불변성을 무시해 의미 없는 관계를 학습한다는 한계를 갖는다. NEST는 이 문제를 두 단계의 인코더로 해결한다.
-
Set‑Wise Encoder (SWE): 각 멀티셋 내부 토큰들만 상호작용하도록 제한한다. 이때 토큰 순서를 나타내는 포지션 임베딩을 사용하지 않아 순열 불변성을 보장한다. SWE는 전통적인 밀집 어텐션을 사용하지만, 멀티셋 경계가 어텐션을 차단하므로 전체 어텐션 복잡도는 O(n·N) 수준으로 감소한다(N은 전체 토큰 수, n은 멀티셋 크기).
-
Cross‑Set Encoder (CSE): 각 멀티셋의 대표 토큰(
댓글 및 학술 토론
Loading comments...
의견 남기기