멀티모달 장기 시계열 이벤트 모델링: MM‑TPP와 적응형 압축 기법
초록
본 논문은 텍스트와 이미지를 동시에 다루는 대규모 언어 모델 기반 시계열 포인트 프로세스(MM‑TPP)를 제안한다. 시간·유형·텍스트·시각 정보를 하나의 토큰 시퀀스로 통합하고, 시간 유사성을 이용해 유사 이벤트를 <|similar event|> 토큰으로 압축함으로써 긴 컨텍스트에서도 효율적인 자기‑주의 연산을 가능하게 한다. 두 단계 사전학습·미세조정 파이프라인과 신규 TAXI‑PRO·DanmakuTPP‑QA 데이터셋 실험을 통해 예측 정확도와 생성 텍스트 품질 모두 기존 최첨단 모델을 능가함을 입증한다.
상세 분석
MM‑TPP는 기존 Language‑TPP가 텍스트만을 다루던 한계를 넘어, 시각 정보를 포함한 완전한 멀티모달 이벤트 시퀀스를 모델링한다. 핵심 설계는 Qwen2.5‑VL이라는 최신 멀티모달 LLM을 기반으로, 각 이벤트를 (시간, 유형, 텍스트, 이미지) 네 요소로 구성된 구조화 템플릿에 매핑하는 토크나이징 방식이다. 시간은 32‑bit 정수를 4바이트로 분해해 256개의 특수 토큰으로 표현하고, 유형은 <|type k|> 형태의 전용 토큰, 텍스트는 기존 언어 토크나이저, 이미지는 <|image pad|> 자리표시자를 삽입한 뒤 비전 인코더가 생성한 임베딩과 결합한다. 이렇게 하면 이미지 자체를 수백 개의 패치 토큰으로 전개하지 않아도 시각 정보를 효과적으로 융합할 수 있다.
하지만 멀티모달 이벤트가 늘어날수록 시퀀스 길이는 급격히 증가한다. 특히 이미지 토큰을 패치 수준으로 전개하면 O(N²) 복잡도의 자기‑주의 연산이 메모리·시간 병목을 초래한다. 이를 해결하기 위해 저자들은 “시간 유사성 기반 적응형 압축”을 도입한다. 연속 이벤트 간 시간 간격 τ_i와 τ_{i‑1}의 차이가 사전 정의된 임계값 Δ보다 작으면 해당 이벤트를 전체 템플릿 대신 <|similar event|> 단일 토큰으로 대체한다. 이 방식은 이벤트가 군집을 이루는 구간(예: Danmaku 댓글 폭발)에서 수백 개의 토큰을 몇 개로 축소시키면서도, 시간 패턴과 핵심 이벤트(다른 간격을 가진 이벤트)는 그대로 보존한다. 압축 후 토큰 수가 고정된 컨텍스트 윈도우(예: 4096) 내에 들어가므로, 모델은 더 긴 히스토리를 참조해 장기 의존성을 학습할 수 있다.
학습 절차는 두 단계로 나뉜다. 첫 단계에서는 압축된 시퀀스를 이용해 일반적인 다음 토큰 예측 과제로 사전학습을 수행한다. 여기서 모델은 멀티모달 토큰 간 상호작용을 학습하고, 압축 토큰의 의미를 내재화한다. 두 번째 단계에서는 각 하위 과제(시간 예측, 유형 분류, 텍스트 생성)를 위한 프롬프트‑응답 쌍을 구성해 지도 학습을 진행한다. 이렇게 하면 사전학습 단계에서 얻은 일반화 능력을 유지하면서, 특정 다운스트림 작업에 최적화된 성능을 달성한다.
실험에서는 기존 TPP 베이스라인(Transformer‑TPP, Neural‑Hawkes 등)과 최신 Language‑TPP를 포함한 7개 모델을 비교했다. TAXI‑PRO 데이터셋은 NYC 택시 기록에 지도 이미지 패치와 정류장 설명을 추가해 만든 멀티모달 TPP 벤치마크이며, DanmakuTPP‑QA는 동영상 댓글 흐름에 프레임 이미지와 질문‑답변 쌍을 제공한다. 정량 지표(시간 RMSE, 유형 F1, 텍스트 BLEU/ROUGE)에서 MM‑TPP는 평균 12 %18 % 개선을 보였고, 특히 긴 질문에 대한 장문 설명 생성에서 인간 평가 점수가 현저히 높았다. 압축 비율이 2배5배에 달했음에도 모델의 예측 정확도는 유지되었으며, 메모리 사용량은 60 % 이상 감소했다.
이 논문은 멀티모달 TPP 연구에 두 가지 중요한 기여를 한다. 첫째, 시각 정보를 자연스럽게 통합한 토큰 설계와 LLM 기반의 생성 프레임워크를 제시해, 이벤트 예측뿐 아니라 미래 이벤트에 대한 풍부한 서술 생성까지 가능하게 했다. 둘째, 시간 유사성을 활용한 압축 전략은 기존 Transformer 기반 모델이 직면한 O(N²) 한계를 실용적인 수준으로 낮추어, 장기 컨텍스트를 필요로 하는 실제 서비스(예: 실시간 댓글 분석, 교통 사고 보고)에서 바로 적용할 수 있는 효율성을 제공한다. 앞으로는 오디오·센서 데이터 등 추가적인 비정형 공변량을 포함하거나, 압축 기준을 학습 가능한 메트릭으로 확장하는 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기