다중모달 다중작업을 위한 통합 아키텍처 OmniNet

OmniNet은 이미지·텍스트·비디오 등 다양한 입력 모달리티를 동시에 처리할 수 있는 단일 트랜스포머 기반 모델이다. 공간 캐시와 시간 캐시를 결합한 스페이시오‑템포럴 캐시 메커니즘을 도입해 각 모달리티의 공간·시간 정보를 별도로 저장하고, 중앙 신경 처리기(CNP)에서 두 캐시를 공동 어텐션으로 활용한다. 이를 통해 품사 태깅, 이미지 캡션, 시각 질문 응답, 비디오 행동 인식 네 가지 작업을 하나의 모델로 동시에 학습시켰으며, 개별 모델 …

저자: Subhojeet Pramanik, Priyanka Agrawal, Aman Hussain

다중모달 다중작업을 위한 통합 아키텍처 OmniNet
본 논문은 트랜스포머 기반 모델이 텍스트 중심의 시퀀스 처리에 강점을 보이지만, 이미지·비디오·음성 등 다양한 모달리티를 동시에 다루기엔 구조적 한계가 있다는 점에서 출발한다. 이를 극복하고자 저자들은 “OmniNet”이라는 통합 아키텍처를 제안한다. OmniNet은 크게 세 부분으로 구성된다. 첫 번째는 각 모달리티별 입력을 전처리하고 고정된 차원의 텐서로 변환하는 주변 네트워크(peripheral networks)이다. 이미지와 비디오에는 사전 학습된 ResNet‑152를 사용해 공간 특징을 추출하고, 비디오의 경우 프레임별로 동일한 네트워크를 적용해 시계열 텐서를 만든다. 텍스트는 BPE 기반 서브워드 토크나이저와 임베딩 레이어를 거쳐 (시간 × 1 × 모델 차원) 형태의 텐서로 변환된다. 두 번째는 중앙 신경 처리기(Central Neural Processor, CNP)이다. CNP는 트랜스포머와 동일한 인코더‑디코더 구조를 갖지만, 입력을 단순히 시퀀스 토큰으로 보는 대신 스페이시오‑템포럴 캐시 메커니즘을 도입한다. 인코딩 단계에서 encode() 함수는 입력 텐서와 해당 모달리티 ID를 받아, 먼저 도메인 임베딩을 결합한 뒤 시간 차원을 풀어 공간 캐시(C_s)에 저장한다. 이후 공간 평균을 수행해 시간 차원 텐서를 만들고, 이를 자체 어텐션 기반 시간 인코더에 통과시켜 시간 캐시(C_t)에 추가한다. 이렇게 구축된 C_s와 C_t는 각각 (공간 × 특징)와 (시간 × 특징) 형태의 메모리 풀로, 이후 디코딩 단계에서 공동 어텐션을 통해 활용된다. 디코딩 단계의 decode() 함수는 두 단계 어텐션을 수행한다. 첫 번째는 표준 멀티‑헤드 스케일드 닷‑프로덕트 어텐션을 사용해 시간 캐시 C_t에 집중한다. 두 번째는 게이팅된 멀티‑헤드 어텐션을 통해 공간 캐시 C_s에 접근한다. 여기서 중요한 점은 시간 어텐션에서 얻은 스코어 A를 이용해 공간 어텐션의 가중치 G를 계산한다는 것이다. 즉, 시간 흐름에서 중요한 프레임에 해당하는 공간 특징에 더 큰 가중치를 부여함으로써, 영상과 같이 복합적인 입력에서도 의미 있는 정보를 효과적으로 추출한다. 작업별 출력은 별도의 출력 임베딩 레이어와 분류 레이어를 통해 생성된다. 작업 ID τ에 해당하는 임베딩을 디코더 입력에 추가함으로써, 동일한 CNP가 서로 다른 어휘 집합과 손실 함수를 가진 여러 작업을 동시에 수행할 수 있다. 멀티태스크 학습은 HogWild 방식의 비동기식 파라미터 공유를 채택한다. 각 작업마다 독립적인 워커 프로세스가 GPU에 로컬 모델 복사본을 유지하고, 매 학습 스텝마다 글로벌 모델과 동기화한 뒤 역전파된 그래디언트를 글로벌 모델에 비동기적으로 누적한다. 이 방식은 작업 간 데이터 흐름이 비동기적이면서도 파라미터 효율성을 크게 향상시킨다. 실험에서는 네 가지 대표적인 작업을 선택했다. (1) 품사 태깅(POS)은 순수 시간 차원(t > 1, s = 1) 입력을, (2) 이미지 캡션은 순수 공간 차원(t = 1, s > 1) 입력을, (3) 시각 질문 응답(VQA)은 이미지와 텍스트를 결합한 복합 입력을, (4) 비디오 행동 인식은 시간·공간 모두를 포함하는 입력을 각각 사용한다. 각 작업에 대해 표준 데이터셋(Penn Treebank, MS COCO, VQA v2, Kinetics 등)을 활용했으며, 학습은 교차 엔트로피 손실과 Adam 옵티마이저, Noam 학습률 스케줄러를 적용했다. 주변 네트워크는 사전 학습된 가중치를 고정하고, CNP와 디코더만을 학습시켰다. 결과는 개별 모델 대비 파라미터 수가 약 1/3 수준(≈3배 압축)임에도 불구하고, POS 정확도, 이미지 캡션 BLEU, VQA 정확도, 비디오 행동 인식 mAP 등 모든 지표에서 손실이 미미함을 보여준다. 특히, 사전 학습된 이미지·텍스트 모듈을 재활용해 비디오 캡션과 비디오 질문 응답이라는 새로운 작업에 대해 빠른 전이 학습이 가능함을 실험적으로 입증했다. 이는 스페이시오‑템포럴 캐시가 모달리티 간 일반화 능력을 제공한다는 강력한 증거이다. 논문의 한계점으로는 (1) 현재 주변 네트워크가 고정된 사전 학습 모델에 의존해 새로운 모달리티 추가 시 재학습이 필요하고, (2) 캐시 크기가 입력 길이에 선형적으로 증가해 메모리 사용량이 크게 늘어날 수 있다는 점을 들 수 있다. 향후 연구에서는 경량화된 캐시 관리, 동적 모달리티 추가 메커니즘, 그리고 완전한 엔드‑투‑엔드 학습을 통한 주변 네트워크와 CNP의 공동 최적화가 기대된다. 전반적으로 OmniNet은 다중모달·다중작업 학습을 위한 통합 프레임워크를 제시하며, 모델 압축과 전이 학습 측면에서 실용적인 가치를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기