연속 학습을 위한 통합 멀티모달 이해·생성 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트·이미지 양방향 입력·출력을 지원하는 Dual-to-Dual MLLM의 지속적 학습을 위해 Continual‑NExT 프레임워크와 MAGE(General LoRA + Expert LoRA) 기법을 제안한다. 다중 모달 이해·생성 과제 6개를 순차 학습하면서, 파라미터별 EMA 기반 PEMA와 모달별 LoRA 분할을 통해 망각을 최소화하고, 생성 품질·이해 정확도를 동시에 향상시킨다.

상세 분석

Continual‑NExT은 기존 텍스트‑전용 연속 학습 연구와 달리 입력·출력이 모두 텍스트와 이미지인 Dual‑to‑Dual MLLM을 대상으로 설계되었다. 프레임워크는 VQA, 이미지 분류, 이미지 생성, OCR, 비주얼 그라운딩, 이미지 편집 등 여섯 가지 이기종 과제를 순차적으로 제공하고, 각각의 과제에 대해 평균 정확도(Avg.Acc), 새로운 과제 정확도(New.Acc), 망각 지표(Forgetting)와 더불어 Hallucination Rate, Instruction‑Unfollowing Rate, Other Error Rate와 같은 세부 진단 지표를 도입한다. 이러한 평가 설계는 단순 정확도 감소를 넘어, 생성 모델에서 흔히 발생하는 허위 생성·명령 불이행·기타 오류가 지속 학습 과정에서 어떻게 누적되는지를 정량화한다.

핵심 기술인 MAGE는 LoRA( Low‑Rank Adaptation) 를 일반(General)와 전문가(Expert) 두 종류로 구분한다. General LoRA는 입력 모달리티(텍스트·이미지) 이해에 집중하고, Expert LoRA는 출력 모달리티(텍스트·이미지) 생성에 특화된다. 학습 시 현재 과제의 입력·출력 모달에 해당하는 LoRA만을 활성화·업데이트하고, 나머지는 고정함으로써 파라미터 간 간섭을 최소화한다. 또한 파라미터‑wise EMA(PEMA)를 적용해 각 파라미터마다 Fisher 정보에 기반한 가중치를 동적으로 조정한다. 이는 기존 DEMA가 요구하던 히스토리 저장 비용과 레이어‑와이즈 가중치 제한을 극복하고, 보다 정밀한 기억 유지 메커니즘을 제공한다.

실험 결과, 4‑Split LoRA(입·출력 모달별 4개 파라미터 집합) 설정이 2‑Split 혹은 전체 LoRA 업데이트에 비해 새로운 과제 성능 저하를 최소화하면서도 망각을 현저히 감소시켰다. 특히 이미지‑텍스트 혼합 과제에서 General LoRA와 Expert LoRA 간의 파라미터 겹침이 거의 없음을 시각화(그림 3)했으며, 이는 모달리티 별 파라미터가 독립적으로 진화할 수 있음을 입증한다. CLIP Score 기반 이미지 생성 평가에서도 MAGE가 기존 연속 학습 기법들을 앞서며, 생성 품질과 일관성을 동시에 유지한다.

요약하면, 이 논문은 (1) 멀티모달 연속 학습을 위한 체계적인 벤치마크와 진단 지표를 제시하고, (2) 입력·출력 모달리티를 명시적으로 분리한 LoRA 구조와 파라미터‑wise EMA를 결합한 MAGE 기법을 통해 망각을 억제하며, (3) 다양한 이해·생성 과제에서 SOTA 성능을 달성함으로써 Dual‑to‑Dual MLLM의 실용적 지속 학습 가능성을 크게 확장한다.

연속 학습을 위한 통합 멀티모달 이해·생성 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기