원격탐사를 위한 양방향 텍스트‑이미지 프롬프트 학습 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
BiMoRS는 고정된 이미지 캡셔닝 모델과 CLIP을 결합해 텍스트와 시각 정보를 동시에 활용하는 경량형 프롬프트 학습 방법이다. 캡션을 BERT 토크나이저로 토큰화하고, 시각 특징과 융합한 뒤 교차‑어텐션을 통해 이미지‑특화 프롬프트를 생성한다. 네 개의 원격탐사 데이터셋과 세 가지 도메인 일반화 실험에서 기존 최첨단 방법들을 평균 0.6~2% 정도 능가하며, 학습 파라미터는 전체 모델의 1% 수준에 불과하다.
상세 분석
BiMoRS는 기존 CLIP 기반 프롬프트 학습이 직면한 두 가지 근본적인 한계를 해결한다. 첫째, 원격탐사 이미지에는 다중 레이블과 복합적인 공간 구성이 존재해 단일 클래스 텍스트 프롬프트만으로는 충분한 의미를 포착하기 어렵다. 이를 극복하기 위해 BiMoRS는 사전 학습된 이미지 캡셔닝 모델인 BLIP‑2를 고정(frozen) 상태로 사용해 입력 이미지에 대한 자연어 캡션을 자동 생성한다. 이 캡션은 BERT 토크나이저로 토큰화되어 풍부한 문맥 정보를 보존한 채 CLIP 텍스트 임베딩 공간으로 투사된다. 둘째, 시각적 특징만을 이용한 프롬프트는 복잡한 지형·구조 정보를 놓치기 쉽다. 따라서 BiMoRS는 CLIP 이미지 인코더의 최상위 레이어에서 추출한 고수준 시각 피처를 별도의 투사 헤드(P_v)를 통해 동일 차원(d=512)으로 매핑한다. 이후 텍스트와 시각 임베딩을
댓글 및 학술 토론
Loading comments...
의견 남기기