다중모달 연합 프롬프트 튜닝: 이질적·불완전 데이터 대응

다중모달 연합 프롬프트 튜닝: 이질적·불완전 데이터 대응
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 서로 다른 센서와 결함으로 인해 모달리티와 결측 패턴이 다양하게 나타나는 연합 학습 환경에서, 프롬프트 튜닝을 이용해 효율적으로 모델을 미세조정하는 FED‑PRIME 프레임워크를 제안한다. 클라이언트마다 입력‑레벨 결측 패턴을 인코딩하는 inter‑client 프롬프트와 모달리티‑레벨 결측을 보완하는 intra‑client 프롬프트를 별도로 학습·전송하고, 서버에서는 inter‑client 프롬프트를 클러스터링·정렬하여 의미 있게 집계한다. 실험 결과 MM‑IMDB와 UPMC‑Food‑101 데이터셋에서 기존 다중모달 연합 학습 및 중앙집중형 프롬프트 튜닝 방법들을 크게 능가한다.

상세 분석

연합 학습(Federated Learning, FL)에서는 데이터 프라이버시와 통신 비용을 고려해 각 클라이언트가 로컬 모델을 업데이트하고 서버가 파라미터를 집계한다. 기존 FL 기반 프롬프트 튜닝은 텍스트나 이미지와 같은 단일 모달리티에 국한돼 있었으며, 다중모달 데이터를 다루는 경우 각 클라이언트가 보유한 모달리티 집합이 서로 다르고, 센서 고장이나 전송 오류 등으로 결측 패턴이 클라이언트마다 상이하게 나타난다. 이러한 ‘inter‑heterogeneity’와 ‘intra‑heterogeneity’를 무시하고 단순 평균 집계하면, 서로 다른 결측 구조를 반영한 프롬프트가 혼합돼 정보 손실이 발생한다.

FED‑PRIME은 이 문제를 두 단계 프롬프트 설계로 해결한다. 첫째, 각 클라이언트는 전체 프롬프트 집합 wₚ를 inter‑client 프롬프트 w_inter 와 intra‑client 프롬프트 w_intra 로 분리한다. w_inter 는 특정 입력‑레벨 결측 패턴(예: 텍스트만 존재, 이미지가 누락 등)을 인코딩하도록 학습되며, w_intra 는 모달리티 자체가 결측된 경우(예: 이미지 센서가 전혀 없음) 를 보완한다. 둘째, 클라이언트 내부에서는 입력‑프롬프트 매칭을 정보 검색 문제로 정의한다. 입력 x(M) 에 대해 키 k(p)와 쿼리 q(x(M)) 함수를 학습해 코사인 유사도로 거리 d(x(M),p) 를 계산하고, 가장 관련성이 높은 프롬프트 서브셋만을 선택·업데이트한다. 이는 서로 다른 결측 구조가 동일 프롬프트에 과부하되는 현상을 방지한다.

서버 측에서는 w_inter 프롬프트들을 클러스터링한다. 클러스터링 목표는 “유사한 결측 패턴을 가진 프롬프트들을 하나의 대표 프롬프트로 합쳐, 다양한 클라이언트가 공유할 수 있는 범용 지식을 형성”하는 것이다. 클러스터링 과정에서 각 클러스터 내 로컬 손실 감소 정도를 피드백으로 사용해, 클러스터 경계와 대표 프롬프트를 반복적으로 최적화한다. 반면 w_intra 프롬프트는 전통적인 FedAvg(FEDAVG) 방식으로 평균을 취해, 모달리티‑레벨 결측을 보완하는 공통 프롬프트를 유지한다.

실험에서는 멀티모달 텍스트‑이미지 데이터셋인 MM‑IMDB와 음식 이미지‑레시피 데이터셋인 UPMC‑Food‑101을 사용해, 결측 비율을 0.251.0까지 다양하게 조절했다. FED‑PRIME은 기존 다중모달 연합 학습 방법(예: FedAvg, FedMA, FedInMM)과 중앙집중형 프롬프트 튜닝(예: FedAvg‑Prompt, FeDAvg) 대비 평균 35%p 이상의 정확도 향상을 보였으며, 특히 결측 비율이 높을수록 성능 격차가 확대됐다. 또한, ablation study를 통해 (1) inter‑/intra‑프롬프트 분리 없이 단일 프롬프트만 사용했을 때 성능이 급격히 저하되고, (2) 서버‑측 클러스터링을 제거하면 동일한 결측 패턴을 가진 클라이언트 간 지식 공유가 제한돼 전체 정확도가 감소함을 확인했다.

이 논문의 주요 기여는 (i) 다중모달 결측 데이터를 위한 프롬프트 구조를 명시적으로 구분한 설계, (ii) 입력‑레벨 프롬프트 선택을 정보 검색 기반으로 최적화한 로컬 학습 알고리즘, (iii) 서버‑측에서 결측 패턴 기반 프롬프트 클러스터링을 통해 의미 있는 집계를 수행한 점이다. 제한점으로는 클러스터링 비용이 클라이언트 수가 매우 많아질 경우 증가할 수 있으며, 프롬프트 길이와 수에 따른 메모리·통신 오버헤드가 아직 충분히 최적화되지 않았다는 점이다. 향후 연구에서는 동적 프롬프트 수 조절, 비동기식 집계, 그리고 대규모 멀티모달 LLM에 대한 확장성을 검증할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기