NAS‑LoRA: 시각 기반 모델을 위한 검색 가능한 경량 적응 기법
본 논문은 대규모 이미지 분할 모델인 SAM의 도메인 특화 적응을 위해 LoRA에 경량 NAS 셀을 삽입한 NAS‑LoRA를 제안한다. NAS‑LoRA는 인코더와 디코더 사이에 동적으로 최적의 연산 경로를 선택하도록 설계된 검색 블록을 두고, 단계별 최적화 전략으로 가중치와 아키텍처 파라미터를 분리 학습한다. 실험 결과, 기존 PEFT 방법 대비 성능 향상과 함께 학습 비용을 24 % 절감하면서 추론 비용은 증가시키지 않는다.
저자: ** - Renqi Chen (복합 로봇 및 고급 제조학부, 푸단대학교) - Haoyang Su (호주 애들레이드 대학교, Australian Institute for Machine Learning) - Shixiang Tang (상하이 인공지능 연구소
본 논문은 이미지 분할용 대형 파운데이션 모델인 Segment Anything Model(SAM)의 도메인 특화 적응을 위한 새로운 파라미터 효율적 미세조정(PEFT) 방법인 NAS‑LoRA를 제안한다. SAM은 ViT 기반 인코더와 마스크 디코더로 구성돼 전역적인 패치 처리 방식을 사용하지만, 패치 단위 입력은 공간적 선험지식(예: 로컬 텍스처, 경계 정보)을 내재하지 않아 의료·농업·원격 탐사와 같은 특수 도메인에서 성능이 제한된다. 기존 LoRA는 저랭크 행렬 Wₑ, W_d를 삽입해 가중치 업데이트를 제한함으로써 파라미터 효율성을 확보했지만, 선험지식 주입 메커니즘이 부족하다.
이를 보완하기 위해 저희는 LoRA의 인코더‑디코더 사이에 경량 NAS 셀을 삽입한다. NAS 셀은 8개의 후보 연산(3×3·5×5 separable convolution, dilated convolution, 평균·최대 풀링, skip connection, zero connection 등)으로 구성되며, 연속적 완화(softmax) 방식으로 각 연산에 대한 아키텍처 파라미터 α를 학습한다. 입력 특성 x에 대해 Wₑ 로 저랭크 변환 후, α에 의해 가중합된 연산 Oᵢ가 적용되고, 최종적으로 W_d 가 결합되어 출력 h 를 만든다. 이 과정은 기존 LoRA와 동일하게 사전 가중치를 고정하면서도, 학습 중에 가장 적합한 연산 경로를 자동 선택한다.
연산량 증가를 최소화하기 위해 Partial Connection(P‑C) 방식을 도입한다. 채널 마스크 P를 통해 일부 채널에만 NAS 연산을 적용하고, 나머지는 기존 LoRA 흐름을 그대로 유지한다. P가 전부 0이면 순수 LoRA와 동일하게 동작한다. 학습 초기에 P를 점진적으로 활성화해, 단계별 최적화가 가능하도록 설계하였다.
학습 전략은 두 단계로 나뉜다. Stage 1에서는 아키텍처 파라미터 α를 고정하고 가중치 w를 일반적인 손실 L (세그멘테이션 BCE+Dice와 클래스 교차 엔트로피) 기반으로 업데이트한다. 일정 에폭 T_B 이후 Stage 2로 전환해 w를 고정하고 α를 별도 옵티마이저로 미분한다. 이 방식은 가중치와 구조가 서로 간섭하는 현상을 억제하고, ViT 인코더가 고수준 의미 정보를 점진적으로 학습하도록 돕는다.
실험은 의료 영상(Kvasir, CVC‑ClinicDB, ISIC 2017), 농업 영상(Leaf, Road), 원격 탐사(Trans10K‑v2) 등 9개 데이터셋에서 진행되었다. 비교 대상은 기본 LoRA, Conv‑LoRA, Adapter, Prompt‑Tuning 등이다. NAS‑LoRA는 평균 mIoU에서 1.2~2.5 % 상승을 보였으며, 학습 비용(시간·GPU 메모리)은 24.14 % 절감했다. 추론 단계에서는 NAS 셀이 사전 병합된 형태로 모델에 내장되므로 연산량·지연 시간은 전혀 증가하지 않는다. 파라미터 증가량도 0.23 % 미만으로 경량성을 유지한다.
핵심 기여는 다음과 같다. 첫째, LoRA에 동적 NAS 블록을 결합해 도메인 맞춤형 선험지식을 주입하는 새로운 PEFT 프레임워크를 제시하였다. 둘째, 가중치와 아키텍처 파라미터를 단계별로 분리 최적화하는 전략을 도입해 고수준 의미 학습을 촉진하였다. 셋째, NAS 검색·디코딩·재학습 과정을 생략하고 사전 병합 방식을 사용함으로써 기존 NAS의 높은 비용을 회피하고 경량화에 성공하였다. 이러한 접근은 대규모 비전 파운데이션 모델을 다양한 특수 도메인에 효율적으로 전이시키는 새로운 가능성을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기