임베딩 신호 기반 생물학적 MLLM 통합: ES Merging
ES-Merging은 다중 전문화된 생물학 멀티모달 대형 언어 모델(MLLM)을 하나의 통합 모델로 합치는 새로운 프레임워크이다. 입력‑특정 임베딩 공간 변화를 탐지하는 프로브 입력을 설계하고, 레이어‑단위의 거시적 신호와 파라미터‑단위의 미시적 신호를 각각 SWD와 그라디언트 기반으로 추정한다. 이 두 신호를 결합해 레이어‑와 엘리먼트‑별 병합 계수를 산출함으로써 기존 파라미터‑히스토리 기반 방법보다 뛰어난 성능을 달성한다.
저자: Wonbin Lee, Dongki Kim, Sung Ju Hwang
**1. 서론**
생물학 분야에서 멀티모달 대형 언어 모델(MLLM)은 분자, 단백질, 세포 등 서로 다른 데이터 유형을 텍스트와 결합해 과학적 발견을 가속화한다. 현재 대부분의 MLLM은 하나의 모달리티에 특화돼 있어, 약물‑단백질 상호작용이나 세포‑신호 전달 같은 교차‑모달 문제를 해결하기 어렵다. 다중 전문화 모델을 동시에 학습하는 방법은 데이터 구축 비용이 높고 시간 소모가 크다. 따라서 파라미터를 직접 결합하는 **모델 병합**이 주목받고 있으나, 기존 방법은 파라미터 절대값·부호·방향 등 입력에 무관한 통계량에 의존해 모달리티 특화 정보를 충분히 반영하지 못한다.
**2. 관련 연구**
MLLM의 발전 흐름을 정리하고, 기존 모델 병합 기법(Task Arithmetic, Consensus Merging, PCB‑Merging, TIES‑Merging, EMR‑Merging, LS‑Merge 등)과 테스트‑타임 적응 방식(AdaMerging, Twin‑Merging)을 소개한다. 이들 모두 파라미터 공간 신호에 기반해 가중치를 결정하지만, 입력‑특정 임베딩 변화를 고려하지 않는다.
**3. 사전 지식**
MLLM은 텍스트와 모달리티 토큰을 동일 차원의 임베딩으로 변환한 뒤, 하나의 트랜스포머에 입력한다. 저자들은 LoRA 방식으로 각 모달리티에 특화된 파라미터를 효율적으로 학습하고, 병합 시 가중합(θᵤₙᵢ = Σ λ·θ) 형태로 정의한다. 핵심 과제는 λ(병합 계수)를 어떻게 추정하느냐이다.
**4. ES-Merging 프레임워크**
4.1 **프로브 입력 설계**
각 모달리티별 원시 데이터를 수집하고, 전용 인코더를 통해 토큰 임베딩을 만든다. 텍스트 프리픽스와 결합해 하나의 시퀀스로 만든 뒤, 베이스 LLM과 모든 전문화 MLLM에 동일하게 입력한다. 이렇게 하면 레이어‑별 토큰 임베딩이 모델마다 어떻게 변하는지 직접 비교할 수 있다.
4.2 **레벨‑별 전역 병합 계수**
- 레이어‑별 평균 임베딩을 구하고, 베이스와 전문화 모델 사이의 **Sliced Wasserstein Distance(SWD)** 를 계산한다.
- 연속 레이어 간 SWD 차이(dₗ)를 구해 새로운 변환이 발생한 정도를 측정하고, Z‑score 정규화 후 모든 모달리티에 대해 평균을 내어 레이어‑중요도 sₗ을 얻는다.
- 소프트맥스 함수를 적용해 각 모델에 대한 레이어‑별 전역 병합 계수 αₗ을 산출한다.
4.3 **엘리먼트‑별 로컬 병합 계수**
- 각 토큰 임베딩 차이 rₗ,ₖ를 Frobenius norm 으로 측정한다.
- 파라미터 θₗ,ₙ에 대한 rₗ,ₖ의 절대 그라디언트를 누적해 중요도 sₗ,ₙ을 계산한다.
- Z‑score 정규화 후 소프트맥스를 적용해 엘리먼트‑별 병합 계수 βₗ,ₙ을 얻는다.
4.4 **계수 통합**
전역 α와 로컬 β를 곱하거나 가중 평균을 취해 최종 병합 계수 λₗ,ₙ을 만든다. 이렇게 하면 레이어 수준의 거시적 특성과 파라미터 수준의 미시적 특성을 동시에 반영한다.
**5. 실험**
- **데이터**: 분자‑단백질‑세포 각각에 대해 공개된 대규모 바이오 데이터셋을 사용해 프로브 입력을 구성하였다.
- **베이스 모델**: 일반 LLM(예: LLaMA‑2) 위에 LoRA를 적용해 각 모달리티에 특화된 모델을 학습하였다.
- **벤치마크**: 약물‑세포 독성, 단백질‑리간드 결합, 세포‑신호 전달 등 3가지 인터랙티브 효과 예측 태스크.
- **비교 대상**: 기존 Magnitude‑기반, Sign‑기반, LS‑Merge, AdaMerging 등 및 각 태스크에 대해 별도 파인튜닝한 모델.
**결과**
- ES-Merging은 평균 정확도 3.2%~5.1% 향상을 기록했으며, 특히 복합 모달리티 상호작용을 요구하는 태스크에서 가장 큰 개선을 보였다.
- 파인튜닝된 전용 모델보다도 높은 성능을 달성, 파라미터 효율성과 일반화 능력을 동시에 확보했다.
- Ablation 실험에서 레이어‑계수만 사용하거나 엘리먼트‑계수만 사용할 경우 각각 1.4%~2.0% 정도 성능이 감소, 두 신호의 결합이 핵심임을 확인했다.
**6. 논의 및 한계**
- **장점**: 입력‑특정 임베딩 변화를 직접 활용해 모달리티 특화 정보를 정량화, 파라미터 히스토리의 불확실성을 감소.
- **제한점**: 프로브 입력 설계가 각 모달리티마다 적절히 구성돼야 함, 레이어‑별 임베딩 추출·저장 비용이 크고 SWD·그라디언트 계산이 추가 연산을 요구한다. 실시간 혹은 대규모 모델에 적용하려면 효율적인 근사 방법이 필요하다.
**7. 결론 및 향후 연구**
ES-Merging은 임베딩 공간 신호를 활용한 최초의 MLLM 병합 방법으로, 다중 전문화 모델을 효율적으로 통합한다. 향후 연구에서는 프로브 입력 자동 생성, SWD 근사 가속화, 비생물학적 모달리티(예: 이미지‑텍스트) 확장 등을 통해 보다 일반화된 멀티모달 AI 시스템 구축에 기여할 수 있을 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기