심볼릭 음악 이해를 위한 최초의 멀티모달 LLM MIDI LLaMA
초록
MIDI LLaMA는 MusicBERT 기반의 MIDI 인코더와 Llama‑3‑8B를 두 단계(특징 정렬 → 명령 튜닝)로 연결한 심볼릭 음악 전용 멀티모달 대형 언어 모델이다. 대규모 자동 주석 파이프라인으로 GiantMIDI‑Piano에 장르·스타일·감정·표현 의도 등을 부착해 9,800여 곡의 MIDI‑텍스트 데이터셋을 구축했으며, ABC 표기법을 사용한 텍스트‑전용 베이스라인보다 질문‑응답·음악 캡션에서 현저히 높은 성능을 보였다. 인간 평가에서도 음악 이해도·감정 인식·창의성 측면에서 우수함이 확인되었다.
상세 분석
본 논문은 심볼릭 음악, 특히 MIDI 데이터를 직접 활용하는 최초의 멀티모달 LLM을 제시한다는 점에서 의미가 크다. 모델 아키텍처는 두 부분으로 나뉜다. 첫 번째는 사전학습된 MusicBERT(MusicBER‑T)로, OctupleMIDI 이벤트(피치, 지속시간, 벨로시티, 바, 포지션, 템포, 박자, 악기)를 토큰화하고 Transformer 기반 인코더를 통해 시퀀스‑레벨 임베딩을 생성한다. 이후 평균 풀링을 통해 클립‑레벨 M 차원 벡터를 얻고, 이를 선형 투사층으로 Llama‑3‑8B의 텍스트 임베딩 차원 T에 매핑한다. 이렇게 만든 “음악 토큰”은 LLM 입력 시퀀스 앞에 연결돼, 언어 모델이 심볼릭 음악 정보를 직접 참조하도록 만든다.
학습은 두 단계로 진행된다. ① 정렬 단계에서는 MusicBERT와 Llama‑3‑8B를 모두 고정하고 투사층만 교차 엔트로피 손실로 학습해, 음악 임베딩이 텍스트 임베딩 공간에 의미 있게 정렬되도록 한다. ② 명령 튜닝 단계에서는 동일 데이터에 LoRA( rank = 8) 모듈을 적용해 LLM 자체를 미세조정하고, 투사층도 함께 업데이트한다. 이렇게 하면 다양한 질문‑응답 및 캡션 생성 작업에 대한 적응력이 확보된다.
데이터 측면에서 가장 큰 공헌은 자동 주석 파이프라인이다. 기존 MIDI‑텍스트 데이터가 부족한 문제를 해결하기 위해, 곡 제목·작곡가를 키워드로 웹 검색 후 GPT‑4o에게 장르·스타일·배경·표현 의도·감정 등을 추출하도록 프롬프트를 설계했다. “정보 부족” 옵션을 두어 허위 생성 위험을 최소화하고, 온도를 0으로 고정해 결정적 출력을 얻었다. 10,855곡 중 9,803곡에 대해 유효한 태그를 확보했으며, 전문가 검증 결과 카테고리 태그 89%, 자유형 설명 93%의 수용률을 기록했다.
이러한 주석을 바탕으로 기본 음악 특징(템포·키·박자)을 music21로 추출하고, GPT‑4o가 각 태그에 대한 Q&A 쌍을 자동 생성했다. 또한 20초 길이의 비중첩 클립 3개를 각 곡에서 추출해 총 29,409개의 클립과 약 230만 개의 Q&A 페어를 확보, 대규모 심볼릭‑텍스트 멀티모달 학습 코퍼스를 구축했다.
평가에서는 두 가지 하위 과제(질문‑응답, 음악 캡션)를 설정하고 BLEU, METEOR, ROUGE‑L, BERTScore 네 가지 메트릭을 사용했다. 텍스트‑전용 베이스라인인 ABC‑LLaMA는 ABC 표기법을 입력으로 사용했으며, 동일한 명령 튜닝 파이프라인을 적용했다. 결과는 질문‑응답에서 MIDI‑LLaMA가 ROUGE‑L(0.5486)과 BERTScore(0.9519)에서 우수했으며, 캡션에서는 모든 메트릭에서 크게 앞섰다(예: BLEU 0.2566 vs 0.1592). 인간 평가에서도 100개의 클립에 대해 5명씩 5차 비교를 진행했으며, 음악 이해도(63 vs 25), 감정 인식(60 vs 26), 창의성(47 vs 32)에서 MIDI‑LLaMA가 일관되게 우세했다. 텍스트 유창성에서는 차이가 미미했다.
한계점으로는 현재 데이터가 클래식 피아노에 국한되어 있어 다른 악기·장르에 대한 일반화가 검증되지 않았으며, 투사층이 선형이라는 점이 복잡한 음악 구조를 충분히 반영하는지 의문이 남는다. 향후 연구에서는 비선형 어텐션 기반 투사, 다중 악기·다중 장르 데이터 확장, 그리고 실시간 인터랙션을 위한 효율적 인퍼런스 최적화 등을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기