오디오 인코더와 LLM을 효율적으로 연결하는 PAL 방식

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 오디오 토큰을 텍스트 토큰 앞에 붙이는 PLITS 방식의 비효율성을 극복하기 위해 경량형 주의 메커니즘인 LAL을 제안한다. LAL은 선택된 LLM 레이어의 어텐션에만 오디오 토큰을 키·밸류로 삽입해 FFN을 우회함으로써 연산량과 메모리 사용을 크게 줄인다. 또한 요약 토큰에만 PLITS를 적용하고 나머지는 LAL로 처리하는 하이브리드 PAL 방식을 도입해 성능은 유지하면서 60% 이상의 메모리 절감과 190% 이상의 처리량 향상을 달성하였다.

상세 분석

이 연구는 멀티모달 LLM 설계에서 가장 큰 병목인 오디오‑텍스트 통합 방식을 재검토한다. 기존 PLITS(Prepend to the LLM’s input token space) 방식은 오디오 인코더의 출력 토큰을 MLP 혹은 Q‑Former로 변환한 뒤 텍스트 토큰 앞에 삽입하고, 전체 시퀀스를 모든 LLM 레이어에 통과시킨다. 이 과정에서 오디오 토큰은 텍스트와 동일하게 self‑attention과 FFN을 거치며, 특히 Nₐ≫Nₜ인 경우 O((Nₐ+Nₜ)²) 복잡도가 급격히 증가해 메모리와 연산 비용이 비효율적이다.

논문은 이를 해결하기 위해 LAL(Lightweight Audio‑LLM Integration)이라는 새로운 통합 메커니즘을 제안한다. 핵심 아이디어는 “오디오 정보는 어텐션 단계에서만 전달하면 충분하다”는 가정이다. 구체적으로 각 레이어마다 작은 MLP Pₗ을 사용해 오디오 특성을 해당 레이어의 차원으로 투사하고, 텍스트 토큰만이 Query를 생성하도록 한다. 키와 밸류는 텍스트와 오디오를 모두 포함한 Sₗ =

오디오 인코더와 LLM을 효율적으로 연결하는 PAL 방식

초록

상세 분석

댓글 및 학술 토론

의견 남기기