음성 언어 모델이 의미 일관성을 놓치는 이유: 단계적 모달리티 전이 분석

음성 언어 모델이 의미 일관성을 놓치는 이유: 단계적 모달리티 전이 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트‑기반 대형 언어 모델은 높은 품질의 출력을 보이지만, 음성 언어 모델(SLM)은 의미적으로 일관된 결과를 생성하지 못하는 원인을 세 가지 요인(A: 음성 토큰의 음성‑중심성, B: 긴 시퀀스 길이, C: 파라링귀스틱 정보)으로 규정하고, 텍스트 → 전화음 → 음성 토큰 순으로 모달리티를 전이시켜 각 요인의 영향을 실험적으로 정량화한다. 결과는 요인 C가 가장 큰 악영향을 미치며, 요인 B는 구문·의미 모델링에, 요인 A는 비교적 미미한 영향을 미친다는 것을 보여준다.

상세 분석

이 연구는 “왜 음성 언어 모델이 의미적으로 일관된 출력을 만들지 못하는가?”라는 근본적인 질문에 답하기 위해, 동일한 대규모 음성 데이터(LibriHeavy‑large, 약 50 k시간)를 세 가지 서로 다른 토큰화 방식으로 변환한다. 첫 번째는 텍스트 기반 BPE 토큰(텍스트‑BPE)으로, 이는 기존 LLM이 사용하는 서브워드 토크나이저와 동일한 어휘 규모(2048)이며, 의미 정보를 거의 손실 없이 전달한다. 두 번째는 전화음 기반 토큰으로, 원시 전화음(Phone‑Raw)과 BPE를 적용한 전화음(Phone‑BPE), 그리고 발음 지속시간을 반영해 프레임당 50 Hz로 재샘플링한 Phone‑Repeat을 포함한다. 세 번째는 HuBERT‑Large에서 추출한 2048개의 클러스터 토큰(Speech‑HuBERT)으로, 이는 음성 신호의 음성학적 특성과 함께 억양·강세·음색 등 파라링귀스틱 정보를 일부 보존한다.

각 토큰화 방식에 대해 동일한 TinyLlama(1.1 B 파라미터) 모델을 처음부터 학습시켰으며, 검증 손실이 수렴할 때까지 진행했다. 이후 sWUGGY(어휘), sBLIMP(구문), Topic‑StoryCloze(의미)라는 세 가지 제로샷 판별 과제와 자유 생성 과제(Perplexity)를 사용해 성능을 평가했다.

실험 결과는 다음과 같다. 어휘 과제에서는 텍스트‑BPE와 Phone‑BPE가 85 % 이상의 정확도를 기록했으며, Phone‑Raw도 비슷한 수준을 보였다. 반면 Speech‑HuBERT는 50 %에 불과해 요인 C(파라링귀스틱 정보)가 어휘 모델링에 가장 큰 장애임을 확인했다. 구문 과제에서는 Phone‑Repeat이 11 % 정도 정확도가 떨어졌으며, 이는 요인 B(시퀀스 길이·시간 변동)가 구문 구조 학습을 방해한다는 증거다. Speech‑HuBERT는 추가로 13 % 정도 더 감소해, 요인 C가 구문 인식에도 부정적 영향을 미친다. 의미 과제에서는 정확도가 점진적으로 감소했으며, Phone‑Raw → Phone‑Repeat → Speech‑HuBERT 순으로 각각 66.6 %, 58.3 %, 52.9 %를 기록했다. 이는 요인 B와 C가 의미적 연관성을 파악하는 데 복합적인 어려움을 초래한다는 것을 의미한다. 자유 생성 과제에서는 퍼플렉시티가 Phone‑Repeat에서 88 % 상승, Speech‑HuBERT에서는 무려 141 % 상승해, 장기 시퀀스와 파라링귀스틱 변동이 모델의 일관된 생성 능력을 크게 저해함을 보여준다.

스케일링 분석에서는 동일한 토큰 수(첫 에포크 내) 기준으로 각 모달리티의 학습 곡선을 비교했으며, 텍스트‑BPE와 Phone‑BPE는 거의 동일한 상승률을 보였지만 Speech‑HuBERT는 전반적으로 낮은 기울기를 나타냈다. 내부 레이어별 정확도 분석에서도 초기 레이어에서 Text‑BPE와 Phone‑BPE가 빠르게 어휘 패턴을 학습하는 반면, Speech‑HuBERT는 레이어가 깊어질수록 점진적으로 개선되지만 전체적으로 낮은 성능을 유지했다. 이는 파라링귀스틱 정보가 모델에게 추가적인 학습 부담을 주어, 초기 단계에서 의미 단위의 정규화를 방해한다는 점을 시사한다.

결론적으로, 요인 A(음성 토큰의 음성‑중심성)는 어휘 수준에서는 큰 영향을 미치지 않지만, 요인 B와 C가 복합적으로 작용해 구문·의미·생성 전반에 걸쳐 성능 저하를 일으킨다. 특히 파라링귀스틱 정보(요인 C)는 기본 어휘 인식조차 방해하므로, 향후 SLM 설계에서는 이러한 정보를 효과적으로 정규화하거나, 텍스트와 음성 사이의 정교한 정렬 메커니즘을 도입하는 것이 핵심 과제로 떠오른다.


댓글 및 학술 토론

Loading comments...

의견 남기기