인공 생성된 실어증 전사: 절차적 방법과 대형 언어 모델 비교 연구

초록

본 연구는 실어증 환자의 사진 설명 전사 데이터를 인공적으로 생성하는 두 가지 방법—절차적 프로그래밍 방식과 Mistral 7b Instruct·Llama 3.1 8b Instruct 기반 LLM 방식—을 설계·검증한다. 네 가지 중증도(경증, 중등, 중증, 매우 중증)를 반영해 단어 삭제, 충전어 삽입, 파라프라지 치환을 적용하고, NDW, 총 단어 수, 평균 단어 길이 등 언어 저하 지표를 비교한다. 결과는 Mistral 7b Instruct가 인간 전사와 가장 유사한 언어 변화를 보여, 향후 대규모 합성 데이터 구축 및 SLP 평가에 활용 가능함을 시사한다.

상세 요약

이 논문은 실어증 연구에서 가장 큰 병목 중 하나인 고품질 전사 데이터의 부족을 해결하고자, 합성 데이터를 생성하는 두 가지 접근법을 체계적으로 비교한다. 첫 번째는 전통적인 절차적 프로그래밍 방식으로, 원본 정상 전사에 대해 사전 정의된 규칙(단어 삭제, 충전어 삽입, 파라프라지 치환)을 단계별로 적용해 네 가지 중증도를 모사한다. 이 방법은 구현이 간단하고 재현성이 높지만, 규칙 기반 변형이 실제 환자 언어의 복합적 오류 패턴을 충분히 포착하지 못한다는 한계가 있다. 두 번째는 최신 오픈소스 LLM인 Mistral 7b Instruct와 Llama 3.1 8b Instruct를 활용한 프롬프트 기반 생성이다. 연구팀은 “Cat Rescue” 그림 설명 과제를 명시하고, 중증도별 지시문(예: “단어를 30 % 삭제하고, ‘uh’, ‘um’ 같은 충전어를 삽입하라”)을 제공해 모델이 자연스럽게 오류를 삽입하도록 설계했다. 여기서 핵심은 모델이 사전 학습된 방대한 언어 지식을 바탕으로, 단순 규칙을 넘어 문맥에 맞는 파라프라지와 비문법적 변형을 생성한다는 점이다.

평가 지표는 실어증 연구에서 널리 쓰이는 NDW(다양한 단어 수), 총 단어 수, 평균 단어 길이 등이다. 절차적 방법은 모든 중증도에서 일관된 감소를 보였지만, 변형 폭이 제한적이라 인간 전사와의 차이가 크게 나타났다. 반면 Mistral 7b Instruct는 중증도가 높아질수록 NDW와 평균 단어 길이가 현저히 감소하고, 충전어 비율이 증가하는 등 실제 실어증 언어 특성을 잘 재현했다. Llama 3.1 8b Instruct는 Mistral에 비해 변형 강도가 다소 약했으며, 특히 파라프라지 치환에서 과도한 반복을 보여 품질이 떨어졌다.

통계적 분석(ANOVA 및 사후 검정) 결과, Mistral 7b Instruct가 인간 전사와 가장 유의미한 차이를 보이며, 특히 ‘Very Severe’ 조건에서 NDW 감소율이 실제 환자 데이터와 5 % 이내 차이로 가장 근접했다. 이는 LLM 기반 합성 데이터가 규칙 기반보다 더 정교한 언어 저하 패턴을 모델링할 수 있음을 시사한다. 다만, 현재 실험은 단일 과제와 제한된 샘플(각 중증도 30개 전사)으로 수행돼 일반화 가능성에 한계가 있다. 향후 연구에서는 다중 과제, 다양한 언어적 특성(문법 오류, 음성 오류)까지 포괄하는 대규모 합성 코퍼스를 구축하고, SLP 전문가의 주관적 현실성 평가를 통해 품질을 정량화할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)