LLM을 활용한 알츠하이머 조기 진단: 파인튜닝·프로빙·데이터 합성
초록
본 논문은 대규모 언어 모델(LLM)을 알츠하이머병(AD) 검출에 맞추어 파인튜닝하고, 내부 표현을 선형 프로브로 분석한다. 파인튜닝 후 특정 단어와 특수 마커의 프로브 값이 크게 변함을 발견하고, 이를 활용해 AD 특성을 반영한 합성 데이터를 생성한다. 합성 데이터는 내재적 평가와 다운스트림 학습에 모두 긍정적 영향을 미친다.
상세 분석
이 연구는 세 가지 핵심 축을 중심으로 전개된다. 첫째, 기존의 제한된 라벨 데이터 문제를 해결하기 위해 LLM(Llama‑3‑1B‑Instruct와 Qwen‑2.5‑1.5B‑Instruct)을 AD 검출 과제에 직접 파인튜닝한다. 파인튜닝 과정에서는 기본 교차 엔트로피 손실 외에 대비 손실, 포컬 손실, 라벨 스무딩을 각각 별도 실험군으로 적용해 학습 안정성과 클래스 불균형에 대한 내성을 비교한다. 실험 결과, 라벨 스무딩과 표준 CE가 가장 높은 정확도(0.853)와 재현율(0.975)을 기록했으며, 대비 손실은 표현 분리를 어느 정도 촉진했지만 최종 분류 성능에는 큰 차이를 보이지 않았다.
둘째, 파인튜닝된 모델 내부 표현을 선형 프로브(linear probe)로 정량화한다. 각 토큰의 은닉 상태를 입력으로 하여 AD/비AD 라벨을 예측하도록 Ridge 회귀 기반 프로브를 학습하고, 레이어별 프로브 점수를 분석한다. 특히, CHAT 포맷의 특수 마커(예: %pause, %rep, %unintelligible)와 특정 의미 단어(‘kid’, ‘corner’ 등)의 프로브 값이 파인튜닝 전후에 현저히 변하는 것이 관찰되었다. 이는 모델이 이러한 마커를 AD 특성의 핵심 신호로 재구성했음을 시사한다.
셋째, 위 프로빙 결과를 활용해 데이터 합성 파이프라인을 설계한다. AD 전용 특수 마커 집합을 사전 정의하고, 이를 입력 텍스트에 삽입하도록 T5 기반 시퀀스‑투‑시퀀스 모델을 학습시킨다. 합성 모델은 원본 텍스트를 받아 마커가 풍부히 포함된 ‘AD‑풍부’ 전사본을 생성한다. 합성 데이터는 (1) 마커 분포, 토큰‑레벨 프로브 점수, 그리고 인간 전문가 평가를 통해 내재적 품질을 검증했으며, (2) 실제 AD 검출 모델의 학습 데이터에 추가했을 때 정확도와 F1 점수가 평균 2~3% 상승하는 효과를 보였다.
전체적으로 이 논문은 LLM 파인튜닝이 단순히 성능 향상에 그치지 않고, 내부 표현을 통해 도메인 특화 신호(특수 마커)를 학습한다는 중요한 통찰을 제공한다. 또한, 프로브 기반 분석이 데이터 합성에 직접적인 설계 가이드를 제공한다는 점에서, 라벨이 부족한 의료 NLP 분야에 실용적인 프레임워크를 제시한다. 다만, 데이터 규모가 작고 평가가 제한된 점, 특수 마커가 실제 임상 진단에 얼마나 일반화 가능한지는 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기