자동채점 향상을 위한 두 단계 파인튜닝·점수 정렬·불확실성 기반 자기학습

자동채점 향상을 위한 두 단계 파인튜닝·점수 정렬·불확실성 기반 자기학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 제한된 라벨 데이터 환경에서도 자동 에세이 채점(AES) 성능을 크게 끌어올리기 위해 세 가지 기법을 제안한다. 저‑랭크 적응(LoRA)을 활용한 두 단계 파인튜닝, 개발 셋 분포에 기반한 점수 정렬(Score Alignment), 그리고 불확실성을 고려한 자기학습(UST)이다. DualBERT 기반 모델에 적용한 결과, 32개 샘플(≈1 % 라벨)만으로 전체 데이터 대비 91.2 %의 QWK 점수를 달성했으며, 전체 데이터 환경에서는 점수 정렬만으로도 최신 SOTA를 기록했다.

상세 분석

이 연구는 자동 에세이 채점(AES)에서 라벨 데이터가 극도로 부족한 현실적 제약을 직접 해결하고자 한다. 첫 번째 핵심은 LoRA(Low‑Rank Adaptation)를 이용한 두 단계 파인튜닝이다. 초기 단계에서 DualBERT 전체 파라미터를 일반적인 학습으로 미세조정하고, 이후 LoRA 레이어만 삽입해 고정된 베이스 모델 위에서 추가 학습한다. 이렇게 하면 베이스 모델이 이미 학습한 일반 언어 지식을 보존하면서, 프롬프트‑특화된 미세한 특징을 저‑차원 매개변수로 효율적으로 캡처한다. 특히, 각 트레이트(예: 전체, 내용, 조직 등)에 대해 손실 가중치를 다르게 설정함으로써 다중 과제 학습에서 트레이트별 중요도를 조절한다는 점이 눈에 띈다.

두 번째 기법인 Score Alignment은 모델이 학습 데이터의 점수 분포에 편향되는 문제를 해결한다. 개발 셋에서 예측된 점수와 실제 점수의 상위·하위 p% 평균 차이를 계산해, 테스트 셋 예측에 선형 변환을 적용한다. 이 과정은 “예측이 0에 가까워도 실제는 0” 혹은 “1에 가까워도 실제는 1”과 같은 경계값 편향을 보정한다. 선형 변환이 간단하지만, QWK와 같은 순위 기반 평가지표에 큰 영향을 미치는 분포 왜곡을 효과적으로 줄인다.

세 번째인 Uncertainty‑aware Self‑Training(UST)은 라벨이 없는 에세이를 활용해 데이터 양을 확대한다. 드롭아웃을 T번 반복 적용해 각 샘플에 대한 예측 분산을 불확실성으로 정의하고, 이를 기반으로 점수 구간별로 가장 확실한 n_s개의 샘플을 선택한다. 이렇게 선별된 의사 라벨은 노이즈 전파 위험을 최소화하면서 학습 데이터에 추가된다. 이후 새롭게 초기화된 DualBERT를 전체(라벨 + 의사라벨) 데이터에 재학습함으로써, 제한된 라벨만으로도 일반화 성능을 크게 향상시킨다.

세 기법은 모듈식으로 설계돼 서로 독립적으로 적용 가능하며, 본 연구에서는 “LoRA + Score Alignment + UST” 순서로 통합했다. 실험 결과, 32개 샘플(≈1 % 라벨)만 사용했을 때도 개별 기법이 각각 QWK를 2~4 %p 상승시켰으며, 세 기법을 모두 결합했을 때 전체 데이터 대비 91.2 % 수준에 도달했다. 특히 전체 데이터 환경에서는 Score Alignment만 적용해도 기존 DualBERT를 능가하는 SOTA(QWK ≈ 0.79)를 기록했다. 이는 점수 분포 정렬이 모델의 예측 편향을 교정하는 데 핵심적인 역할을 함을 시사한다.

한계점으로는 ASAP++ 데이터셋 하나에만 검증했으며, 프롬프트 간 전이 성능이나 다른 언어·도메인에 대한 일반화는 아직 확인되지 않았다. 또한, 불확실성 추정에 드롭아웃을 사용하므로 드롭아웃 비율·반복 횟수에 민감할 수 있다. 향후 연구에서는 LLM 기반 AES에 LoRA‑두 단계 파인튜닝을 확장하고, 비선형 정렬 기법이나 베이지안 불확실성 모델을 도입해 정밀도를 높이는 방향이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기