생성형 AI 프롬프트 설계가 자동 채점용 에세이 데이터 증강에 미치는 영향

생성형 AI 프롬프트 설계가 자동 채점용 에세이 데이터 증강에 미치는 영향
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 세 가지 LLM 프롬프트 엔지니어링 기법(‘Predict Next’, ‘Sentence’, ‘25 Examples’)이 원본 학생 에세이의 작문 품질과 현실성을 얼마나 잘 보존하는지를 평가한다. 96개의 실제 에세이를 각 점수대별로 선정하고, 각 에세이에 대해 세 가지 방식으로 288개의 시뮬레이션 에세이를 생성하였다. 전문 채점자와 별도 전문가 평가자가 인간‑기계 점수 일치도(QWK)와 현실성 판별 정확도를 측정한 결과, ‘Predict Next’가 점수 일치도에서 가장 높은 QWK(0.74)를 보였으며, ‘Predict Next’와 ‘25 Examples’가 현실성 판별에서 가장 낮은 정확도(각 0.25, 0.18)로 실제와 구분하기 어려운 텍스트를 생성함을 확인했다.

상세 분석

이 논문은 자동 채점 엔진(ASE)의 학습 데이터 부족 문제를 해결하기 위한 데이터 증강(DA) 전략으로 생성형 AI를 활용한다는 전제에서 출발한다. 연구자는 먼저 9학년 학생 6,145명의 실제 에세이를 수집하고, 4점 척도(1~4점)에 따라 각각 24개씩, 총 96개의 표본을 선정하였다. 이후 세 가지 프롬프트 엔지니어링 기법을 적용해 각 원본 에세이당 3개의 시뮬레이션 버전을 생성, 총 288개의 인공 에세이를 만든다.

  1. 25 Examples 방식은 실제 에세이 24개와 기존에 생성된 인공 에세이 25개를 교차 배열해 모델에게 ‘전문 언어학자’ 역할을 부여한다. 모델은 실제 에세이를 긍정 예시, 인공 에세이를 부정 예시로 인식하고, 새로운 에세이를 생성하도록 유도한다.

  2. Predict Next 방식은 두 개의 실제 에세이를 제공하고, 첫 번째 에세이의 특징을 요약한 ‘노트’를 만든 뒤, 이를 기반으로 두 번째 에세이와 유사한 새로운 에세이를 생성한다. 프롬프트에 문법·철자·구두점·단어 수·복합문 비율 등 세부 파라미터를 명시해 원본과의 스타일·내용 일치를 강화한다.

  3. Sentence 방식은 실제 에세이의 각 문장을 하나씩 추출하고, 구조·어휘·오류를 변형해 새로운 문장을 만든 뒤, 이를 순차적으로 연결해 전체 에세이를 구성한다.

생성된 에세이는 두 단계의 인간 평가를 거친다. 첫 번째는 전문 채점자(8명)가 원본 점수 체계에 따라 채점하고, 두 번째는 별도 전문가(4명)가 동일한 척도로 재채점하면서 동시에 ‘실제 vs. 시뮬레이션’ 라벨링을 수행한다. 평가 지표는 (1) 점수 일치도: 정확히 동일한 점수 비율 및 가중 카파(QWK)로 측정, (2) 현실성 판별 정확도: 라벨링이 실제 정답과 일치한 비율 및 카파.

주요 결과는 다음과 같다. 전체 점수 일치도는 0.64(전체)이며, ‘Predict Next’가 0.72로 가장 높았다. QWK는 실제 에세이 0.75에 비해 ‘Predict Next’ 0.74, ‘Sentence’ 0.68, ‘25 Examples’ 0.58을 기록했다. 평균 점수 차원에서도 ‘Sentence’가 원본과 가장 근접했으며, ‘Predict Next’는 중간 점수(특히 3점)에서 차이가 확대되었다. 현실성 측면에서는 전문가가 실제와 시뮬레이션을 구분한 정확도가 전체 0.48에 불과했으며, ‘Sentence’가 0.74로 가장 높은 구분 능력을 보였다. 반면 ‘Predict Next’와 ‘25 Examples’는 각각 0.25, 0.18로 거의 구분이 어려운 텍스트를 생성했다.

해석적으로 ‘Predict Next’는 점수 일치도와 QWK에서 우수하지만, 현실성에서는 인간 판별이 거의 불가능할 정도로 원본과 유사한 텍스트를 만든다. 이는 모델이 원본 스타일을 효과적으로 모방했음을 의미하지만, 과도한 유사성은 데이터셋에 편향을 초래할 위험이 있다. ‘Sentence’는 현실성을 유지하면서도 원본 점수와의 일치를 비교적 잘 보존하므로, 품질과 다양성 사이의 균형을 맞추는 데 유리하다. ‘25 Examples’는 가장 낮은 점수 일치도와 QWK를 보였으며, 현실성도 낮아 데이터 증강용으로는 부적합함을 시사한다.

제한점으로는 (1) 표본이 9학년 미국 중서부 학생에 국한돼 일반화에 한계, (2) LLM 하나(GPT 기반)만 사용해 프롬프트 차이에 따른 차이를 평가했으나 모델 자체의 변동성을 고려하지 않음, (3) 현실성 평가가 이진 라벨링에 의존해 세부 품질(예: 내용 일관성, 논리 전개) 차이를 정량화하지 못함을 들 수 있다.

시사점은 데이터 증강 시 프롬프트 설계가 결과물의 품질과 현실성에 결정적 영향을 미친다는 점이다. 특히 ‘Predict Next’와 같은 고정된 스타일 복제 프롬프트는 점수 일치도를 높이지만, 모델이 학습 데이터에 과도히 적합(overfit)될 위험이 있다. 반면 ‘Sentence’와 같이 문장 단위 변형을 적용하면 원본의 오류 패턴을 보존하면서도 충분히 새로운 샘플을 생성할 수 있다. 따라서 ASE 개발자는 증강 목표(점수 일치 vs. 다양성)와 모델 일반화 요구에 따라 프롬프트 전략을 선택해야 한다. 향후 연구는 다중 LLM, 다양한 과목·학년, 그리고 자동화된 현실성 메트릭을 도입해 보다 포괄적인 증강 프레임워크를 구축할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기