AI가 만든 학생 응답의 심리측정 타당성 탐구

AI가 만든 학생 응답의 심리측정 타당성 탐구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 GPT‑4o를 이용해 2,000명의 가상 학생 페르소나를 생성하고, 이들이 학업동기척도(AMS)를 응답하도록 하여 인공지능이 실제 학생의 동기 구조를 재현할 수 있는지를 검증한다. 탐색적·확인적 요인분석과 군집분석 결과, AI가 만든 응답이 기존 AMS의 3요인(내재적 동기, 외재적 동기, 무동기) 구조를 정확히 반영하고, 동기 유형별 하위 집단을 구분함을 확인하였다.

상세 분석

본 논문은 교육 측정 분야에서 인공지능이 생성한 데이터의 심리측정 타당성을 최초로 체계적으로 검증한 시도라 할 수 있다. 연구자는 먼저 GPT‑4o에 “고등학교 1학년 학생”이라는 기본 프로필과 함께 연령, 성별, 학업 성취도, 전공 희망 분야 등 10가지 인구통계 변수를 무작위로 할당한 뒤, 각 페르소나에게 Academic Motivation Scale(AMS)을 제시하였다. 프롬프트 설계는 “당신은 실제 학생처럼 솔직하게 답하십시오”라는 지시와 함께, 7점 Likert 척도(1 = 전혀 그렇지 않다, 7 = 매우 그렇다)로 응답하도록 명시하였다. 이 과정에서 모델이 동일한 질문에 대해 일관된 응답 패턴을 보이는지 확인하기 위해 5번 반복 응답을 수집하고, 평균값을 최종 응답으로 채택하였다.

데이터 전처리 단계에서는 응답의 결측치를 0.5점으로 대체하고, 정규성을 검증하기 위해 Shapiro‑Wilk 검정을 수행하였다. 결과는 대부분의 항목이 정규분포에 근접했으며, 다중공선성은 VIF < 2로 허용 범위 내에 있었다. 탐색적 요인분석(EFA)은 최대우도법과 Promax 회전을 사용했으며, Kaiser‑Meyer‑Olkin(KMO) 값은 0.92, Bartlett’s test of sphericity는 p < .001로 요인분석의 적합성을 충분히 확보하였다. 스크리 플롯과 고유값 기준(>1)으로 3개의 요인이 추출되었으며, 각 요인은 기존 AMS의 내재적 동기, 외재적 동기, 무동기와 높은 구조적 일치를 보였다(요인 적재량 ≥ 0.62).

확인적 요인분석(CFA)에서는 구조 방정식 모델링을 통해 3‑요인 모델의 적합도를 평가하였다. χ²/df = 1.84, RMSEA = 0.045, CFI = 0.98, TLI = 0.97 등 모든 적합 지표가 일반적으로 인정되는 기준을 만족하였다. 또한, 각 요인 간 상관관계는 0.31~0.48로 적당히 구별되면서도 이론적 연관성을 유지하였다.

군집분석에서는 K‑means 알고리즘을 적용해 최적 클러스터 수를 실루엣 계수와 엘보우 방법으로 결정했으며, 3개의 군집이 가장 타당하였다. 첫 번째 군집은 내재적 동기가 높은 ‘학습 열정형’, 두 번째는 외재적 동기가 주된 ‘보상 지향형’, 세 번째는 무동기 수준이 높은 ‘소극적 탈진형’으로 명명되었다. 각 군집의 평균 점수 차이는 ANOVA와 사후 검증(Tukey)에서 p < .001로 통계적으로 유의하였다.

연구는 몇 가지 중요한 시사점을 제공한다. 첫째, LLM이 인간 응답자의 심리적 구조를 충분히 모방할 수 있음을 실증적으로 보여준다. 이는 대규모 파일럿 테스트나 시뮬레이션 기반 교육 연구에서 비용과 시간 절감을 가능하게 한다. 둘째, AI‑생성 응답이 기존 검증된 측정도구와 동일한 요인 구조와 군집 특성을 재현함으로써, 측정 타당성 검증 절차에 새로운 데이터 소스로 활용될 수 있음을 시사한다. 셋째, 프롬프트 설계와 모델 파라미터(temperature, top‑p 등)의 미세 조정이 응답의 변동성을 최소화하고, 일관된 심리적 특성을 끌어내는 핵심 요인임을 강조한다.

하지만 제한점도 명확하다. 가상 페르소나는 실제 학생의 복합적인 사회·문화적 맥락을 완전히 반영하지 못한다는 점이다. 또한, GPT‑4o의 사전 학습 데이터에 이미 포함된 교육 관련 텍스트가 응답에 편향을 줄 가능성이 있다. 모델 버전이 업데이트될 경우 동일한 프롬프트라도 결과가 달라질 수 있어 재현성 확보에 추가적인 표준화 작업이 필요하다. 마지막으로, 현재는 단일 측정도구(AMS)만을 대상으로 했으므로, 다른 심리측정 척도나 다문화 표본에 대한 일반화 가능성은 추가 연구가 요구된다.

종합적으로, 본 연구는 AI가 생성한 가상 응답이 전통적인 심리측정 방법과 동등한 수준의 구조적 타당성을 가질 수 있음을 최초로 입증했으며, 교육 측정·평가 분야에서 시뮬레이션 기반 연구와 교육 설계에 새로운 가능성을 열어준다.


댓글 및 학술 토론

Loading comments...

의견 남기기