LLM 기반 자동 성격 상황판단 테스트 생성
초록
본 연구는 GPT‑4와 ChatGPT‑5를 활용해 성격 상황판단 테스트(SJT)를 자동으로 생성하는 체계적 프레임워크를 제시한다. 프롬프트 설계와 온도 파라미터를 최적화하여 내용 타당성을 높였으며, 모델 간 재현성을 검증하였다. 다섯 가지 빅파이브 하위 요인에 대한 SJT를 제작·파일럿 테스트한 결과, 대부분의 요인에서 신뢰도와 타당도가 만족스러웠지만, 순응성(facet)과 일부 기준 타당도에서는 한계가 드러났다. 연구는 LLM을 이용한 SJT 자동 생성이 전통적 방법에 비해 시간·비용 효율성이 높으며, 문화적 적합성과 심리측정학적 품질을 동시에 확보할 수 있음을 증명한다.
상세 분석
이 논문은 자동 아이템 생성(AIG) 분야에 LLM을 적용한 최초 수준의 종합 연구로, 세 가지 실험을 통해 프롬프트 설계, 온도 설정, 모델 일반화 가능성, 그리고 심리측정학적 특성을 체계적으로 검증한다. 첫 번째 연구에서는 GPT‑4에 대해 4가지 프롬프트 변형(기본, 단계적, 체인‑오브‑생각, 예시 강화)과 온도 0.5, 0.7, 1.0, 1.3을 교차 적용해 96개의 SJT 아이템을 생성하고, 전문가 패널(7명)이 내용 타당성을 5점 척도로 평가하였다. 결과는 온도 1.0이 창의성과 정확성 사이에서 최적의 균형을 이루며, 특히 단계적·체인‑오브‑생각 프롬프트가 내용 타당도 점수를 평균 4.2점으로 가장 높게 만들었다는 점을 보여준다. 두 번째 연구에서는 동일한 프롬프트·온도 조합을 ChatGPT‑5에 적용해 3라운드에 걸쳐 180개의 아이템을 생산하고, 재현성 지표인 아이템 일관성(Cohen’s κ=0.78)와 품질 점수(평균 4.1점)를 확인했다. 이는 모델 교체에도 프레임워크가 견고함을 시사한다. 세 번째 연구에서는 다섯 개 빅파이브 하위 요인(외향성‑활동성, 외향성‑사교성, 성실성‑책임감, 신경증‑불안, 순응성‑협조성)별로 20개씩 총 100개의 SJT를 생성하고, 1,200명의 온라인 응답자를 대상으로 파일럿 테스트를 진행했다. 내부 일관성(ω)은 0.710.84 사이였으며, 자기보고식 빅파이브 척도와의 수렴 타당도(r)도 0.450.62로 전반적으로 양호했다. 그러나 순응성 요인에서는 ω=0.58, r=0.31로 낮은 지표가 나타났으며, 직무 성과와의 기준 타당도에서도 일부 요인이 기대 이하의 예측력을 보였다. 저자는 이러한 한계를 프롬프트에 사회적 규범을 강조하거나, 다중 모델 앙상블을 도입해 보완할 것을 제안한다. 전체적으로 연구는 LLM 기반 SJT 자동 생성이 높은 효율성과 충분한 심리측정학적 품질을 제공함을 입증하지만, 특수한 성격 하위 요인에 대한 정교한 조정이 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기