대규모 생성·검증을 위한 물리 등가 문제 은행 구축 with GenAI
초록
본 논문은 프롬프트 체이닝과 파이썬 툴 사용을 결합한 프레임워크로, 물리 개념은 동일하지만 표면적 특성이 다른 등가 문제를 자동으로 대량 생성한다. 666개의 문제(12개 주제)로 구성된 ESTELA‑Physics 데이터셋을 만들고, 0.6B‑32B 규모의 17개 오픈소스 LLM을 활용해 사전 난이도 검증을 수행하였다. 학생 시험(N>200)과의 비교 결과, 73 %의 문제 은행이 난이도 동질성을 보였으며, 중간 규모 모델이 난이도 이상치를 가장 잘 탐지한다는 점을 제시한다.
상세 분석
이 연구는 전통적인 동시식 시험이 직면한 접근성·보안·비교가능성 문제를 해결하고자, “동일 개념·다양한 표면”이라는 정의에 기반한 이소모픽(isomorphic) 물리 문제를 대규모로 자동 생성·검증하는 파이프라인을 제시한다. 핵심 기술은 (1) 프롬프트 체이닝으로 복잡한 생성 과정을 여러 단계로 분할하고, 각 단계에서 구조적 변이(수치, 공간 관계)와 맥락적 변이(시나리오, 문화적 배경)를 독립적으로 제어한다는 점이다. (2) 툴 사용—특히 LLM 내 파이썬 인터프리터를 호출해 실시간으로 수치 계산·다이어그램 생성·정답 검증을 수행함으로써, 생성된 변이가 물리적으로 일관되고 난이도 수준을 유지하도록 보장한다.
구조적 변이는 ‘힘의 방향·크기·마찰계수·질량·각도’ 등 물리 공식에 직접 영향을 미치는 요소이며, 파라미터 범위를 사전에 정의해 파이썬 스크립트로 샘플링한다. 맥락적 변이는 ‘말이 끌고 가는 썰매’, ‘강아지가 당기는 로프’ 등 일상적 상황을 다양화해 학습자의 문화·읽기 수준에 맞추는 역할을 한다. 두 변이는 서로 의존성을 가질 수 있어, 예를 들어 물체 무게가 특정 맥락(‘백팩’, ‘소형 보트’)에 맞게 조정된다.
생성 파이프라인은 7단계(템플릿 정의 → 구성 요소 파악 → 변이·제약 정의 → 프롬프트 설계 → 반복 실행 → 조합 → 정답 검증)로 체계화돼, 반복적인 프롬프트 튜닝을 통해 품질을 지속적으로 향상시킨다. 논문에 제시된 ‘각도와 마찰을 포함한 힘 문제’ 예시에서는 5개의 프롬프트가 순차적으로 실행돼, 10개의 맥락·구조 변형을 자동으로 도출하고, 풀이 과정까지 포함한 완전한 문제·해설을 생성한다.
데이터셋 구축 결과, 12개 물리 주제(운동학, 힘, 에너지, 회전 등)에서 총 666개의 등가 문제를 확보했으며, 각 은행은 10~48개의 변형을 포함한다. 문제 형식은 수치 응답, 객관식, 다중 선택, 분류형 등 네 가지로 다양하고, 6개 은행은 이미지(다이어그램) 기반이다. 모든 문제는 최소 한 명 이상의 물리 교수진이 검토해 학문적 정확성을 확보했다.
검증 단계에서는 0.6B‑32B 파라미터를 갖는 17개 오픈소스 LLM을 제로샷 JSON 프롬프트로 일괄 해결하도록 했다. 각 모델의 정답률을 문제 수준에서 평균해 ‘LM 정확도’를 산출하고, 이를 실제 학생들의 정답률과 Pearson 상관계수(ρ)로 비교했다. 결과는 다음과 같다: (1) 전체 은행 중 73 %가 Fisher 정확 검정(p > 0.05)으로 난이도 동질성을 보였으며, (2) 중간 규모 모델(4B‑14B)에서 ρ ≈ 0.59까지 높은 상관을 기록, 특히 3‑3(각도·마찰) 은행에서 ρ = 0.594를 달성했다. (3) 매우 작은 모델(<4B)은 ‘바닥 효과’라 불리는 낮은 정확도와 높은 변동성으로 난이도 구분이 어려웠고, 14B 이상 대형 모델은 ‘천장 효과’로 대부분의 문제를 정답 처리해 난이도 차이를 포착하지 못했다. 따라서 중간 규모 모델이 난이도 이상치 탐지에 최적임을 제시한다.
또한, LLM이 자동으로 탐지한 문제는 ‘문제 서술이 모호함’, ‘필수 변수 누락’, ‘단위 불일치’ 등으로, 사전 검증 단계에서 교정 가능함을 보여준다. 이는 대규모 은행을 실제 학생에게 투입하기 전, 비용·시간을 크게 절감할 수 있는 실용적 워크플로우를 제공한다.
학술적 기여는 (1) 프롬프트 체이닝·툴 사용 기반의 스케일러블 이소모픽 문제 생성 프레임워크, (2) 666개 아이템을 포함한 ESTELA‑Physics 데이터셋, (3) LLM 기반 난이도 사전 검증 방법론으로, 특히 모델 규모와 난이도 탐지 성능 사이의 비선형 관계를 실증적으로 규명한 점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기