대규모 언어모델을 활용한 교과정보시트 자동 분류와 학술 품질 보증 방법론
초록
본 연구는 벨기에 VUB 대학의 4,684개 학부·석사 교과정보시트를 LLM(GPT‑4o)으로 자동 스캔·위험 분류하고, 5차례 프롬프트 개선을 통해 87% 전문가 일치를 달성한 뒤, 결과를 교강사에게 이메일로 전달하는 전 과정 파이프라인을 제시한다. 위험 등급(명확, 잠재, 낮음)별 비율을 제시하고, 1년 차와 2년 차 결과를 비교해 실무적 변화를 확인한다. 또한 이 방법이 지속가능성·접근성·교육정합성 등 다른 감사 영역에도 적용 가능함을 논의한다.
상세 분석
이 논문은 고등교육기관이 급증하는 생성형 AI(GenAI) 활용 위험을 체계적으로 파악하기 위해, 대규모 언어모델(LLM)을 이용한 자동 분류 파이프라인을 설계·검증한 사례연구이다. 핵심은 네 단계(파일 수집·파일 전처리, 파일럿 파일 수동 라벨링, 반복적 프롬프트 엔지니어링, 전면 스캔·보고서 자동 생성)로 구성된 ‘IV’ 프로세스로, 특히 (1) 다중 모델(GPT‑4, Claude‑3, Llama‑2 등) 비교를 통해 최적 모델을 선정하고, (2) 프롬프트 개선을 5회 반복해 전문가 라벨과 87% 일치하도록 만든 점이다. 프롬프트 설계는 ‘역할 부여(assessment auditor)’, ‘위험 정의(명확·잠재·낮음)’, ‘예외 처리(인턴십·실습)’ 등을 명시하고, 체인‑오브‑쓰레드와 샘플 기반 검증을 결합했다.
데이터는 HTML 형태의 교과정보시트 4,684개(학사·석사 전부)이며, 다국어(네덜란드어, 영어, 프랑스어 등) 지원을 위해 모델의 언어 감지 기능을 활용, 보고서는 원문 언어로 자동 번역 없이 그대로 출력했다. 결과적으로 60.3%가 ‘명확 위험’, 15.2%가 ‘잠재 위험’, 24.5%가 ‘낮은 위험’으로 분류되었으며, 1년 차와 2년 차 재스캔 결과 실무적 개선(특히 실습 중심 프로그램)의 위험 비율이 감소했다.
운영 측면에서는 91.4%의 교강사 이메일 주소를 매칭해 자동 보고서를 전송했으며, 대시보드와 연계해 학과·대학 차원의 통계도 제공했다. 장점은 (① 빠른 전면 스캔(수일 내 완료), ② 라벨링 비용 최소화, ③ 모델·프롬프트 업데이트가 용이해 지속적 품질 관리 가능)이다. 한계는 (① 라벨링이 시트 내용에 국한돼 실제 강의·평가 관행을 반영하지 않음, ② 프롬프트 개선이 전문가 의존적이며 재현성 검증이 부족, ③ 다국어 보고서가 교강사 기대와 다를 수 있음)이다.
전반적으로 이 연구는 LLM 기반 문서 분류가 교육 행정에 실용적으로 적용될 수 있음을 입증하고, ‘프롬프트 엔지니어링을 통한 반복적 검증’이라는 방법론적 프레임을 제시함으로써, 다른 감사 영역(지속가능성, 접근성, 교육과정 정합성)에도 확장 가능한 템플릿을 제공한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기