AI 채점 도구 Fobizz, 교실에서 실험해보다

초록

본 연구는 독일 기업 Fobizz가 제공하는 AI 기반 자동 채점 도구 “AI Grading Assistant”를 독일 중·고등학교 수업에 적용해 본 결과, 등급 산출과 피드백이 무작위적이며 신뢰성이 떨어짐을 확인한다. 특히 ChatGPT가 만든 텍스트에만 높은 점수가 부여되고, 허위·무의미한 답안도 검출되지 않는다. 이러한 문제는 대형 언어 모델(LLM)의 근본적 한계에서 비롯되며, 현재로서는 근본적인 개선이 어려워 보인다.

상세 분석

본 논문은 두 차례에 걸친 실험 설계를 통해 Fobizz의 “AI Grading Assistant”(이하 AI‑GA)의 기능적 적합성을 정량·정성적으로 평가하였다. 첫 번째 실험에서는 교사가 직접 작성한 과제와 ChatGPT가 생성한 과제 30개씩을 도구에 입력하고, 자동 산출된 점수와 피드백을 교사의 기준과 비교하였다. 결과는 AI‑GA가 인간 교사의 채점과 상관관계가 낮으며, 동일 과제에 대해 반복 입력 시 점수가 크게 변동한다는 점을 보여준다. 특히, 인간이 명백히 오류가 있는 답안을 제출했음에도 불구하고 평균 70점 이상을 부여하는 경우가 빈번했다.

두 번째 실험에서는 AI‑GA가 제시한 피드백을 교사가 수정·보완한 후 다시 채점에 적용했을 때, 점수 향상이 거의 없었다. 이는 도구가 제시하는 피드백이 실제 학습 개선에 기여하지 못한다는 것을 의미한다. 또한, 채점 기준 중 “논리적 일관성”과 “주제 적합성”은 구현이 불투명하고, 내부 가중치가 공개되지 않아 교사가 결과를 검증하기 어렵게 만든다.

도구가 높은 점수를 부여하는 경우는 주로 ChatGPT가 생성한 텍스트에 국한되었다. 이는 LLM이 학습한 대규모 코퍼스와 유사한 문체·구조를 갖추고 있기 때문에, AI‑GA가 텍스트의 표면적 풍부함을 과대평가하는 경향을 드러낸다. 반대로, 학생이 직접 작성한 비표준 표현이나 창의적 오류는 “무작위” 점수로 처리되어, 실제 학습 상황을 왜곡한다.

본 연구는 이러한 현상이 LLM 자체의 “확률적 텍스트 생성” 메커니즘에서 비롯된다고 진단한다. LLM은 사전 학습된 데이터에 기반해 가장 가능성이 높은 토큰을 선택하지만, 실제 교육적 목표와는 무관한 “통계적 일관성”을 우선시한다. 따라서, 교육 현장에서 요구되는 “내용적 정확성”·“학습 목표 부합성”을 보장하기 위한 구조적 설계가 결여된 현재의 AI‑GA는 근본적인 한계에 봉착한다.

결론적으로, Fobizz가 마케팅에서 강조하는 “객관적·시간 절감”이라는 주장은 과장된 것이며, 교사의 전문성을 대체하거나 보조하는 수준에 머물러 있다. 정책 입안자와 교육 기관은 이러한 도구를 무조건 도입하기보다, 체계적인 파일럿 테스트와 교과별 교육학적 검증을 선행해야 할 필요가 있다.