AI 기반 CS 교육과정 매핑 자동화: 전통 NLP와 대형 언어 모델 비교

AI 기반 CS 교육과정 매핑 자동화: 전통 NLP와 대형 언어 모델 비교
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 ACM·IEEE 컴퓨터과학 교육과정 가이드라인에 맞춰 강의·과제 등 교육 자료를 자동으로 분류하는 방법을 제안한다. 전통적인 구문·임베딩 기반 파이프라인과 최신 대형 언어 모델(LLM) 기반 접근을 비교 실험하고, 두 방법 모두 인간 전문가가 수행하는 초기 분류 작업을 크게 단축시킬 수 있음을 보인다.

상세 분석

이 연구는 교육과정 가이드라인이라는 방대한 계층형 지식 체계와 실제 강의·과제 PDF 문서 사이의 매핑 문제를 정의하고, 두 가지 기술적 패러다임을 체계적으로 평가한다. 첫 번째 접근은 전통적인 NLP 파이프라인으로, PDF 텍스트 추출 → 토큰화·품사 태깅 → 기본 명사구(bNP) 추출 → 정확 일치(count‑unweighted/count‑weighted)와 고차원 워드 임베딩(Glove‑wiki‑giga‑300) 기반 유사도 매칭(embedding‑unweighted‑all, embedding‑weighted‑best 등) 네 가지 변형을 구현한다. 이 방법은 구현이 간단하고 연산 비용이 낮지만, 정확 일치에 의존하거나 단어 수준 임베딩만 사용하기 때문에 문맥에 민감한 의미 구분이 어려워 Recall이 10 %~21 % 수준에 머문다.

두 번째 접근은 LLM을 활용한 방법이다. 전체 가이드라인을 한 번에 입력하기엔 토큰 제한(128 K) 때문에, 카테고리당 질의(‘yes/no’ 혹은 0‑5 점 척도) 방식을 채택한다. 초기 binary 방식은 과다한 양성 예측으로 정확도가 떨어졌고, 이를 0‑5 점 스케일( llm‑5point)로 전환해 순위 기반 정렬을 가능하게 했다. 또한, 5개 카테고리를 한 번에 묶어 질의하는 배치 방식(llm‑5point‑batch)과, 카테고리의 상위 지식 영역·단위 정보를 함께 제공하는 컨텍스트 강화 방식(llm‑5point‑context), 그리고 사전 요약을 이용해 불필요한 카테고리를 사전 차단하는 프루닝 방식(llm‑prune‑5point‑context) 등을 설계했다. 이러한 LLM 기반 방법은 평균 Recall이 18 %~22 %에 달했으며, 특히 컨텍스트와 프루닝을 결합한 llm‑prune‑5point‑context가 가장 높은 성능을 보였다.

실험 결과는 두 패러다임 모두 인간이 1일 정도 소요하는 초기 분류 작업을 크게 단축시킬 수 있음을 시사한다. 전통 NLP는 구현·운영 비용이 낮아 제한된 환경에서 유용하고, LLM은 문맥 이해와 다중 카테고리 간 상호관계를 활용해 더 높은 정확도를 제공한다. 그러나 현재 LLM 호출 비용, 토큰 제한, 그리고 대규모 질의(≈2700개/문서)로 인한 처리 시간 문제는 실용화에 걸림돌이 된다. 향후 연구는 효율적인 프루닝 전략, 멀티턴 프롬프트 설계, 그리고 도메인 특화된 소형 LLM 개발을 통해 비용‑효율을 동시에 만족시키는 방향으로 나아가야 한다.


댓글 및 학술 토론

Loading comments...

의견 남기기