강사 맞춤형 지식 그래프를 활용한 개인화 학습
초록
InstructKG는 강의 자료에서 개념을 자동 추출하고, 정의·예시·전제와 같은 교육적 역할을 분석해 ‘선행 필요’와 ‘부분‑전체’ 관계를 추론한다. 시간 순서와 의미적 단서를 LLM에 결합하고, 클러스터링 기반 증거 집합을 활용해 교강사가 의도한 학습 흐름을 정확히 재현한다. 실험과 인간 평가를 통해 기존 방법보다 높은 정확도와 교육적 정렬성을 입증한다.
상세 분석
InstructKG는 교육 현장에서 교강사가 설계한 학습 순서를 그래프 형태로 정형화하려는 시도이다. 핵심 아이디어는 강의 슬라이드·노트·전사와 같은 비정형 텍스트에서 ‘개념’이라는 노드를 추출하고, 각 개념이 등장하는 문맥을 ‘정의(Definition)’, ‘예시(Example)’, ‘전제(Assumption)’라는 세 가지 교육적 역할로 라벨링한다는 점이다. 이러한 역할 라벨은 선행 관계와 구성 관계를 구분하는 강력한 신호가 된다. 예를 들어, 한 개념이 ‘전제’ 역할로 등장하고 동시에 다른 개념이 ‘정의’ 역할을 수행하면 전자는 후자의 선행 개념으로 해석된다. 반대로 ‘예시’와 ‘정의’가 동시에 나타나면 후자는 전자의 하위 개념, 즉 part‑of 관계로 판단한다.
시간적 신호는 강의 파일명을 파싱해 자연스러운 강의 순서를 복원하고, 각 강의는 토큰 제한에 맞게 청크로 분할한다. 청크 간 경계가 의미적 연관성을 끊어버릴 위험을 완화하기 위해 InstructKG는 청크 임베딩을 sentence‑transformer로 얻고, UMAP 차원 축소 후 HDBSCAN 군집화를 수행한다. 동일 군집에 속한 청크들은 의미적으로 유사하다고 가정하고, 군집 중심과 가장 근접한 대표 청크들을 ‘증거 패킷’으로 선정한다. 이렇게 하면 동일 강의 내에서 멀리 떨어진 청크에 존재하는 개념 쌍도 공동 증거를 확보할 수 있다.
관계 판단 단계에서는 두 개념 쌍에 대해 역할‑기반 증거와 군집‑기반 증거를 모두 LLM에 프롬프트한다. LLM은 사전 학습된 일반 지식을 활용하면서도, 제공된 교육적 증거에 근거해 ‘depends_on’(선행) 혹은 ‘part_of’(구성) 관계를 출력한다. 이 과정은 외부 지식베이스에 의존하지 않으며, 교강사의 의도와 일치하는 관계만을 도출한다는 점에서 기존 코퍼스 기반 공존성 분석이나 DBpedia·Wikidata 활용 방법보다 교육적 정밀도가 높다.
실험에서는 여러 대학 강의(알고리즘, 데이터베이스 등)의 PDF 자료를 수집해 InstructKG를 적용했고, 인간 평가자들이 만든 금본위 그래프와 비교했다. 정밀도·재현율 모두 기존 OpenIE·LLM 파이프라인보다 크게 향상되었으며, 특히 ‘depends_on’ 관계에서 15% 이상의 F1 점수 상승을 기록했다. 또한, 교강사가 직접 검증한 결과, 추출된 그래프가 강의 설계 의도와 높은 일치도를 보였다.
이 논문의 주요 기여는 (1) 교육 자료 고유의 시간·의미 신호를 LLM 기반 추론에 체계적으로 통합한 방법론, (2) 청크 경계 문제를 해결하기 위한 클러스터 기반 증거 집합 설계, (3) 실제 강의 자료와 인간 평가를 통한 실증적 검증이다. 향후 연구에서는 자동화된 학습 경로 추천, 지식 추적 모델과의 연계, 그리고 다중 교과목 간 교차 그래프 구축 등으로 확장 가능성이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기