다중소스 관계 기반 학습분석 데이터 마이닝
초록
본 논문은 학습 관리 시스템 로그, 교과 과정, 학생 인구통계 등 이질적인 교육 데이터 소스를 통합하여, 핵심 활동 데이터를 중심으로 관계를 모델링하고 복잡도를 낮춘 패턴 마이닝 알고리즘을 제안한다. 제안 기법은 학생별 맞춤형 학습 지원에 바로 활용 가능한 구체적·일반적 패턴을 동시에 도출한다.
상세 분석
본 연구는 학습 분석(Learning Analytics) 분야에서 데이터 이질성 및 상호 의존성이 초래하는 계산 복잡성을 해결하고자, ‘코어 소스’와 ‘컨텍스트 소스’ 개념을 도입한 새로운 패턴 마이닝 프레임워크를 설계한다. 코어 소스로는 학습 과정 자체를 반영하는 VLE(Activity) 로그를 선택하고, 교과 과정(Curriculum), 학생 인구통계(Student), 교육 자료(Resource) 등을 컨텍스트 소스로 배치한다. 이때 각 소스 간 관계는 두 가지 유형으로 구분된다. 첫째, 소스‑소스 관계는 예를 들어 학생 활동과 교과 과정 사이의 매핑처럼 전체 데이터 집합을 연결한다. 둘째, 요소‑요소 관계는 활동 로그에 등장하는 리소스 ID와 해당 리소스의 속성(예: 과목, 난이도) 사이의 직접 연결을 의미한다. 이러한 관계 유형을 명시적으로 구분함으로써, 기존 연구가 제시한 ‘전체 결합 후 단일 마이닝’ 혹은 ‘독립 마이닝 후 결과 병합’ 방식보다 더 정교한 패턴 추출이 가능하다.
프레임워크는 먼저 관계 메타데이터를 기반으로 스타 스키마(star‑schema)를 구성한다. 핵심 테이블(Activity)과 주변 테이블(다른 소스) 사이에 외래키 형태의 링크를 설정하고, 각 링크에 ‘정규화’(구체적 패턴을 위한) 혹은 ‘일반화’(전반적 경향 파악을 위한) 속성을 부여한다. 이후 알고리즘은 두 단계로 진행된다. ① 핵심 소스에서 빈번한 시퀀스 패턴을 탐색하면서, 연관된 컨텍스트 소스의 속성을 동시 검증한다. ② 탐색된 시퀀스에 대해 컨텍스트 속성의 집합을 조합하여, 특정 학생군(예: 14세 남학생, 수학 9학년)에 한정된 ‘특정 패턴’과, 동일 속성이 여러 군에 공통으로 나타나는 ‘일반 패턴’을 동시에 생성한다.
복잡도 감소 전략은 두 가지 핵심 아이디어에 기반한다. 첫째, 관계 유형에 따라 탐색 공간을 제한한다. 예를 들어, 정규화 관계에서는 해당 관계에 직접 매핑되는 레코드만을 고려하고, 일반화 관계에서는 속성 레벨에서 집계된 값만을 사용한다. 둘째, 컨텍스트 소스의 필터링을 사전 단계에서 수행해 불필요한 조인을 최소화한다. 결과적으로 전통적인 다중소스 마이닝이 직면하는 조인 폭발 문제를 완화하면서도, 의미 있는 다중모달 패턴을 확보한다.
실험적 검증은 네 개의 실제 교육 데이터 소스를 활용해 수행된다. Activity 로그는 수천 명의 학생에 대한 수십만 건의 행동 기록을 포함하고, Resource는 구조화된 메타데이터와 비구조화된 설명을 혼합한다. Curriculum과 Student는 각각 교과 과정 구조와 인구통계 정보를 제공한다. 제안 알고리즘은 기존 단일소스 시퀀스 마이닝 대비 30% 이상 빠른 실행 시간을 보였으며, 도출된 패턴은 교육자와 학생 모두가 직관적으로 이해할 수 있는 형태(예: “14세 남학생, 수학 9학년 → R‑15 → R‑42 → R‑Mathematics”)로 표현되었다. 이러한 패턴은 개인화 학습 경로 제시, 위험 학생 조기 탐지, 교재 설계 개선 등에 직접 활용 가능하다.
본 논문의 주요 기여는 (1) 다중소스 관계를 유형별로 구분하고, 이를 기반으로 스타 스키마를 설계한 점, (2) 코어‑컨텍스트 구조를 활용해 복잡도를 제어하면서도 구체·일반 패턴을 동시에 생성하는 알고리즘을 제안한 점, (3) 실제 교육 현장 데이터에 적용해 실용성을 입증한 점이다. 향후 연구에서는 관계 유형을 자동 추론하는 메타러닝 기법과, 실시간 스트리밍 로그에 대한 온라인 마이닝 확장을 모색한다.
댓글 및 학술 토론
Loading comments...
의견 남기기