학부 교육기관에서의 확장된 데이터 과학
초록
이 논문은 도노호의 “Greater Data Science” 개념을 바탕으로, 학부 중심 대학에서 통계와 데이터 과학을 통합한 교육 모델을 설계·실행한 사례를 제시한다. ASA와 GAISE 지침을 참고해 여섯 가지 핵심 영역(데이터 수집·전처리·탐색, 표현·변환, 컴퓨팅, 모델링, 시각화·프레젠테이션, 데이터 과학 자체) 모두를 포괄하도록 커리큘럼을 재구성했으며, 실제 프로젝트와 윤리 교육을 강조한다. 또한 데이터 과학 학문적 정체성, 교과목 설계, 재현 가능성, 그리고 학부 수준에서의 연구 활동까지 폭넓게 논의한다.
상세 분석
본 논문은 도노호(Donoho)의 “Greater Data Science”(GDS) 프레임워크를 학부 교육에 적용하는 구체적 사례를 제시함으로써, 통계학과 데이터 과학의 경계가 어떻게 재구성될 수 있는지를 탐구한다. 저자들은 ASA(2014)와 GAISE(2016) 지침을 기본 토대로 삼아, 데이터 과학을 여섯 개의 핵심 요소—(1) 데이터 수집·전처리·탐색, (2) 데이터 표현·변환, (3) 데이터 컴퓨팅, (4) 데이터 모델링, (5) 데이터 시각화·프레젠테이션, (6) 데이터 과학 자체—로 정의하고, 각 요소를 교육 과정에 균등히 배치한다. 이는 기존 통계 교육이 모델링과 추론에 편중된 반면, 데이터 과학은 전체 파이프라인을 포괄한다는 점을 반영한다.
구체적으로 스미스와 암허스트 두 대학의 사례를 분석한다. 두 기관 모두 ‘Introduction to Data Science’라는 교과목을 중심으로, 전공 기초 과목에 컴퓨팅(함수 작성, 시뮬레이션, GitHub 활용)과 윤리·리터러시를 삽입하였다. 이후 ‘Multiple Regression’, ‘Intermediate Statistics’, ‘Machine Learning’ 등 전통 통계 과목에 데이터 정제·시각화·재현 가능성 훈련을 통합하고, capstone 프로젝트를 통해 실전 문제 해결 능력을 강화한다. 특히, ‘liberal arts modules’를 도입해 비전공 교수진이 제시하는 실제 연구 질문을 데이터 과학 도구로 해결하도록 함으로써 학제 간 협업 모델을 구현한다.
저자들은 교육 내용이 빠르게 변화하는 도구(R 패키지)와는 별개로, ‘문제 해결 능력’과 ‘학습 방법을 배우는 능력’을 핵심 역량으로 강조한다. 이는 특정 패키지가 5년 내에 사라질 위험성을 감안한 장기적 교육 설계이다. 또한 윤리 교육을 별도 모듈로 두어, 데이터 접근성, 프라이버시, 사회적 책임 등을 토론하게 함으로써 데이터 과학자의 사회적 역할을 강조한다.
학문적 정체성 논의에서는 데이터 과학이 전통 통계·컴퓨터 과학에 완전히 귀속되지 않는 ‘새로운 학문 영역’임을 주장한다. 저자들은 Hadley Wickham의 ‘tidy data’, ‘ggplot2’ 등 실용적 소프트웨어가 학문적 논문 형태로는 기존 분류에 맞지 않지만, 데이터 과학 고유의 지식 체계 형성에 기여한다는 점을 들어, 데이터 과학이 자체적인 학술 전통을 구축해야 함을 시사한다.
마지막으로, 현재 학과 구조가 데이터 과학을 포괄하기에 충분한지, 혹은 별도 학과·프로그램이 필요할지에 대한 전략적 질문을 제기한다. 이는 학부 교육기관이 데이터 과학을 지속가능하게 성장시키기 위해 조직적·제도적 변화를 고려해야 함을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기