데이터 분석 모델링 단계의 변동성 기반 설계 접근법
초록
본 논문은 CRISP‑DM 프로세스의 모델링 단계에 존재하는 변동성을 정량화하고, 이를 특징 모델(feature model)로 표현한 뒤, 변동성을 포괄하는 객체지향 프레임워크를 설계한다. 설계된 프레임워크를 통해 기존 도구가 제공하지 못하는 자동화 기회를 탐색하고, 데이터 분석 모델링 과정의 유연성과 재사용성을 크게 향상시킬 수 있음을 보인다.
상세 분석
이 연구는 데이터 과학 프로젝트에서 가장 핵심적인 단계인 모델링 단계의 복잡성을 소프트웨어 공학적 관점에서 재조명한다. 먼저 저자들은 CRISP‑DM 문서와 관련 논문을 정밀 분석하여 모델링 단계가 ‘모델링 기법 선택(Select Modeling Technique)’, ‘테스트 설계 생성(Generate Test Design)’, ‘모델 구축(Build Model)’, ‘모델 평가(Assess Model)’ 네 개의 일반 작업으로 구성된다는 점을 확인한다. 각 작업마다 선택 가능한 알고리즘, 파라미터 설정, 데이터 유형, 도메인 요구사항 등 수많은 변이점이 존재함을 발견하고, 이를 ‘변동성 포인트’로 정의한다.
변동성 포인트를 식별한 뒤, 저자들은 전통적인 특징 모델링 기법을 적용해 계층적 특징 다이어그램을 작성한다. 예를 들어 ‘모델링 기법 선택’ 작업에서는 지도학습, 비지도학습, 강화학습 등 큰 범주와 각각의 알고리즘(의사결정트리, SVM, 신경망 등), 그리고 각 알고리즘이 요구하는 전처리 방식과 하이퍼파라미터 튜닝 옵션을 하위 특징으로 배치한다. 이러한 구조는 AND, OR, OPTIONAL, ALTERNATIVE와 같은 논리 연산자를 통해 변이 간의 의존관계와 배제관계를 명시한다.
다음 단계에서는 도출된 특징 모델을 기반으로 객체지향 프레임워크의 메타모델을 설계한다. 프레임워크는 ‘Task’, ‘VariationPoint’, ‘Variant’, ‘Constraint’ 클래스로 구성되며, 각 클래스는 런타임에 동적으로 인스턴스화될 수 있다. 특히 ‘Constraint’ 클래스는 교차 트리 관계를 구현해 특정 알고리즘 선택 시 요구되는 데이터 전처리 단계가 자동으로 활성화되도록 한다. 이러한 설계는 플러그인 방식으로 새로운 모델링 기법이나 평가 지표를 손쉽게 추가할 수 있게 하여, 시스템의 확장성을 크게 높인다.
마지막으로 저자들은 네 개의 작업별 자동화 가능성을 평가한다. ‘모델링 기법 선택’은 메타데이터와 도메인 어휘 사전을 활용한 의사결정 트리를 통해 자동화할 수 있고, ‘테스트 설계 생성’은 데이터 분할 전략과 교차 검증 스키마를 사전 정의함으로써 자동 생성이 가능하다. ‘모델 구축’ 단계는 파라미터 탐색 자동화(예: GridSearch, Bayesian Optimization)와 연동되어 완전 자동화가 현실화될 수 있다. ‘모델 평가’는 성능 지표와 비즈니스 목표 매핑을 사전 정의함으로써 자동화된 보고서를 생성하도록 설계할 수 있다. 전체적으로 변동성 기반 설계는 기존 도구가 제공하는 고정된 워크플로우를 넘어, 사용자의 요구와 데이터 특성에 맞춤형으로 프로세스를 재구성하고 자동화 범위를 확대한다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기