테이블 데이터 격차 해소: 푸리에와 암묵적 범주형 특징 활용
초록
본 논문은 테이블형 데이터에서 딥러닝이 트리 기반 모델에 뒤처지는 원인을 분석하고, 통계적 방법으로 암묵적 범주형 특성을 찾아 이를 원-핫 인코딩하고, Learned Fourier Features(LFF)를 적용해 모델의 과도한 평활성 편향을 완화한다. 제안 기법을 MLP와 1D‑ResNet에 적용한 결과, 68개의 벤치마크 데이터셋에서 XGBoost와 동등하거나 우수한 성능을 달성한다.
상세 분석
이 연구는 테이블 데이터가 갖는 “작은 샘플·자연 기반·비연속 함수”라는 특성을 강조한다. 기존 딥러닝 모델은 입력을 연속적인 실수 벡터로 취급해 부드러운 함수 근사를 선호하는데, 이는 범주형 혹은 암묵적 범주형(수치형이지만 실제로는 구분 가능한) 특성에서 발생하는 급격한 변화를 포착하지 못한다는 점이 성능 격차의 핵심이라고 주장한다. 이를 해결하기 위해 두 단계의 전처리를 제안한다. 첫 번째는 Categorical Feature Detection(CFD)이다. 저자는 각 특성에 대해 고유값 수가 5 000 이하인 경우에만 통계 검정을 수행한다. 분류 문제에서는 χ² 검정을, 회귀 문제에서는 일원분산분석(ANOVA)과 Mutual Information 비율을 이용해 “카테고리화했을 때 타깃과 강한 상관관계가 나타나는” 특성을 식별한다. 식별된 특성은 등간 구간(bin)으로 나눈 뒤 원‑핫 인코딩하고, 원본 값은 첫 번째 채널에 그대로 남겨 두어 다채널 입력 형태를 만든다. 두 번째 전처리는 Learned Fourier Features(LFF)이다. 여기서는 입력 행렬 Z에 대해 cos(πZ)와 sin(πZ)를 연결(concatenation)하는 고차원 주기함수 임베딩을 학습한다. 두 가지 구현 방식이 제시되는데, Conv1x1LFF는 1D 컨볼루션을 통해 파라미터를 공유하고, LinearLFF는 전용 선형 레이어를 사용한다. LFF는 모델이 고주파 성분을 학습하도록 유도해 과도한 평활성을 깨뜨리고, 비연속적인 의사결정 경계를 보다 잘 표현한다.
백본으로는 회전 불변성을 갖는 전통적인 MLP와, 회전 불변성을 포기하고 1D‑ResNet(다중 채널 1D 컨볼루션) 두 가지를 선택한다. ResNet은 입력 차원을 D×M(특성 수 × 임베딩 차원)으로 받아, 커널 크기를 전체 특성 수의 일정 비율(ϕ)로 설정하고, 잔차 블록을 쌓아 최종 평균 풀링 후 선형 레이어에 연결한다. 실험 설계는 Grinsztajn et al. (2022)와 동일하게 68개의 이진·다중 클래스·회귀 데이터셋을 5‑fold 교차검증하고, 동일한 랜덤 시드와 전처리 파이프라인을 사용한다. 하이퍼파라미터 탐색은 광범위한 랜덤 서치를 수행하며, CFD와 LFF 적용 여부도 탐색 공간에 포함된다. 결과적으로 CFD만 적용한 MLP+ C와 ResNet+ C, LFF만 적용한 MLP+F와 ResNet+F, 그리고 두 기법을 동시에 적용한 MLP+F|C와 ResNet+F|C가 XGBoost와 비교된다.
주요 발견은 다음과 같다. (1) 암묵적 범주형 특성을 정확히 탐지하고 원‑핫 인코딩하면, 특히 낮은 카디널리티이면서 타깃과 강한 상관을 보이는 특성에서 성능이 급격히 상승한다. (2) LFF는 모델이 고주파 정보를 학습하도록 강제해, 비연속적인 목표 함수를 더 잘 근사한다. (3) 두 기법을 결합한 ResNet+F|C가 대부분의 데이터셋에서 XGBoost를 능가하거나 최소 0.5% 정도의 상대적 이득을 보인다. (4) MLP 기반 모델은 회전 불변성으로 인한 샘플 복잡도 증가 때문에 일부 데이터셋에서 여전히 열위에 있지만, LFF 적용 시 격차가 크게 줄어든다. 전반적으로 통계 기반 특성 탐지와 주기적 임베딩이라는 두 가지 간단하지만 효과적인 전처리만으로도 딥러닝이 전통적인 트리 기반 모델과 경쟁할 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기