탭ular 데이터용 라쏘플렉스넷: 유연한 신경망 설계와 안정적 최적화
초록
라쏘플렉스넷은 탭ular 데이터의 특성을 반영한 퍼-피처 임베딩과 그룹 라쏘를 결합하고, 순차적 계층형 근접 적응형 그라디언트(EMA) 옵티마이저로 학습을 안정화한다. 52개 데이터셋에서 트리 기반 모델을 능가하거나 동등한 성능을 보이며, 라쏘와 유사한 해석 가능성을 제공한다.
상세 분석
본 논문은 탭ular 데이터가 갖는 다섯 가지 귀납적 편향(불필요한 특성에 대한 강인성, 축 정렬, 국소 불규칙성, 특성 이질성, 학습 안정성)을 신경망에 명시적으로 주입한다는 점에서 의미가 크다. 먼저 각 입력 특성에 대해 Piecewise Linear Encoding(PLE)를 적용해 연속적인 구간을 이산화하고, 이를 독립적인 Per‑Feature Embedding(PFE) 네트워크에 통과시켜 비선형 표현을 학습한다. PLE는 좌표축을 그대로 유지하면서 국소적인 기울기를 제공하므로 회전 불변성을 깨뜨리고, 트리와 유사한 축‑정렬 특성을 확보한다.
다음으로 평균 풀링된 임베딩 벡터에 대해 Tied Group Lasso를 적용한다. 기존 LassoNet이 원본 입력에 직접 ℓ1 페널티를 부여해 선형 스킵 연결만을 선택하는 반면, 라쏘플렉스넷은 임베딩 전체 그룹을 하나의 스칼라 β_i로 묶어 비선형 특성의 마진을 직접 평가한다. 이 설계는 파라미터 수를 크게 줄이면서도 비선형 기여도를 정확히 포착하고, β_i의 크기로 직관적인 특성 중요도를 제공한다.
MLP‑Mixer 모듈은 다중 특성 간 상호작용을 캡처한다. 학습 초기에는 스케일 파라미터 τ<1을 통해 Mixer의 기여를 억제하고, 라쏘 스킵 연결이 먼저 수렴하도록 유도한다(soft‑curriculum learning). τ가 점진적으로 1에 가까워지면 복잡한 비선형 관계를 학습한다.
최적화 측면에서는 기존 LassoNet의 Hierarchical Prox‑Gradient(HPG) 방식이 SGD 기반으로 불안정한 점을 지적하고, 두 가지 개선을 제시한다. 첫째, 라쏘 파라미터와 네트워크 가중치를 순차적으로 업데이트해 라쏘가 먼저 결정되도록 한다(Sequential Hier‑Prox). 둘째, Adam의 적응형 학습률을 근접 연산에 그대로 적용하고, 파라미터에 EMA를 직접 삽입해 스텝마다 부드러운 추정값을 사용한다. 이로써 비선형 제약 하에서도 수렴성을 크게 향상시킨다.
이론적으로는 PLE가 회전 불변성을 깨뜨리고, 그룹 라쏘가 ℓ1 정규화의 강인성을 유지함을 정리(정리 6.1, 6.2)하고, 근접 연산의 수렴성을 EMA와 결합한 경우에 대한 새로운 보조정리를 제공한다. 실험에서는 OpenML‑CC18, AutoML‑Benchmark, 그리고 Kaggle‑Tabular 등 세 벤치마크의 52개 데이터셋에서 XGBoost, CatBoost, LightGBM 등 최신 트리 모델과 경쟁하거나 10% 수준의 상대적 이득을 기록한다. Ablation study는 각 구성 요소(PLE, PFE, Tied Group Lasso, Seq‑Hier‑Prox‑Adam‑EMA, τ 스케일)의 기여도를 정량화하고, 라쏘플렉스넷이 과적합을 방지하면서도 복잡한 비선형 패턴을 학습함을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기