GAMformer 해석 가능한 탭형 데이터 파운데이션 모델
초록
GAMformer는 기존 탭형 파운데이션 모델의 강력한 예측 능력에 해석 가능성을 결합한 최초의 모델이다. 합성 데이터만으로 사전 학습한 트랜스포머를 이용해 인‑컨텍스트 학습으로 각 특성의 shape function을 한 번의 포워드 패스로 추정하고, 이를 통해 GAM 형태의 예측을 수행한다. 실험 결과, 주요 분류 벤치마크에서 기존 GAM(EBM, NAM 등)과 동등한 정확도를 보이며, 의료 데이터(MIMIC‑III)에서도 의미 있는 해석을 제공한다.
상세 분석
GAMformer는 두 가지 핵심 아이디어를 결합한다. 첫째, Prior‑Data‑Fitted Networks(PFNs)와 유사하게 대규모 합성 테이블을 이용해 트랜스포머를 사전 학습함으로써, 실제 데이터에 대한 사전 지식을 내재한다. 여기서 사용된 합성 데이터는 구조적 인과 모델과 가우시안 프로세스 두 종류의 프라이어를 통해 생성되며, 이는 다양한 변수‑관계와 비선형성을 포괄한다. 둘째, 전통적인 GAM의 반복적 피팅 절차를 완전히 대체한다. 특성별 값을 64개의 양자화 구간으로 binning하고 원‑핫 인코딩한 뒤, 임베딩 레이어와 12계층 트랜스포머(열‑wise와 행‑wise 어텐션을 교차 적용)로 입력을 처리한다. 트랜스포머는 학습 데이터와 레이블을 컨텍스트로 받아 각 특성‑클래스 조합에 대한 shape function을 𝑝×𝑛_bins×𝑚 차원의 텐서로 출력한다. 이후 테스트 샘플에 대해 동일한 binning을 적용하고, 해당 구간의 shape 값을 합산해 최종 예측을 만든다.
이 구조는 몇 가지 중요한 장점을 제공한다.
- 단일 포워드 패스로 피팅: 전통적인 스플라인, 부스팅, NAM 등은 반복적 최적화와 하이퍼파라미터 튜닝이 필요하지만, GAMformer는 사전 학습된 트랜스포머와 인‑컨텍스트 학습만으로 즉시 shape function을 얻는다. 이는 추론 속도를 크게 높이고, 파라미터 튜닝 비용을 감소시킨다.
- 비선형·불연속성 표현: 64개의 이산 구간을 직접 예측함으로써, 연속적인 스플라인보다 급격한 변화를 자연스럽게 포착한다. 논문에서는 치료 효과와 같이 갑작스러운 점프가 있는 의료 변수에서 이점이 확인되었다.
- 퍼뮤테이션 등가성: 열‑wise와 행‑wise 어텐션을 교차 적용함으로써 특성 순서와 샘플 순서에 대한 민감도가 사라진다. 이는 실제 데이터셋이 다양한 크기와 형식을 가질 때 모델이 유연하게 동작하도록 만든다.
- 합성 데이터 기반 일반화: 실제 데이터에 대한 직접 학습이 없으므로 데이터 누수 위험이 없으며, 다양한 도메인에 대한 전이 학습이 가능하다. 실험에서는 MIMIC‑III와 같은 실제 의료 데이터에서도 경쟁력 있는 성능을 보였다.
한계점도 존재한다. 이산 구간 수가 고정(64)되어 있어 매우 미세한 연속 변화를 포착하는 데는 제한이 있을 수 있다. 또한, 사전 학습 단계가 대규모 합성 데이터와 GPU 자원을 필요로 하므로 초기 비용이 높다. 마지막으로, 현재 구현은 10클래스 이하의 다중 클래스 분류에만 제한되어 있어, 고차원 다중 라벨 문제에 대한 확장은 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기