탭형 데이터 인컨텍스트 활성 학습

본 논문은 TabPFN이라는 탭형 데이터 전용 파운데이션 모델을 활용해, 파라미터를 재학습하지 않고 라벨링된 컨텍스트만을 점진적으로 확장하는 새로운 액티브 러닝 프레임워크 Tab‑AICL을 제안한다. 불확실성 기반, 다양성 기반, 하이브리드, 그리고 경량 프록시를 이용한 두 단계 방식의 네 가지 획득 규칙을 구현하고, 20개의 분류 벤치마크에서 100개 라벨까지의 냉시작 단계에서 기존 Gradient‑Boosting 기반 액티브 러닝보다 높은 …

저자: Wilailuck Treerath, Fabrizio Pittorino

탭형 데이터 인컨텍스트 활성 학습
본 연구는 “Tabular Active In‑Context Learning”(Tab‑AICL)이라는 새로운 액티브 러닝 프레임워크를 제안한다. 기존의 액티브 러닝은 모델을 매 라운드마다 재학습해야 하며, 라벨이 거의 없는 초기 단계에서는 불확실성 추정이 불안정해 효과가 제한적이다. Tab‑AICL은 이러한 한계를 TabPFN이라는 탭형 데이터 전용 파운데이션 모델의 인‑컨텍스트 학습 능력으로 극복한다. TabPFN은 대규모 합성 탭형 작업으로 사전 학습된 트랜스포머이며, 새로운 데이터셋에 대해 파라미터를 업데이트하지 않고 라벨이 포함된 컨텍스트(예: 현재까지 라벨링된 샘플)를 입력으로 받아 캘리브레이션된 확률 예측을 제공한다. 따라서 라벨을 추가하는 행위 자체가 모델을 “업데이트”하는 효과를 만든다. Tab‑AICL은 다음과 같은 구성 요소를 포함한다. 1. **문제 정의**: 라벨이 없는 풀 U와 초기 라벨 집합 L₀를 가지고, 매 라운드마다 배치 Qₜ를 선택해 라벨을 획득하고, Lₜ₊₁ = Lₜ ∪ Qₜ 로 컨텍스트를 확장한다. 목표는 제한된 라벨링 예산 Nₘₐₓ(=100) 내에서 테스트 성능을 최대화하는 것이다. 2. **전처리 파이프라인**: 모든 방법에 동일하게 적용되는 전처리 단계가 있다. 메타데이터가 없을 경우 20 이하의 고유값을 가진 정수형 특성을 범주형으로 간주하고, 수치형은 평균값으로 결측을 채운 뒤 표준화한다. 범주형은 최빈값으로 결측을 채우고 OrdinalEncoder로 인코딩한다. 전처리 파라미터는 훈련 풀에서만 학습한다. 3. **획득 규칙 네 가지** - **TabPFN‑Margin**: 클래스 확률의 1위와 2위 차이(마진)를 최소화하는 샘플을 선택한다. 이는 전통적인 불확실성 샘플링과 동일하지만, TabPFN이 제공하는 캘리브레이션된 확률을 사용한다. - **TabPFN‑Coreset**: 현재 라벨된 집합과의 거리(유클리드)를 최대화하는 샘플을 순차적으로 선택해 입력 공간을 골고루 커버한다. 거리 계산은 전처리된 특성 공간에서 수행되며, O(|U|) 메모리와 O(|U|·B) 시간 복잡도를 가진다. - **TabPFN‑Hybrid**: 엔트로피 기반 불확실성 필터링 후 k‑means 클러스터링을 적용한다. 먼저 전체 풀에 대해 TabPFN의 엔트로피를 계산하고, 가장 높은 N₍cand₎(=max(2B, |U|/2))개의 후보를 선정한다. 이후 후보군에 대해 k‑means(B)를 수행하고, 각 클러스터 중심에 가장 가까운 샘플을 선택한다. - **TabPFN‑Proxy‑Hybrid**: 두 단계 구조로 연산량을 크게 줄인다. (i) 현재 라벨된 집합 L에 대해 경량 로지스틱 회귀 프록시(P)를 학습하고, 풀 전체에 대해 프록시 엔트로피를 계산한다. (ii) 상위 α·|U| (α=0.05) 비율, 최소 200, 최대 2000개의 샘플을 후보로 선정한다. 이 후보에 대해 TabPFN 엔트로피를 다시 계산하고, 상위 3B개의 샘플을 선택해 k‑means(B)로 최종 배치를 만든다. 프록시 단계는 O(|U|·d) 수준으로 빠르며, TabPFN 호출 횟수를 약 1/α 배 감소시킨다. 4. **실험 설계** - **데이터**: OpenML·UCI에서 20개의 이진·다중 클래스 탭형 데이터셋을 선정했으며, 10,000개 이상 샘플을 가진 데이터는 균등하게 10,000개로 서브샘플링했다. - **프로토콜**: 70/30 비율로 훈련 풀과 테스트 셋을 stratified split하고, 초기 라벨 L₀는 각 클래스당 무작위 1개씩 선택한다. 배치 크기 B는 5,10,15,20을 시험했으며, 라벨링 예산은 100까지 진행한다. - **평가 지표**: 라벨 수 nₜ에 대한 테스트 Cohen’s κ를 yₜ라 하고, 정규화된 AULC(AULC_norm)를 0~Nₘₐₓ 구간에 대해 평균 κ 형태로 계산한다. 또한 최종 κ와 ROC‑AUC(다중 클래스는 macro‑averaged one‑vs‑rest)도 보고한다. - **베이스라인**: (1) CatBoost‑Margin, (2) XGBoost‑Margin: 매 라운드마다 현재 라벨 집합으로 모델을 처음부터 재학습하고 마진 기반 불확실성으로 샘플을 선택한다. 하이퍼파라미터는 n_estimators=2000, learning_rate=0.05, max_depth=6 등 저라벨 상황에서도 안정적인 값으로 고정했다. (3) TabPFN‑Random: TabPFN을 사용하되 무작위 샘플링. (4) Label‑Spreading + Random: 반지도 학습 기반 비교. 5. **결과** - 전체 20개 데이터셋 중 15개에서 Tab‑AICL(어느 하나의 획득 규칙)들이 가장 높은 AULC_norm을 기록했다. 특히 TabPFN‑Hybrid와 TabPFN‑Proxy‑Hybrid가 다양한 데이터에서 일관된 이점을 보였다. - 재학습 기반 GBDT(특히 CatBoost‑Margin)는 2개 데이터(KC1, Ilpd)에서 여전히 최고 성능을 유지했으며, 이는 트리 모델이 특정 구조(예: 고차원 이산 특성)에 강점을 가질 수 있음을 시사한다. - 무작위 TabPFN‑Random은 Glass, Bank‑Marketing, Tic‑Tac‑Toe와 같이 노이즈가 많거나 클래스 불균형이 심한 데이터에서 활성 규칙보다 못하지 않은 성능을 보여, 불확실성 기반 규칙이 때때로 오히려 잡음에 민감할 수 있음을 강조한다. - 통계 검증(윌콕슨 부호 순위 검정 + BH 보정) 결과, TabPFN‑Hybrid는 가장 강력한 재학습 GBDT(CatBoost‑Margin)보다 8/20 데이터셋에서 유의미하게 우수했다. - 연산 측면에서 Proxy‑Hybrid는 전체 풀에 대해 TabPFN을 직접 호출하지 않아도 비슷한 AULC를 달성하면서, 평균 20배 이상의 속도 향상을 기록했다. 이는 실제 라벨링 비용이 높은 산업 현장에서 실용적인 적용 가능성을 높인다. 6. **논의 및 한계** - TabPFN은 사전 학습된 대규모 트랜스포머이므로 메모리와 추론 비용이 상대적으로 높다. 그러나 인‑컨텍스트 학습 특성 덕분에 라벨이 거의 없는 상황에서도 캘리브레이션된 확률을 제공한다는 점이 큰 장점이다. - 현재는 배치 기반 선택에 초점을 맞췄으며, 순차적(한 샘플씩) 선택이나 보다 복잡한 배치 최적화(예: Bayesian batch acquisition)와의 비교는 향후 연구 과제이다. - 프록시 모델을 로지스틱 회귀 외에 더 강력한 선형/비선형 모델(예: LightGBM, SVM)으로 교체하면 후보 선정 품질이 개선될 가능성이 있다. - TabPFN 자체가 합성 데이터로 사전 학습되었기 때문에, 실제 도메인 특화 데이터(예: 의료 기록, 금융 거래)에서의 일반화 성능을 추가 실험을 통해 검증할 필요가 있다. **결론** Tab‑AICL은 파라미터 재학습 없이 라벨 컨텍스트만을 확장하는 새로운 액티브 러닝 패러다임을 제시한다. 네 가지 획득 전략 중 특히 하이브리드와 프록시‑하이브리드가 다양한 탭형 데이터에서 냉시작 단계의 라벨 효율성을 크게 향상시켰으며, 재학습 기반 GBDT 대비 전반적으로 우수한 성능을 보였다. 또한 프록시‑하이브리드 설계는 대규모 풀에서도 실용적인 연산 비용을 유지하게 하여, 실제 라벨링 비용이 높은 산업 현장에 적용 가능한 솔루션으로 기대된다. 향후 연구에서는 더 정교한 배치 최적화, 다양한 프록시 모델 탐색, 그리고 도메인 특화 사전 학습을 통한 성능 향상을 모색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기