순차적 랜덤 추가를 통한 고차 상호작용 탐지와 L‑스코어 기법
초록
본 논문은 특징을 무작위 순서로 순차적으로 모델에 추가하면서 각 단계에서의 성능 향상을 기록하고, 두 특징 간의 기여도를 2차원 점군으로 시각화한다. L‑형태의 점군은 중복(첫 번째만 기여), 시너지(두 번째만 기여), 독립(순서 무관) 관계를 직관적으로 드러낸다. 이를 정량화한 L‑score는 –1(완전 시너지)부터 +1(완전 중복)까지 연속적인 값을 제공하며, 점군의 ‘가늘음’과 ‘수평성’ 지표를 결합해 계산한다. 실험에서는 합성 데이터와 변형된 다중선형/비선형 관계를 이용해 L‑score가 기존 상호작용 지표(SHAP, Sobol, 상관계수 등)보다 중복·시너지 모두를 하나의 척도로 구분함을 보였다.
상세 분석
이 연구는 기존 특성 상호작용 탐지 방법이 시너지와 중복을 별도 지표로 다루는 한계를 지적하고, 두 현상을 동일한 기하학적 프레임워크 안에 통합한다는 점에서 혁신적이다. 핵심 아이디어는 “특징을 무작위 순서로 추가하고, 각 추가 단계에서 모델의 평균제곱오차(MSE) 감소량을 기록한다”는 것이다. 같은 두 특징 (X₁, X₂)에 대해, X₁이 먼저 추가된 경우와 X₂가 먼저 추가된 경우를 각각 빨간색·파란색 점군으로 구분하면,
- 중복: 첫 번째 추가된 특징이 거의 전체 성능 향상을 담당하고, 두 번째는 거의 기여하지 않는다. 점군은 각각 수평(첫 번째)·수직(두 번째)으로 뾰족한 L‑형태를 만든다.
- 시너지: 두 특징이 동시에 존재할 때만 의미 있는 성능 향상이 발생한다. 따라서 X₁이 먼저 추가된 경우 X₂의 기여가 크게 나타나고, 반대 경우에도 동일하게 나타나며, 두 점군이 서로 직교하는 L‑형태를 만든다.
- 독립: 순서에 관계없이 기여량이 고르게 분포하므로 점군이 원형 혹은 타원형으로 퍼져 순서 의존성이 사라진다.
이러한 시각적 패턴을 정량화하기 위해 L‑score를 정의한다. L‑score는 세 요소의 곱으로 구성된다.
- Skinnyness: 각 점군에 대해 주성분 분석(PCA)으로 첫 번째와 두 번째 고유값(λ₁, λ₂)의 비율을 사용한다. λ₁/λ₂가 클수록 점군이 가늘어(선형에 가까워) ‘L’ 형태에 가까워진다.
- Horizontalness: 점군의 주축 방향을 각도 θ로 변환하고, cos(2θ)로 매핑해 –1(수직)부터 +1(수평)까지 값을 얻는다.
- Orientation 차이: 두 점군의 horizontalness 차이를 제곱하여 부호가 시너지(음)인지 중복(양)인지를 결정한다.
수식적으로는
L_score = skinny_red × skinny_blue × (horiz_red – horiz_blue)²
이며, skinny와 horiz는 각각 위 정의에 따라 정규화된다.
계산 전략은 두 가지로 제시된다.
- 전수(permutation) 방식: n개의 특징에 대해 n! 모든 순열을 탐색해 완전한 점군을 만든다. 정확도는 최고지만 계산 복잡도가 팩토리얼이므로 실용적이지 않다.
- 경로 기반(샘플링) 방식: 무작위 순열을 k번 생성하고, 각 순열에서 순차적 기여량을 기록한다. k는 특징 수에 선형적으로 증가하므로 대규모 데이터에서도 적용 가능하다.
실험에서는 합성 데이터를 두 종류 설계했다.
- 시너지 데이터: Y = A·B, Y = A³·B, Y = sin(A·B) 등으로 두 특징이 곱셈 혹은 비선형 결합을 통해 목표를 만든 경우.
- 중복 데이터: Y = A, B = A², C = cos(πA), D = |A| 등으로 하나의 잠재 변수 A를 다양한 변환으로 복제한 경우.
각 데이터에 대해 L‑score는 시너지에서는 –0.9 수준, 중복에서는 +0.95 수준으로 명확히 구분되었다. 또한, dominance coefficient(점군 평균 기여량 차이)로 어느 특징이 주도적인지 파악할 수 있었다. 비교 실험에서는 Pearson 상관, Mutual Information, SHAP Interaction 등 기존 지표와 대비했을 때, L‑score는 시너지와 중복을 동시에 한 척도로 표현할 수 있어 해석이 간결하고 직관적이었다. 특히, 독립적인 특징들은 L‑score가 0에 가깝게 나타났으며, 상관계수와 MI는 무시할 수 없는 값들을 보였지만 실제 상호작용은 없었다는 점을 강조한다.
장점:
- 통합 척도: –1~+1 범위 하나로 시너지·중복·독립을 모두 표현.
- 시각적 직관성: L‑형태 점군을 통해 즉시 관계를 파악 가능.
- 메트릭 독립성: 성능 지표(MSE, 정확도, 로그우도 등)만 바꾸면 다양한 도메인에 적용 가능.
- 고차 상호작용 탐지: pairwise L‑score가 일관되면 삼중·다중 상호작용을 추론할 수 있다(예: AB, AC, BC 모두 시너지이면 ABC 전체도 시너지 가능).
제한점 및 향후 과제:
- 샘플링 효율성: 경로 기반 방식은 충분한 순열 샘플이 필요하며, 고차원(수백 특징)에서는 여전히 통계적 안정성이 문제될 수 있다.
- 비선형 기여 측정: 현재는 MSE 감소량을 사용했는데, 분류 문제에서는 로그우도, AUC 등 다른 지표로 확장 필요.
- 다중 상호작용 정량화: 현재는 pairwise L‑score를 통해 추론하지만, 직접적인 k‑way L‑score 정의가 없으며, 복합적인 상호작용을 정밀히 구분하려면 추가 연구가 요구된다.
- 노이즈 민감도: 작은 기여량 차이가 큰 L‑score 변동을 일으킬 수 있어, 신뢰구간 혹은 부트스트랩 기반 안정성 검증이 필요하다.
전반적으로 이 논문은 “특징 순차 추가 → 기여량 기록 → 기하학적 시각화 → L‑score 계산”이라는 파이프라인을 제시함으로써, 복잡한 시스템에서 상호작용 구조를 직관적이고 계산 효율적으로 파악할 수 있는 새로운 도구를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기