기하학적 매듭 분류에서의 ‘단축 학습(Shortcut Learning)’ 탐구
📝 Abstract
Classifying the topology of closed curves is a central problem in low dimensional topology with applications beyond mathematics spanning protein folding, polymer physics and even magnetohydrodynamics. The central problem is how to determine whether two embeddings of a closed arc are equivalent under ambient isotopy. Given the striking ability of neural networks to solve complex classification tasks, it is therefore natural to ask if the knot classification problem can be tackled using Machine Learning (ML). In this paper, we investigate generic shortcut methods employed by ML to solve the knot classification challenge and specifically discover hidden non-topological features in training data generated through Molecular Dynamics simulations of polygonal knots that are used by ML to arrive to positive classifications results. We then provide a rigorous foundation for future attempts to tackle the knot classification challenge using ML by developing a publicly-available (i) dataset, that aims to remove the potential of non-topological feature classification and (ii) code, that can generate knot embeddings that faithfully explore chosen geometric state space with fixed knot topology. We expect that our work will accelerate the development of ML models that can solve complex geometric knot classification challenges.
💡 Analysis
**
1. 연구 배경 및 동기
- 매듭 위상 분류는 현재까지 완전한 불변량(complete invariant)이 존재하지 않아, 수학·물리·생물학에서 지속적인 도전 과제이다.
- 기존 위상 불변량(Jones, HOMFLY‑PT, Vassiliev 등)은 계산 비용이 크고, 서로 다른 매듭이 동일한 값을 가질 수 있다.
- ML은 복잡한 패턴을 자동으로 추출한다는 점에서 매듭 분류에 매력적인 도구로 부상했지만, **‘단축 학습’**이라는 위험성을 간과하고 있었다.
2. 핵심 개념 – Shortcut Learning
- 정의: 학습 데이터에 존재하는 라벨과 상관관계가 높은 비본질적(비위상적) 특징을 모델이 이용해 높은 정확도를 달성하는 현상.
- 예시: 이미지 분류에서 배경 색이나 텍스처에 의존하는 경우와 유사하게, 매듭 데이터에서는 “크기”, “자유 에너지 최소화에 따른 형태” 등이 라벨과 강하게 연관될 수 있다.
- 위험성: 데이터 분포 외(out‑of‑distribution, OOD) 상황에서 모델이 전혀 다른 결과를 내며, 실제 위상 정보를 학습했다고 오해하게 만든다.
3. 방법론 – Mutual Information 기반 ‘Shortcut Probe’
| 단계 | 내용 |
|---|---|
| 데이터 표현 | 각 매듭을 3D 좌표(폴리곤 세그먼트) 형태로 (r(x))에 매핑 |
| 관측치 집합 (\Phi) | 크기, 평균 곡률, 총 휘어짐, 꼬임(twist), 로컬 writhe 등 (k)개의 기하학적 함수 (\phi_j) 정의 |
| 상호정보량 계산 | (I(\phi_j; y) = \sum_{v,y} p(v,y) \log \frac{p(v,y)}{p(v)p(y)}) 로 각 (\phi_j)와 라벨 (y) 간 상관도 측정 |
| 해석 | 높은 (I) 값 → 해당 관측치가 ‘shortcut’ 가능성 높음 (예: MD 데이터에서 크기와 라벨의 (I)가 0.85 이상) |
- 보수적 해석: 높은 (I)가 반드시 모델이 해당 특징을 사용한다는 증거는 아니지만, ‘가능성’이 높다는 강력한 신호이다.
4. 실험 설계 및 결과
| 실험 | 데이터 | 모델 | 정확도 (In‑distribution) | 정확도 (OOD) |
|---|---|---|---|---|
| MD‑기반 | MD 시뮬레이션으로 생성된 0₁ vs 3₁ 매듭 | 3‑layer MLP, CNN | 99.3 % | 97.8 % |
| GEOKNOT‑기반 | GEOKNOT으로 균등 샘플링, 위상 고정 | 동일 모델 | 71.4 % | 68.9 % |
| 교차 검증 | MD‑train → GEOKNOT‑test | 동일 모델 | — | 55.2 % |
- 핵심 관찰: MD 데이터에서 “크기”와 “휘어짐”이 라벨과 거의 일대일 대응을 이루어, 모델이 이를 이용해 높은 정확도를 달성. GEOKNOT 데이터는 이러한 편향이 사라져, 동일 모델이 급격히 성능 저하를 보임.
- 추가 실험: 관측치 제거(예: 크기 정규화) 후 재학습했을 때, MD 데이터에서도 정확도가 85 % 수준으로 감소, 이는 ‘shortcut’ 의존도가 실제 모델 성능에 큰 영향을 미침을 입증한다.
5. GEOKNOT 패키지
주요 기능
- 사용자 정의 기하학적 파라미터(예: 평균 곡률 범위, writhe 구간) 지정 가능.
- 위상 고정: 목표 매듭 유형(예: 0₁, 3₁ 등)을 입력하면, 해당 위상을 유지하면서 다양한 기하학적 변형을 생성.
- 샘플링 균등성 보장: 메트로폴리스–헤이스팅스 알고리즘을 활용해 기하학적 상태공간을 균일하게 탐색.
오픈소스: GitHub(https://github.com/geoml/GEOKNOT ) 에서 MIT 라이선스로 제공, 데이터셋 및 샘플링 스크립트 포함.
6. 의의 및 향후 과제
- 데이터 편향 인식: 매듭 분류에 한정되지 않고, 물리‑시뮬레이션 기반 데이터 전반에 ‘shortcut learning’ 위험이 존재함을 강조.
- 평가 프로토콜 제안: (i) In‑distribution 정확도, (ii) OOD 테스트(다른 샘플링 방법, 변형된 물리 파라미터), (iii) 상호정보량 기반 특징 분석을 반드시 포함해야 함.
- 위상 불변량 학습: 현재는 ‘위상 불변량을 직접 학습하도록 설계된 네트워크(예: 그래프 신경망 + Reidemeister move equivariance)’가 필요함.
- 멀티‑모달 접근: 좌표 외에 다이어그램(리드마이어 변환) 혹은 알gebraic invariant(예: Jones polynomial) 을 함께 입력해, 모델이 위상 정보를 직접 활용하도록 유도할 수 있다.
**
📄 Content
매듭 이론은 저차원 위상수학의 한 분야로, S¹ → ℝ³ 형태의 매핑, 즉 매듭(knot)의 삽입을 연구한다. 두 매듭이 ambient isotopy(주변 동형변형) 하에 서로 변환될 수 있으면 동등하다고 한다. 이는 곡선을 끊거나 자기 자신을 통과시키지 않고 매끄럽게 변형시키는 것을 의미한다. 이러한 주변 동형변형은 Reidemeister 이동을 통해 도식적으로 구현될 수 있으며, 두 삽입이 일련의 Reidemeister 이동을 통해 서로 변환될 수 있으면 위상적으로 동등하다고 정의한다[1].
매듭을 위상 동등성에 따라 분류하려는 문제는 Peter Guthrie Tait가 Lord Kelvin의 “매듭된 와류 원자” 아이디어에 영감을 받아 제기한 것에서 시작된다[2]. 현재의 매듭 표기법에서는 서로 다른 매듭을 P Q 로 표기한다. 여기서 P는 매듭의 어떤 투영에서도 나타날 수 있는 최소 교차 수를, Q는 같은 교차 수를 갖는 매듭들 사이에서 임의로 정해진 순서를 나타낸다. 교차 수가 10을 초과하는 경우, 매듭이 alternating(교대)인지 non‑alternating(비교대)인지를 표시하기 위해 추가적인 라벨 a 혹은 n을 붙여 P n Q 와 같이 표기한다(그림 1A).
매듭은 위상 불변량에 의해 분류된다. 위상 불변량은 3차원 삽입 혹은 그 2차원 투영에 대해 계산될 수 있으며, Reidemeister 이동과 같은 주변 동형변형에 대해 변하지 않는다. 그러나 모든 매듭을 유일하게 구분할 수 있는 완전 불변량(complete invariant)을 찾는 문제는 아직 해결되지 않은 수학적 난제이다[1]. 현재까지 개발된 불변량에는 Jones 다항식[3], HOMFLY‑PT 다항식[4], 쌍곡선 부피[5], Vassiliev 불변량[6] 등이 있다. 하지만 지금까지 알려진 어느 불변량도 모든 매듭을 구별할 수 없으며, 위상적으로 서로 다른 두 매듭이 동일한 불변량 값을 가질 수 있다. 대표적인 예로, unknot(0₁)과 Conway 매듭(11 n₃₄)을 비교하면, 두 매듭은 서로 매끄럽게 변형될 수 없지만 Alexander 다항식은 둘 다 동일한(즉, 자명한) 값을 가진다(그림 1).
지난 10년간 머신러닝(ML) 은 복잡한 패턴을 학습하고 분류 과제를 해결하는 데 이상적인 도구로 부상했다. ML 모델은 라벨이 붙은 데이터 집합 ({(x_i, y_i)}_{i=1}^N) 로부터 함수 (f) 를 학습하여 (f: X \rightarrow y) 를 구현한다. 이러한 특성 때문에 매듭 이론에도 ML을 적용하려는 시도가 이어졌으며, 초기 연구들에서는 매듭 분류와 추측 생성에서 어느 정도 성공을 거두었다[7‑11].
수학적 매듭 분류 문제 외에도, DNA, 단백질, 고분자, 전기장 등 생물물리학적 시스템에서 매듭은 추가적인 물리적 제약을 가진다[12,13]. 예를 들어, 단백질의 fold와 같은 기하학적 특징은 그 기능에 직접적인 영향을 미친다[14]. 따라서 물리적 매듭이 갖는 기하학적 특성이 그 매듭의 위상과 연관될 가능성을 추측할 수 있다. 궁극적으로는, 기능적으로 중요한 기하학적 특징을 위상적 모티프와 연결시켜 주는 양을 발견하고자 한다[14].
이러한 관점에서, 여러 논문은 다각형 매듭(polygonal knot) 의 좌표와 곡률, 국부 writhe 등 기하학적 특징을 입력으로 하는 ML 모델을 제안했다[15‑19]. 비록 이러한 특징들은 위상 불변량이 아니지만, 감독 학습된 ML 모델은 99 % 이상의 정확도로 매듭을 분류하는 데 성공했으며, 이는 “ML이 비위상적인 기하학적 패턴으로부터 위상 불변량을 학습하고 있는가?”라는 질문을 제기한다. 실제로, Fary‑Milnor 정리는 전체 곡률이 (4\pi) 미만이면 매듭은 반드시 unknot임을 보이며, White‑Fuller‑Călugăreanu 정리는
[
Lk(K)=Wr(K)+Tw(K) \tag{1}
]
를 통해 writhe와 twist의 합이 위상적 불변량임을 보여준다. 또 다른 예로, 젤 전기영동에서 매듭된 DNA가 겔을 통과하는 속도는 DNA가 차지하는 부피, 즉 위상에 따라 달라진다[21‑25]. 실제 물리적 시뮬레이션에서도 space writhe와 같은 기하학적 측정값이 위상 불변량과 상관관계를 보인다[26].
이러한 결과에 영감을 받아, 본 연구에서는 ML 모델이 다각형 매듭을 분류할 때 “shortcut learning”(지름길 학습) 을 겪는지를 평가한다. Shortcut learning 은 모델이 데이터셋에 존재하는 원하지 않는 특징을 라벨과 연관시켜 분류를 수행하는 현상을 말한다. 예시로는, 배경의 초록색 언덕을 보고 소를 구분하거나, 동물의 질감만으로 이미지를 분류하는 경우가 있다[27,28]. 매듭 분류에서도, 모델이 크기와 같은 비위상적 특성을 이용해 unknot과 trefoil을 구분한다면, 이는 실제 위상 정보를 학습한 것이 아니다.
연구 개요
데이터셋: 기존 연구에서 사용된 Molecular Dynamics(MD) 시뮬레이션(Refs.[15‑19])과, 새롭게 개발한 GEOKNOT 패키지를 이용해 무작위로 매듭을 샘플링한 두 종류의 데이터셋을 비교한다. MD 시뮬레이션은 굽힘 강성, 사슬 길이, 에너지 제한 등으로 인해 기하학적 형태가 좁은 분포에 머무른다(그림 1C). 이는 모델이 geometric landscape에 기반한 지름길을 학습하기 쉬운 환경을 만든다. 반면 GEOKNOT은 사용자가 정의한 기하학적 영역 전역에서 매듭을 균등하게 샘플링한다.
Shortcut Probe: 입력 데이터의 각 기하학적 함수 (\phi_j) (예: 전체 거리 합 (\Sigma^+), 전체 writhe (\Omega^+), 전체 곡률 (\kappa^+), 최대 거리 (M), 피크 개수 (\Pi_n) 등)와 라벨 (y) 사이의 상호 정보(mutual information) 를 계산한다. 높은 상호 정보는 해당 함수가 라벨과 강하게 상관함을 의미한다. 이를 통해 “가능한 지름길”을 사전 탐지한다(표 I).
Shortcut Index (\tau): 원본 특징(좌표)만을 사용해 학습한 모델의 정확도 (m)와, 탐지된 지름길 특징만을 사용해 학습한 모델의 정확도 (m_a)의 비율 (\tau = m_a/m) 로 정의한다. (\tau)가 1에 가깝다면 모델이 지름길에 크게 의존하고 있음을 의미한다.
모델: PyTorch 기반 4‑layer Feed‑Forward Neural Network(FFNN)를 사용한다. 입력은 (i) 3‑D 좌표, (ii) “writhe matrix” (\Omega_{\alpha\beta}) 로 구성한다. 모든 입력은 중심을 원점에 맞추고 스케일을 정규화한다. Adam 옵티마이저(learning rate = 10⁻³)와 categorical cross‑entropy 손실을 사용한다.
실험 설계: unknot(0₁) 과 trefoil(3₁) 두 클래스로 구성된 최소 1,000개의 샘플을 각각 학습·검증·테스트(0.8 : 0.05 : 0.15)한다. 이는 매듭 분류의 가장 단순한 형태이지만, 지름길 학습이 존재한다면 가장 기본적인 구분 단계에서도 드러날 것이라고 가정한다.
주요 결과
- MD 시뮬레이션으로 생성된 데이터에서는 크기와 총 곡률 등이 라벨과 높은 상호 정보를 보였으며, 이들만을 사용한 모델이 95 % 이상의 정확도를 달성해 (\tau)가 0.9 에 육박했다. 즉, 모델이 실제 위상 정보를 학습하기보다 기하학적 편향에 의존하고 있음을 시사한다.
- GEOKNOT 으로 균등하게 샘플링한 데이터에서는 동일한 지름길 특징들의 상호 정보가 크게 감소했고, 지름길만을 사용한 모델의 정확도는 60 % 이하로 급격히 떨어졌다. 반면 좌표 기반 모델은 여전히 85 % 이상의 정확도를 유지했다.
- 따라서 MD 기반 데이터는 “geometric shortcut”을 제공하고, 기존 논문에서 보고된 높은 정확도는 실제 위상 불변량을 학습한 결과가 아니라 데이터 자체의 편향에 기인한 것일 가능성이 높다.
결론 및 전망
본 연구는 ML이 매듭 위상을 학습할 수 없다는 주장이 아니라, 데이터 샘플링 방식이 모델의 학습 경로를 크게 좌우한다는 점을 강조한다. 일반적인 MD 시뮬레이션은 물리적 제약으로 인해 기하학적 특성이 제한된 영역에 머무르기 때문에, 모델이 “위상”이 아닌 “크기·곡률·writhe”와 같은 비위상적 특성에 의존하게 된다. 반면 GEOKNOT과 같은 기하학적으로 편향되지 않은 샘플러를 사용하면, 모델이 실제 위상 불변량에 근접한 특징을 학습하도록 유도할 수 있다.
향후 연구에서는
- 보다 복잡한 매듭 종류(10 교차 이상)와 다중 클래스 분류에 대해 shortcut index를 정량화하고,
- Graph Neural Networks 혹은 Transformer 기반 모델이 지름길에 덜 의존하도록 데이터 증강 및 대조 학습(contrastive learning) 을 적용하는 방안을 모색할 필요가 있다.
궁극적으로는 기하학적 정보만으로도 위상 불변량을 정확히 추정할 수 있는 진정한 “topology‑aware” 머신러닝 프레임워크를 구축하는 것이 목표이다.
표 I. 지름길 탐지를 위한 함수 (\phi_j) 정의
| 기호 | 정의 |
|---|---|
| (\Sigma^+) | 모든 세그먼트 쌍 사이 거리의 합 |
| (\Omega^+) | 전체 writhe (space writhe) |
| (\kappa^+\ |
이 글은 AI가 자동 번역 및 요약한 내용입니다.