빛의 원뿔로 보는 시각 계층 구조
초록
본 논문은 객체를 독립적인 점이 아니라 시공간 상의 연속적인 세계선으로 모델링하는 Worldline Slot Attention을 제안한다. 객체마다 동일한 공간 위치를 공유하지만 서로 다른 시간 좌표에 배치된 다중 슬롯을 통해 부분‑전체 관계를 인코딩한다. 실험 결과, 유클리드 세계선은 0.078 수준 정확도에 머물러 무작위보다 못했지만, 로렌츠 세계선은 0.48~0.66의 수준 정확도를 달성해 6배 이상의 향상을 보였다. 이는 비대칭적 인과관계를 표현하는 로렌츠 기하가 시각적 계층 구조 학습에 필수적임을 증명한다.
상세 분석
이 연구는 기존 객체 중심 학습이 “객체를 독립적인 점”으로 취급해 부분‑전체 관계를 구분하지 못한다는 근본적인 한계를 지적한다. 이를 해결하기 위해 저자들은 (d+1) 차원의 로렌츠 시공간에 슬롯을 임베딩하고, 각 객체에 대해 동일한 공간 좌표 µ_i를 공유하면서 서로 다른 시간 좌표 t_j를 할당하는 세계선 바인딩(worldline binding) 방식을 도입한다. 이렇게 구성된 N개의 세계선은 각 객체가 여러 계층 레벨을 가로지르는 수직 궤적을 형성한다. 로렌츠 메트릭 ⟨x,y⟩L = x⁰y⁰−∑{i=1}^d x^i y^i는 시간 좌표에 양의 부호, 공간 좌표에 음의 부호를 부여해 ‘시간‑공간 비대칭’을 만든다. 이 비대칭은 빛 원뿔(light cone) 구조로 구현되며, 낮은 시간값(t 낮음)은 넓은 미래 원뿔을, 높은 시간값(t 높음)은 좁은 원뿔을 형성한다. 결과적으로 추상적인 슬롯(예: 전체 객체)은 많은 피처를 포괄하고, 구체적인 슬롯(예: 부품)은 제한된 피처만을 수신한다.
어텐션 메커니즘은 로렌츠 거리 |d_L|와 원뿔 멤버십 점수 cone(f,s,h)를 결합해 softmax 가중치를 계산한다. 여기서 cone 함수는 시간 차이 τ와 공간 거리 r을 이용해 원뿔 내부 여부를 정량화하고, 적응형 허리(h_j) 파라미터를 통해 데이터 밀도에 따라 원뿔 폭을 조절한다. 이렇게 설계된 어텐션은 기존 Slot Attention의 경쟁적 그룹화를 넘어, 계층적 의존성을 명시적으로 반영한다.
실험은 Toy Hierarchical, Sprites, CLEVR 세 가지 데이터셋에서 수행되었으며, 모두 객체‑부품‑서브부품의 3단계 계층을 갖는다. 동일한 네트워크 구조와 11K 파라미터를 사용했음에도 불구하고, 유클리드 세계선은 레벨 정확도 0.078에 머물러 무작위(0.33)보다 못했고, 로렌츠 세계선은 0.480.66을 기록했다. 통계적으로 p<0.0001 수준의 유의미한 차이를 보였으며, 20여 번의 독립 실행에서도 일관된 결과가 재현되었다. 하이퍼볼릭 Poincaré 세계선은 중간 성능(레벨 정확도 0.350.53)만을 보여, 비대칭적 인과 구조가 트리형 계층보다 시각적 파트‑전체 관계에 더 적합함을 시사한다.
또한, 객체 ARI(Adjusted Rand Index) 측면에서도 로렌츠 모델이 0.450.51로 하이퍼볼릭(0.150.20)보다 현저히 우수했으며, 유클리드 표준 슬롯(독립 슬롯)보다도 안정적인 성능을 보였다. 저자들은 이 결과를 통해 “기하학적 구조가 없으면 세계선 바인딩 자체가 의미를 상실한다”는 결론을 도출한다. 즉, 비대칭적 인과성을 제공하는 로렌츠 시공간이 없으면, 동일한 공간 좌표를 공유하는 슬롯들이 서로 구분되지 않아 학습이 붕괴한다.
제한점으로는 데이터가 밀도 기반 계층을 가정한다는 점, 고정된 3계층 깊이, 2D 포인트 클라우드 입력에 국한된 점을 들었다. 향후 자연 이미지와 가변 깊이 계층, 픽셀‑레벨 인코더와의 통합이 필요하다.
전반적으로 이 논문은 “기하학적 인과 구조와 아키텍처 설계는 불가분”이라는 새로운 설계 원칙을 제시하며, 객체 중심 학습에 로렌츠 기하를 도입함으로써 비대칭적 파트‑전체 관계를 효과적으로 학습할 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기