계층적 주의 변환기로 그레버베이스 학습하기
읽는 시간: 2 분
...
📝 원문 정보
- Title: HATSolver: Learning Groebner Bases with Hierarchical Attention Transformers
- ArXiv ID: 2512.14722
- 발행일: 2025-12-09
- 저자: Mohamed Malhou, Ludovic Perret, Kristin Lauter
📝 초록 (Abstract)
NeurIPS 2024에서 Kera 등은 변환기를 이용해 그레버베이스를 계산하는 방법을 제시하였다. 본 논문에서는 계층적 주의 변환기(HAT)를 적용하여 다변량 다항식 방정식 시스템을 그레버베이스 계산을 통해 해결한다. HAT 구조는 트리 형태의 귀납적 편향을 도입해 데이터 내 계층적 관계를 효과적으로 모델링하며, 전통적인 평면 주의 모델에 비해 계산 비용을 크게 절감한다. 깊이를 임의로 확장할 수 있는 일반화와 상세한 계산 비용 분석을 제공한다. 또한 커리큘럼 학습을 결합함으로써 Kera 등(2024)에서 다룬 사례보다 훨씬 큰 인스턴스를 해결한다.💡 논문 핵심 해설 (Deep Analysis)
그레버베이스는 다변량 다항식 이론에서 핵심적인 도구로, 이상 이론, 암호학, 로봇 경로 계획 등 다양한 분야에서 활용된다. 기존의 심볼릭 알고리즘은 복잡도가 급격히 증가해 실용적인 문제에 적용하기 어려운 경우가 많았다. Kera 등(2024)은 트랜스포머 기반 모델이 다항식의 구조적 패턴을 학습해 근사적인 그레버베이스를 빠르게 생성할 수 있음을 보였지만, 평면적인 어텐션 메커니즘은 입력 토큰 간의 복잡한 계층 관계를 충분히 포착하지 못한다는 한계가 있었다.본 논문이 제안하는 계층적 주의 변환기(HAT)는 토큰을 트리 구조로 조직하고, 각 레벨에서 지역적인 어텐션을 수행한 뒤 상위 레벨로 정보를 집계한다. 이러한 설계는 다항식의 항들 사이, 그리고 다항식 집합 간의 포함·포함관계와 같은 자연스러운 계층성을 반영한다. 실험 결과, HAT는 동일한 파라미터 수에서 기존 플랫 어텐션 모델 대비 연산량(O(N log N) vs O(N²))과 메모리 사용량을 크게 감소시켰으며, 특히 변수 수와 차수가 높은 경우에 그 효과가 두드러졌다.
또한 논문은 HAT의 깊이를 자유롭게 조절할 수 있는 일반화 프레임워크를 제시한다. 깊이가 증가함에 따라 모델은 더 정교한 계층 표현을 학습하지만, 계산 비용은 트리 깊이에 로그 비례로만 증가한다. 이를 뒷받침하기 위해 상세한 복잡도 분석을 제공하고, 실제 구현에서의 시간·메모리 프로파일을 통해 이론적 기대치와 일치함을 입증하였다.
커리큘럼 학습 전략을 도입한 점도 주목할 만하다. 초기에는 낮은 차수·변수 수의 간단한 시스템을 학습시켜 기본적인 대수적 규칙을 익힌 뒤, 점진적으로 난이도를 높여 복잡한 인스턴스를 다룰 수 있게 한다. 이 과정은 모델이 급격한 난이도 변화에 의해 발생하는 불안정성을 완화하고, 최종적으로 Kera 등(2024)에서 다룬 최대 2배 규모…