클리크포머 구조화된 트랜스포머를 이용한 모델 기반 최적화

클리크포머 구조화된 트랜스포머를 이용한 모델 기반 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

클리크포머는 함수의 구조를 기능 그래프(FGM) 형태로 학습하고, 변분 정보 병목(VIB)을 통해 클리크별 표현을 넓게 커버하도록 설계된 트랜스포머 기반 모델이다. 이를 통해 오프라인 모델 기반 최적화(MBO)에서 발생하는 분포 이동 문제를 완화하고, 화학·유전 설계 등 다양한 도메인에서 기존 방법보다 우수한 성능을 보인다.

상세 분석

본 논문은 모델 기반 최적화(MBO)에서 가장 큰 장애물인 ‘분포 이동(distribution shift)’을 구조적 정보를 활용해 근본적으로 해결하고자 한다. 기존 MBO는 서브시퀀스(offline) 데이터만을 이용해 블랙박스 함수를 근사하고, 그 근사 모델을 최대화하는 방식으로 후보를 생성한다. 그러나 데이터가 차지하는 설계 공간이 제한적이면 최적화 과정에서 모델이 학습되지 않은 영역으로 탈선하게 되고, 과대평가된 점수의 후보가 다량 생성된다. 이를 방지하기 위해 보수적 정규화(Conservative Objective Models)나 강화학습 기반 제약을 도입했지만, 이는 설계 탐색의 자유도를 크게 억제한다.

클리크포머는 이러한 한계를 ‘함수 그래픽 모델(FGM)’이라는 이론적 도구를 통해 극복한다. FGM은 함수가 변수 집합을 클리크(완전 부분 그래프) 단위로 독립적으로 분해할 수 있음을 의미한다. 즉, 전체 고차원 함수 f(x) 를 f(x)=∑_{C∈𝒞} f_C(x_C) 로 표현함으로써 각 클리크에 대한 학습 난이도를 크게 낮춘다. 논문은 정리 1을 인용해, 클리크별 데이터 커버리지가 충분하면 전체 설계 공간을 완전히 탐색할 필요가 없으며, 이는 MBO의 이론적 regret bound 를 크게 개선한다는 점을 보인다.

핵심 기술은 두 가지 설계 목표(Desideratum)이다. 첫째, 사전에 정의한 클리크 구조에 맞춰 입력을 변환하고, 각 클리크를 독립적인 MLP(또는 트랜스포머 블록)로 처리한 뒤 평균을 취한다. 이를 위해 클리크 수(N_clique), 차원(d_clique), 그리고 인접 클리크 간 겹치는 차원(d_knot)을 하이퍼파라미터로 지정한다. 둘째, 각 클리크의 잠재 표현이 넓은 분포를 갖도록 변분 정보 병목(VIB)을 적용한다. 기존 VIB는 전체 잠재 변수를 정규분포에 맞추지만, 클리크가 겹치는 구조에서는 특정 차원이 과도하게 압축될 위험이 있다. 따라서 논문은 매 학습 스텝마다 무작위로 하나의 클리크를 선택해 KL 다이버전스를 최소화함으로써, 모든 클리크가 균등하게 정규분포에 근접하도록 유도한다.

이러한 설계는 두 가지 중요한 장점을 제공한다. 첫째, 클리크 단위로 독립적인 학습이 가능해 고차원 입력에서도 효율적인 파라미터 공유와 스케일링이 이루어진다. 트랜스포머 백본을 사용함으로써 시퀀스 길이와 차원에 대한 선형 혹은 로그 복잡도를 유지한다. 둘째, VIB 기반 클리크 분포 정규화는 설계 후보가 원본 데이터 분포에서 크게 벗어나지 않도록 자연스럽게 제약을 가한다. 이는 보수적 정규화와 달리 설계 탐색의 자유도를 유지하면서도 과대평가 위험을 감소시킨다.

실험에서는 (1) 인공적인 고차원 RBF 함수와 삼각형 형태의 FGM을 이용한 합성 데이터, (2) 실제 화학 분자 설계(히드라진 유도체)와 (3) DNA 서열 설계 두 가지 실세계 도메인을 선택했다. 모든 실험에서 클리크 정보를 명시적으로 제공한 경우와, 클리크 정보를 숨긴 상태에서 클리크 구조를 잠재 공간에 강제한 경우를 비교하였다. 결과는 FGM을 활용한 모델이 동일 파라미터 수의 일반 MLP/Transformer 대비 MSE 손실이 현저히 낮고, 최적화 단계에서 얻는 목표 함수 값이 평균 15~30% 이상 향상됨을 보여준다. 특히, 클리크 정보를 숨긴 경우에도 클리크 구조를 잠재 공간에 강제함으로써 보수적 방법보다 더 높은 설계 품질을 달성했다.

이 논문은 또한 정리 2를 통해 ‘FGM은 입력 재파라미터화에 따라 달라지는 속성’임을 증명한다. 즉, 데이터만으로는 고정된 그래프 구조를 추정하기 어렵고, 원하는 그래프 구조를 먼저 정의하고 그에 맞는 입력 변환을 학습하는 것이 실용적이라는 전략적 통찰을 제공한다. 이는 기존 그래프 구조 학습 방법과 차별화되는 중요한 이론적 기여이다.

종합하면, 클리크포머는 (1) 함수 구조를 클리크 단위로 명시적으로 모델링, (2) 변분 정보 병목을 활용한 클리크 분포 정규화, (3) 트랜스포머 기반의 고효율 스케일링이라는 세 축을 결합해, 오프라인 MBO에서 발생하는 분포 이동 문제를 효과적으로 완화하고, 다양한 설계 문제에 적용 가능한 범용 프레임워크를 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기