분기 흐름 생성 모델링: 가변 길이 시퀀스를 위한 분할과 삭제 메커니즘

분기 흐름 생성 모델링: 가변 길이 시퀀스를 위한 분할과 삭제 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

기존 확산 및 흐름 매칭 모델은 상태의 요소 수가 고정되어야 한다는 한계가 있습니다. 본 연구는 ‘분기 흐름(Branching Flows)‘이라는 새로운 생성 모델링 프레임워크를 제안합니다. 이 방법은 이진 트리의 숲 위에서 요소가 분기하고 사라지는 확률적 과정을 학습함으로써, 생성 과정에서 시퀀스의 요소 개수를 자연스럽게 제어할 수 있습니다. 이산, 연속, 다양체 상태 공간 및 이들의 조합에 적용 가능하며, 소분자, 항체 서열, 단백질 구조 생성 등에서 그 성능을 입증했습니다.

상세 분석

본 논문이 제안하는 분기 흐름(Branching Flows)의 핵심 기술적 통찰은 생성 모델링의 ‘조건부 경로’ 구성을 ‘트리 구조’와 결합했다는 점입니다. 기존 Generator Matching은 간단한 분포(p)에서 데이터 분포(q)로의 조건부 전송 과정을 정의하고, 이 과정의 생성기(generator)를 학습시켜 최종적으로 주변 분포를 생성하는 모델을 얻습니다. 분기 흐름은 이 프레임워크 안에서, 각 데이터 샘플(x1)과 초기 샘플(x0)을 연결하는 이진 트리 숲(T)과 내부 앵커(A)를 조건 변수(Z)로 포함시킵니다.

조건부 경로에서 각 요소는 자신이 속한 트리의 가지를 따라 독립적으로 진화(‘기반 생성기’에 의해)하면서, 미리 정의된 트리 구조에 따라 정해진 시점에 분할(split) 또는 삭제(deletion) 이벤트를 겪습니다. 분할 강도는 ‘분할 위험 분포(H_split)‘와 해당 노드가 가져야 할 남은 분할 횟수에 비례하며, 삭제 강도는 ‘삭제 위험 분포(H_del)‘를 따릅니다. 이 위험 분포들은 시간 t=1에 가까워질수록 강도가 무한대로 발산하도록 설계되어, 조건부 경로가 반드시 목표 데이터 샘플에서 종료되도록 보장합니다.

이 구조의 강력한 장점은 ‘기반 생성기’가 이산(토큰), 연속(유클리드), 다양체(SO(3)) 등 어떤 공간에 정의되어 있든 관계없이 동일한 분기/삭제 메커니즘 위에 탑재될 수 있다는 ‘구성 가능성(Composability)‘에 있습니다. 이를 통해 단백질 백본 생성과 같이 원자 좌표(연속), 회전(다양체), 아미노산 종류(이산)가 혼합된 ‘다중 모달’ 문제에도 통일된 프레임워크로 접근할 수 있게 되었습니다. 또한, 트리 구조를 유연하게 설계함으로써 생성 경로의 행동(예: 분기의 계층적 패턴)을 제어할 수 있는 새로운 가능성을 열었습니다.


댓글 및 학술 토론

Loading comments...

의견 남기기