GPU 가속 물리 기반 심볼릭 회귀 프레임워크 DISCOVER

GPU 가속 물리 기반 심볼릭 회귀 프레임워크 DISCOVER
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DISCOVER는 물리적 제약을 명시적으로 적용하고, Python 워크플로와 원활히 통합되며, 선택적으로 GPU 가속을 활용해 대규모 데이터셋에서도 효율적인 심볼릭 회귀를 수행하도록 설계된 오픈소스 패키지이다. 사용자는 연산자, 피처 조합, 차원 일관성 등을 설정 파일로 제어할 수 있어 물리적으로 의미 있는 저차원 디스크립터를 빠르게 탐색한다.

상세 분석

DISCOVER는 기존 SISSO와 같은 압축 센싱 기반 방법이 제공하지 못한 미세한 검색 공간 제어와 현대 하드웨어 가속을 핵심 설계 목표로 삼았다. 먼저 사용자는 YAML 혹은 JSON 형식의 설정 파일을 통해 허용 연산자(덧셈, 곱셈, 로그, 지수 등), 피처 조합 규칙, 최대 표현식 복잡도, 차원 일관성 검증 등을 선언한다. 이러한 물리‑인포드 제약은 후보식 생성 단계에서 즉시 적용돼 차원 오류나 물리적으로 불가능한 형태를 사전에 차단함으로써 탐색 공간을 실질적으로 수십 배 축소한다.

검색 엔진은 OMP, MIQP, 시뮬레이티드 어닐링 등 여러 희소화 전략을 플러그인 형태로 제공한다. OMP는 빠른 그리디 선택을 통해 초기 후보를 만들고, MIQP는 정수계획법을 이용해 전역 최적에 근접한 해를 찾으며, 시뮬레이티드 어닐링은 비선형 연산자 조합을 탐색한다. 각 전략은 동일한 L0‑정규화 최소제곱 목표식(‖y‑Φβ‖², ‖β‖₀≤D)을 근사하도록 설계돼, 사용자는 데이터 특성과 계산 자원에 맞춰 전략을 전환할 수 있다.

GPU 가속은 주로 피처 생성과 모델 평가 단계에서 활용된다. CUDA 기반 커널은 대규모 행렬‑벡터 연산을 병렬화하고, Apple Silicon 환경에서는 Metal Performance Shaders를 사용한다. CPU‑GPU 전환은 자동으로 수행되며, 작은 데이터셋에서는 오버헤드가 최소화된다. 실험 결과에 따르면 동일한 피처 풀에서 GPU 사용 시 전체 실행 시간이 3~7배 단축되었다.

또한 DISCOVER는 pint 라이브러리와 연동해 단위 정보를 추적한다. 후보식이 생성될 때마다 각 연산자의 차원을 계산하고, 차원 불일치가 감지되면 해당 식을 즉시 폐기한다. 이는 물리적 일관성을 보장할 뿐 아니라, 차원 검증 비용이 낮아 전체 탐색 효율을 높인다.

제한점으로는 입력 피처의 품질에 크게 의존한다는 점과, 매우 넓은 피처 풀(수십만 이상)에서는 여전히 메모리와 시간 제약이 존재한다는 점을 언급한다. 현재 구현은 완전 무제한 탐색보다는 물리적 제약이 충분히 정의된 상황에서 최적화된 성능을 발휘한다. 향후 개발 로드맵에는 연산자 라이브러리 확장, 자동 차원 추론, 분산 GPU 클러스터 지원 등이 포함된다.


댓글 및 학술 토론

Loading comments...

의견 남기기