이미지 CAD 프로그램 합성을 위한 기하학적 피드백 부트스트랩

** 본 논문은 이미지‑to‑CAD 프로그램 합성 분야에서 현재 모델들이 직면한 핵심 문제를 ‘시각 입력과 CAD 코드 사이의 정밀한 정합을 학습할 충분한 데이터 부족’으로 정의한다. 기존 연구들은 주로 Supervised Fine‑Tuning(SFT)이나 Reinforcement Learning(RL) 기반의 사후 학습에 의존했지만, 이들 방법은 (1) 제한된 라벨링 데이터, (2) 다대다 매핑을 하나의 정답 문자열에 강제하는 경직성, (3) CPU‑GPU 간 빈번한 통신으로 인한 높은 연산 비용이라는 세 가지 주요 제약을 안고 있다. 특히, CAD 코드가 동일한 기하학을 다양한 방식으로 표현할 수 있음에도 불구하고, 기존 데이터셋은 대부분 단일 정답만을 제공한다는 점이 모델의 일반화 능력을 크게 저해한다. 이를 해결하기 위해 저자들은 Geometric Inference Feedback Tuning(GIFT)이라는 새로운 데이터 증강 프레임워크를 제안한다. GIFT는 사전 학습된 이미지‑to‑CAD 모델을 이용해 테스트 시점에 다수의 후보 프로그램을 생성하고, OpenCASCADE와 같은 기하학적 검증 엔진을 통해 각 후보의 IoU 점수를 계산한다. 이때 얻어진 점수는 두 가지 임계값 τ_low = 0.5와 τ_valid = 0.9에 따라 세 그룹으로 분류된다. 1. **Soft‑Rejection Sampling (GIFT‑REJECT)** τ_valid 이상인 후보는 ‘고품질 대체 정답’으로 간주한다. 기존의 ‘정답 문자열 일치’ 기준을 완화함으로써, 동일한 기하학을 구현하는 다양한 코드 스타일을 학습 데이터에 포함시킨다. 이는 모델이 특정 구문에 과도하게 의존하는 현상을 방지하고, 코드 다양성을 자연스럽게 확대한다. 2. **Failure‑Driven Augmentation (GIFT‑FAIL)** τ_low와 τ_valid 사이에 위치한 ‘near‑miss’ 후보는 아직 완전한 기하학적 일치를 이루지 못했지만, 구조적으로 의미 있는 부분을 포함하고 있다. 이러한 후보를 실행해 얻은 3D 모델을 다시 이미지로 렌더링하고, 원본 이미지와 결합해 새로운 (이미지, 코드) 학습 쌍을 만든다. 즉, 모델이 스스로 만든 오류를 입력으로 재활용함으로써, 어려운 기하학적 패턴에 대한 학습을 강화한다. GIFT는 이러한 두 메커니즘을 반복적으로 적용해 원본 데이터셋을 크게 확장한다. 샘플링 단계에서는 다양한 온도와 샘플 수(N ∈ {8,16,32,64,128})를 조합해 탐색 폭을 조절한다. 낮은 온도·높은 샘플 수는 정밀도를, 높은 온도·낮은 샘플 수는 다양성을 강조한다. 모든 검증은 오프라인에서 수행되므로, 온라인 RL에서 발생하는 GPU‑CPU 병목을 피할 수 있다. **실험 및 결과** - **데이터**: GenCAD‑Code 데이터셋(160k 이미지‑코드 쌍)에서 훈련·검증·테스트를 수행. - **베이스라인**: CAD‑Coder‑SFT(기존 SFT 모델)와 최신 멀티모달 시스템을 비교 대상으로 설정. - **성능 지표**: 평균 IoU, Median IoU, Pass@k, 문제 해결 비율, 연산 비용(샘플 수 대비). 주요 결과는 다음과 같다. - GIFT‑REJECT만 적용했을 때 평균 IoU가 9 % 상승(0.695→0.758). - GIFT‑FAIL을 추가하면 전체 평균 IoU가 12 % 상승(0.695→0.778)하며, Median IoU도 0.846→0.905로 크게 개선. - 동일한 연산 예산(샘플 수)에서 GIFT는 SFT 대비 80 % 적은 샘플만으로도 동등하거나 높은 IoU를 달성, 즉 추론 비용을 크게 절감. - 토큰(프로그램) 길이가 증가할수록 성능 저하가 심한 SFT와 달리, GIFT는 완만한 저하를 보이며 복잡한 설계에서도 안정적인 결과를 제공. - 전체 문제 해결 비율은 SFT 대비 53 % 이상 향상(문제 해결 비율 31.4 %→53.8 %). **장점 및 한계** GIFT는 (1) 데이터 다양성을 자동으로 확보, (2) 모델이 어려운 케이스를 직접 경험하도록 설계, (3) 별도 인간 라벨링 없이 오프라인 검증만으로 학습 효율을 극대화한다는 점에서 큰 장점을 가진다. 반면, 현재 구현은 CAD‑Coder와 같은 특정 파이프라인에 종속적이며, OpenCASCADE와 같은 고성능 기하학 엔진이 필요하다. 또한, near‑miss를 이미지로 재구성하는 과정에서 렌더링 품질이 최종 IoU에 영향을 미칠 수 있어, 향후 고품질 렌더링 기법과의 결합이 필요하다. **향후 연구 방향** - 다른 엔지니어링 도메인(예: 토폴로지 최적화, 메카트로닉스 설계)으로 GIFT를 확장하여, 도메인 특화 기하학 피드백을 설계. - 멀티모달 프롬프트(텍스트, 스케치, 파라미터)와 결합해 조건부 생성 능력을 강화. - 온라인 RL과의 하이브리드 전략을 탐색해, 오프라인 증강과 실시간 정책 업데이트를 동시에 활용. - 기하학 검증 단계에서 차별화된 손실 함수(예: Chamfer Distance, Hausdorff Distance) 도입으로 정밀도 향상. 결론적으로, GIFT는 테스트‑시간 샘플링을 데이터 증강으로 전환함으로써 이미지‑to‑CAD 모델의 학습 효율과 일반화 능력을 크게 향상시키는 실용적인 프레임워크이며, 향후 엔지니어링 AI 연구에 중요한 기반이 될 것으로 기대된다. **

이미지 CAD 프로그램 합성을 위한 기하학적 피드백 부트스트랩

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기