텍스트‑CAD 생성의 사전 명확화: ProCAD가 제시하는 능동형 에이전트 프레임워크
초록
ProCAD는 사용자의 모호한 설계 요청을 사전에 감지·정정하는 명확화 에이전트와, 정제된 사양을 기반으로 CadQuery 코드를 생성하는 코딩 에이전트로 구성된 두 단계 시스템이다. 10K 고품질 텍스트‑CadQuery 데이터와 6K 합성 모호성 데이터로 각각 코딩·명확화 모델을 SFT하고, 실험에서 Chamfer 거리 79.9 % 감소와 오류율 0.9 % 달성 등 기존 폐쇄형 모델을 크게 앞섰다.
상세 분석
본 논문은 텍스트‑to‑CAD 분야에서 가장 흔히 발생하는 “명세 부족”과 “제약 충돌” 문제를 해결하기 위해, 단일 LLM이 일괄적으로 코드를 생성하는 기존 패러다임을 탈피한다. 저자들은 두 개의 독립적인 에이전트를 설계했는데, 첫 번째인 ProCAD‑clarifier는 사용자의 원시 프롬프트를 입력받아 의미적 모호성을 탐지하고, 필요한 경우 최소한의 질문을 통해 누락된 치수나 상충되는 제약을 명확히 한다. 이 과정은 마코프 결정 프로세스(MDP)로 형식화되어, 상태 = (프롬프트, 대화 히스토리), 행동 = {ACCEPT, ASK(question)} 로 정의된다. 보상 함수 R = ‑ChamferDistance ‑ λ·Cost(h) 는 최종 생성된 CAD 모델의 기하학적 정확도와 사용자와의 상호작용 비용 사이의 트레이드오프를 정량화한다.
두 번째 에이전트인 ProCAD‑coder는 정제된 사양을 입력받아 CadQuery 파이썬 스크립트를 출력한다. 코더는 오직 1.6 K개의 고품질(중복 제거·코드 누수 검증·완전성 검증을 거친) 텍스트‑CadQuery 쌍으로 미세조정되었으며, 이는 기존 10 K 규모 데이터셋 대비 극히 적은 양임에도 불구하고, 비모호한 프롬프트에 대한 성능을 크게 끌어올렸다.
데이터 구축 파이프라인도 혁신적이다. 저자들은 DeepCAD의 원시 CadQuery 프로그램을 다중 뷰 이미지와 함께 GPT‑5‑mini에 제공해 자연어 설명을 생성하고, LLM 기반 코드 누수 검사와 Chamfer 거리 기반 완전성 검증을 반복 적용한다. 이 과정에서 80 % 이상의 샘플이 자동으로 통과하며, 남은 경우 인간 전문가가 최종 검수를 수행한다. 또한, 모호성을 인위적으로 유도한 6 K 합성 데이터셋을 구축해 명확화 에이전트의 학습에 활용하였다.
실험 결과는 두 에이전트의 협업이 실제 설계 작업에서 얼마나 효과적인지를 입증한다. ProCAD는 Claude Sonnet 4.5와 GPT‑4o‑mini를 포함한 최신 폐쇄형 모델 대비 평균 Chamfer 거리 79.9 % 감소, 모델 오류율(Invalidity Ratio) 4.8 % → 0.9 % 로 크게 개선하였다. 대화 라운드 수와 토큰 사용량도 최소화돼, 사용자 피로도를 낮추면서도 높은 기하학적 fidelity를 유지한다.
전반적으로 이 연구는 “사전 명확화 → 정밀 코딩”이라는 명확한 작업 흐름을 제시함으로써, 텍스트‑to‑CAD 시스템이 실제 엔지니어링 현장에서 직면하는 불완전한 요구사항을 효과적으로 처리할 수 있음을 보여준다. 향후 확장성 측면에서, 더 큰 규모의 멀티모달 모델이나 도메인‑특화 CAD 라이브러리와 결합한다면, 복합적인 설계 의사소통을 자동화하는 데 큰 기여를 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기