양자 회로와 코드 생성을 위한 생성 AI 기술 리뷰와 체계적 분류

이 논문은 2026년 초에 수행된 체계적인 스코핑 리뷰를 바탕으로, 양자 회로와 양자 코드를 자동으로 생성하는 13개의 최신 생성 AI 시스템과 5개의 지원 데이터셋을 종합적으로 분석한다. 연구자는 먼저 연구 범위를 정의하고, “양자 코드”를 Qiskit 파이썬 코드와 OpenQASM(2.0·3.0) 프로그램으로 한정한다. 오류 정정 코드(QEC)는 제외한다. 그런 다음 PRISMA‑ScR 방식을 차용해 Hugging Face 모델 카드, arXiv 논문, GitHub 레포지터리 등을 검색·스크리닝하여 최종 후보를 선정한다. 스크리닝 과정에서 228개의 후보가 검토되었으며, 190개는 제목·초록 단계에서, 추가 16개는 전면 검토 단계에서 제외되었다. 최종적으로 13개의 시스템과 5개의 데이터셋이 포함되었다. 시스템은 두 축으로 분류된다. 첫 번째 축은 출력 아티팩트 유형으로, Qiskit 파이썬 코드, OpenQASM 프로그램, 회로 그래프(DAG)로 나뉜다. 두 번째 축은 학습·최적화 방식으로, (1) 정적 지도학습(SFT), (2) 검증자‑in‑the‑loop 강화학습(RL), (3) 확산·그래프 기반 생성, (4) 에이전트 기반 다단계 최적화가 있다. 이를 통해 총 6개의 패밀리(코드 어시스턴트, OpenQASM 생성기, 소형 전문 LM, 검증자‑in‑the‑loop 정렬, 그래프·확산 생성기, 에이전트 시스템)로 체계화한다. 각 시스템에 대한 상세 설명은 다음과 같다. - **Qiskit 코드 어시스턴트**: Granite‑3.2‑8b‑Qiskit, Qwen2.5‑14B‑Qiskit 등은 대규모 Qiskit API 코퍼스를 사전 학습하고, 추가로 50 M 토큰 수준의 도메인 데이터로 파인튜닝한다. 평가에는 QiskitHumanEval 벤치마크(101개 과제)와 pass@k 지표를 사용한다. 최근 연구는 GRPO(그룹 상대 정책 최적화)를 도입해 양자 시뮬레이터 기반 보상으로 구문·의미 정확성을 동시에 강화한다. - **OpenQASM 생성기 및 소형 LM**: Agent‑Q는 OpenQASM 3.0 기반 14 B 파라미터 모델이며, 14 k개의 파라미터화된 최적화 회로를 학습한다. QuantumGPT‑124M은 GPT‑2 기반 124 M 파라미터 모델로 5 qubit 이하의 작은 회로에 초점이 있다. 두 모델 모두 구문 검증은 파서 통과율로, 의미 검증은 수동 검사와 분포 정렬(JSD)으로 수행한다. - **검증자‑in‑the‑loop RL**: QUASAR은 Agent‑Q를 기반으로 계층적 4단계 보상을 설계한다. 보상은 구문 파싱, 분포 정렬, 기대값 정렬, 최적화 수렴성 등을 포함한다. 외부 양자 시뮬레이터와 HTTP 인터페이스를 통해 실시간 피드백을 받으며 학습한다. - **그래프·확산 생성기**: genQC, UDiTQC, AltGraph, Q‑Fusion 등은 회로를 토큰 시퀀스, DAG, 혹은 연속 파라미터와 결합된 형태로 표현한다. 확산 모델은 텍스트(문제 설명)와 결합해 조건부 생성한다. 평가 지표는 프로세스 충실도(Fidelity), 컴파일 성공률, 깊이·게이트 수 감소 등이다. 특히 AltGraph는 그래프 재작성으로 평균 37 % 이상의 깊이·게이트 감소를 달성한다. - **에이전트 시스템**: QAgen t은 다중 에이전트 LLM 구조로, 자연어 과제를 서브태스크로 분해하고, 각각을 코더와 툴‑증강 코더에 할당한다. 체인‑오브‑쓰(Chain‑of‑Thought)와 RAG(리트리벌‑증강‑생성) 기법을 활용해 71.6 %의 성능 향상을 보고한다. 데이터셋 측면에서는 QASMBench(저수준 OpenQASM 2.0 벤치마크), QCircuitBench(알고리즘 설계 인스턴스와 검증 오라클), quantum‑circuits‑8k(텍스트→QASM 쌍), QuantumLLMInstruct(500 k+ 인스트럭션 쌍) 등 5개가 주요 학습·평가 자원으로 활용된다. 대부분이 OpenQASM 2.0에 초점을 맞추고 있어, OpenQASM 3.0의 복합 제어 흐름을 다루는 시스템은 평가 기준이 부족한 상황이다. 핵심 평가 프레임워크는 3‑계층으로 구성된다. **Layer 1 (구문적 타당성)**은 파서·컴파일러 통과 여부를 확인한다. **Layer 2 (의미적 정확성)**은 생성된 회로가 목표 유니터리·알고리즘을 구현하는지를 시뮬레이션·오라클·비용 함수 등으로 검증한다. **Layer 3a (하드웨어 실행 가능성 – 시뮬레이션)**는 트랜스파일링·노이즈 모델 적용·리소스 사용량을 평가한다. **Layer 3b (하드웨어 실행 가능성 – 실제 디바이스)**는 실제 양자 디바이스에서 실행해 성공률을 측정한다. 논문은 현재 모든 시스템이 Layer 3b를 보고하지 않았으며, 대부분이 Layer 3a 수준에서 멈춰 있음을 강조한다. 결론적으로, 구문 타당성은 대부분의 시스템이 충분히 달성했지만, 의미 정렬과 특히 실제 하드웨어에서의 실행 가능성은 아직 초기 단계에 머물러 있다. 이를 해소하기 위해서는 (1) 대규모 양자 디바이스와 연계된 실험 파이프라인 구축, (2) 효율적인 유니터리 동등성 검증 알고리즘 개발, (3) OpenQASM 3.0을 포함한 복합 작업에 대한 표준 벤치마크와 평가 메트릭 정립이 필요하다. 이러한 연구 인프라가 마련될 때, 생성 AI가 양자 컴퓨팅 실무에 직접 투입되어 회로 설계·최적화 비용을 크게 절감할 수 있을 것으로 기대된다.

양자 회로와 코드 생성을 위한 생성 AI 기술 리뷰와 체계적 분류

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기