SiliconMind V1: 다중 에이전트 기반 Verilog 코드 자동 생성 및 디버깅 프레임워크
초록
SiliconMind-V1은 다중 에이전트와 추론 중심 데이터 증류를 결합해, 로컬에서 미세조정된 소형 LLM이 테스트벤치 기반 검증을 통해 Verilog RTL 코드를 반복적으로 생성·테스트·디버깅하도록 설계된 프레임워크이다. 기존 상용 모델 의존성을 배제하고, 기능적 정확성을 강화하면서도 학습·추론 비용을 크게 절감한다.
상세 분석
본 논문은 Verilog 코드 자동 생성 분야에서 두 가지 핵심 문제, 즉(1) 고품질 학습 데이터 부족과(2) 상용 LLM·EDA 툴 의존에 따른 비용·프라이버시 위험을 동시에 해결하고자 한다. 이를 위해 저자들은 ‘다중 에이전트 데이터 파이프라인’과 ‘다중 전략 추론 엔진’이라는 두 축으로 구성된 통합 프레임워크를 제안한다.
첫 번째 축인 데이터 파이프라인에서는 문제‑추론‑코드‑테스트벤치‑디버깅(trace) 형태의 5‑tuple 데이터를 자동 생성한다. 여기서 ‘추론(trace)’는 DeepSeek‑R1·gpt‑oss‑120b 등 대형 추론 모델이 제공하는 단계별 사고 과정을 의미한다. 에이전트들은 (① 문제 생성, ② 추론 단계 생성, ③ 정답 코드 생성, ④ 테스트벤치 자동 작성, ⑤ 자체 디버깅 로그) 순으로 협업하며, 각 단계에서 생성된 산출물은 품질 검증을 거쳐 데이터베이스에 저장된다. 이 과정은 기존 연구가 주로 ‘문제‑코드’ 쌍에 머물렀던 점을 넘어, 오류 원인과 수정 과정을 명시적으로 학습시킴으로써 기능적 일반화 능력을 크게 향상시킨다.
두 번째 축인 추론 엔진은 학습된 소형 LLM(4B·7B·8B)들을 ‘생성‑테스트‑디버깅’ 루프에 투입한다. 테스트베이스는 모델이 자체적으로 생성한 시뮬레이션 환경에서 실행되며, 시뮬레이션 결과와 기대값의 불일치를 자동으로 파싱해 디버깅 프롬프트를 생성한다. 이렇게 얻어진 디버깅 힌트는 동일 모델에 재입력되어 코드를 수정하도록 유도한다. 중요한 점은 이 전체 흐름이 외부 상용 시뮬레이터 없이 순수 오픈소스 시뮬레이션 엔진(예: Verilator)과 내부 에이전트만으로 수행된다는 것이다.
실험에서는 VerilogEval‑v2, RTLLM‑v2, CVDP 등 세 가지 벤치마크에서 기존 최첨단인 QiMeng‑CodeV‑R1 대비 기능적 정확도(F‑score)에서 평균 12%p 상승을 기록했으며, 동일 GPU(RTX 4090) 기준 학습 시간은 약 9배 가량 단축되었다. 특히 ‘추론‑중심 데이터’만을 사용한 경우에도 결과가 크게 개선되는 점은, 기능적 보상(reward)만을 이용한 RL‑VR 방식보다 데이터 자체에 내재된 논리적 정보가 더 효과적임을 시사한다.
한계점으로는 (1) 현재 테스트벤치는 주로 순차 회로·간단한 FSM에 국한돼 있어 복잡한 타이밍·전력 검증에는 추가 연구가 필요하고, (2) 다중 에이전트 간 통신 비용이 모델 규모가 커질수록 비례적으로 증가한다는 점이다. 향후 연구에서는 하드웨어‑가속된 에이전트 협업 프로토콜과, 고급 타이밍 검증을 위한 파라미터화된 테스트벤치 자동 생성 기법을 도입할 여지가 있다.
요약하면, SiliconMind‑V1은 ‘추론 중심 데이터 증류 + 테스트벤치 기반 자기 디버깅’이라는 새로운 패러다임을 제시함으로써, 오픈소스 LLM이 상용 툴 없이도 실용적인 Verilog 코드 생성·검증 파이프라인을 구현할 수 있음을 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기