다양성 강화 강화학습으로 RTL 생성 능력 끌어올리는 RTLSeek

RTLSeek는 제한된 검증 가능한 RTL 데이터에 대해, SFT와 두 단계 GRPO 기반 강화학습을 결합한 3단계 학습 파이프라인을 제시한다. 전문가 규칙과 EDA 도구 피드백을 이용한 다목적 보상 스케줄링으로 기능 정확도와 구조적 다양성을 동시에 최적화한다. 실험 결과, 기존 LLM 기반 RTL 생성 모델 대비 40% 이상 성능 향상을 달성했으며, 다양성 보상과 각 학습 단계가 모두 성능에 크게 기여함을 확인하였다.

저자: Xinyu Zhang, Zhiteng Chao, Yonghao Wang

다양성 강화 강화학습으로 RTL 생성 능력 끌어올리는 RTLSeek
**1. 연구 배경 및 동기** RTL 설계는 고수준 기능 명세를 Verilog·VHDL 같은 하드웨어 기술 언어(HDL)로 변환하는 과정으로, 설계자의 전문 지식에 크게 의존한다. 최근 대형 언어 모델(LLM)의 코드 생성 능력이 주목받으며 RTL 자동 생성 연구가 활발해졌지만, 검증 가능한 고품질 RTL·테스트벤치 데이터가 약 1천 건에 불과해 모델 학습이 크게 제한된다. 기존의 Supervised Fine‑Tuning(SFT) 방식은 입력당 하나의 HDL 구현만을 학습하도록 설계돼, 설계 목표에 따라 달라지는 다양한 구조적 변형을 탐색하지 못한다는 근본적인 한계가 있다. **2. RTLSeek 개요** RTLSeek는 이러한 문제를 해결하기 위해 “다양성‑지향 강화학습”이라는 새로운 포스트‑트레이닝 패러다임을 제시한다. 핵심 아이디어는 (i) SFT와 (ii) 두 단계의 GRPO 기반 강화학습을 결합한 3단계 학습 파이프라인, (iii) 전문가 규칙·EDA 피드백을 포함한 다목적 보상 스케줄링, (iv) AST 기반 구조 다양성 정량화이다. **3. 기술적 구성** - **GRPO (Group‑Relative Policy Optimization)** : 출력 그룹을 형성하고, 그룹 내 상대 순위 기반으로 정책을 업데이트한다. 이는 기존 PPO의 절대 이득(advantage) 추정보다 안정적인 그래디언트를 제공하며, 모드 붕괴를 방지한다. 논문은 수식 (1)을 통해 KL‑제한, 클리핑, 상대적 이득을 결합한 목표 함수를 제시한다. - **다목적 보상 스케줄링** : 1. **기능 보상** – 자동 생성 테스트벤치 시뮬레이션 PASS/FAIL, EDA 합성 결과(면적, 전력, 타이밍) 점수. 2. **다양성 보상** – AST 구조 비교를 통해 두 RTL 구현 간 구조적 차이를 정량화하고, 변수명 교체와 같은 피상적 변형은 제외한다. 3. **전문가 규칙 보상** – 설계 규칙 위반(예: 클럭 도메인, 리셋 비동기성) 여부를 체크한다. 보상 가중치는 학습 초기에 기능 보상을 강조하고, 단계가 진행될수록 다양성 보상의 비중을 점진적으로 증가시키는 스케줄링을 적용한다. - **3단계 학습 파이프라인** 1. **SFT Warm‑up** – 검증된·검증되지 않은 RTL 데이터(약 1k 샘플)를 사용해 기본 구문·패턴 학습. 단일 모듈 출력에 초점. 2. **Stage‑2 GRPO (초기 다양성)** – 동일 입력에 대해 두 개 이상의 후보를 생성, 기능 보상과 낮은 가중치의 다양성 보상을 동시에 적용. 3. **Stage‑3 GRPO (고도 다양성)** – 다양성 보상의 가중치를 크게 높여, 구조적으로 서로 다른 구현을 적극 탐색하도록 유도. **4. 실험 및 결과** - **데이터셋** : 공개 RTLLM 벤치마크(≈1k 검증 가능한 RTL·테스트벤치). - **베이스라인** : Qwen‑2.5 기반 SFT, 단일‑목표 PPO, 기존 DPO 등. - **성능 지표** : Functional Correctness(시뮬레이션 PASS 비율), Diversity(평균 AST 차이), 종합 점수. - **주요 결과** : RTLSeek는 전체 정확도와 다양성 모두에서 기존 방법 대비 40% 이상 향상. 특히 “more generated, the better results” 원칙을 검증, 다수의 후보 중 최적을 선택함으로써 성공률이 크게 증가. - **Ablation Study** : (a) 다양성 보상 제거 → 다양성 지표 급감, 정확도는 유지. (b) 두 번째 GRPO 단계 생략 → 전체 성능 15% 이하 감소. (c) 전문가 규칙 보상 제외 → 설계 규칙 위반이 증가, EDA 합성 점수 하락. **5. 논의 및 한계** - **데이터 의존성** : 현재는 1k 수준의 검증 가능한 샘플에 의존하므로, 더 큰 데이터셋이 확보될 경우 성능이 더욱 향상될 가능성이 있다. - **연산 비용** : 두 단계 GRPO와 AST 비교, EDA 시뮬레이션을 포함한 보상 계산이 비용이 크다. 실시간 설계 보조 도구로 활용하려면 효율적인 캐시·프리컴퓨테이션 기법이 필요하다. - **목표 확장성** : 현재는 면적·전력·타이밍을 포함한 종합 보상을 사용했지만, 특정 설계 목표(예: 저전력, 고속) 별 맞춤형 보상 설계가 향후 연구 과제로 남는다. **6. 결론** RTLSeek는 제한된 검증 가능한 RTL 데이터 환경에서도 기능 정확도와 구조적 다양성을 동시에 극대화할 수 있는 효과적인 포스트‑트레이닝 프레임워크를 제시한다. SFT와 GRPO 기반 강화학습을 결합하고, 전문가 규칙·EDA 피드백·AST 기반 다양성 보상을 통합한 다목적 보상 스케줄링은 설계 공간을 넓히면서도 기능적 올바름을 유지한다. 실험 결과는 제안 방법이 기존 LLM 기반 RTL 생성 모델을 크게 앞선다는 것을 입증한다. 향후 연구에서는 더 큰 모델 적용, 하드웨어‑인‑더‑루프 피드백 통합, 그리고 설계 목표별 맞춤 보상 설계 등을 통해 RTL 자동화 수준을 한 단계 끌어올릴 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기