ECCO: 증거 기반 인과 추론을 통한 컴파일러 최적화 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ECCO는 정적 코드 특징과 성능 증거를 연결하는 체인‑오브‑쓰루 데이터셋을 구축하고, LLM을 전략가로 활용해 유전 알고리즘을 안내함으로써 기존 -O3 대비 평균 24.44% 사이클 감소를 달성한 새로운 컴파일러 자동 튜닝 프레임워크이다.

상세 분석

본 논문은 컴파일러 자동 튜닝의 두 가지 주요 한계—전통적인 블랙박스 탐색이 의미론적 정보를 전혀 활용하지 못함, 최신 LLM 기반 접근이 표면적인 패턴 매칭에 머물러 인과 관계를 설명하지 못함—을 정확히 짚어낸다. 이를 해결하기 위해 저자들은 ‘증거‑구동 인과 패러다임(Evidence‑Driven Causal Paradigm)’을 제안한다. 핵심은 (1) 최적화 궤적을 역공학하여 최소화된 패스 시퀀스를 추출하고, 각 패스 적용 전후의 IR 구조 변화(δ_struct), 정적 특성 변화(δ_feat), 그리고 사이클 감소(g_t)라는 세 가지 증거를 수집한다. 이러한 다중 모달 증거는 “왜 이 패스가 성능을 개선했는가”를 명시적으로 보여주어, 모델이 단순히 ‘코드 → 최적화 플래그’ 매핑을 넘어 인과 논리를 학습하도록 만든다.

다음 단계에서는 ‘시뮬레이션 예측 추론(Simulated Predictive Reasoning)’을 통해 동적 증거를 직접 제공할 수 없는 새로운 프로그램에 대해 정적 특성만으로도 동일한 인과 설명을 생성하도록 LLM을 훈련한다. 구체적으로, 교사 모델(Claude‑4.5‑Sonnet)이 전체 증거를 입력받아 “예측된 δ_feat와 g_t”를 정적 특성 Φ_initial 로부터 유도하는 서술(R)을 만든 뒤, 이를 목표 LLM의 학습 데이터(Φ_initial, R ⊕ S_opt)로 사용한다. 이렇게 하면 모델은 추론 시 정적 특성만으로 내부 시뮬레이터를 구동해 최적화 시퀀스를 생성한다.

훈련은 두 단계로 진행된다. 첫 번째 단계는 SFT(Supervised Fine‑Tuning)로 인과 추론 사전 지식을 주입하고, 출력 형식을 와 태그로 강제해 이유와 결과를 명확히 구분한다. 두 번째 단계는 GRPO(Generalized Reward‑Normalized Policy Optimization)를 이용한 강화학습으로, 형식 보상(r_format)과 성능 보상(r_perf)을 결합한 복합 보상 함수를 최적화한다. r_perf은 -O3 대비 상대 속도 향상을 직접 측정해 모델이 실제 사이클 감소를 목표로 탐색하도록 만든다.

가장 혁신적인 부분은 ‘전략가‑전술가(Strategist‑Tactician) 협업 추론 프레임워크’이다. LLM은 고수준 최적화 의도(intent distribution)를 출력하고, 유전 알고리즘(GA)은 이 의도를 확률적 변이 연산에 반영한다. 변이 확률 P_mut(p) = ε·1/|V| + (1‑ε)·w_cat(p)·E

ECCO: 증거 기반 인과 추론을 통한 컴파일러 최적화 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기