LLM을 활용한 텍스트 DSL 정의와 인스턴스 공동 진화 자동화
초록
본 연구는 텍스트 기반 DSL의 문법과 인스턴스를 동시에 진화시키는 문제에 대해 대형 언어 모델(LLM)을 적용한다. Claude Sonnet 4.5와 GPT‑5.2를 사용해 10개의 실제 DSL 사례를 10회씩 실험하고, 정확도와 주석·포맷 보존 정도를 평가한다. 작은 규모(20줄 미만)에서는 94 % 이상의 정밀도·재현율을 보였으나, 규모가 커질수록 성능이 감소하고 처리 시간도 급증한다.
상세 분석
이 논문은 텍스트 DSL의 공동 진화(co‑evolution)라는 아직 충분히 다루어지지 않은 영역에 LLM을 적용한 최초의 체계적 실험을 제공한다. 연구자는 Xtext 기반 DSL을 선택함으로써 문법(G)과 구체 인스턴스(T) 사이의 명확한 매핑을 확보하고, 기존 모델‑기반 접근법이 주석·공백 같은 인간 친화적 정보를 손실하는 문제를 지적한다. 두 최신 LLM인 Claude Sonnet 4.5와 GPT‑5.2를 동일한 프롬프트로 호출해 비결정성을 보완하기 위해 각 사례당 10번의 반복 실행을 수행하였다. 평가 지표는 정밀도·재현율 외에 주석·포맷 보존 비율을 정량화한 ‘보존 점수’를 도입했으며, 이는 전통적인 모델 변환 방식이 0 %에 머무는 것과 대비된다. 실험 결과, 수정 라인 수가 20줄 이하인 경우 두 모델 모두 94 % 이상의 정밀도·재현율을 달성했지만, 라인 수가 40줄을 초과하면 Claude는 85 % 수준으로 완만히 감소하는 반면 GPT‑5.2는 급격히 성능이 떨어져 가장 큰 사례에서는 거의 실패한다. 또한, 문법 변화 유형 중 ‘삭제 세분화(deletion granularity)’가 성능에 가장 큰 영향을 미치며, ‘추가·수정’보다 복합적인 구조 변화에 취약함을 확인했다. 처리 시간 측면에서는 인스턴스 규모가 커질수록 Claude의 응답 시간이 최대 18배 증가했으며, GPT‑5.2는 상대적으로 더 큰 변동성을 보였다. 프롬프트 전이 실험에서는 동일 프롬프트가 두 모델에 모두 적용 가능했지만, 세부 튜닝 없이 성능 차이가 발생해 모델‑특화 프롬프트 설계가 필요함을 시사한다. 전체적으로 LLM 기반 공동 진화는 작은‑중간 규모 DSL에 대해 높은 정확도와 인간 친화적 정보 보존을 제공하지만, 대규모 변환 및 복합 문법 변경에서는 현재 모델의 한계가 명확히 드러난다.
댓글 및 학술 토론
Loading comments...
의견 남기기