ARCE 경량 RoBERTa 기반 도메인 적응을 위한 설명 기반 지식 증류
초록
본 논문은 대형 언어 모델(LLM)의 지식을 활용해 AEC(건축·엔지니어링·건설) 분야 규칙 자동 검증에 필요한 NER 성능을 향상시키는 ARCE 프레임워크를 제안한다. LLM이 생성한 간결한 “설명형(elucidation)” 텍스트(Cote)를 이용해 RoBERTa‑wwm‑ext 모델을 단계적 사전학습하고, CRF 레이어와 함께 미세조정함으로써 기존 도메인 적응 방법과 대형 LLM을 능가하는 77.20%의 Macro‑F1(Strict) 점수를 달성한다.
상세 분석
ARCE는 세 단계로 구성된 지식 증류 파이프라인을 제시한다. 첫 번째 단계에서는 Qwen‑3‑8B와 같은 최신 LLM을 활용해 원시 도메인 텍스트와 해당 엔터티(스팬, 타입)를 입력으로 “왜 이 스팬이 해당 엔터티 타입에 해당하는가?”라는 직접적인 질문을 담은 프롬프트를 제공한다. LLM은 짧고 논리적인 설명(elucidation)을 생성하고, 이를 Cote( Contextualized Task‑Oriented Elucidation) 코퍼스로 축적한다. 여기서 핵심은 복잡한 체인‑오브‑쓰루(Chain‑of‑Thought) 대신, 최소한의 언어적 복잡도로 도메인 지식을 전달한다는 점이다.
두 번째 단계에서는 기존의 RoBERTa‑wwm‑ext 모델을 Cote 코퍼스에 대해 마스크드 언어 모델링(MLM) 방식으로 추가 사전학습한다. 이 과정은 모델의 어휘·문법적 지식에 도메인 특화된 의미론적 연결고리를 삽입한다. 특히, Cote는 일반 텍스트가 아닌 “스팬‑설명” 형태이므로, 모델은 엔터티와 그 주변 문맥 사이의 직접적인 의미 관계를 학습하게 된다. 이는 전통적인 도메인 적응(DAPT) 방식이 대규모 인간 라벨링 코퍼스를 요구하는 것과 달리, 비용 효율적이며 최신 LLM의 생성 능력을 활용한다는 장점이 있다.
세 번째 단계에서는 사전학습된 ARCE 모델에 CRF 레이어를 추가해 토큰‑레벨 라벨링의 전이 확률을 최적화한다. CRF는 인접 라벨 간의 제약을 모델링함으로써 엔터티 경계 검출 정확도를 크게 향상시킨다. 실험에서는 5 epoch의 Cote 사전학습과 10 epoch의 NER 미세조정을 통해, 기존 RoBERTa‑wwm‑ext‑CRF 대비 6.01 포인트, ARCBERT(대규모 인간 라벨링 기반) 대비 약 2 포인트의 Macro‑F1 상승을 기록했다.
특히, “Less is More” 원칙을 검증하기 위해 두 가지 프롬프트 전략을 비교했다. 전략 A(간결 설명)와 전략 B(역할 기반 복합 분석) 중, 전략 A가 일관되게 높은 성능을 보였으며, 전략 B는 오히려 의미적 잡음과 과적합을 유발해 성능 저하를 초래했다. 이는 작은 모델이 복잡한 추론 과정을 내재화하기보다, 명확하고 직관적인 의미 연결을 학습할 때 더 효율적이라는 중요한 인사이트를 제공한다.
또한, 대형 LLM을 직접 활용한 zero‑shot 및 fine‑tuned 실험에서는 strict‑match 기준에서 현저히 낮은 점수를 기록했다. 이는 LLM이 토큰‑레벨 경계 정확도보다 문맥적 이해에 강점을 두기 때문이며, 규정 준수와 같이 정확한 엔터티 경계가 필수적인 ARC 시나리오에서는 토큰‑레벨 discriminative 모델이 여전히 우위에 있음을 확인했다.
전반적으로 ARCE는 (1) LLM 기반 고품질 도메인 지식 자동 생성, (2) 비용 효율적인 증류 사전학습, (3) CRF 기반 정밀 라벨링이라는 세 축을 결합해, AEC 분야 NER에서 기존 최첨단을 능가하는 실용적 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기