퍼보스카이트 태양전지를 위한 도메인 지식 기반 LLM과 베이지안 최적화 통합 프레임워크
초록
본 논문은 퍼보스카이트 태양전지(PSC) 설계에 특화된 대형 언어 모델(PVK‑LLM)을 개발하고, 이를 계층적 베이지안 최적화(PVK‑BO)와 결합해 고차원 재료·공정 설계 공간을 효율적으로 탐색한다. 커리큘럼 학습·지식 그래프 기반 RAG를 통해 도메인 지식을 주입하고, 시뮬레이터와 실제 실험 피드백을 순환 학습에 활용한다. 최종적으로 4가지 유기 패시베이션 물질(3MTPAI, PDAI₂, EDAI₂, PipDI)을 조합한 새로운 레시피를 자동 설계해 26 % 이상의 전력 변환 효율(PCE)을 달성하였다.
상세 분석
PVK‑LLM은 Qwen2.5‑32B를 베이스로 하여 4 000여 편의 최신 논문을 수집한 4 000 + 문헌 코퍼스를 구축하고, 세 단계 커리큘럼 학습을 적용한다. ① Knowledge Injection 단계에서는 55 104개의 QA 쌍(PVK‑Sci)으로 전구조, 인터페이스 엔지니어링, 결함 억제 등 7개 주제에 대한 기본 지식을 주입한다. ② Instruction Alignment 단계에서는 PVK‑Cite(22 916 QA)와 PVK‑Exp(10 648 QA)를 이용해 문헌 인용과 실험 데이터 해석 능력을 강화한다. ③ Retrieval‑Augmented Generation 단계에서는 자동 업데이트되는 퍼보스카이트 지식 그래프(PVK‑KG, 23 789 엔티티·22 272 트리플)를 연동해 최신 연구 동향을 실시간으로 반영한다.
이러한 지식 주입은 모델의 잠재 공간을 도메인 특화된 의미론적 클러스터링으로 재구성한다. t‑SNE 시각화에서 PVK‑LLM은 전자 수송층, 홀 수송층 등 기능별 군집을 명확히 구분하는 반면, 일반 LLM은 무작위 분포를 보여 도메인 이해도가 현저히 낮음을 확인한다.
PVK‑BO는 PVK‑LLM이 생성한 후보 레시피를 서베이언트 모델(확률적 예측)로 변환하고, 기대 향상을 최대화하는 획득 함수를 통해 최적 후보를 선택한다. 초기화 단계에서 도메인 지식이 반영된 고품질 후보를 제공함으로써 “콜드 스타트” 문제를 해결하고, 이후 시뮬레이터(SCAPS‑1D) 피드백을 순환 학습에 반영한다. 밴드 정렬 최적화와 도핑 최적화 두 과제에서 PVK‑BO는 일반 LLM 기반 BO와 기존 BO 변형(HEBO, TuRBO)보다 높은 초기 PCE와 낮은 변동성을 보이며, 최종 PCE 25.44 %까지 도달한다.
실험실 검증에서는 PVK‑LLM이 인터페이스 패시베이션을 핵심 병목으로 식별하고, 3MTPAI·PDAI₂·EDAI₂·PipDI 네 가지 유기 물질을 비율 최적화해 새로운 복합 레시피를 제시한다. 이 레시피는 기존 문헌에 보고되지 않은 조합이며, 실제 p‑i‑n 구조 PSC에서 26.0 % 이상의 PCE를 기록해 세계 최고 수준에 근접한다.
전체적으로 본 연구는 (1) 도메인 지식 주입을 통한 LLM의 전문성 강화, (2) 지식 그래프 기반 실시간 업데이트, (3) 베이지안 최적화와의 시너지 효과를 입증한다. 이는 고차원 재료 설계 문제에 LLM을 적용할 때 발생하는 “의미 격차”와 “탐색 비효율”을 동시에 해결하는 통합 프레임워크로, 퍼보스카이트뿐 아니라 배터리 전해질, 유기 광전소자 등 다른 소재 과학 분야에도 확장 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기