SCALAR 구조적 환각·일관성·추론 격차 정량화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SCALAR는 결정의 단위셀(CIF)에서 초대형 나노입자까지 다양한 규모의 구조를 생성하고, 세 가지 과제(속성 예측, 체인‑오브‑생각, 역검색)를 통해 물질 기반 모델의 규모 일반화, 구조적 환각, 일관성, 추론 능력을 정량화한다. 실험 결과, 명시적 물리 추론을 추가하면 환각과 오류는 감소하지만 일관성·출력 유효성은 오히려 불안정해지는 모델‑특이적 변화를 보였다.

상세 분석

SCALAR 벤치마크는 기존 재료 데이터베이스가 주로 무한 주기 구조만을 다루는 한계를 극복하고, 동일 물질을 다양한 반경(10 Å~30 Å)과 회전각으로 만든 약 10만 개의 나노입자 데이터를 제공한다. 이 과정에서 초격자(supercell) 복제와 구형 절단을 이용해 원자 수가 4개에서 18 000개 이상으로 확장되는 스케일 변화를 체계적으로 제어한다. 회전 샘플링은 SO(3) 공간을 균일하게 커버하도록 최소 지오데식 거리 ϑ를 설정하고, 훈련·ID·OOD 세트 간에 회전 마진 ε를 두어 분포 이동을 명확히 구분한다. 이러한 설계는 물리적 불변량(예: 결정 대칭, 원자 수 보존) 위반 여부를 직접 측정할 수 있게 한다.

세 가지 과제는 각각 다른 평가 차원을 탐색한다. (i) CIF→속성 예측은 전통적인 회귀 정확도와 함께 “구조적 환각” 지표를 도입해, 모델이 물리적 불변량을 위반하면서도 높은 점수를 얻는 경우를 포착한다. (ii) 체인‑오브‑생각(Chain‑of‑Thought) 변형은 모델에게 물리 법칙(예: 표면/부피 비율, 전자 구조 변동) 기반의 단계별 추론을 요구한다. 여기서 오류 감소와 환각 억제가 관찰되지만, 동일 입력에 대해 여러 프롬프트를 주었을 때 일관성이 깨지는 현상이 빈번히 나타난다. (iii) 역검색은 목표 속성을 만족하는 후보 구조를 선택하도록 하며, “검색 후회(regret)”를 통해 모델이 올바른 구조를 놓치는 정도를 정량화한다.

실험에서는 다중 모델(일반 LLM, 물질 특화 LLM, 그래프 신경망 기반 모델 등)을 평가했으며, 모델마다 규모 일반화와 추론 방식에 대한 민감도가 크게 달랐다. 특히, 명시적 물리 추론을 삽입한 경우 대부분의 모델에서 환각 비율이 30 % 이상 감소했지만, 동일 프롬프트 간 출력 차이가 15 % 이상 증가하는 등 일관성 손상이 동반되었다. 또한, 회전·크기 OOD 샘플에 대해서는 오류가 급격히 상승했으며, 이는 모델이 훈련 데이터의 기하학적 다양성을 충분히 학습하지 못했음을 시사한다.

SCALAR는 단순 정확도 외에 “구조적 일관성”, “물리적 유효성”, “추론 연속성”을 동시에 측정함으로써, 재료 과학 분야에서 foundation model의 실제 활용 가능성을 보다 정밀하게 평가할 수 있는 프레임워크를 제공한다. 향후 연구는 데이터 증강(다양한 표면 재구성, 리간드 결합)과 멀티모달(이미지·텍스트·그래프) 통합을 통해 환각 억제와 일관성 강화 사이의 트레이드오프를 최소화하는 방향으로 진행될 수 있다.

SCALAR 구조적 환각·일관성·추론 격차 정량화

초록

상세 분석

댓글 및 학술 토론

의견 남기기