변형가능 복합재료 모델링에서 트랜스포머와 순환신경망 비교 연구
초록
본 논문은 단섬유 강화 복합재(SFRC)의 미세구조 응답을 예측하기 위해 GRU 기반 순환신경망(RNN)과 멀티‑헤드 셀프‑어텐션을 이용한 트랜스포머 모델을 체계적으로 비교한다. 베이지안 최적화를 통해 아키텍처와 학습 하이퍼파라미터를 튜닝하고, 데이터 증강·스케일링 실험을 수행한다. 결과는 대규모 데이터에서는 트랜스포머가 정확도가 비슷하지만, 소규모 데이터와 외삽(extrapolation) 상황에서는 RNN이 더 낮은 RMSE와 안정적인 예측을 보이며, 트랜스포머는 추론 속도가 7배 빠른 장점을 가진다.
상세 분석
이 연구는 SFRC의 대표 볼륨 요소(RVE)에서 얻은 6차원 변형‑응력 시퀀스를 데이터셋으로 활용한다. 원본 데이터는 547개의 고유 시퀀스로 구성되며, 회전 기반 증강을 통해 학습·검증 세트의 샘플 수를 최대 20배까지 확대한다. RNN은 GRU 셀을 여러 층으로 쌓고, 각 층 뒤에 0.5의 드롭아웃을 적용해 과적합을 방지한다. 트랜스포머는 입력 임베딩에 사인·코사인 위치 인코딩을 더하고, 다중 인코더 블록(멀티‑헤드 어텐션 + 피드‑포워드)으로 구성한다. 두 모델 모두 베이지안 최적화(BO)로 200번의 트라이얼을 수행해 학습률, 배치 크기, 레이어 수, 히든 차원, 어텐션 헤드 수 등을 탐색한다.
BO 결과, RNN은 최적 검증 RMSE 5.33 MPa를 기록했으며, 트랜스포머는 6.14 MPa로 다소 뒤처졌다. 특히 트랜스포머는 어텐션 헤드 수와 인코더 레이어 수에 민감해, 과도한 헤드·레이어 조합에서는 오히려 성능이 저하된다. 반면 RNN은 히든 차원과 레이어 수가 과도하면 학습이 불안정해지는 경향을 보였다.
스케일링 실험에서는 데이터셋 크기를 1배(≈521샘플)부터 20배(≈10 420샘플)까지 증가시키며 정확도 변화를 관찰했다. 대규모 데이터(>5 000샘플)에서는 두 모델 모두 RMSE가 3.5 MPa 수준으로 수렴했지만, 트랜스포머는 최대 오류가 RNN보다 크게 남아(예: 최대 절대오차) 전반적인 신뢰성이 낮았다.
외삽 테스트에서는 변형 경로를 훈련 범위 밖으로 확장했을 때 RNN은 RMSE 5.4 MPa를 유지한 반면, 트랜스포머는 23.6 MPa로 급격히 악화된다. 이는 트랜스포머가 시퀀스 전반에 걸친 전역 상관관계에 과도히 의존해, 훈련되지 않은 경로에 대한 일반화 능력이 제한적임을 시사한다.
추론 속도 측면에서 트랜스포머는 병렬 연산 구조 덕분에 0.5 ms/예측을 달성해 RNN의 3.5 ms에 비해 7배 빠른 성능을 보였다. 이는 실시간 멀티스케일 시뮬레이션이나 온라인 제어에 유리한 특성이다.
전체적으로 이 논문은 데이터 양과 적용 목적에 따라 모델 선택이 달라야 함을 강조한다. 소규모 데이터·외삽이 중요한 경우 RNN이 더 적합하고, 대규모 데이터·고속 추론이 요구되는 경우 트랜스포머가 경쟁력을 가진다. 또한 하이퍼파라미터 최적화와 데이터 증강이 두 모델 모두 성능 향상의 핵심 요소임을 확인한다.
댓글 및 학술 토론
Loading comments...
의견 남기기