- Title: Deep Learning in Geotechnical Engineering A Critical Assessment of PINNs and Operator Learning
- ArXiv ID: 2512.24365
- 발행일: 2025-12-30
- 저자: Krishna Kumar
📝 초록
(본 논문은 기계 학습 방법이 전통적인 지반 공학 분석을 대체할 수 있는지에 대한 직접적인 수치 비교를 통해 답변합니다. 단순한 일차원 문제를 사용하여 기계 학습과 전통적인 해석법의 성능을 측정하고, 이론적 한계와 일반화 오류를 분석합니다.)
💡 논문 해설
**3개 주요 기여**
1. **기계 학습의 제한성**: 신경망이 과거 데이터에만 최적화되어 미래 예측에서 실패할 수 있음을 보여줍니다.
2. **공간 자기상관성 문제**: 지반 공학 데이터는 공간적으로 상관관계가 있어 무작위 분할로 테스트를 하면 정확도가 과대평가될 수 있습니다.
3. **자동 미분의 대안 제시**: 역방향 문제 해결을 위한 효과적인 대안으로 자동 미분을 제시합니다.
간단한 설명과 비유
비교의 중요성: 기계 학습이 전통적 방법보다 뛰어나다고 믿기 전에, 직접 수치로 비교해야 합니다. 이는 마치 새로운 주방 도구를 사기 전에 올바르게 작동하는지 테스트하는 것과 같습니다.
예측의 한계: 기계 학습 모델이 과거 데이터에만 최적화되어 있어 미래 예측에서 실패할 수 있습니다. 이는 마치 날씨 예보가 어제의 날씨를 아는 것만으로 내일의 날씨를 정확하게 예측할 수 없다는 것을 의미합니다.
공간 자기상관성: 지반 공학 데이터는 공간적으로 연관되어 있어 무작위로 테스트와 트레이닝을 분리하면 실제 성능을 과대평가하는 오류가 발생합니다. 이는 마치 동네마다 다르게 변하는 날씨를 예측하기 위해 단일 지역의 데이터만 사용하는 것과 같습니다.
Sci-Tube 스타일 스크립트
초급: 기계 학습이 전통적 방법보다 빠르고 정확하다는 신화를 깨기 위해, 우리는 직접 수치로 비교했습니다. 결과는?
중급: 우리는 신경망이 과거 데이터에만 최적화되어 미래 예측에서 실패할 수 있다는 것을 보여주었습니다. 공간 자기상관성 문제도 설명해 보겠습니다.
고급: 이 논문은 기계 학습의 한계를 분석하고, 이를 극복하기 위한 자동 미분 방법을 제시합니다.
📄 논문 발췌 (ArXiv Source)
# 소개
기계 학습(ML) 방법은 점점 더 전통적인 지반 분석 대체 수단으로 제안되고 있으며, 비싼 솔버를 우회하여 즉시 예측을 제공하는 것을 약속합니다. 지반 공학 저널에 이제는 일반적으로 사용되는 응용 프로그램에는 파동 전파를 위한 물리학 기반 신경망(PINNs)과 토대 반응을 위한 딥 오퍼레이터 네트워크(DeepONet)가 포함됩니다. 약속은 강력합니다: 과거 사례 역사에 대해 한 번 모델을 학습시키면, 새로운 조건에 대해 즉시 예측할 수 있습니다. 그러나 우리는 이러한 약속을 믿어야 하는가? 좀 더 구체적으로 말하면, 기계 학습이 우리가 수십 년 동안 정교하게 개선해온 전통적인 방법을 진정으로 능가하는 조건은 무엇인가?
이 논문은 직접적인 수치 비교를 통해 이 질문에 답합니다. 우리는 ML 방법을 “스트레스 테스트"하고, 그들을 같은 기준 문제에 적용하여 처리 시간, 정확도 및 구현의 용이성을 측정합니다. 우리는 단순한 1차원 문제—파동 전파와 압밀화를 예로 들면—에 집중합니다. 테르자키가 1D 압밀화부터 시작한 이유와 같습니다: 물리학은 명확하고, 정확한 솔루션이 존재하며, 더 복잡한 분석의 기초입니다. 전통적인 솔버는 이미 1차원에서 매우 빠르지만 이러한 간단한 테스트가 필수적입니다. 이들로 인해 우리는 성능 베이스라인을 명확하게 확립할 수 있으며, 방법의 근본적인 한계, 상대적인 계산 오버헤드 및 실패 모드를 드러냅니다. 1차원 문제에서 전통적인 대응방법보다 정확도가 저하되거나 몇 배 더 느린 경우, 복잡한 3D 문제에 대해 신뢰하기 전에 왜 그러한 문제가 발생하는지 이해해야 합니다.
이 연구는 최근 리뷰들이 인정한 데이터 요구사항, 물리적 일관성 및 추측의 신뢰성과 같은 주요 도전을 정량적으로 증명합니다. 이것은 기계 학습을 부정하는 것이 아니라, 콘크리트 테스트에서 경사 안정성 분석에 이르기까지 공학 도구에 적용되는 동일한 검증 기준을 요구하는 것입니다. 우리는 명확하고 입증된 정확도, 계산 비용 또는 물리적 일관성의 우위가 없는 한 증명된 솔버를 신경망으로 대체해서는 안 된다고 주장합니다.
이 논문은 다음과 같이 구성되어 있습니다. 먼저 모든 ML 방법에 영향을 미치는 두 가지 근본적인 제한사항을 설정합니다: 재앙적 추측 실패와 공간 자기상관성 검증 함정입니다. 그런 다음 다층 퍼셉트론, PINNs 및 DeepONet의 성능을 유한 차분 대응방법과 비교합니다. 마지막으로 역 문제에 효과적인 자동 미분이라는 대안을 제시하고, 이러한 현대 컴퓨팅 도구를 효과적으로 사용하려는 지반 공학자가 활용할 수 있는 실용적 의사결정 프레임워크를 제공합니다.
지반 공학에서의 다층 퍼셉트론
다층 퍼셉트론(MLP)은 현대 신경망의 기초입니다. MLP가 어떻게 작동하는지 이해하면 그것이 특정 지반 공학 응용 프로그램에서 실패하는 이유를 명확히 합니다. MLP는 연결된 뉴런의 계층을 통해 입력을 출력으로 변환합니다. 각 뉴런은 가중치 합과 편향 항을 더하고, 비선형 활성화 함수에 결과를 전달합니다(1):
여기서 $`x_i`$는 입력들(예: 깊이, 콘 저항력, 침투 압력), $`w_i`$는 학습 가능한 가중치, $`w_0`$는 편향이며, $`g`$는 활성화 함수입니다.
단일 뉴런(퍼셉트론)은 입력의 가중치 합과 편향을 계산한 후 비선형 활성화 함수 g를 적용합니다. 뉴런을 층으로 쌓아 복잡한 비선형 관계를 근사할 수 있는 다층 퍼셉트론을 만듭니다.
핵심 인사이트는 가중치와 편향만 학습 가능하다는 것입니다. 활성화 함수 $`g`$는 학습 전에 선택되고 수정되지 않습니다. 이는 네트워크가 선형 조합을 조정하여 학습하며, 모든 비선형성이 이러한 선형 조합에 적용되는 고정된 활성화 함수에서 오른다는 것을 의미합니다. 학습은 예측 오차를 측정하는 손실 함수를 최소화하는 것입니다. 회귀에서는 평균 제곱 오차가 일반적입니다:
가중치는 경사 하강법을 통해 반복적으로 업데이트됩니다, $`w \leftarrow w - \eta \nabla_w \mathcal{L}`$, 여기서 $`\eta`$는 학습률입니다. 역전파는 레이어별로 연쇄 법칙을 적용하여 출력에서 입력으로 거꾸로 작업하면서 이러한 경사를 효율적으로 계산합니다. 뉴런을 여러 층에 쌓음으로써 네트워크는 상위 층에서는 복잡한 관계를 합성하고 하위 층에서는 간단한 패턴을 포착하는 계층적 특징을 학습할 수 있습니다.
활성화 함수와 기능 정규화
활성화 함수의 선택은 네트워크가 비선형성을 표현하는 방식을 결정합니다. 일반적인 옵션에는 ReLU ($`g(z) = \max(0,z)`$), tanh ($`g(z) = \tanh(z)`$, 출력 범위 $`-1`$에서 $`+1`$ 사이), sigmoid ($`g(z) = 1/(1+e^{-z})`$, 출력 범위 0에서 1 사이)가 포함됩니다. 각각은 입력의 작은 변화로 인해 출력에 의미 있는 변화를 일으키는 민감한 영역과 함수가 평평해지고 경사도가 사라지는 포화 영역이 있습니다.
tanh와 sigmoid에서는 $`|z| < 2`$ 근처에서 민감한 영역이 대략적으로 위치합니다. 이 범위 밖에서는 출력이 한계에 가까워지며 경사는 제로에 접근합니다. ReLU는 음수 입력에 대해 함수와 그 경사도가 모두 제로이며, 양수 입력에 대해서는 선형입니다. 입력들이 이러한 민감한 영역 밖으로 나갈 때 뉴런들은 학습을 멈춥니다—경사는 사라지고 가중치 업데이트는 무의미해집니다. 이것이 “사망 뉴런” 문제입니다.
기능 정규화는 입력이 민감한 영역에 있도록 유지합니다. 깊이와 유효 압력과 같은 기능들이 다수의 계수가 다르면, 가중치 합 $`w_1 z + w_2 \sigma'`$은 쉽게 수백 또는 수천을 생성하여 뉴런들을 포화 상태로 밀어넣을 수 있습니다. Z-점 정규화는 이를 해결합니다.
이것은 기능을 평균 0과 단위 분산으로 중심지게 하여 일반적인 입력들이 활성화 함수의 민감한 영역에 있는 가중치 합을 생성하도록 합니다. 중요한 것은 정규화 통계는 훈련 데이터에서만 가져와야 한다는 것입니다—테스트 데이터를 사용하면 정보 유출이 발생하고 보고된 정확도가 과대평가됩니다.
추측 문제
고층 건물의 매트 기초 설계를 고려해봅시다. 이전 구조물에 200 kPa까지 적재된 동일한 사이트에서 침하 측정치가 있습니다. 새로운 건물은 350 kPa의 부하를 가합니다. 과거 침하 데이터로 학습된 신경망이 더 높은 부하에 대한 침하를 확신 있게 예측할 수 있습니까? 답변은 “아니오"이며, 이것이 지반 공학 문제에서 기계 학습의 첫 번째 근본적인 제한 사항을 이해하는 데 도움이 됩니다.
Terzaghi 압밀화 침하 곡선을 통해 직관력을 얻어봅시다—이는 모든 지반 공학자가 플롯한 것입니다. 침하는 $`S(t) = S_\infty(1 - e^{-\alpha t})`$, 여기서 $`S_\infty`$는 최종 침하량이고, $`\alpha`$는 속도를 제어합니다. 곡선은 0에서 시작하여 처음에는 급격히 상승한 다음 점차 그 극값에 접근합니다.
직접 실험을 수행해 봅시다. $`t = 0`$년부터 $`t = 2`$년까지의 첫 두 년 동안 20개의 침하 측정치를 취하고, 이는 부하 후 침하 판에서 일반적으로 얻어진 측정치입니다. 세 개의 다층 퍼셉트론(MLP)을 학습시켜 보겠습니다. 각 MLP는 두 개의 은닉층과 32개의 뉴런으로 구성되며, 활성화 함수로 ReLU($`\max(0,z)`$), tanh(−1에서 +1 사이의 값을 출력), 및 sigmoid(0과 1 사이의 값을 출력)를 사용합니다. 모든 세 개의 네트워크는 이 훈련 데이터를 매우 잘 학습하여 평균 제곱 오차가 6 mm$`^2`$ 미만을 기록하며, 측정치를 거의 완벽하게 추적합니다(2).
이제 네트워크에 2년에서 10년까지의 침하 예측을 요청하여 훈련 도메인 외부로 추측하도록 합니다. $`S_\infty = 100`$ mm이고, $`\alpha = 0.5`$ 년$`^{-1}`$이므로 10년 후의 실제 침하량은 99.3 mm입니다. 네트워크는 무엇을 예측합니까?
ReLU 네트워크는 10년 후에 264 mm를 예측하며, 오차가 165 mm로 추측이 무제한적으로 증가합니다(RMSE = 전체 10년 동안 87.6 mm). 이는 ReLU가 조각별 선형이라는 사실 때문입니다; 네트워크가 비선형 결합을 학습한 영역 외부에서는 오직 선형 성장만 생성할 수 있습니다. tanh와 sigmoid 네트워크는 다르게 실패합니다: 10년 후에 60-61 mm를 예측하며, 약 39% 저평가(RMSE = 31 mm)를 보입니다. 이 두 활성화 함수가 포화 상태이기 때문에 지반 압밀화가 계속 진행되고 있지만 네트워크는 침하가 거의 멈추었다고 예측합니다.
다층 퍼셉트론의 추측 실패. 모든 세 개의 네트워크는 훈련 데이터(0-2년)에서 높은 정확도를 기록(RMSE < 2 mm)했지만, 10년으로 추측하는 동안 재앙적으로 실패합니다. ReLU는 무제한 선형 성장(RMSE = 87.6 mm), tanh와 sigmoid는 미리 포화 상태가 됩니다(RMSE = 31 mm). 실제 솔루션은 100 mm에 근접하게 수렴합니다.
세 네트워크 모두 훈련 오차가 낮았지만, 추측을 요구받으면 재앙적으로 실패했습니다. 이는 하이퍼파라미터 튜닝 문제나 “더 많은 데이터를 필요로 한다"는 문제가 아닙니다. 이것은 신경망이 함수를 표현하는 방법에 대한 근본적인 제한입니다.
왜 이런 일이 발생합니까? 신경망은 보간기이며, 추측기는 아닙니다. 수학적 보장—보편적 근사 정리—은 충분히 넓은 네트워크가 컴팩트 도메인 내에서 어떤 연속 함수를 근사할 수 있다는 것을 나타냅니다. 즉, 훈련 범위 안에서입니다. 그것이 그 범위 외부의 신뢰성을 보장하지 않는다는 것입니다. 네트워크는 2년 동안 지수 곡선의 형태를 학습했습니다. 그 범위 밖에서는 네트워크의 예측은 수학적으로 제약받지 않습니다. 물리적 제약이 없기 때문에 Terzaghi 방정식의 근사 지수 감소보다 무제한 선형 성장(ReLU) 또는 미리 포화 상태(tanh, sigmoid)를 선호할 이유가 없습니다.
훈련 정확도는 추측 신뢰성을 보증하지 않습니다. 훈련 손실 곡선은 신경망이 추측에서 잘 작동할 것인지 여부를 드러내지 못합니다. 이는 활성화 함수, 아키텍처 깊이 또는 넓이, 학습 알고리즘과 관계없이 모든 다층 퍼셉트론에 적용됩니다. 문제는 구조적이고 파라미터적이지 않습니다.
이 문제가 고차원 공간에서는 더 심각해집니다. Balestriero 등은 놀라운 결과를 증명했습니다: 고차원 공간에서 거의 모든 새로운 쿼리 포인트가 훈련 데이터의 볼록 평면 밖에 위치합니다. 우리의 액화 분류기에는 최대 지진 가속도 $`a_{\max}`$, 전파 속도 $`V_{s30}`$, 지하수 깊이 $`d_w`$, 그리고 수로까지의 거리 $`d_r`$ 등 네 가지 특징이 있습니다. 1000개 훈련 사례가 있는 경우, 새로운 포인트 중 약 41%는 훈련 데이터 근처에 위치합니다. 더 많은 특징을 추가—토층 깊이, 미세성분 콘텐츠, 지진 규모, 단층까지의 거리—하면 비율은 100%에 가까워집니다. 거의 모든 예측이 보증되지 않은 추측 상태가 됩니다.
이는 특정 지반 공학 문제는 아닙니다만, 지반 공학은 이를 악화시킵니다. 우리는 과거 경험을 초과하는 부하에서의 침하를 예측해야 하며, 아직 발생하지 않은 100년 폭풍우 동안의 경사 안정성, 훈련 데이터에 포함되지 않은 설계 기준 이벤트보다 더 큰 지진에서의 액화, 새로운 토층 프로필에서의 기초 성능을 예측해야 합니다. 우리는 “더 많은 훈련 데이터"를 추가하여 발생하지 않은 극단적인 사건을 커버할 수 없습니다. 이것은 샘플을 수집함으로써 해결할 수 있는 데이터 부족 문제가 아닙니다—이는 접근 방식의 기본적 제한입니다.
공간 자기상관성: 일반화 오류
5개의 사이트에서 가져온 200 개의 CPT 측정치를 사용하여 점 저항력 $`q_c`$, 슬리브 마찰력 $`f_s`$ 및 침투 압력 $`u_2`$로 액화 취약 층을 식별하는 분류기를 학습시킵니다. 표준 기계 학습 관행에 따라 측정치는 무작위로 섞여 160개가 훈련(80%)에 사용되고, 나머지 40개는 검증(20%)에 보관됩니다. 분류기는 92%의 검증 정확도를 달성합니다.
그러나 이 92%는 속임수입니다. 문제는 무작위 분할이 데이터의 공간 구조를 무시하고 훈련-검증 방법론을 기반으로 하는 독립 가정을 위배한다는 것입니다.
토 지질은 공간적으로 상관관계가 있습니다—지반 공학 관행에서 잘 알려진 원칙입니다. 한 위치에서 CPT 측정치는 근처의 토 지질 조건을 나타내며, 수 킬로미터 떨어진 곳의 조건은 아닙니다. 지하 통계 모델은 50-100m 가로 방향으로 상관 길이를 통해 이 상관관계를 정량화합니다. 한 위치에서 측정된 점토 함유율은 10미터 떨어진 곳에서는 유사하지만, 100미터 떨어진 곳에서는 독립적입니다.
무작위 데이터 분할은 이러한 상관관계를 무시합니다. 200개의 CPT 측정치 중 5개 사이트에서 가져온 각 사이트당 약 40개씩을 무작위로 분할하면, 각 사이트는 대략적으로 훈련에 32개와 검증에 8개가 사용됩니다. 문제는 Site 1의 이 8개의 검증 측정치가 같은 사이트에서 훈련 측정치로부터 20-50미터 떨어져 있다는 것입니다. 독립적이 아닙니다. 검증 측정치는 훈련 측정치의 상관 관계 타원 내에 있습니다(3a). 분류기는 새로운 지질 조건을 일반화하는 것이 아니라, 5개 훈련 사이트의 특정 지질 서명을 학습했으며, 검증 데이터는 이러한 동일한 사이트 내에서 보간하는 것만 확인합니다.
지반 공학 데이터의 공간 자기상관성. (a) 무작위 분할은 공간 유출을 생성해 테스트 포인트(빨간색 정사각형)가 훈련 포인트(원)의 상관 타원 내에 위치하여 보고된 정확도를 과대평가합니다. (b) 사이트 기반 분할은 테스트 사이트(4, 5)가 훈련 사이트(1, 2, 3)와 지질학적으로 독립적이게 하여 성실한 일반화 추정을 제공합니다. 토 지질 특성의 상관 길이는 대체로 가로 방향으로 50-100m입니다.
올바른 접근 방법은 사이트 기반 분할입니다(3b). 예를 들어, Sites 1, 2 및 3(120개 측정치)을 훈련에 사용하고 Sites 4 및 5(80개 측정치)를 검증에 사용합니다. 이제 테스트 사이트는 지질학적으로 독립적이며 다른 침적 역사, 다른 지하수 조건을 가집니다.