“체인‑라더를 넘어 개별 청구 예측까지: 새로운 다기간 예측 프레임워크와 머신러닝 적용”

읽는 시간: 8 분
...

📝 Abstract

The chain-ladder (CL) method is the most widely used claims reserving technique in non-life insurance. This manuscript introduces a novel approach to computing the CL reserves based on a fundamental restructuring of the data utilization for the CL prediction procedure. Instead of rolling forward the cumulative claims with estimated CL factors, we estimate multi-period factors that project the latest observations directly to the ultimate claims. This alternative perspective on CL reserving creates a natural pathway for the application of machine learning techniques to individual claims reserving. As a proof of concept, we present a small-scale real data application employing neural networks for individual claims reserving.

💡 Analysis

**

1. 연구 배경 및 필요성

  • 개별 청구 예측은 10년 전부터 머신러닝 기반 연구가 활발히 진행돼 왔지만, 데이터 접근성, 검열(censoring)·저빈도·복합 시계열 특성, 다기간 예측 요구 등으로 산업 현장에 보편화되지 못했다.
  • 기존 ML 접근법은 (1) 재귀적 1‑period 예측 → 다기간 예측, (2) 전체 시뮬레이션 모델 구축, (3) 시퀀스‑투‑시퀀스 마스킹, (4) 궁극값 직접 예측 네 가지 전략으로 나뉜다. 각각 장·단점이 명확히 존재한다.

2. 핵심 아이디어: CL의 재구성

  • 전통 CL: C_{i,J} = C_{i,0} * Π_{l=0}^{J-1} \hat f_l (단계별 팩터 추정 후 순차적 적용).
  • 새로운 접근: Projection‑to‑Ultimate (PtU) 팩터 F_j 를 정의하고, C_{i,J} = C_{i,J-j} * Π_{l=j}^{J-1} F_l 로 표현.
  • 역방향 추정: 삼각형의 오른쪽 위(최신 개발 단계)부터 시작해 F_{J-1} 을 직접 추정하고, 이를 j+1 → j 로 재귀적으로 내려가며 전체 F_j 를 얻는다.
  • 동등성 증명: 제안된 PtU‑기반 추정은 기존 단계별 CL과 예측값이 동일함을 정리 2.2와 증명(부록)에서 보인다.

3. 머신러닝과의 자연스러운 연결

  • PtU 팩터는 **“한 번에 전체 개발 기간을 포괄”**하는 목표 변수이므로, 다기간 예측 문제를 1‑step 회귀 문제로 전환한다.
  • 따라서 신경망, 트리 기반 모델, 강화학습 등을 그대로 적용할 수 있으며, 기존 CL이 제공하는 “가드레일”(bias‑control, regularization) 역할을 그대로 활용한다.
  • 논문은 간단한 다층 퍼셉트론(MLP) 을 사용해 RBNS(Reported‑But‑Not‑Settled) 청구의 PtU 팩터를 학습, 실제 데이터에 적용해 기존 CL 대비 비슷하거나 약간 개선된 예측 정확도를 확인한다.

4. 장점

구분기존 방법제안 방법
데이터 활용 효율단계별 누적값만 사용, 재귀 시 입력값이 비이진화될 위험전체 삼각형을 한 번에 활용, 역방향 추정으로 정보 손실 최소
멀티‑퍼리어드 처리재귀적 예측 → 누적 오류 발생 가능한 번에 전체 기간을 예측 → 오류 전파 억제
머신러닝 적용 용이성입력값이 시계열 길이에 따라 변동, 모델 설계 복잡목표 변수(PtU) 고정, 표준 회귀/분류 모델 그대로 사용
전문가 개입복잡한 하이퍼파라미터 튜닝 필요CL 팩터와 동일한 형태의 규제 가능, 전문가가 직접 팩터 조정 가능
해석 가능성블랙박스 모델이 많음CL 기반이므로 기존 actuarial 해석 틀 유지

5. 한계 및 비판적 고찰

  1. RBNS에만 국한 – IBNR(Incured‑But‑Not‑Reported) 청구는 별도 빈도‑심각 모델이 필요, 현재 프레임워크와 직접 결합되지 않음.
  2. 데이터 규모 – 실증은 “소규모 실제 데이터”에 국한; 대규모, 고차원 특성을 가진 데이터셋에서의 일반화 성능 검증이 부족.
  3. 모델 복잡도 – 논문에서는 가장 단순한 신경망을 사용했지만, 실제 산업 현장에서는 고차원 특성(예: 손해사정사 메모, 이미지 등) 을 포함한 복합 모델이 필요할 가능성이 높음.
  4. 불확실성 측정 – CL은 Mack’s variance estimator 등 불확실성(variance) 추정이 가능하지만, PtU‑기반 ML 모델에서 예측 구간을 어떻게 제공할지에 대한 논의가 부족.
  5. 실제 적용 비용 – 기존 CL은 Excel/시트 수준에서도 구현 가능하지만, PtU‑기반 ML 파이프라인은 데이터 엔지니어링·모델 운영 비용을 추가로 요구한다.

6. 향후 연구 방향

  • IBNR 통합: PtU‑프레임워크에 빈도‑심각 모델을 결합해 RBNS와 IBNR를 동시에 예측하는 하이브리드 구조 개발.
  • 불확실성 정량화: 베이지안 신경망, 앙상블, 혹은 Monte‑Carlo dropout 등을 활용해 PtU 예측의 신뢰구간을 제공하는 방법론 구축.
  • 대규모 실증: 다국적 보험사의 대규모 청구 데이터셋을 활용해 모델의 스케일러빌리티와 일반화를 검증.
  • 특성 엔지니어링: 텍스트(청구 메모), 이미지(손상 사진), 외부 거시경제 변수 등을 포함한 멀티모달 특성을 PtU 모델에 통합.
  • 자동화 파이프라인: 데이터 전처리·PtU 팩터 추정·ML 학습·배포까지 전 과정을 MLOps 기반으로 자동화, 실무 적용 장벽 낮추기.

7. 결론

본 논문은 체인‑라더를 재구성해 다기간 예측 팩터(PtU)를 도출함으로써, 전통적인 손해보험 계리 기법과 최신 머신러닝 기법 사이의 간극을 메우는 혁신적인 방법론을 제시한다. 제안된 접근은 CL의 검증된 안정성과 해석 가능성을 유지하면서, 개별 청구 수준의 예측을 가능하게 하는 “자연스러운” 전이점을 제공한다. 다만, 현재는 RBNS에만 초점을 맞추고 소규모 실증에 머물러 있기 때문에, 대규모 데이터 적용, 불확실성 정량화, IBNR 통합 등 실무적 과제가 남아 있다. 이러한 과제를 차근히 해결한다면, 본 프레임워크는 보험업계에서 개별 청구 예측을 표준화하는 핵심 기술이 될 잠재력을 지닌다.

📄 Content

**약 10년 전부터, 개별 청구 준비금(Individual Claims Reserving)을 머신러닝(ML) 기법으로 연구하기 시작했습니다. 그 이후 회귀 트리, 그래디언트 부스팅 머신, 신경망 등 수많은 방법과 모델이 제안되었습니다. 그럼에도 불구하고 개별 청구 준비금 분야는 아직도 주로 연구 영역에 머물고 있으며 산업 현장에서 널리 채택되지 못하고 있습니다. Schneider‑Schwab[18]는 다음과 같이 적고 있습니다. “보통, 개별 청구에 대한 보다 풍부한 데이터를 활용하는 최신 모델은 파라메트릭이거나 머신러닝 기법을 사용합니다. 그러나 아직 어느 모델도 금본위표준(gold standard)가 되지 못했고, 추가적인 발전이 필요합니다.” 우리는 이러한 현상을 여러 가지 어려움 때문이라고 봅니다.

1️⃣ 데이터 접근성 부족 – 공개적으로 이용 가능한 개별 청구 데이터가 거의 없습니다. 이는 전산학·계리학 분야의 연구를 크게 저해합니다.

2️⃣ 데이터 특성 – 개별 청구 데이터는 검열(censoring)되고, 발생 빈도가 낮으며, 복잡한 시계열 구조를 가집니다. 이런 특성을 가진 문제에 대해 좋은 예측 모델을 구축하는 일은 일반적으로 어렵습니다.

3️⃣ 다기간 예측 문제 – 청구 준비금 문제는 본질적으로 다기간(forecasting) 예측 문제입니다. 그러나 대부분의 기존 알고리즘은 한 기간 앞을 예측하도록 학습됩니다. 따라서 “한 기간 → 다기간”으로 전환하기 위해서는 별도의 트윅(tweak)이 필요합니다.

4️⃣ 구현·구조의 복잡성 – 제안된 개별 청구 준비금 방법들은 대개 복잡하고, 특정 상황에 맞게 맞춤화되어 있습니다. 예를 들어, 각 보험사는 약간씩 다른 형태와 포맷으로 과거 데이터를 수집합니다. 이 때문에 서로 다른 방법을 벤치마크하기가 어렵습니다. 또한, 대부분의 접근법은 하이퍼파라미터 튜닝을 많이 요구합니다. 이는 편향(bias)을 피하기 위한 것이지만, “제안된 방법이 다른 청구 상황에도 쉽게 일반화될 수 있는가?”라는 의문을 남깁니다.

본 논문은 보험 산업 전반에 개별 청구 준비금이 널리 도입될 수 있도록 하는 근본적인 새로운 접근법을 제시합니다. 이 변혁적 단계는 특정 머신러닝 아키텍처에 국한되지 않으며, 핵심 아이디어는 역사적 개별 청구 데이터를 직접적인 다기간 예측을 위해 재구성하는 것입니다. 구체적으로는 전통적인 체인‑래더(Chain‑Ladder, CL) 알고리즘을 재정의하여 다기간 모델 피팅 및 예측이 가능하도록 합니다. 이 단계만 제대로 이해하면, 이를 머신러닝 기법에 적용하는 일은 매우 직관적입니다. 아래에서는 현재까지 개별 청구 준비금에 머신러닝을 적용한 연구 동향을 간략히 정리한 뒤, 우리의 새로운 접근법을 상세히 설명합니다.


1. 다기간 예측을 다루는 네 가지 주요 기법

(1) 재귀적 한‑기간 예측 방식

과거 관측값을 입력으로 사용해 한 기간을 예측하고, 이를 순차적으로 롤링하여 미래를 예측합니다. 누락된 입력값은 앞 단계에서 얻은 예측값으로 대체합니다. 이 방법은 가장 널리 쓰이며, De Felice‑Moriconi[5], Chaoubi et al.[4] 등에서 활용되었습니다. 그러나 이 방식은 근본적인 문제를 내포합니다. 예를 들어, 모든 반응이 이진(0/1)이라고 가정하면, 모델은 이진 입력만을 학습합니다. 하지만 다기간 예측 단계에서 얻어지는 예측값은 연속적인 [0,1] 구간의 실수(예: 0.46)일 수 있습니다. 모델은 이런 비이진 입력을 전혀 본 적이 없으므로, 올바르게 처리하지 못합니다.

(2) 전체 시뮬레이션 모델 학습

위 문제를 회피하기 위해 전체 시뮬레이션 모델을 학습하고, 이를 통해 Yₜ₊₁을 시뮬레이션합니다. 그런 뒤 몬테‑카를로(Monte‑Carlo) 시뮬레이션을 수행해 예측을 확장합니다. Wüthrich[21], Delong et al.[6] 등이 이 접근을 사용했습니다. 하지만 정확한 시뮬레이션 모델을 구축해야 한다는 부담이 큽니다. 청구 지급, 발생액, 기타 복합적인 확률 과정 등을 모두 모델링하는 것은 현재의 모델링 역량을 넘어서는 일입니다.

(3) 시퀀스‑투‑시퀀스(sequence‑to‑sequence) 방식

Kuo[9,10]와 Gabrielli[7]는 결측값을 마스킹(mask)하고, 모델이 불완전한 정보를 가지고도 직접 Yₜ₊₂ 등을 예측하도록 학습합니다. 이 방법은 매우 유망하지만, 학습 과정에서 발생할 수 있는 편향을 제어·완화하는 것이 핵심 과제입니다. 우리 제안 역시 이와 유사한 문제에 직면하지만, 전문가 개입이 비교적 용이하다는 장점이 있습니다.

(4) 최종 청구액(ultimate claim) 직접 예측

문헌에서는 두 가지 큰 흐름이 있습니다.

  • 생존 분석(survival analysis) 기반 방법 – 검열된 정보를 적절히 반영합니다. Lopez et al.[12,11], Bladt‑Pittarello[2], Hiabu et al.[8], Turcotte‑Shi[20] 등이 대표적입니다.
  • 강화학습(reinforcement learning) 기반 방법 – 새로운 정보가 들어올 때마다 예측을 최적화합니다. Avanzi et al.[1]이 제시했습니다.

우리의 접근법은 (4)번 옵션에 속하지만, 기존 두 방법과는 다른 방식으로 최종 청구액을 예측합니다. 핵심은 전통적인 CL 방법을 출발점으로 삼는 것입니다. CL은 수십 년간 집계 청구에 대해 높은 정확도와 단순성을 입증했으며, 편향에 강하고 전문가 지식으로 쉽게 조정할 수 있습니다. 우리는 CL 계수(factor) 추정 과정을 재구성하여, 이를 개별 청구에 대한 머신러닝 모델에 자연스럽게 확장할 수 있게 만들었습니다. 실제 논문에서는 예시로 아주 기본적인 신경망 구조를 사용했지만, 보다 복잡한 아키텍처에도 바로 적용 가능하다고 봅니다.

우리 방법의 주요 장점

  1. 다양한 동적 공변량(claims incurred, 다중 지급 프로세스 등)을 그대로 활용 가능.
  2. CL 기반이므로 기존 CL 결과가 ML 예측의 “가드레일”(guardrails) 역할을 함. 즉, 편향을 제어하기 위한 정규화가 자연스럽게 이루어짐.
  3. 시퀀스‑투‑시퀀스 형태로도 손쉽게 확장 가능(위 (3)번 방식과 동일한 구조).

2. 한계점 및 연구 범위

우리 제안은 보고됐지만 아직 정산되지 않은(RBNS) 청구만을 대상으로 합니다. 이는 현재 대부분의 개별 청구 연구가 공유하는 전제이며, 개별 청구 이력이 존재해야 향후 전개를 예측할 수 있기 때문입니다. **보고되지 않은 청구(IBNR)**는 별도의 빈도‑심각도(frequency‑severity) 모델을 통해 추정해야 합니다.


3. 논문의 구성

섹션내용
2Mack의 비모수적 CL 모델[14]을 재검토하고, CL 준비금을 추정하는 새로운 공식 제시
3위 대안을 개별 청구 준비금에 자연스럽게 확장하는 방법 서술
4실제 소규모 데이터셋 두 개를 이용해 제안 방법을 Proof‑of‑Concept으로 검증
5결론 및 향후 연구 로드맵 제시 (전체 파워를 발휘하기 위한 단계)
부록수학적 증명 제공

4. 체인‑래더(Chain‑Ladder) 방법 재정의

4.1 기본 설정

  • 사고 연도 i ∈ {1,…,I}, 개발 지연 j ∈ {0,…,J}에 대해 누적 지급액을 Cᵢ,ⱼ 로 표기합니다.
  • 모든 (i, j) 쌍에 대해 Cᵢ,ⱼ > 0 라고 가정하고, I > J (즉, 최소 하나의 사고 연도는 완전히 관측됨)라고 합니다.
  • 목표는 시간 I 시점에 아직 완전 관측되지 않은 사고 연도 i > I‑J 의 궁극적 청구액 Cᵢ,ⱼ 를 예측하는 것입니다.

4.2 전통적 CL 추정

전통적인 CL은 개발 계수 fⱼ분산 계수 σ²ⱼ 를 이용해

[ E[C_{i,J}\mid C_{i,0},\dots,C_{i,J-1}] = C_{i,J-1},f_{J-1} ]

와 같은 형태로 기대값을 전파합니다. 계수 fⱼ 는

[ \hat f_j = \frac{\sum_{i=1}^{I-j} C_{i,j+1}}{\sum_{i=1}^{I-j} C_{i,j}} ]

로 추정하고, 최종 예측값은

[ \hat C_{i,J}=C_{i,J-i},\prod_{l=J-i}^{J-1}\hat f_l ]

으로 계산됩니다. 이 방식은 편향이 없으며(Mack[14]), 수십 년간 검증된 방법입니다.

4.3 “앞‑방향”(forward) vs “뒤‑방향”(backward) 재구성

전통적인 앞‑방향 롤‑포워드 방식(그림 1)은 각 개발 단계마다 fⱼ 를 곱해가며 최종 청구액을 추정합니다.

반면, 우리는 뒤‑방향 접근을 제안합니다. 여기서는 Projection‑to‑Ultimate(PtU) 계수 Fⱼ 를 정의하고, 우측 상단 코너(j = J‑1)부터 좌측 하단(j = 0)까지 역방향으로 추정합니다.

[ F_j = \frac{\sum_{i=I-J+1}^{I-j} C_{i,J}}{\sum_{i=I-J+1}^{I-j} C_{i,J-1}} ]

이렇게 구한 Fⱼ 를 이용하면

[ \tilde C_{i,J}=C_{i,J-i},\prod_{l=J-i}^{J-1}F_l ]

가 바로 역방향 예측값이며, 정리 2.2에 의해 전통적인 앞‑방향 결과와 동일함이 증명됩니다(부록 참조).

4.4 개별 청구로의 확장

위 재구성을 개별 청구 수준으로 옮기면 다음과 같은 구조가 됩니다.

  • 각 청구 ν(사고 연도 i) 에 대해 누적 지급과 특성 프로세스 Xᵢ,ₗ,ν 를 함께 정의합니다.
  • 독립성 가정: 청구 간 독립이며, 보고 시점에 알려

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키