조성 데이터 기반 알트만 파산 예측 모델 재구성

본 논문은 전통적인 알트만 파산 예측 모델을 조성 데이터(CoDa) 방법론과 결합하여 재구성하고, 로지스틱 회귀, k‑최근접 이웃(k‑NN), 랜덤 포레스트(Random Forest) 세 가지 머신러닝 기법을 적용해 예측 성능을 비교한다. 연구 배경으로는 기존 재무비율을 그대로 사용하면 극단치, 비대칭, 비정규성, 비선형성 등 통계적 가정 위배 문제가 빈번히 발생한다는 점을 들며, 이러한 문제를 해결하기 위해 조성 데이터가 제안된 바 있다. 조성 데이터는 모든 회계 항목을 양수로 간주하고, 항목 간 비율이 핵심 정보를 담는다는 전제 하에 로그‑비율 변환을 수행한다. 연구에서는 스페인 경제의 도매 무역(46XX) 부문에서 31,131개 기업(파산 97개)을 추출했으며, 데이터는 Iberian Balance sheet Analysis System(SABI)에서 2025년 6월에 수집하였다. 파산 기업은 채권자 회의(“concurso de acreedores”)가 열린 경우로 정의하고, 파산 여부를 예측하기 위해 파산 전 연도의 표준 비율과 조성 로그‑비율을 사용하였다. 전처리 과정에서 제로값은 로그‑비율 EM 방법으로 보정했으며, 제로값 비율은 NCA 1.38%, RE 5.54%, NCL 22.58% 등으로 보고하였다. 조성 데이터의 핵심은 7개의 기본 회계 항목(NCA, CA, RE, NCL, CL, OR, OE)이다. 이들로부터 D‑1=6개의 기본 로그‑비율(plr)을 도출했으며, 각각은 자산유동성(log(NCA/CA)), 현재자산 회전율(log(OR/CA)), 마진(log(OR/OE)), 현재비율(log(CA/CL)), 부채만기(log(NCL/CL)), 보유이익 대비 비율(log(RE/NCL))이다. 또한, 거리 기반 모델(k‑NN, Random Forest)에서는 모든 가능한 D(D‑1)/2=21개의 조합 로그‑비율을 사용해 Aitchison 거리를 구현하였다. 표준 비율 접근법에서는 알트만 모델의 원래 5개 비율(운전자본비율, 이익률, 자산수익률, 순자산비율, 매출회전율)과 확장형 5개 비율(이익대부채비, 현재비율, 역레버리지, 자기자본수익률, 부채비율)을 사용했다. 이들 비율은 대부분 높은 왜도와 첨도를 보였으며, 예를 들어 CA‑CL 비율의 왜도는 -30.3, 첨도는 2220.3으로 비정규성이 심각했다. 반면 조성 로그‑비율은 대부분 정상 범위에 머물러 데이터 정규화와 이상치 억제 효과가 입증되었다. 모델링 단계에서는 전체 데이터를 70% 훈련, 30% 검증으로 무작위 분할하였다. 훈련 데이터는 파산 기업 69건에 대해 동일 수의 건강 기업을 무작위 추출해 1:1 비율(총 138건)로 다운샘플링했으며, 검증 데이터는 원본 비율을 유지해 9,312건의 건강 기업과 28건의 파산 기업을 포함했다. 로지스틱 회귀는 R의 glm 함수를, k‑NN은 class 패키지의 knn 함수를, 랜덤 포레스트는 randomForest 패키지를 사용했으며, 랜덤 포레스트는 100개의 트리를 생성하고 표준 비율에서는 4개, 조성 비율에서는 7개의 변수를 무작위 선택해 학습했다. 성능 평가지표는 정확도, 민감도(재무위기 기업 탐지율), 특이도(건강 기업 올바른 판별율), 균형 정확도(민감도와 특이도의 산술 평균)이다. 결과는 다음과 같다. - **조성 로지스틱 회귀**: 민감도 0.86, 특이도 0.71, 균형 정확도 0.79, 전체 정확도 0.78. - **표준 로지스틱 회귀**: 민감도 0.71, 특이도 0.68, 균형 정확도 0.70, 전체 정확도 0.71. - **조성 랜덤 포레스트**: 민감도 0.89, 특이도 0.69, 균형 정확도 0.79, 전체 정확도 0.78. - **표준 랜덤 포레스트**: 민감도 0.78, 특이도 0.66, 균형 정확도 0.72, 전체 정확도 0.73. - **조성 k‑NN**: 민감도 0.84, 특이도 0.63, 균형 정확도 0.74, 전체 정확도 0.75. - **표준 k‑NN**: 민감도 0.70, 특이도 0.60, 균형 정확도 0.65, 전체 정확도 0.68. 전반적으로 조성 데이터 기반 모델은 특히 민감도에서 큰 폭의 개선을 보였으며, 이는 파산 위험을 조기에 탐지하는 데 유리함을 의미한다. 랜덤 포레스트와 로지스틱 회귀는 변수 선택과 비선형 관계 포착 능력 덕분에 가장 높은 균형 정확도를 기록했다. k‑NN은 거리 기반 특성상 조성 로그‑비율 전체를 사용했음에도 불구하고 특이도가 다소 낮아 전체 성능에서 표준 방법보다 크게 앞서지는 못했지만, 민감도 향상은 확인되었다. 논문은 또한 조성 데이터가 기존 재무비율의 왜도·첨도 문제를 근본적으로 해결하고, 로그‑비율 변환을 통해 데이터의 스케일을 통일함으로써 머신러닝 모델이 보다 안정적으로 학습될 수 있음을 강조한다. 특히, 조성 로그‑비율은 회계 항목 간의 상대적 관계를 보존하면서도 과잉 상관을 피하므로, 변수 선택이 중요한 랜덤 포레스트와 같은 모델에서 효과적으로 활용될 수 있다. 연구의 한계로는 특정 산업군(스페인 도매 무역)과 파산 사례가 적은(97건) 점, 다운샘플링으로 인한 정보 손실 가능성, 그리고 외부 검증이 없다는 점을 들었다. 향후 연구에서는 다중 산업, 다국가 데이터를 활용한 일반화 검증과, 심층 학습 모델과의 비교, 그리고 시간적 연속성을 고려한 패널 데이터 접근법을 제안한다. 결론적으로, 조성 데이터 기반 로그‑비율 변환은 전통적인 재무비율 분석의 통계적 한계를 극복하고, 파산 예측 정확도를 향상시키는 유망한 방법론이며, 회계·재무 분야의 데이터 마이닝 및 머신러닝 적용에 새로운 패러다임을 제공한다.

조성 데이터 기반 알트만 파산 예측 모델 재구성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기