기업 세금 위험 감독 및 위험 수준 평가를 위한 하이브리드 DNN Transformer AE 프레임워크

초록

본 논문은 정적 기업 속성, 재무 시계열, 비정형 세무 행위 세 가지 차원을 동시에 모델링하기 위해 DNN, Transformer, Autoencoder를 결합한 하이브리드 딥러닝 프레임워크를 제안한다. 세 모듈의 출력값을 융합해 위험 점수를 산출하고, 이를 고·중·저 위험 수준으로 매핑한다. 실제 기업 세무 데이터셋에서 정확도 0.91, Macro F1 0.88을 달성해 기존 규칙 기반·단일 모델 대비 우수한 성능과 해석 가능성을 입증한다.

상세 요약

제안된 하이브리드 구조는 세 가지 서브모듈로 구성된다. 첫 번째 DNN 모듈은 기업의 규모, 업종, 법인 형태, 과거 감사 이력 등 정형화된 정적 특성을 입력으로 받아 다층 퍼셉트론을 통해 비선형 관계를 학습한다. 이때 레이어 수와 뉴런 수는 교차 검증을 통해 최적화되었으며, 배치 정규화와 드롭아웃을 적용해 과적합을 억제한다. 두 번째 Transformer 모듈은 월별 매출, 비용, 세금 신고액 등 시계열 데이터를 다중 헤드 어텐션 메커니즘으로 처리한다. 포지셔널 인코딩을 통해 순서 정보를 보존하고, self‑attention을 활용해 장기 의존성을 포착함으로써 급격한 변동이나 계절성 패턴을 효과적으로 학습한다. 특히, 기존 RNN 기반 모델이 겪는 기울기 소실 문제를 회피하고, 병렬 연산이 가능한 구조 덕분에 대규모 데이터에서도 학습 효율을 높였다. 세 번째 Autoencoder 모듈은 라벨이 없는 비정형 세무 행위(예: 비정상적인 공제 비율, 비정상적인 거래 상대방 패턴)를 입력으로 받아 재구성 오류를 기반으로 이상치를 탐지한다. 인코더‑디코더 구조는 은닉 차원을 압축하면서 핵심 특징을 보존하도록 설계되었으며, 재구성 손실이 사전에 정의한 임계값을 초과하면 해당 샘플을 잠재적 위험으로 표시한다.
세 모듈의 출력은 각각 위험 점수(0~1) 형태로 정규화된 뒤, 가중 평균 방식으로 융합된다. 가중치는 검증 데이터셋에서 각 모듈의 독립적인 성능(정확도, AUC 등)을 기반으로 베이지안 최적화로 자동 조정된다. 최종 점수는 사전 정의된 임계값(예: 0.7, 0.4)으로 구분되어 고·중·저 위험 레벨을 할당한다.
실험은 국내 대형 회계법인과 협업해 수집한 12,000개 기업의 5년치 재무·세무 데이터를 사용했으며, 데이터 전처리 단계에서 결측값은 KNN 보간, 범주형 변수는 원-핫 인코딩, 시계열은 로그 변환 후 정규화하였다. 베이스라인으로는 전통적인 규칙 기반 시스템, 단일 DNN, LSTM, 그리고 Gradient Boosting Machine을 비교하였다. 제안 모델은 정확도 0.91, Macro F1 0.88, ROC‑AUC 0.94를 기록했으며, 특히 저위험·고위험 구분에서 기존 모델 대비 7%p 이상의 개선을 보였다. 해석 측면에서는 SHAP 값을 활용해 DNN 입력 변수의 중요도를 시각화하고, Transformer의 어텐션 맵을 통해 특정 회계 기간에 위험 점수가 급증한 원인을 추적할 수 있었다. 이러한 다중 관점 해석은 규제 기관이 사후 조사 대상 기업을 선정하고, 기업 스스로 위험 요인을 사전에 인지하도록 돕는다.

초록

상세 요약

📜 논문 원문 (영문)