그래프 오토인코더를 활용한 금융 부정 행위 패턴 생성 및 탐지
초록
본 논문은 일곱 가지 대표적인 불법 금융 거래 패턴을 파라미터화된 합성 생성기로 만들고, 각 패턴별로 그래프 오토인코더(GAE)를 학습시켜 재구성 오류를 패턴 구분 신호로 활용한다. GAE‑GCN, GAE‑SAGE, GAE‑GAT 세 모델을 비교한 결과, GAE‑GCN이 대부분의 패턴에서 가장 일관된 재구성 성능을 보였으며, 합성 데이터 기반 그래프 학습이 실무 AML 시스템에 적용 가능한 사전 탐지 기술이 될 가능성을 제시한다.
상세 분석
이 연구는 두 단계로 구성된 실험 설계를 제시한다. 첫 번째 단계에서는 ‘Collector’, ‘Sink’, ‘Collusion’, ‘Scatter‑Gather’, ‘Gather‑Scatter’, ‘Cyclic’, ‘Branching’이라는 일곱 가지 전형적인 자금세탁 토폴로지를 파라미터화된 파이썬 스크립트로 합성한다. 각 생성기는 노드 수, 입·출력 연결 수, 노이즈 노드 삽입 확률 등을 랜덤하게 조정해 실제 금융 네트워크에서 관찰되는 구조적 변동성을 모방한다. 15,000개의 샘플을 패턴당 생성하고, 80 %를 학습, 20 %를 검증용으로 분할하였다.
두 번째 단계에서는 각 패턴 전용 GAE 모델을 별도로 학습한다. 인코더는 GCN, GraphSAGE, GAT 중 하나를 사용하고, 디코더는 표준 내적 기반 복원 구조를 채택한다. 입력 피처는 인‑아웃 디그리, 클로즈니스, 베터니스, 하모닉 중심성 등 아홉 가지 노드 특성과 인접 행렬을 결합한 형태이며, 이는 그래프 구조 정보를 풍부하게 전달한다. 학습은 최대 100 epoch, 조기 종료(patience = 3), 배치 크기 25, Adam 옵티마이저를 이용해 수행되었다.
실험 결과는 재구성 오류 행렬 형태로 제시되었으며, GAE‑GCN이 학습한 패턴에 대해 대각선(자기 재구성) 오류가 가장 낮았다. GAE‑SAGE와 GAE‑GAT는 특정 패턴(예: Collector, SG, Collusion, Branching)에서만 경쟁력을 보였지만, 전체적인 일관성에서는 뒤처졌다. 이는 GCN 기반 인코더가 정규화된 라플라시안 스펙트럼을 직접 활용해 구조적 유사성을 더 효과적으로 포착한다는 점을 시사한다. 또한, 재구성 오류를 임계값으로 설정하면 새로운 미지의 그래프가 기존 패턴과 얼마나 차이가 나는지를 정량화할 수 있어, 라벨이 없는 실시간 AML 모니터링에 적용 가능하다.
한계점으로는 합성 데이터가 실제 금융 네트워크의 복잡한 시간적 동역학이나 금액 분포를 충분히 반영하지 못한다는 점, 그리고 단일 패턴 학습 방식이 다중 패턴이 혼합된 실제 거래 흐름을 식별하는 데는 제한적일 수 있다는 점을 들 수 있다. 향후 연구에서는 멀티‑태스크 학습, 시계열 그래프 신경망, 그리고 실제 은행 데이터와의 도메인 적응을 통해 모델의 일반화 능력을 강화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기