법의학 치과 기록 비교를 위한 투명한 집계 연산 설계
초록
본 논문은 치과 기록(오돈그램) 비교에서 사용되는 7가지 기준을 통합·평가하기 위해, 사전 정의된 순서 기반 집계, 퍼지 논리 집계, 그리고 백‑박스가 아닌 머신러닝 기반 집계 모델을 제안한다. 215건의 포렌식 사례를 5‑폴드 교차검증으로 실험한 결과, 평균 순위 2.02~2.21을 달성해 기존 평균 3.91 대비 성능을 크게 향상시켰으며, 모델 해석 가능성을 유지한다.
상세 분석
이 연구는 기존 포렌식 치과 식별 시스템이 ‘lexicographical order’를 이용해 기준을 순차적으로 적용함으로써 정보 활용도가 낮고, 내부 연산이 불투명하다는 한계를 짚는다. 이를 극복하기 위해 저자들은 세 가지 집계 접근법을 설계하였다. 첫 번째는 데이터‑드리븐 순서 기반 집계로, 각 기준의 통계적 중요도를 학습해 최적의 순서를 도출하고, 그 순서에 따라 가중치를 부여한다. 두 번째는 퍼지 논리 연산(예: 평균, 곱, 라우시안 곱 등)을 적용해 ‘match’, ‘possible match’, ‘mismatch’ 세 가지 결과를 연속적인 신뢰도 점수로 변환한다. 세 번째는 ‘white‑box’ 머신러닝 기법, 구체적으로 선형 회귀와 결정 트리(특히 회귀 트리)를 사용해 각 기준의 기여도를 명시적으로 추출한다.
실험 설계는 두 개국(스페인·칠레)에서 수집한 215건의 실제 포렌식 사례를 5‑fold CV와 별도 테스트 셋으로 나누어, 제안된 집계 모델들의 순위 정확도를 기존 상용 시스템(KMD PlassData DVI 등)과 비교하였다. 평가 지표는 평균 순위(average rank)와 Top‑k 성공률이며, 특히 평균 순위가 2.02~2.21로 기존 3.91 대비 45% 이상 개선되었다. 퍼지 평균과 라우시안 곱은 각각 2.15, 2.18의 평균 순위를 기록했으며, 회귀 트리 기반 집계는 2.02로 가장 우수했다.
해석 가능성 측면에서, 회귀 트리와 선형 회귀는 각 기준의 가중치를 명시적으로 제공해 전문가가 결과를 검증하고, 필요 시 기준 순서를 재조정할 수 있게 한다. 퍼지 연산도 ‘membership function’ 파라미터를 통해 투명성을 확보한다. 반면, 기존 블랙‑박스 딥러닝 모델은 높은 정확도를 보였지만, ALTAI(유럽 AI 규제) 요구사항인 투명성·책임성에 부합하지 못한다는 점을 강조한다.
또한 논문은 INTERPOL 코딩 체계와 단순화 코딩 시스템(SCS) 사이의 트레이드오프를 논의한다. SCS는 7개의 코드(V, F, S, X, I, P, N)만으로 충분한 식별력을 제공하면서 라벨링 오류를 최소화한다. 저자들은 이 단순 코드를 기반으로 집계 모델을 구축함으로써 데이터 수집 비용을 낮추고, 다양한 포렌식 시나리오에 적용 가능하도록 설계했다.
마지막으로, 제안된 방법론은 ALTAI의 ‘human agency’, ‘technical robustness’, ‘transparency’, ‘fairness’ 등 핵심 원칙을 충족한다. 특히, 모델이 제공하는 설명 가능한 가중치와 검증 가능한 성능 지표는 법의학 현장에서 전문가의 판단을 보조하고, 법적·윤리적 책임을 명확히 하는 데 기여한다.
댓글 및 학술 토론
Loading comments...
의견 남기기