패키징 공정의 고속 데이터 라벨링을 위한 이상 탐지 기반 분류 지원
본 논문은 식품 포장 라인에서 초당 수천 건의 센서 데이터를 실시간으로 라벨링하기 위해 이상 탐지 기법을 활용하는 방법을 제안한다. 실제 생산 현장에서 수집한 40개 센서의 시계열 데이터를 전처리·특징 추출한 뒤, 다양한 비지도·반지도 이상 탐지 알고리즘을 조합하고, 가장 높은 이상 점수를 가진 데이터를 운영자가 보고한 결함 구간에 매핑한다. 이렇게 자동 라벨링된 데이터를 기반으로 분류 모델을 학습시켜 결함 검출 정확도와 재현율을 향상시킨다. …
저자: Tilman Klaeger, Andre Schult, Lukas Oehm
본 논문은 식품 포장 산업에서 발생하는 짧고 빈번한 결함을 실시간으로 감지하고, 운영자가 보고한 결함 시점과 자동으로 생성된 이상 점수를 연결해 데이터 라벨링을 지원하는 새로운 방법론을 제시한다. 연구 배경으로는 포장 공정이 초당 수천 개의 제품을 처리하면서, 인간이 개별 제품을 관찰해 라벨링하기가 사실상 불가능하다는 점을 들었다. 기존의 예측 유지보수 연구는 회전 부품이나 연속적인 움직임을 주로 다루었으며, 포장 기계와 같이 이산적인 빠른 사이클을 가진 시스템에 대한 연구는 부족했다.
데이터 수집은 독일 프라운호퍼 IVV 연구소에서 실제 라인에 설치된 카톤머에서 이루어졌다. PLC의 1 ms 사이클 타임으로 40개의 센서(회전 인코더 제외) 데이터를 수집했으며, 3개의 교대 근무 동안 총 7시간씩 관찰했다. 관찰된 결함은 총 53건으로, 대부분은 제품이 버킷 체인에 올바르게 배치되지 않거나, 골판지 박스 탈착·삽입 과정에서 발생했다. 결함 중 일부는 기계 정지 없이도 품질 저하만을 일으켰으며, 이는 라벨링이 더욱 어려운 상황을 만든다.
데이터 전처리 단계에서는 디지털 트윈을 구축해 각 제품이 통과하는 동안의 센서 시계열을 동일한 길이로 정규화하였다. 가변 속도에 따른 길이 차이를 보정하기 위해 시간 스케일링을 적용하고, 결측치는 중앙값 대체법으로 보완했다. 이후 각 센서에 대해 평균, 표준편차, 최대값, 최소값, 피크 간격 등 5가지 통계 특성을 추출해 총 200개의 피처를 생성하였다. 차원 축소는 분산 임계값을 이용해 120개 피처로 줄인 뒤, PCA와 요인 분석을 추가 적용해 최종 피처 수를 조정했다.
이상 탐지 단계에서는 비지도·반지도 방법을 폭넓게 실험했다. HBOS, Isolation Forest, k‑Nearest Neighbor, Local Outlier Factor, Minimum Covariance Determinant, PCA 기반 탐지, Gaussian Mixture 등 7가지 알고리즘을 사용했으며, 각 알고리즘에 대해 50 %와 70 % 피처를 무작위 서브스페이스 샘플링한 80개의 서브 모델을 앙상블했다. 전체 파라미터 조합은 약 10 000개에 달했으며, 자동 그리드 서치를 통해 최적 조합을 탐색했다.
라벨링 메커니즘은 운영자가 보고한 결함 구간 내에서 가장 높은 이상 점수를 가진 데이터 포인트를 ‘결함’으로 라벨링한다는 가정에 기반한다. 이렇게 라벨링된 데이터는 지도 학습용 레이블이 되며, Random Forest, Support Vector Machine 등 표준 분류기로 학습시켜 결함 여부를 예측한다.
모델 선택을 위한 새로운 내부 메트릭 m을 제안한다. m = (average anomaly score of detected defects) / (average anomaly score of all samples) 로 정의되며, 결함 비율이 극히 낮은 데이터셋에서도 결함 점수가 전체 평균에 비해 얼마나 크게 차이 나는지를 정량화한다. 추가적으로, 이상 점수 분산, χ² 검정 기반 시간적 균등성, 전통적인 Precision·Recall·F1 스코어 등을 보조 지표로 활용한다.
실험 결과, PCA‑MCD‑Random Forest 조합이 가장 높은 m 값을 기록했으며, 결함 평균 이상 점수가 전체 평균의 155배에 달했다. 이 조합은 Precision ≈ 87 %·Recall ≈ 49 %를 달성했으며, 다른 조합은 Precision 100 %·Recall 53 %와 같이 한쪽 지표만 과도하게 높아 실제 활용에 한계가 있었다. 또한, 결함이 시간에 고르게 분포하지 않는다는 χ² 검정 결과는 현재 모델이 특정 구간에 편향될 가능성을 시사한다.
결론적으로, 이 연구는 고속 포장 라인에서 라벨링 비용을 크게 절감하면서도 비지도 이상 탐지를 통해 초기 라벨을 생성하고, 이를 기반으로 지도 분류 모델을 학습시키는 실용적인 프레임워크를 제공한다. 특히, 라벨이 거의 없는 상황에서도 모델 선택을 가능하게 하는 내부 메트릭 설계는 다른 제조 현장에도 적용 가능성을 열어준다. 향후 연구에서는 결함 시간 분포 균등화, 실시간 이상 점수 시각화, 그리고 다중 라인 간 전이 학습 등을 통해 시스템의 견고성을 더욱 강화할 수 있을 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기