웹 브라우저 자동완성 필드 라벨 예측
초록
본 논문은 웹 폼의 필드 라벨을 자동으로 예측하여 자동완성 기능을 향상시키는 머신러닝 기반 솔루션을 제안한다. HTML 요소에서 추출한 라벨, name, id, URL 등을 원-핫 인코딩하여 학습 데이터로 활용하고, Azure Machine Learning Studio에서 다중 클래스 결정 트리(Decision Forest)를 학습시켜 웹 서비스 형태로 배포한다. 4,000여 개의 라벨링된 필드 데이터를 기반으로 95% 수준의 정확도를 달성했으며, 향후 데이터 규모 확대와 앙상블 기법 적용을 계획한다.
상세 분석
이 연구는 자동완성 기능의 핵심인 “필드 라벨 매핑” 문제를 데이터‑드리븐 방식으로 해결하고자 한다. 기존 브라우저가 사용하는 정규식 기반 휴리스틱은 ID나 name 속성이 모호하거나 동적 폼에 취약하다는 한계를 지니며, 대규모 웹 환경에서 유지·보수가 어려운 점이 있다. 저자는 이러한 문제점을 인식하고, HTML 소스에서 라벨(label), name, id, URL 네 가지 속성을 추출한 뒤, 전처리 단계에서 불용어 제거와 정규화 작업을 수행한다. 추출된 문자열은 전체 데이터셋에서 등장하는 고유값을 사전화하여 원‑핫 인코딩 방식으로 수치화한다. 이때 각 속성별로 별도의 원‑핫 벡터를 생성하고, 이를 연결(concatenation)하여 최종 피처 벡터를 만든다.
데이터 라벨링은 크라우드소싱을 통해 수행했으며, 약 4,000개의 필드 샘플을 확보했다. 라벨은 ‘email’, ‘username’, ‘address’, ‘password’, ‘age’ 등 일반적인 폼 항목을 포함한다. 라벨링 작업은 인간 라벨러가 직접 확인하고 수정함으로써 높은 라벨 품질을 확보하였다.
모델 학습은 Azure ML Studio의 시각적 파이프라인을 이용해 진행되었다. 다양한 알고리즘(선형 회귀, SVM, 의사결정 트리 등)을 실험한 결과, 다중 클래스 Decision Forest가 가장 높은 정확도를 보였다. 하이퍼파라미터는 bagging 재샘플링, 트리 수 16개, 최대 깊이 100, 노드당 랜덤 분할 128, 리프당 최소 샘플 1 등으로 설정하였다. 70:30 비율의 학습·검증 데이터 분할에서 이메일 라벨 예측 정확도는 95%에 달했으며, 다중 클래스 전체에서도 유사한 수준을 기록했다.
모델은 Azure ML Studio의 ‘Publish as Web Service’ 기능을 통해 REST API 형태로 배포되었다. 브라우저 확장 프로그램 또는 별도 실행 파일이 HTML 피처를 추출해 API에 전송하면, 실시간으로 라벨을 반환한다. 이 구조는 모델 업데이트가 서버 측에서만 이루어지므로 클라이언트 배포 비용을 최소화한다. 또한, 개인정보는 브라우저에 남겨두고 피처만 전송함으로써 프라이버시 보호를 고려하였다.
한계점으로는 데이터 규모가 상대적으로 작아 다양한 언어·문화권의 폼을 충분히 포괄하지 못한다는 점, 원‑핫 인코딩 방식이 차원 폭증을 초래해 메모리·연산 효율이 떨어질 수 있다는 점을 들 수 있다. 또한, 현재는 라벨별 이진 분류기를 별도로 학습했으며, 라벨 간 상호관계를 활용한 멀티태스크 학습이 미흡하다. 향후 연구에서는 대규모 크롤링 기반 데이터셋 구축, 임베딩 기반 피처(예: Word2Vec, FastText) 적용, 그리고 룰 기반 정규식과 머신러닝을 결합한 하이브리드 앙상블 모델을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기