저비용 교차도메인 웹 구조화 정보 추출을 위한 AXE
초록
AXE는 HTML DOM을 트리 형태로 보고 불필요한 노드를 정교하게 프루닝하여 0.6 B 규모의 경량 LLM이 고밀도 컨텍스트만으로 정확한 JSON을 생성하도록 설계된 파이프라인이다. 프루닝 후에는 Grounded XPath Resolution(GXR)으로 추출 결과를 원본 DOM 노드에 매핑해 hallucination을 방지한다. SWDE 벤치마크에서 88.1 % F1를 기록하며, 대형 모델을 능가하는 제로샷 성능을 보인다.
상세 분석
AXE는 기존 웹 정보 추출 방법을 크게 세 단계로 재구성한다. 첫 번째 단계인 프리프로세서는 스크립트·CSS 제거와 HTMLRAG 기반 손실 없는 클리닝을 수행해 기본 노이즈를 최소화한다. 이어지는 “프루닝 어댑터”는 각 HTML 청크를 미니 청크(단일 XPath 단위)로 세분화하고, 사용자 정의 스키마·질문과의 연관성을 평가해 관련 XPath만을 선택한다. 이때 사용된 어댑터는 LoRA 기반 저랭크 어댑터(rsLoRA)로, 40 M 파라미터 정도의 경량 모델에 0.6 B Qwen‑3 백본을 결합해 학습한다. 프루닝 결과 평균 토큰 수가 16,581 → 350 토큰으로 97.9 % 감소함으로써, 작은 LLM도 메모리·연산 제한 내에서 전체 페이지 의미를 충분히 포착한다.
두 번째 단계는 선택된 프루닝된 HTML과 질의(또는 JSON 스키마)를 0.6 B Qwen‑3 모델에 입력해 구조화된 응답을 생성하는 것이다. 여기서는 QA 어댑터와 스키마 어댑터가 각각 질문형·스키마형 출력에 특화되어 있다. 모델은 사전 학습된 대형 교사(Qwen‑3‑Coder‑480B)를 이용해 합성 데이터(스크래핑된 10 k 페이지 → 1 k 클러스터 → 914 페이지)로 지식 증류를 수행했으며, 온도 0.3 설정으로 생성된 스키마·QA 쌍을 통해 정밀도와 일관성을 확보한다.
세 번째 단계인 Grounded XPath Resolution(GXR)은 생성된 텍스트 응답을 원본 DOM의 구체적 노드와 매핑한다. GXR은 (1) lexical overlap와 (2) Gestalt 패턴 매칭 기반 퍼지 시맨틱 유사도를 결합한 듀얼 스코어링으로 후보 청크를 평가하고, 최적 XPath를 반환한다. 이 과정은 작은 LLM이 흔히 보이는 hallucination을 효과적으로 억제하고, 추출 결과가 실제 페이지에 존재함을 보증한다.
실험 결과, AXE는 제로샷 설정(k=0)에서도 SWDE 전체 도메인에서 88.10 % F1를 달성했으며, 이는 k=1 설정인 WebLM‑LARGE(87.57 %)보다 우수하다. 특히 “Auto” 도메인에서 80.90 %에서 “Restaurant” 도메인에서 93.13 %까지 일관된 성능을 보이며, 다양한 레이아웃에 대한 강인함을 입증한다. 효율성 측면에서는 프루닝 전후 토큰 차이가 97.9 % 감소함을 보여, 추론 비용·지연시간이 크게 낮아진다. Ablation 연구에서 프루닝을 제거하면 F1가 0.66 % 감소하고, GXR을 제외하면 정확도가 현저히 떨어지는 등 각 모듈의 기여도가 명확히 드러난다.
전체적으로 AXE는 “DOM 트리 프루닝 + 경량 LLM + 구조적 grounding”이라는 삼위일체 전략을 통해, 대규모 비용 없이도 교차 도메인 웹 구조화 추출을 실현한다는 점에서 실용적·학술적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기