Databases

'Databases' 카테고리의 모든 글

총 7개의 글
시간순 정렬
EntropyDB  확률적 접근을 통한 근사 질의 처리 방법

EntropyDB 확률적 접근을 통한 근사 질의 처리 방법

본 논문에서는 EntropyDB라는 상호작용형 데이터 탐색 시스템을 제시합니다. 이 시스템은 확률적 접근법을 사용하여 데이터셋의 작은 쿼리 가능한 요약을 생성합니다. 기존의 요약 기술과 달리 우리는 최대 엔트로피 원칙을 사용하여 데이터의 확률적 표현을 생성하고 이를 이용해 근사적인 쿼리 답변을 제공합니다. 우리 팀은 확률적 표현의 이론적 프레임워크와 공식화를 개발하고, 이를 어떻게 쿼리를 처리하는지 설명합니다. 우리는 해결 기법과 전처리 시간 및 쿼리 실행 시간을 개선하기 위한 두 가지 중요한 최적화 방법을 제시하며, 쿼리 오류를 줄이는 방법도 탐구합니다. 마지막으로, 미국 내 비행기 데이터로 구성된 5GB 크기의 데이터셋과 데이터 정리 작업을 수행한 결과를 바탕으로 실험을 실시했습니다. 본 연구에서는 n = 1일 때 튜플의 기대 횟수와 마진 확률이 동일하다는 것을 증명하였습니다.

paper AI 요약
비OLATILE 메모리용 다층 버퍼 관리 및 저장 시스템 설계

비OLATILE 메모리용 다층 버퍼 관리 및 저장 시스템 설계

데이터베이스 관리 시스템(DBMS)의 버퍼 매니저 설계는 빌라트 메모리(DRAM)와 비휘발성 저장소(예 SSD)의 성능 특성을 고려합니다. 핵심 설계 가정은 데이터가 DBMS에서 작업하기 위해 DRAM으로 이동해야 한다는 것이며, 저장소가 DRAM보다 수십 배 느리다는 것입니다. 그러나 새로운 비휘발성 메모리(NVM) 기술이 DRAM만큼 빠르게 나타나면서 이러한 전제 조건들이 무효화되었습니다. 본 논문은 DRAM, NVM, SSD로 구성된 다중 계층 저장 시스템을 관리하고 설계하는 기법을 제시합니다. 우리의 주요 기술적 기여는 NVM의 특성을 활용한 다중 계층 버퍼 매니저와 저장 시스템 디자이너입니다. 우리는 다양한 장치 간 데이터 이동의 효용성 최대화를 위한 최적화 세트를 제안합니다. 이러한 최적화들은 장치 및 작업 부하 특성에 따라 맞춤화되어야 합니다. 이를 위해, 우리는 임의의 작업 부하와 저장 시스템 계층에 대해 수작업 조정 없이 근사 최적 버퍼 관리 정책을 달성하는 기술을 제시합니다. 마지막으로, 대상 작업 부하 및 시스템 비용 예산에 대한 다중 계층 저장 시스템 설계를 위한 추천 시스템을 제시합니다. 우리의 결과는 NVM에 주의를 기울인 버퍼 매니저와 저장 시스템 디자이너가 다양한 트랜잭션 및 분석 처리 작업 부하에서 성능을 향상시키고 시스템 비용을 절감한다는 것을 보여줍니다.

paper AI 요약
효율적인 지식 그래프 정확성 평가

효율적인 지식 그래프 정확성 평가

지대한 규모의 지식 그래프(KG) 정확도를 추정하려면 그래프에서 샘플을 선택하여 인간이 주석을 달아야 합니다. KG 개발 사이클과 실용적인 응용 프로그램에 중요한 역할을 하는 동시에 인력 주석 비용을 최소화하면서 통계적으로 의미 있는 정확도 평가를 얻는 방법은 이전 연구에서 크게 간과되어 왔습니다. 이를 해결하기 위해 본 논문에서는 품질이 높고 통계적 보장이 강력한 정확도 평가를 제공하면서 인력 노력을 최소화하는 효율적인 샘플링 및 평가 프레임워크를 제안합니다. 실제 주석 비용 함수의 속성을 근거로 클러스터 샘플링을 사용하여 전체 비용을 줄이는 것을 제안하였습니다. 또한 가중치와 단계별 샘플링, 계층화 등을 적용하여 더 나은 샘플링 설계를 수행했습니다. 또한 진화하는 KG에 대한 효율적인 증분 평가를 가능하게 하기 위해 계층화 샘플링과 가중치 변형 리저버 샘플링을 기반으로 하는 두 가지 솔루션을 도입하였습니다. 실제 데이터 세트에서 진행된 광범위한 실험은 제안된 솔루션의 효과성과 효율성을 입증합니다. 기본 접근법과 비교했을 때, 우리의 최적 솔루션은 정정 KG 평가에 대해 60%까지 비용을 절감하고 진화하는 KG 평가에는 80%까지 비용을 줄일 수 있습니다. 이 모든 것이 평가 품질의 손실 없이 이루어집니다.

paper AI 요약
딥 생성 모델을 활용한 근사 질의 처리

딥 생성 모델을 활용한 근사 질의 처리

데이터 생성 속도가 분석 능력을 초월하고 있습니다. 데이터베이스 커뮤니티는 근사 질의 처리(AQP) 기법을 개척해 정확한 결과를 계산하는 데 필요한 시간의 일부만으로 근사 결과를 제공할 수 있게 했습니다. 본 연구에서는 딥러닝(DL)을 활용하여 데이터 탐색 및 시각화와 같은 상호작용적인 응용 프로그램에서 집합 질의에 대답하는 방법을 탐구했습니다. 우리는 무감독 학습 기반 접근법인 딥 생성 모델을 사용해 데이터 분포를 충실하게 학습하여, 학습된 모델로부터 샘플을 생성함으로써 근사적으로 집합 질의에 대답할 수 있습니다. 이 모델은 종종 컴팩트한 크기(수백 KB)로 이루어져 있어 임의의 AQP 질의를 데이터베이스 서버와 통신하지 않고 클라이언트 측에서 처리할 수 있습니다. 또한, 우리는 모델 편향을 식별하고 이를 거부 샘플링 기반 접근법과 AQP를 위한 모델 연합 알고리즘을 통해 최소화하는 데 중점을 두었습니다. 우리의 광범위한 실험 결과는 제안된 접근법이 높은 정확도와 낮은 대기 시간으로 답변을 제공할 수 있음을 보여줍니다.

paper AI 요약
sql4ml  머신 러닝을 위한 선언적 end-to-end 워크플로우

sql4ml 머신 러닝을 위한 선언적 end-to-end 워크플로우

본 논문에서는 기계 학습(ML) 모델을 SQL로 표현하고 이를 TensorFlow에서 자동으로 훈련시키는 시스템인 sql4ml에 대해 설명합니다. 이 연구의 주된 동기는 데이터 과학 작업 중 관계형 데이터베이스와 ML 프레임워크 사이의 상호작용을 간소화하려는 것입니다. 데이터 전처리와 특성 공정은 일반적으로 데이터베이스에서 이루어지지만, 학습은 별도의 ML 라이브러리에서 진행됩니다. 이러한 분산된 워크플로우는 사용자가 다양한 프로그래밍 패러다임과 소프트웨어 시스템 사이를 넘나들어야 하는 부담을 줍니다. sql4ml을 통해 사용자는 특성 공정 및 ML 알고리즘 모두를 SQL로 표현할 수 있으며, 이 코드가 적절한 형식으로 ML 프레임워크 내에서 훈련될 수 있도록 번역됩니다. 우리의 번역 방법론을 설명하고 세 가지 잘 알려진 ML 알고리즘에 적용한 실험 결과를 제시하며, 데이터베이스 측면에서 전체 워크플로우를 집중화하는 데 따른 사용성의 이점을 논의합니다.

paper AI 요약
파일시스템과 다단계 서비스 아키텍처의 종말

파일시스템과 다단계 서비스 아키텍처의 종말

천문학 데이터 센터는 여전히 파일 시스템에 의존하고 있습니다. 그러나 산업계에서는 이미 이러한 상황을 벗어났습니다. 현재 컴퓨팅 인프라의 표준은 POSIX 파일 시스템 대신 대규모 데이터 처리의 확장성을 달성하기 위해 객체 저장소를 사용하는 것입니다. 이는 소프트웨어의 포터빌리티와 재사용 가능성을 높이는 기회를 제공하지만, 현재 센터에 있는 고유한 구현 방식과 호환되지 않아 문제가 발생합니다.

paper AI 요약

< 카테고리 현황 (Total: 566) >

Computer Science (514) Machine Learning (117) Artificial Intelligence (89) Computer Vision (71) Computation and Language (NLP) (62) Electrical Engineering and Systems Science (36) Cryptography and Security (24) Robotics (22) Systems and Control (22) Software Engineering (20) Mathematics (18) Statistics (17) Economics (16) Information Retrieval (15) Distributed, Parallel, and Cluster Computing (14) Human-Computer Interaction (14) Neural and Evolutionary Computing (13) Computer Science and Game Theory (11) Econometrics (11) Image and Video Processing (10) Physics (10) Sound (10) Multiagent Systems (9) Optimization and Control (8) Computational Geometry (7) Databases (7) Graphics (6) Networking and Internet Architecture (6) Quantitative Biology (6) Quantum Physics (5) Theoretical Economics (5) Computational Complexity (4) Computational Engineering, Finance, and Science (4) Computers and Society (4) Emerging Technologies (4) Information Theory (4) Methodology (4) Multimedia (4) Programming Languages (4) Quantitative Finance (4) Signal Processing (4) Audio and Speech Processing (3) Data Structures and Algorithms (3) Hardware Architecture (3) History and Philosophy of Physics (3) Logic in Computer Science (3) Neurons and Cognition (3) Social and Information Networks (3) Statistics Theory (3) Computation (2) Condensed Matter (2) Dynamical Systems (2) Formal Languages and Automata Theory (2) General Finance (2) Operating Systems (2) Optics (2) Quantitative Methods (2) Applications (1) Astrophysics (1) Combinatorics (1) Computational Physics (1) Digital Libraries (1) Disordered Systems and Neural Networks (1) General Economics (1) Genomics (1) Geophysics (1) Instrumentation and Methods for Astrophysics (1) Logic (1) Mathematical Finance (1) Mathematical Software (1) Medical Physics (1) Mesoscale and Nanoscale Physics (1) Metric Geometry (1) Other Statistics (1) Performance (1) Physics and Society (1) Plasma Physics (1) Probability (1) Trading and Market Microstructure (1)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키