보고드리는 전반적 파이프라인 구성 개요
데이터 엔지니어링의 전 영역을 한눈에 파악하실 수 있도록 전체적인 기술 구조와 구성 요소를 요약해 정리했습니다.
입문자가 보아도 흐름이 잡히도록, 주요 기술과 실제 활용 맥락 중심으로 정리해보고드립니다.
데이터가 처음 내부 시스템으로 들어오는 단계입니다.
주기는 두 종류로 구분됩니다.
배치 방식은 일정 시간마다 대량 데이터를 수집합니다.
API 크롤링, 운영 DB 스냅샷, 외부 파일 적재 같은 작업이 여기에 해당합니다.
Airflow, Glue, Cron 기반 스크립트, Singer 계열이 주로 사용됩니다.
실시간 방식은 이벤트 발생 순간 즉시 전달합니다.
앱 로그, 클릭 이벤트, 센서데이터 전송 등 빠른 반응성이 필요한 경우 선택됩니다.
Kafka, Kinesis, Pub/Sub, RabbitMQ가 대표 기술입니다.
이 계층은 데이터를 안정적으로 전달하고, 다운스트림이 준비될 때까지 메시지를 보관하는 역할을 담당합니다.
대규모 스트리밍 아키텍처에서 핵심 역할을 합니다.
Kafka는 업계 표준으로 대규모 이벤트 전송에 가장 많이 사용됩니다.
RabbitMQ는 라우팅 유연성이 좋아 업무 시스템 이벤트에 강점이 있습니다.