(데이터 레이크하우스 → 데이터 품질 → 데이터 컨트롤 → 모델링 → 아키텍처 → 면접 대비)
아래는 흐름을 기준으로 구성한 학습 순서 + 왜 이 순서인지의 이유 + 각 단계에서 반드시 짚어야 할 키워드를 포함해 정리한 거야.
1. Data Lakehouse 개념 정리 → “데이터 플랫폼 전체 뼈대 만들기”
Kafka·Flink·ClickHouse가 OLAP/Streaming/Storage 트리오라면
Data Lakehouse는 전체 데이터 플랫폼을 하나로 묶는 세계관이야.
여기에서 잡아야 할 핵심:
- Lake vs Warehouse의 본질적 차이
- Lakehouse의 해결점: Schema on Read vs Schema on Write
- Delta Lake / Iceberg / Hudi 비교
- ACID Table Format이 왜 필요한가?
- Metadata Layer가 왜 중요한가?
이걸 먼저 잡아야 뒤의 모든 개념이 꽂힌다.
데이터 플랫폼 아키텍트가 되기 위한 첫 시작점.
2. DQ(Data Quality) → “파이프라인의 신뢰성 확보”
DE의 진짜 가치는 데이터를 ‘정확하게’ 유지하는 것이야.
여기서 학습해야 할 것:
- DQ Rule 종류 (Null check, uniqueness, business rule, drift, distribution)
- 툴: Great Expectations, Deequ, Soda