대용량 데이터를 수집해서 가공하고 적재하는 전반적인 과정 경험은 기본 베이스인 것 같음.
그 중 내가 원하는 직무가 뭔지 고민해보면, 데이터 분석을 위한 테이블을 구성하는 데이터 마트 포지션이 가장 흥미로워 보임.
그럴려면 스타 스키마 구성이나, 데이터 베이스에서 잘 조회할 수 있도록 하는게 좋을 것 같음.
운좋게도 주변에 백엔드에서 데이터 엔지니어로 전향하면서 지속적으로 피드백 주는 분이 있다.
최근에 아이디어 하나 던져준건 ClickHouse, DuckDB의 성능차이를 비교 분석해보라는 것이였다.
이유는 간단했다.
데이터 엔지니어 직무로써 오픈소스를 활용할 일이 많은데, 비교 분석하고 선택할 수 있는 힘을 기르는 것이다.
그럴려면 대용량 데이터가 있어야하는데 10억행 챌린지가 있다고 알려줬다.
https://github.com/gunnarmorling/1brc
10억행을 각 데이터베이스에 빠르게 넣고, 뺴는것을 연습해보고, 각 성능차이를 비교 분석해봐야겠다는 생각이 들었다.
https://clickhouse.com/clickhouse#getting_started
/