Flink를 실무에서 안정적으로 운영하려면 결국 Kubernetes 위에서 돌아가는 구조를 이해해야 한다.

Flink는 기본적으로 분산 스트림 처리 엔진이기 때문에, JobManager/TaskManager/Checkpoint Storage 등을 어떻게 배포·확장·복구하느냐가 운영 품질을 좌우한다.

아래는 Kubernetes 기반 Flink 운영에서 꼭 알고 있어야 하는 핵심 개념과 실전 운영 기준을 정리한 내용이다.

Flink Kubernetes 운영 전략 전체 개요

Flink Job은 크게 두 방식으로 Kubernetes에 배포된다.

Flink Session Cluster
- 하나의 JobManager + 여러 TaskManager
- 여러 Job이 하나의 클러스터를 공유
- 리소스 공유로 효율적이지만, 격리가 약하고 장애 파급 가능성 있음
Flink Application Cluster (요즘 실무 표준)
- 하나의 Job = 하나의 독립 클러스터
- JobManager/TaskManager가 Job과 함께 생성/종료
- 격리·안정성·배포 단순성이 좋아 대규모 서비스에서 주로 사용

Session Cluster는 개발·테스트 환경,

Application Cluster는 운영 환경에서 가장 적합하다.

Kubernetes + Flink의 기본 아키텍처

Kubernetes
 ├─ Deployment: Flink JobManager
 ├─ Deployment: Flink TaskManager
 ├─ Service: JobManager RPC / REST
 ├─ ConfigMap: flink-conf.yaml / log4j / libs
 └─ Persistent Volume: Checkpoint/Savepoint Storage

핵심은 JobManager의 안정성, TaskManager의 수평 확장, Checkpoint 저장소의 내구성 3가지다.

JobManager 운영 포인트

단일 장애 지점을 막기 위한 고가용성(HA)

Kubernetes에서는 기본적으로 아래 방식으로 고가용성을 구현한다.

JobManager Deployment → replica 1 유지