분산 학습 : 여러개의 GPU를 사용하여 학습 하는 것

Data Parallelism

Model Parallelism

Data Parallelism

Tensor Parallelism

Pipeline Parallelism

Deepspeed Zero

데이터의 병렬화와 모델의 병렬화 두 개의 이점을 모두 활용했으며, data parallelism으로 병렬화를 하되 프로세스 간 중복되는 부분을 최대한 제거함으로써 메모리 효율성을 향상