Advanced Distributed Training

Master multi-GPU and multi-node training strategies for large-scale deep learning models

50 min read•Advanced

Not Started

🧮 Distributed Training Calculator

Model Size (Billion Parameters)175B parameters

Number of GPUs8 GPUs

Parallelism Strategy

Training Performance

Strategy:Data Parallelism

Tokens/sec:6,800

Memory per GPU:80GB (100%)

Efficiency:85%

Communication:Model gradients

⚡ Distributed Training Strategies

Data Parallelism

Each GPU has full model copy, processes different data batches

Efficiency:85%

Overhead:Model gradients

Scalability:Good up to 32 GPUs

Model Parallelism

Model split across GPUs, each processes same data

Efficiency:75%

Overhead:Activation tensors

Scalability:Limited by model layers

Pipeline Parallelism

Model layers distributed across GPUs in pipeline stages

Efficiency:80%

Overhead:Pipeline bubbles

Scalability:Good with micro-batching

3D Parallelism

Combines data, model, and pipeline parallelism

Efficiency:90%

Overhead:Optimized hybrid

Scalability:Excellent for large models

🛠️ Implementation Examples

Data Parallel Training with DDP

import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data.distributed import DistributedSampler

def setup_distributed(rank, world_size):
    """Initialize distributed training"""
    os.environ['MASTER_ADDR'] = 'localhost'
    os.environ['MASTER_PORT'] = '12355'
    dist.init_process_group("nccl", rank=rank, world_size=world_size)

def train_distributed(rank, world_size, model, dataset):
    setup_distributed(rank, world_size)
    
    # Move model to GPU and wrap with DDP
    model = model.to(rank)
    model = DDP(model, device_ids=[rank])
    
    # Create distributed sampler
    sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank)
    dataloader = DataLoader(dataset, batch_size=32, sampler=sampler)
    
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)
    
    for epoch in range(num_epochs):
        sampler.set_epoch(epoch)  # Important for shuffling
        
        for batch in dataloader:
            inputs, targets = batch
            inputs, targets = inputs.to(rank), targets.to(rank)
            
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, targets)
            loss.backward()
            optimizer.step()
    
    dist.destroy_process_group()

# Launch with torch.multiprocessing
if __name__ == "__main__":
    world_size = torch.cuda.device_count()
    torch.multiprocessing.spawn(
        train_distributed,
        args=(world_size, model, dataset),
        nprocs=world_size,
        join=True
    )

Model Parallel Training

import torch.nn as nn
from torch.distributed.pipeline.sync import Pipe

class ModelParallelTransformer(nn.Module):
    def __init__(self, config):
        super().__init__()
        
        # Split layers across devices
        devices = [f'cuda:{i}' for i in range(torch.cuda.device_count())]
        layers_per_device = config.num_layers // len(devices)
        
        self.layers = nn.ModuleList()
        for i, layer in enumerate(self.transformer_layers):
            device_idx = i // layers_per_device
            device = devices[min(device_idx, len(devices)-1)]
            layer.to(device)
            self.layers.append(layer)
    
    def forward(self, x):
        for i, layer in enumerate(self.layers):
            # Move input to layer's device
            x = x.to(layer.weight.device)
            x = layer(x)
        return x

# Pipeline Parallel with automatic balancing
class PipelineParallelModel(nn.Module):
    def __init__(self, layers):
        super().__init__()
        
        # Automatically partition layers across devices
        devices = [f'cuda:{i}' for i in range(torch.cuda.device_count())]
        
        # Use Pipe for automatic pipeline parallelism
        self.pipe_model = Pipe(
            nn.Sequential(*layers),
            balance=[len(layers) // len(devices)] * len(devices),
            devices=devices,
            chunks=8  # Micro-batch size
        )
    
    def forward(self, x):
        return self.pipe_model(x)

# Training with pipeline parallelism
model = PipelineParallelModel(transformer_layers)
optimizer = torch.optim.AdamW(model.parameters())

for batch in dataloader:
    inputs, targets = batch
    
    # Pipeline automatically handles micro-batching
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

3D Parallelism with DeepSpeed

import deepspeed
from deepspeed.pipe import PipelineModule

class Hybrid3DModel(PipelineModule):
    def __init__(self, layers, topology):
        # topology defines data/model/pipe parallel dimensions
        super().__init__(
            layers=layers,
            topology=topology,
            loss_fn=nn.CrossEntropyLoss()
        )

# DeepSpeed configuration for 3D parallelism
ds_config = {
    "train_batch_size": 512,
    "train_micro_batch_size_per_gpu": 4,
    "gradient_accumulation_steps": 16,
    
    # ZeRO optimizer state partitioning
    "zero_optimization": {
        "stage": 3,  # Partition optimizer states, gradients, and parameters
        "offload_optimizer": {
            "device": "cpu",  # Offload to CPU memory
            "pin_memory": True
        },
        "offload_param": {
            "device": "cpu",
            "pin_memory": True
        }
    },
    
    # Tensor parallelism
    "tensor_parallel": {
        "tp_size": 4  # 4-way tensor parallelism
    },
    
    # Pipeline parallelism  
    "pipeline": {
        "pipe_parallel_size": 8,
        "num_stages": 8
    },
    
    # Mixed precision training
    "fp16": {
        "enabled": True,
        "loss_scale": 0,
        "loss_scale_window": 1000,
        "hysteresis": 2,
        "min_loss_scale": 1
    }
}

# Initialize model with DeepSpeed
model_engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    config=ds_config
)

# Training loop with automatic mixed precision and gradient accumulation
for batch in dataloader:
    inputs, targets = batch
    
    loss = model_engine(inputs, targets)
    model_engine.backward(loss)
    model_engine.step()

🏭 Real-World Production Examples

OpenAI GPT-3

175B parameter training

Strategy:3D Parallelism
Compute:10,000 V100 GPUs
Training Time:34 days
Framework:Custom PyTorch

Google PaLM

540B parameter model

Strategy:Data + Model Parallel
Compute:6,144 TPU v4 chips
Efficiency:57.8% hardware utilization
Framework:JAX + T5X

Meta OPT

175B open-source model

Strategy:ZeRO + Pipeline
Compute:992 A100 80GB GPUs
Training Time:~2 months
Framework:PyTorch + FairScale

NVIDIA Megatron

Tensor parallel framework

Strategy:Tensor + Pipeline
Scaling:3,000+ GPUs efficient
Communication:InfiniBand optimized
Framework:PyTorch + Apex

✅ Best Practices & Optimization

✅ Do's

Profile communication bottlenecks - Use tools like NCCL tests and nvprof to identify slow allreduce operations
Optimize batch sizes per GPU - Find the sweet spot between memory usage and computational efficiency
Use gradient accumulation - Simulate larger batch sizes when memory is limited
Implement checkpointing - Save intermediate states for fault tolerance in long training runs
Monitor GPU utilization - Aim for >90% utilization across all devices

❌ Don'ts

Don't ignore data loading - I/O bottlenecks can severely impact training throughput
Avoid unbalanced workloads - Ensure even distribution of computation across GPUs
Don't mix precision carelessly - Mixed precision requires careful loss scaling
Avoid synchronous debugging - Use async logging to prevent blocking training
Don't neglect network topology - GPU placement affects communication efficiency

No quiz questions available

Quiz ID "distributed-training-advanced" not found