Scelta della GPU
Le GPU NVIDIA RTX 30xx offrono un buon rapporto costo/performance. Per batch size superiori a 32, la memoria di 24 GB è consigliata.
L’uso di Tensor Cores accelera le operazioni convoluzionali, riducendo i tempi di training del 40 % rispetto alle GPU generiche.
Batch Size e Learning Rate
Incrementare il batch size richiede una scala logaritmica del learning rate. Una regola pratica è lr = base_lr * sqrt(batch_size / 16).
- Batch size 64 → lr × 2,5
- Batch size 128 → lr × 3,9
Parallelizzazione e Distributed Training
L’utilizzo di Multi‑GPU con NCCL permette un scaling lineare fino a 8 GPU. Il framework Detectron è già compatibile con PyTorch Lightning per semplificare la distribuzione.