Scelta della GPU

Le GPU NVIDIA RTX 30xx offrono un buon rapporto costo/performance. Per batch size superiori a 32, la memoria di 24 GB è consigliata.

L’uso di Tensor Cores accelera le operazioni convoluzionali, riducendo i tempi di training del 40 % rispetto alle GPU generiche.

Batch Size e Learning Rate

Incrementare il batch size richiede una scala logaritmica del learning rate. Una regola pratica è lr = base_lr * sqrt(batch_size / 16).

  • Batch size 64 → lr × 2,5
  • Batch size 128 → lr × 3,9

Parallelizzazione e Distributed Training

L’utilizzo di Multi‑GPU con NCCL permette un scaling lineare fino a 8 GPU. Il framework Detectron è già compatibile con PyTorch Lightning per semplificare la distribuzione.