Sharded Data Parallelism - AI & ML Glossary | Farez Vadsaria

Training & Optimization

Sharded Data Parallelism

Distributing model states across devices to train models larger than single-device memory.

This concept is essential for understanding training & optimization and forms a key part of modern AI systems.

Distributed Training
Data Parallelism
ZeRO

Tags

training-optimization distributed-training data-parallelism zero

Related Terms

Data Parallelism

Replicating the model across devices, each processing different data batches.

ZeRO

Zero Redundancy Optimizer - techniques for memory-efficient distributed training by partitioning optimizer states.

← Back to All Terms