AdamW

Training & Optimization

Adam with decoupled weight decay, providing better regularization and often superior performance.

This concept is essential for understanding training & optimization and forms a key part of modern AI systems.

Adam Optimizer
Weight Decay
Optimizer

Related Terms

Adam Optimizer

An adaptive learning rate optimization algorithm combining momentum and RMSprop, widely used for training neural networks.

Weight Decay

A regularization technique that shrinks weights toward zero during optimization. Equivalent to L2 regularization in standard SGD, but differs when using adaptive optimizers like Adam.

← Back to All Terms

AdamW

Related Concepts

Tags

Related Terms

Adam Optimizer

Weight Decay