Использован автоперевод

Читать оригинал

FP8: Transforming AI Model Training and Inference

In the rapidly evolving world of artificial intelligence (AI), computational efficiency and performance are critical drivers of innovation. Floating-point formats have long been the backbone of numerical computing, with FP32 (32-bit) and FP16 (16-bit) formats dominating AI model training and inference. However, the emergence of the FP8 (8-bit) format represents a significant advancement in AI computing efficiency. This article explores what FP8 is, how it works, and why it's becoming increasingly important for modern AI systems.

What is FP8?

FP8 is an 8-bit floating-point format designed to represent numbers with a balance of precision and range in a highly compact form. Floating-point representations, unlike fixed-point ones, use a combination of a mantissa (or significand) and an exponent to encode numbers, allowing them to represent both very small and very large values efficiently. In FP8, these components are squeezed into just 8 bits, a significant reduction from the more common 32-bit (FP32) or 16-bit (FP16) formats traditionally used in computing.

The FP8 format comes in two primary variants, both standardized under the IEEE P3109 working group and widely adopted by hardware manufacturers:

E4M3 (4-bit exponent, 3-bit mantissa): This configuration allocates 1 bit for the sign, 4 bits for the exponent, and 3 bits for the mantissa. It offers higher precision for smaller numbers, with a maximum value of approximately 448.
E5M2 (5-bit exponent, 2-bit mantissa): Here, 1 bit is for the sign, 5 bits for the exponent, and 2 bits for the mantissa. This variant sacrifices some precision for a wider range, supporting values up to approximately 57344.

These two flavors allow developers to choose the trade-off between precision and dynamic range based on specific use cases, making FP8 versatile for AI workloads.

Benefits of FP8 for AI

1. Memory Efficiency

FP8 reduces memory requirements by 4x compared to FP32 and 2x compared to FP16/BF16. For large language models with billions of parameters, this translates to:

Smaller model footprints
Reduced memory bandwidth requirements
Ability to fit larger models on existing hardware

2. Computational Performance

Modern AI accelerators like NVIDIA's Hopper architecture GPUs feature dedicated FP8 Tensor Cores that can perform matrix operations significantly faster than with higher-precision formats. This results in:

Up to 4x higher throughput for training operations
Up to 6x higher throughput for inference operations
Lower power consumption per operation

3. Scaling Capabilities

The efficiency gains from FP8 enable:

Training larger models with the same resources
Deploying models on edge devices with limited capabilities
Reducing the carbon footprint of AI training and inference

Current Applications of FP8

Large Language Models

Companies like NVIDIA, Google, and Meta have demonstrated that FP8 can be used for training and fine-tuning large language models without significant accuracy loss. NVIDIA's Hopper architecture specifically targets FP8 operations for transformer-based models.

Computer Vision

Vision models benefit from FP8's efficiency for both training and inference, particularly for deployment on resource-constrained devices like smartphones and embedded systems.

Real-time AI Systems

Applications requiring low latency, such as autonomous driving, robotics, and real-time translation, benefit from the faster inference speeds enabled by FP8.

Compatible NVIDIA GPUs

Not all GPUs support the FP8 format. As of the first quarter of 2025, the following NVIDIA GPUs are compatible with FP8 (8-bit floating point):

NVIDIA Hopper GPUs: H100, H200, H800

NVIDIA's L4 and L40S: Primarily designed for AI inference rather than training

NVIDIA's Blackwell GPUs : B100, B200, 5000 series

To support FP8 on modern GPUs like the NVIDIA H100, new Tensor Cores were introduced. These Tensor Cores are optimized for 8-bit operations, significantly increasing throughput and reducing power consumption. This advancement allows for more efficient and faster processing, making these GPUs highly suitable for both AI training and inference tasks.

Sources

Low Precision Training Methods

GitHub - Azure/MS-AMP: Microsoft Automatic Mixed Precision Library

NVIDIA/TransformerEngine · GitHub

FP8 LLMs for vLLM - a neuralmagic Collection

DeepSeek-V3

NVIDIA Hopper: H100 and FP8 Support

NVIDIA Hopper Architecture In-Depth | NVIDIA Technical Blog

Train with Mixed Precision User Guide by NVIDIA

FP8: Трансформация обучения и вывода моделей ИИ

В быстро развивающемся мире искусственного интеллекта (ИИ) эффективность вычислений и производительность являются важнейшими движущими силами инноваций. Форматы с плавающей запятой уже давно являются основой численных вычислений, а форматы FP32 (32-разрядные) и FP16 (16-разрядные) доминируют в обучении моделей искусственного интеллекта и выводе логических заключений. Однако появление 8-разрядного формата FP8 представляет собой значительный шаг вперед в повышении эффективности вычислений с помощью искусственного интеллекта. В этой статье рассматривается, что такое FP8, как он работает и почему он становится все более важным для современных систем искусственного интеллекта.

Что такое FP8?

FP8 - это 8-разрядный формат с плавающей запятой, предназначенный для представления чисел с балансом точности и диапазона в очень компактной форме. Представления с плавающей запятой, в отличие от представлений с фиксированной запятой, используют комбинацию мантиссы (или значения) и экспоненты для кодирования чисел, что позволяет им эффективно представлять как очень маленькие, так и очень большие значения. В FP8 эти компоненты сжаты всего до 8 бит, что значительно меньше по сравнению с более распространенными 32-разрядными (FP32) или 16-разрядными (FP16) форматами, традиционно используемыми в вычислительной технике.

Формат FP8 представлен в двух основных вариантах, оба из которых стандартизированы рабочей группой IEEE P3109 и широко используются производителями аппаратного обеспечения:

E4M3 (4-разрядная экспонента, 3-разрядная мантисса): Эта конфигурация выделяет 1 бит для знака, 4 бита для экспоненты и 3 бита для мантиссы. Она обеспечивает более высокую точность для меньших чисел, максимальное значение составляет приблизительно 448.
E5M2 (5-разрядный показатель степени, 2-разрядная мантисса): Здесь 1 бит соответствует знаку, 5 бит - показателю степени и 2 бита - мантиссе. Этот вариант жертвует некоторой точностью ради более широкого диапазона, поддерживая значения приблизительно до 57344.

Эти два варианта позволяют разработчикам выбирать компромисс между точностью и динамическим диапазоном в зависимости от конкретных вариантов использования, что делает FP8 универсальным для рабочих нагрузок искусственного интеллекта.

Преимущества FP8 для искусственного интеллекта

1. Эффективность использования памяти

FP8 снижает требования к памяти в 4 раза по сравнению с FP32 и в 2 раза по сравнению с FP16/BF16. Для больших языковых моделей с миллиардами параметров это означает:

Меньшие размеры модели
Сниженные требования к пропускной способности памяти
Возможность установки более крупных моделей на существующее оборудование

2. Вычислительная производительность

Современные ускорители, такие как графические процессоры NVIDIA с архитектурой Hopper, оснащены специализированными тензорными ядрами FP8, которые могут выполнять матричные операции значительно быстрее, чем при использовании форматов с более высокой точностью. Это обеспечивает:

В 4 раза более высокую пропускную способность для операций обучения
В 6 раз более высокую пропускную способность для операций логического вывода
Снижение энергопотребления на одну операцию

3. Возможности масштабирования

Повышение эффективности благодаря FP8 позволяет:

Обучать модели большего размера с использованием тех же ресурсов
Развертывать модели на современных устройствах с ограниченными возможностями
Сокращая углеродный след от обучения ИИ и логических выводов

Современные приложения FP8

Большие языковые модели

Такие компании, как NVIDIA, Google и Meta, продемонстрировали, что FP8 можно использовать для обучения и точной настройки больших языковых моделей без существенной потери точности. Архитектура NVIDIA Hopper специально ориентирована на работу с FP8 для моделей на базе transformer.

Компьютерное зрение

Модели машинного зрения выигрывают от эффективности FP8 как для обучения, так и для вывода, особенно при развертывании на устройствах с ограниченными ресурсами, таких как смартфоны и встраиваемые системы.

Системы искусственного интеллекта в режиме реального времени

Приложения, требующие низкой задержки, такие как автономное вождение, робототехника и перевод в режиме реального времени, выигрывают от более высокой скорости вывода, обеспечиваемой FP8.

Совместимые графические процессоры NVIDIA

Не все графические процессоры поддерживают формат FP8. По состоянию на первый квартал 2025 года следующие устройства NVIDIA совместимы с FP8 :

Графические процессоры NVIDIA Hopper: H100, H200, H800

Модели NVIDIA L4 и L40S: В первую очередь предназначены для вывода ИИ, а не для обучения

Графические процессоры Blackwell от NVIDIA: B100, B200, серия 5000

Для поддержки FP8 на современных графических процессорах, таких как NVIDIA H100, были представлены новые тензорные ядра. Они оптимизированы для 8-разрядных операций, что значительно увеличивает пропускную способность и снижает энергопотребление. Это усовершенствование обеспечивает более эффективную и быструю обработку данных, что делает эти графические процессоры очень подходящими как для обучения ИИ, так и для задач вывода.

Источники