Публикация была переведена автоматически. Исходный язык: Русский
,,, Думайте об этом так: у игрушечной машинки и у Tesla есть двигатель, колеса, руль и тормоза. Игрушечная машинка не выиграет гонок, но если вы хотите понять, как работает автомобиль, игрушка подойдет идеально,,,
11 февраля 2026 года Андрей Карпаты представил microGPT — «арт-проект», который доказывает: для создания работающего трансформера не нужны гигабайты библиотек. Это полная реализация GPT-архитектуры на чистом Python (только math, os и random).
Вместо PyTorch используется класс Value. Он реализует автоматическое дифференцирование через построение динамического графа операций.
- Хранит: data (значение), grad (производную), _backward (функцию цепного правила).
- Механика: При вызове .backward() градиенты проходят обратно по графу от функции потерь к весам.
Несмотря на малый размер (обучается на списке имен), архитектура идентична взрослым моделям:
- Параметры: ~4000.
- Embedding: 16-мерные векторы (WTE — токены, WPE — позиции).
- Attention: 4 головы, 1 слой.
- Контекст: 8 токенов.
Код реализует классический пайплайн:
- RMSNorm: Стабилизация активаций перед блоками.
- Causal Self-Attention: Механизм Q, K, V (запрос, ключ, значение). Маскирование гарантирует, что модель не «подглядывает» в будущее.
- Residual Connections: «Шоссе» для градиентов, позволяющие складывать вход блока с его выходом.
- MLP (Feed-Forward): Проекция 16 \to 64 \to 16 с нелинейностью для обработки признаков, извлеченных вниманием.
Модель использует упрощенную версию Adam. Это не просто градиентный спуск, а алгоритм с моментом (momentum) и адаптивным шагом, что критично для сходимости трансформеров. Обучение идет на предсказание следующего символа (Cross-Entropy Loss).
В эпоху, когда стек ИИ перегружен абстракциями, microGPT обнажает математическую суть. Весь «интеллект» современных LLM — это не магия фреймворков, а компактный алгоритм манипуляции матрицами, который умещается на один экран.
Вердикт: Идеальный исполняемый чертеж для тех, кто хочет понять, как устроены веса внутри .safetensors файлов.
,,, Думайте об этом так: у игрушечной машинки и у Tesla есть двигатель, колеса, руль и тормоза. Игрушечная машинка не выиграет гонок, но если вы хотите понять, как работает автомобиль, игрушка подойдет идеально,,,
11 февраля 2026 года Андрей Карпаты представил microGPT — «арт-проект», который доказывает: для создания работающего трансформера не нужны гигабайты библиотек. Это полная реализация GPT-архитектуры на чистом Python (только math, os и random).
Вместо PyTorch используется класс Value. Он реализует автоматическое дифференцирование через построение динамического графа операций.
- Хранит: data (значение), grad (производную), _backward (функцию цепного правила).
- Механика: При вызове .backward() градиенты проходят обратно по графу от функции потерь к весам.
Несмотря на малый размер (обучается на списке имен), архитектура идентична взрослым моделям:
- Параметры: ~4000.
- Embedding: 16-мерные векторы (WTE — токены, WPE — позиции).
- Attention: 4 головы, 1 слой.
- Контекст: 8 токенов.
Код реализует классический пайплайн:
- RMSNorm: Стабилизация активаций перед блоками.
- Causal Self-Attention: Механизм Q, K, V (запрос, ключ, значение). Маскирование гарантирует, что модель не «подглядывает» в будущее.
- Residual Connections: «Шоссе» для градиентов, позволяющие складывать вход блока с его выходом.
- MLP (Feed-Forward): Проекция 16 \to 64 \to 16 с нелинейностью для обработки признаков, извлеченных вниманием.
Модель использует упрощенную версию Adam. Это не просто градиентный спуск, а алгоритм с моментом (momentum) и адаптивным шагом, что критично для сходимости трансформеров. Обучение идет на предсказание следующего символа (Cross-Entropy Loss).
В эпоху, когда стек ИИ перегружен абстракциями, microGPT обнажает математическую суть. Весь «интеллект» современных LLM — это не магия фреймворков, а компактный алгоритм манипуляции матрицами, который умещается на один экран.
Вердикт: Идеальный исполняемый чертеж для тех, кто хочет понять, как устроены веса внутри .safetensors файлов.