Дискретный язык весов для Gemma 4 31B IT — как мы сжали 31‑миллиардную модель в тернарный алфавит

Публикация была переведена автоматически. Исходный язык: Русский

Арман Аубакиров

AI and Machine Learning

22 Апр 2026

Другие публикации автора

Другое

Добавить в избранное

Как создать локального офлайн-голосового ассистента на Python с Faster Whisper и Ollama

Арман Аубакиров

Другое

Добавить в избранное

Обучаем Whisper Small для распознавания казахской речи

Системы распознавания речи (Speech-to-Text) сегодня широко используются в голосовых помощниках, чат-ботах, сервисах автоматического перевода и других решениях, упрощающих взаимодействие

Арман Аубакиров

AI and Machine Learning

Добавить в избранное

Как обучить казахскую Llama-3.1 за 5000 тенге и догнать KazLLM: опыт с Google Colab Pro

Арман Аубакиров

Формат	Размер	WikiText‑2 PPL	VRAM (self)
FP16	14.97 ГиБ	6.2768	14.8 ГиБ
ITQ3_S (без imatrix)	3.5 ГБ	40.60	~3.8 ГиБ
ITQ3_S + imatrix	3.43 ГиБ	6.9547	3.8 ГиБ
ITQ3_S + imatrix + Q8 out/emb	3.86 ГиБ	6.9423	3.9 ГиБ
Q4_K_M + imatrix	4.58 ГиБ	6.4407	4.9 ГиБ
Q8_0	7.95 ГиБ	6.2802	8.1 ГиБ

Инструмент	Что он закрыл
bitnet_b158_llama31_search.py	Работает ли наивный BitNet b1.58 PTQ на готовой Llama? → Нет.
rowwise_refine_search.py	Достаточно ли более тонкой локальной метадаты, чтобы получить <7 PPL на ~3 бит без QAT? → Да, на ~5 bpw.
make_ternary_route_specs.py	Можно ли на лестницах family×depth построить рабочий «словарь весов»? → Да.
export_ternary_route_checkpoint.py	Можно ли закодировать все линейные слои как упакованные тернарные слова? → Да, 410 слоёв.
add_row_scale_to_checkpoint.py	Закрывает ли per‑row scale разрыв до dense? → Да, ~13 % PPL‑разрыва.
PackedTernaryRouteLinear / Triton‑fused декодер	Можно ли запустить это на практической скорости? → Да, 37 tok/s packed, 42 tok/s cached.
run_single_layer_route_sweep.py	Какие слои лучше всего переносят тернарность? → Узкая «горячая» полоса (21, 45).
split_route_checkpoint_by_layer.py	Как итерироваться по слоям без перезагрузки? → Разрезать один раз и переиспользовать.
prepare_hf_release.py	Можно ли собирать релиз воспроизводимо? → Да, с валидацией по манифесту.

Формат	Размер	WikiText‑2 PPL	VRAM (self)
FP16	14.97 ГиБ	6.2768	14.8 ГиБ
ITQ3_S (без imatrix)	3.5 ГБ	40.60	~3.8 ГиБ
ITQ3_S + imatrix	3.43 ГиБ	6.9547	3.8 ГиБ
ITQ3_S + imatrix + Q8 out/emb	3.86 ГиБ	6.9423	3.9 ГиБ
Q4_K_M + imatrix	4.58 ГиБ	6.4407	4.9 ГиБ
Q8_0	7.95 ГиБ	6.2802	8.1 ГиБ

Инструмент	Что он закрыл
bitnet_b158_llama31_search.py	Работает ли наивный BitNet b1.58 PTQ на готовой Llama? → Нет.
rowwise_refine_search.py	Достаточно ли более тонкой локальной метадаты, чтобы получить <7 PPL на ~3 бит без QAT? → Да, на ~5 bpw.
make_ternary_route_specs.py	Можно ли на лестницах family×depth построить рабочий «словарь весов»? → Да.
export_ternary_route_checkpoint.py	Можно ли закодировать все линейные слои как упакованные тернарные слова? → Да, 410 слоёв.
add_row_scale_to_checkpoint.py	Закрывает ли per‑row scale разрыв до dense? → Да, ~13 % PPL‑разрыва.
PackedTernaryRouteLinear / Triton‑fused декодер	Можно ли запустить это на практической скорости? → Да, 37 tok/s packed, 42 tok/s cached.
run_single_layer_route_sweep.py	Какие слои лучше всего переносят тернарность? → Узкая «горячая» полоса (21, 45).
split_route_checkpoint_by_layer.py	Как итерироваться по слоям без перезагрузки? → Разрезать один раз и переиспользовать.
prepare_hf_release.py	Можно ли собирать релиз воспроизводимо? → Да, с валидацией по манифесту.

Зачем эта статья

Шаг 1 — Отправная точка: «3‑битная» PTQ на Llama‑3.1‑8B

Шаг 2 — Попытка точного BitNet b1.58 на готовой Llama

Шаг 3 — FWHT + построчное 8‑уровневое квантование как безопасный fallback

Шаг 4 — Идея «дискретного языка весов» (Route B)

Шаг 5 — Конвейер Route B

Шаг 6 — Per‑row scale: расширение, закрывшее разрыв до dense

Шаг 7 — Depth‑aware против family‑wise калибровки

Шаг 8 — Per‑layer поиск на Llama 3.3 70B

Шаг 9 — Runtime: декодинг, Triton‑ядра, скорость

Шаг 10 — Честное сравнение по downstream‑бенчмаркам

Шаг 11 — Упаковка: самодостаточный релиз

Какой вопрос закрывал каждый инструмент

Честные ограничения

Зачем это всё

Зачем эта статья

Шаг 1 — Отправная точка: «3‑битная» PTQ на Llama‑3.1‑8B

Шаг 2 — Попытка точного BitNet b1.58 на готовой Llama

Шаг 3 — FWHT + построчное 8‑уровневое квантование как безопасный fallback

Шаг 4 — Идея «дискретного языка весов» (Route B)

Шаг 5 — Конвейер Route B

Шаг 6 — Per‑row scale: расширение, закрывшее разрыв до dense

Шаг 7 — Depth‑aware против family‑wise калибровки

Шаг 8 — Per‑layer поиск на Llama 3.3 70B

Шаг 9 — Runtime: декодинг, Triton‑ядра, скорость

Шаг 10 — Честное сравнение по downstream‑бенчмаркам

Шаг 11 — Упаковка: самодостаточный релиз

Какой вопрос закрывал каждый инструмент

Честные ограничения

Зачем это всё

Другие публикации автора

Как создать локального офлайн-голосового ассистента на Python с Faster Whisper и Ollama

Обучаем Whisper Small для распознавания казахской речи

Как обучить казахскую Llama-3.1 за 5000 тенге и догнать KazLLM: опыт с Google Colab Pro

Комментарии