Публикация была переведена автоматически. Исходный язык: Русский
Проблема
Голосовые сообщения удобны для отправки, но неудобны для восприятия. Прослушать минутное сообщение занимает минуту. Прочитать текст за 10 секунд — в 6 раз быстрее. Плюс возможность поиска, копирования, перевода.
Решение
Telegram-бот, который принимает аудио/видео и возвращает текст. Поддержка казахского и русского языков через офлайн-модели Vosk.
Архитектура
Vosk вместо облачных API. Не нужен интернет для распознавания, не утекают данные, нет лимитов на запросы. Модели весят от 45MB (малая) до 2.6GB (полная).
FFmpeg для универсальности. Бот принимает любой формат: голосовые Telegram, MP4, MP3, AVI. FFmpeg конвертирует всё в WAV 16kHz mono — формат для Vosk.
Поточная обработка. Файл конвертируется → читается чанками → распознаётся по кускам. Не нужно загружать весь файл в память.
Workflow
1. Пользователь отправляет голосовое/видео
2. Бот скачивает через Telegram API
3. FFmpeg конвертирует в WAV
4. Vosk распознаёт речь
5. Текст отправляется пользователю
6. Временные файлы удаляются
Важная деталь: поддержка длинных текстов. Telegram ограничивает сообщения 4096 символами. Бот разбивает результат на чанки и отправляет последовательно.
Особенность
Интерфейс на казахском языке. Не "Файл загружается", а "Файл жүктелуде". Не "Ошибка", а "Қате пайда болды". Локализация под целевую аудиторию с первого дня.
Применение
- Расшифровка лекций на казахском
- Конспекты аудио-уроков
- Быстрый доступ к содержанию голосовых
- Архивирование устной информации в текст
Проблема
Голосовые сообщения удобны для отправки, но неудобны для восприятия. Прослушать минутное сообщение занимает минуту. Прочитать текст за 10 секунд — в 6 раз быстрее. Плюс возможность поиска, копирования, перевода.
Решение
Telegram-бот, который принимает аудио/видео и возвращает текст. Поддержка казахского и русского языков через офлайн-модели Vosk.
Архитектура
Vosk вместо облачных API. Не нужен интернет для распознавания, не утекают данные, нет лимитов на запросы. Модели весят от 45MB (малая) до 2.6GB (полная).
FFmpeg для универсальности. Бот принимает любой формат: голосовые Telegram, MP4, MP3, AVI. FFmpeg конвертирует всё в WAV 16kHz mono — формат для Vosk.
Поточная обработка. Файл конвертируется → читается чанками → распознаётся по кускам. Не нужно загружать весь файл в память.
Workflow
1. Пользователь отправляет голосовое/видео
2. Бот скачивает через Telegram API
3. FFmpeg конвертирует в WAV
4. Vosk распознаёт речь
5. Текст отправляется пользователю
6. Временные файлы удаляются
Важная деталь: поддержка длинных текстов. Telegram ограничивает сообщения 4096 символами. Бот разбивает результат на чанки и отправляет последовательно.
Особенность
Интерфейс на казахском языке. Не "Файл загружается", а "Файл жүктелуде". Не "Ошибка", а "Қате пайда болды". Локализация под целевую аудиторию с первого дня.
Применение
- Расшифровка лекций на казахском
- Конспекты аудио-уроков
- Быстрый доступ к содержанию голосовых
- Архивирование устной информации в текст