Astanahub Logo
Astanahub Logo
Главная
Комьюнити
Налоговые льготы
Программы
Hub Market
Вакансии
Технологические задачи
Услуги и товары
Мероприятия
Онлайн курсы
Tech Orda
Релокация
Связаться с нами
Дополнительно
Присоединиться Войти
Назад
Опубликовать

Пост

Мероприятие

Вакансию

Инициативу

Технологическую задачу

  • Лента
  • Программы
  • Налоговые льготы
    • Стать участником
    • Участники технопарка
  • Технологические задачи
  • Мероприятия
  • Люди и компании
  • Tech Orda
  • Вакансии
  • Инфраструктура
    • Лаборатории и оборудования
    • Павильоны Astana Hub
    • Региональные Хабы
  • Маркетплейс
  • Релокация
    • Открыть IT-компанию
    • Expat Centre
  • Об astanahub.com
  • Связаться с нами
  • Социальные сети

astanahub.com © 2020-2025. Все права защищены

Политика конфиденциальности Пользовательское соглашение Дополнительно F.A.Q.

Аудио-речевые данные

Наборы данных с аудиозаписями, размеченные речевые данные, аудиоклипы с разными акцентами и языками.

Common Voice

Common Voice — это открытый набор данных для обучения моделей распознавания речи. Он содержит аудиозаписи голосов людей, произносящих фразы на различных языках, а также текстовые транскрипции этих записей. Набор данных полезен для разработки и тестирования систем распознавания речи, улучшения моделей в области обработки звука и создания более точных голосовых интерфейсов.

Перейти

Google Speech Commands

Speech Commands — это набор данных, содержащий аудиозаписи команд, произносимых людьми. Он включает 30 команд, таких как "вперёд", "назад", "стоп" и другие, что делает его полезным для обучения моделей распознавания речи. Набор данных позволяет разработать системы, способные эффективно распознавать голосовые команды в реальном времени, и может использоваться в различных приложениях, включая голосовые интерфейсы и устройства умного дома.

Перейти

OpenSLR 96

OpenSLR 96 — это набор данных, предназначенный для задач распознавания речи и включает аудиозаписи и соответствующие транскрипции. Он содержит данные, собранные из различных источников, что делает его полезным для обучения и тестирования моделей, работающих с распознаванием речи. Набор данных подходит для разработки приложений в области обработки звука, а также для улучшения качества систем автоматического распознавания речи.

Перейти

VoxCeleb 1

VoxCeleb 1 — это набор данных, содержащий аудиозаписи речи более 7 000 знаменитостей, собранные из видеороликов на YouTube. Он используется для задач распознавания и идентификации говорящих, а также для исследований в области обработки звука и систем распознавания речи. Набор данных включает аннотированные аудиозаписи, что делает его полезным для обучения моделей, способных эффективно различать и идентифицировать голосовые характеристики различных личностей.
Перейти

OpenSLR 12

OpenSLR 12 — это набор данных для распознавания речи, содержащий аудиозаписи и соответствующие транскрипции. Он разработан для обучения моделей, ориентированных на обработку естественного языка и распознавание речи. Набор данных включает записи различных носителей языка, что делает его полезным для создания и тестирования систем автоматического распознавания речи и улучшения их производительности в реальных условиях.

Перейти

TEDLIUM 

TEDLIUM — это набор данных, содержащий аудиозаписи выступлений с конференций TED и их транскрипции. Он предназначен для задач распознавания речи и обработки естественного языка. Набор данных включает разнообразные темы и стили речи, что делает его полезным для обучения и тестирования моделей автоматического распознавания речи, а также для улучшения качества систем, работающих с речевыми данными.

Перейти

Urban Sound 8K

UrbanSound8K — это набор данных, содержащий аудиозаписи звуков городской среды, таких как шумы автомобилей, сигналы сирен, разговоры людей и другие звуковые события. Он включает 8 732 звуковых клипа, аннотированных по 10 категориям. Набор данных полезен для задач классификации звуков, обучения моделей распознавания аудио и исследования акустической среды в городских условиях.
Перейти

DARPA TIMIT

DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus — это набор данных, содержащий аудиозаписи произнесённых предложений, аннотированных по фонемам и словам. Он предназначен для задач распознавания речи и фонетического анализа. Набор данных полезен для обучения моделей, работающих с фонемным представлением языка, а также для исследований в области фонетики и обработки звука.

Перейти

FMA (Free Music Archive)

FMA (Free Music Archive) — это набор данных, содержащий музыкальные треки из открытого музыкального архива. Он включает метаданные о треках, такие как жанры, исполнители и альбомы. Набор данных полезен для задач анализа музыки, классификации жанров, обучения моделей рекомендаций и других приложений в области обработки аудио и музыкального анализа.

Перейти

Google Audioset

AudioSet — это крупный набор данных, созданный Google для задач классификации аудио, содержащий более 2 миллионов аннотированных видеоклипов с разнообразными звуковыми событиями. Набор данных охватывает 632 категории звуков, включая музыкальные жанры, звуки природы и человеческие действия. AudioSet полезен для обучения и тестирования моделей в области распознавания звуков и обработки аудио, а также для исследований в области акустического анализа.
Перейти

VoxForge

VoxForge — это проект, нацеленный на сбор и предоставление открытых наборов данных для распознавания речи. Он включает аудиозаписи, сделанные добровольцами, произносящими текстовые фразы, а также соответствующие транскрипции. Набор данных полезен для разработки и тестирования систем распознавания речи, особенно для языков с недостаточным количеством доступных данных. VoxForge поддерживает сообщество, стремящееся улучшить качество технологий распознавания речи.

Перейти

REVERB Challenge

REVERB-2MIX — это набор данных, созданный для задач разделения источников звука, особенно в контексте разговорной речи. Он включает в себя аудиозаписи, содержащие смешанные звуки речи и фоновые шумы, аннотированные для исследования алгоритмов, предназначенных для отделения голосов от шумов. Набор данных полезен для разработки и тестирования моделей, работающих с задачами распознавания и обработки звука в сложных акустических условиях.

Перейти

RAVDESS

RAVDESS Emotional Speech Audio — это набор данных, содержащий аудиозаписи эмоциональной речи, записанные актерами. Набор включает 24 эмоциональных состояния, таких как радость, печаль, гнев и удивление, представленных в виде аудиофайлов. Он полезен для задач распознавания эмоций, анализа и классификации аудиосигналов, а также для разработки систем, способных интерпретировать эмоции в речи.

Перейти

NSynth (Neural Synth)

NSynth (Neural Synth) — это набор данных, содержащий 300 000 аудиозаписей синтезированных музыкальных инструментов. Каждая запись сопровождается метаданными, включая информацию о типе инструмента, высоте звука и других характеристиках. Набор данных полезен для исследований в области генерации музыки, обучения моделей, работающих с аудио, и разработки приложений в сфере музыки и звукового дизайна.

Перейти

ESC 50

ESC-50 — это набор данных, содержащий 2 000 звуковых записей, классифицированных по 50 категориям окружающих звуков, таких как звуки природы, музыкальные инструменты и звуки животных. Набор данных полезен для задач классификации звуков, обучения моделей распознавания аудио и исследований в области обработки звука и акустического анализа. Каждый звук сопровождается метаданными, что упрощает его использование в различных

Перейти

IEMOCAP (Interactive Emotional Dyadic Motion Capture)

IEMOCAP (Interactive Emotional Dyadic Motion Capture) — это набор данных, предназначенный для распознавания эмоций в диалогах. Он включает видео- и аудиозаписи взаимодействий между актерами, аннотированные по эмоциональным состояниям, таким как радость, гнев и печаль. Набор данных полезен для обучения и тестирования моделей, работающих с распознаванием эмоций в речи и анализе невербального поведения, что может быть применимо в системах взаимодействия человека и компьютера.
Перейти

VoxConverse

VoxConverse — это набор данных, содержащий разговорные диалоги, собранные из различных источников. Он включает аудиозаписи диалогов между людьми, аннотированные для изучения различных аспектов общения, таких как интонация, эмоции и взаимодействие. Набор данных полезен для разработки моделей, ориентированных на распознавание речи, анализ диалогов и улучшение систем взаимодействия человека и компьютера, обеспечивая ресурсы для исследований в области обработки естественного языка.

Перейти

AVSpeech

AVSpeech — это набор данных, содержащий аудиозаписи и соответствующие видеоклипы, аннотированные для задач распознавания речи и аудиовизуального анализа. Он включает в себя множество говорящих, что делает его полезным для разработки и тестирования моделей, способных связывать звуковые данные с визуальной информацией. Набор данных может быть использован для исследований в области распознавания речи, изучения невербального общения и создания более эффективных систем взаимодействия человека и компьютера.
Перейти

Kazakh ASR Dataset

Многоязычный речевой корпус доступен для загрузки через FTP, который расположен на одном из серверов Института интеллектуальных систем и искусственного интеллекта (ISSAI) под международной лицензией Creative Commons Attribution 4.0.

 

Перейти

Kazakh Speech Corpus 

Kazakh Speech Corpus — это набор данных, созданный для задач распознавания речи на казахском языке. Он включает аудиозаписи, произнесенные носителями языка, и их текстовые транскрипции. Набор данных полезен для разработки и тестирования систем автоматического распознавания речи, обучения моделей, ориентированных на казахский язык, а также для исследований в области обработки естественного языка и улучшения технологий распознавания речи.

Перейти

EmoReact

EmoReact — это мультимодальный набор данных об эмоциях детей в возрасте от четырех до четырнадцати лет, содержащий 1102 видеоролика; самый большой набор данных в своем роде. Этот набор данных аннотирован для 17 аффективных состояний, включая шесть основных эмоций (счастье, печаль, удивление, страх, отвращение и гнев), нейтральные, валентные и девять сложных эмоций, включая любопытство, неуверенность, волнение, внимательность, исследование, замешательство, тревогу, смущение и разочарование.

Перейти

Common Voice 17.0

Common Voice 17.0 — это открытый набор данных для обучения моделей распознавания речи, собранный сообществом Mozilla. Он включает аудиозаписи, произнесенные добровольцами на различных языках, и соответствующие транскрипции. Набор данных полезен для разработки и тестирования систем автоматического распознавания речи, а также для улучшения качества технологий обработки естественного языка и голосовых интерфейсов.
Перейти
QR

Мобильное приложение

Join the Unicorn Game

© 2025, Автономный кластерный фонд «Парк инновационных технологий»

Политика конфиденциальности Пользовательское соглашение F.A.Q.

Вход в аккаунт

Нет аккаунта? Регистрация
Забыли пароль?

Авторизация

Выберите удобный для Вас способ авторизации
  • Продолжить с аккаунтом Google
  • Продолжить с помощью ЭЦП
  • Войти через email
Нет аккаунта? Регистрация
Просим обеспечить конфиденциальность имени пользователя и пароля! Продолжая, Вы принимаете условия и предложения Astana Hub

Регистрация

Выберите удобный для Вас способ регистрации
  • Продолжить с аккаунтом Google
  • Продолжить с помощью ЭЦП
  • Регистрация через email
Уже есть аккаунт? Войти
Просим обеспечить конфиденциальность имени пользователя и пароля! Продолжая, Вы принимаете условия и предложения Astana Hub

Регистрация

Уже есть аккаунт? Войти

Вход через ЭЦП

У меня уже есть аккаунт. Хочу войти

ИИН:

Регистрация через ЭЦП

У меня уже есть аккаунт. Хочу войти

ИИН:

Продолжая, Вы принимаете условия и предложения AstanaHub

Регистрация

Войти под другим логином

Пройдите по ссылке, которую мы отправили Вам на почту , для завершения регистрации

Восстановление пароля

Смена пароля

Ваш пароль устарел. Пожалуйста, смените пароль в целях безопасности

Смена пароля

Добавить email

Введите новый email, который будет использоваться при авторизации в системе


Добавить номер телефона

Введите новый номер телефона, который будет использоваться при авторизации в системе


Восстановление пароля

Войти под другим логином

Введите адрес почты, на которую Вы получите ссылку для восстановления пароля

Войти под другим логином

Пройдите по ссылке, которую мы отправили Вам на почту

Успешная регистрация!

Поздравляем, вы успешно зарегистрированы на платформе astanahub.com

Отлично

Ваша учетная запись
заблокирована

Войти под другим логином

Ваша учетная запись заблокирована, так как пароль от нее был введен неверно более 3-х раз

Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Войти или зарегистрироваться

Или
Войти через Gmail
Просим обеспечить конфиденциальность имени пользователя и пароля! Продолжая, Вы принимаете условия и предложения Astana Hub
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите пароль
Вы входите по почте

Забыли пароль?
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите пароль
Вы входите по номеру

Забыли пароль?
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите СМС-код
Мы отправили его на ваш номер

Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите СМС-код
Мы отправили его на ваш номер

Запросить код снова через 0 сек
Запросить код снова
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Придумайте пароль

Минимум 8 символов

Заглавные буквы A-Z

Строчные буквы a-z

Одна цифра

Один специальный символ

По завершению регистрации мы автоматически добавим вас в «Люди и компании» для нетворкинга в экосистеме Astana Hub.

Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите СМС-код
Мы отправили его на ваш номер

Запросить код снова через 0 сек
Запросить код снова
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Как вас зовут?

Раздел «Люди и компании» предназначен для развития нетворкинга, поиска единомышленников и расширения деловых связей.

Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите пароль
Вы входите по почте

Забыли пароль?
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Введите код подтверждения
Мы отправили его на вашу почту

Запросить код снова
Цифровой технопарк для коммуникаций стартапов, инвесторов и экспертов

Ваша учетная запись
заблокирована

Ваша учетная запись заблокирована, так как пароль от нее был введен неверно более 3-х раз

Восстановить пароль
Войти под другим логином