Аудио-речевые данные

Наборы данных с аудиозаписями, размеченные речевые данные, аудиоклипы с разными акцентами и языками.

Common Voice

Common Voice — это открытый набор данных для обучения моделей распознавания речи. Он содержит аудиозаписи голосов людей, произносящих фразы на различных языках, а также текстовые транскрипции этих записей. Набор данных полезен для разработки и тестирования систем распознавания речи, улучшения моделей в области обработки звука и создания более точных голосовых интерфейсов.

Перейти

Google Speech Commands

Speech Commands — это набор данных, содержащий аудиозаписи команд, произносимых людьми. Он включает 30 команд, таких как "вперёд", "назад", "стоп" и другие, что делает его полезным для обучения моделей распознавания речи. Набор данных позволяет разработать системы, способные эффективно распознавать голосовые команды в реальном времени, и может использоваться в различных приложениях, включая голосовые интерфейсы и устройства умного дома.

Перейти

OpenSLR 96

OpenSLR 96 — это набор данных, предназначенный для задач распознавания речи и включает аудиозаписи и соответствующие транскрипции. Он содержит данные, собранные из различных источников, что делает его полезным для обучения и тестирования моделей, работающих с распознаванием речи. Набор данных подходит для разработки приложений в области обработки звука, а также для улучшения качества систем автоматического распознавания речи.

Перейти

VoxCeleb 1

VoxCeleb 1 — это набор данных, содержащий аудиозаписи речи более 7 000 знаменитостей, собранные из видеороликов на YouTube. Он используется для задач распознавания и идентификации говорящих, а также для исследований в области обработки звука и систем распознавания речи. Набор данных включает аннотированные аудиозаписи, что делает его полезным для обучения моделей, способных эффективно различать и идентифицировать голосовые характеристики различных личностей.

Перейти

OpenSLR 12

OpenSLR 12 — это набор данных для распознавания речи, содержащий аудиозаписи и соответствующие транскрипции. Он разработан для обучения моделей, ориентированных на обработку естественного языка и распознавание речи. Набор данных включает записи различных носителей языка, что делает его полезным для создания и тестирования систем автоматического распознавания речи и улучшения их производительности в реальных условиях.

Перейти

TEDLIUM

TEDLIUM — это набор данных, содержащий аудиозаписи выступлений с конференций TED и их транскрипции. Он предназначен для задач распознавания речи и обработки естественного языка. Набор данных включает разнообразные темы и стили речи, что делает его полезным для обучения и тестирования моделей автоматического распознавания речи, а также для улучшения качества систем, работающих с речевыми данными.

Перейти

Urban Sound 8K

UrbanSound8K — это набор данных, содержащий аудиозаписи звуков городской среды, таких как шумы автомобилей, сигналы сирен, разговоры людей и другие звуковые события. Он включает 8 732 звуковых клипа, аннотированных по 10 категориям. Набор данных полезен для задач классификации звуков, обучения моделей распознавания аудио и исследования акустической среды в городских условиях.

Перейти

DARPA TIMIT

DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus — это набор данных, содержащий аудиозаписи произнесённых предложений, аннотированных по фонемам и словам. Он предназначен для задач распознавания речи и фонетического анализа. Набор данных полезен для обучения моделей, работающих с фонемным представлением языка, а также для исследований в области фонетики и обработки звука.

Перейти

FMA (Free Music Archive)

FMA (Free Music Archive) — это набор данных, содержащий музыкальные треки из открытого музыкального архива. Он включает метаданные о треках, такие как жанры, исполнители и альбомы. Набор данных полезен для задач анализа музыки, классификации жанров, обучения моделей рекомендаций и других приложений в области обработки аудио и музыкального анализа.

Перейти

Google Audioset

AudioSet — это крупный набор данных, созданный Google для задач классификации аудио, содержащий более 2 миллионов аннотированных видеоклипов с разнообразными звуковыми событиями. Набор данных охватывает 632 категории звуков, включая музыкальные жанры, звуки природы и человеческие действия. AudioSet полезен для обучения и тестирования моделей в области распознавания звуков и обработки аудио, а также для исследований в области акустического анализа.

Перейти

VoxForge

VoxForge — это проект, нацеленный на сбор и предоставление открытых наборов данных для распознавания речи. Он включает аудиозаписи, сделанные добровольцами, произносящими текстовые фразы, а также соответствующие транскрипции. Набор данных полезен для разработки и тестирования систем распознавания речи, особенно для языков с недостаточным количеством доступных данных. VoxForge поддерживает сообщество, стремящееся улучшить качество технологий распознавания речи.

Перейти

REVERB Challenge

REVERB-2MIX — это набор данных, созданный для задач разделения источников звука, особенно в контексте разговорной речи. Он включает в себя аудиозаписи, содержащие смешанные звуки речи и фоновые шумы, аннотированные для исследования алгоритмов, предназначенных для отделения голосов от шумов. Набор данных полезен для разработки и тестирования моделей, работающих с задачами распознавания и обработки звука в сложных акустических условиях.

Перейти

RAVDESS

RAVDESS Emotional Speech Audio — это набор данных, содержащий аудиозаписи эмоциональной речи, записанные актерами. Набор включает 24 эмоциональных состояния, таких как радость, печаль, гнев и удивление, представленных в виде аудиофайлов. Он полезен для задач распознавания эмоций, анализа и классификации аудиосигналов, а также для разработки систем, способных интерпретировать эмоции в речи.

Перейти

NSynth (Neural Synth)

NSynth (Neural Synth) — это набор данных, содержащий 300 000 аудиозаписей синтезированных музыкальных инструментов. Каждая запись сопровождается метаданными, включая информацию о типе инструмента, высоте звука и других характеристиках. Набор данных полезен для исследований в области генерации музыки, обучения моделей, работающих с аудио, и разработки приложений в сфере музыки и звукового дизайна.

Перейти

ESC 50

ESC-50 — это набор данных, содержащий 2 000 звуковых записей, классифицированных по 50 категориям окружающих звуков, таких как звуки природы, музыкальные инструменты и звуки животных. Набор данных полезен для задач классификации звуков, обучения моделей распознавания аудио и исследований в области обработки звука и акустического анализа. Каждый звук сопровождается метаданными, что упрощает его использование в различных

Перейти

IEMOCAP (Interactive Emotional Dyadic Motion Capture)

IEMOCAP (Interactive Emotional Dyadic Motion Capture) — это набор данных, предназначенный для распознавания эмоций в диалогах. Он включает видео- и аудиозаписи взаимодействий между актерами, аннотированные по эмоциональным состояниям, таким как радость, гнев и печаль. Набор данных полезен для обучения и тестирования моделей, работающих с распознаванием эмоций в речи и анализе невербального поведения, что может быть применимо в системах взаимодействия человека и компьютера.

Перейти

VoxConverse

VoxConverse — это набор данных, содержащий разговорные диалоги, собранные из различных источников. Он включает аудиозаписи диалогов между людьми, аннотированные для изучения различных аспектов общения, таких как интонация, эмоции и взаимодействие. Набор данных полезен для разработки моделей, ориентированных на распознавание речи, анализ диалогов и улучшение систем взаимодействия человека и компьютера, обеспечивая ресурсы для исследований в области обработки естественного языка.

Перейти

AVSpeech

AVSpeech — это набор данных, содержащий аудиозаписи и соответствующие видеоклипы, аннотированные для задач распознавания речи и аудиовизуального анализа. Он включает в себя множество говорящих, что делает его полезным для разработки и тестирования моделей, способных связывать звуковые данные с визуальной информацией. Набор данных может быть использован для исследований в области распознавания речи, изучения невербального общения и создания более эффективных систем взаимодействия человека и компьютера.

Перейти

Kazakh ASR Dataset

Многоязычный речевой корпус доступен для загрузки через FTP, который расположен на одном из серверов Института интеллектуальных систем и искусственного интеллекта (ISSAI) под международной лицензией Creative Commons Attribution 4.0.

Перейти

Kazakh Speech Corpus

Kazakh Speech Corpus — это набор данных, созданный для задач распознавания речи на казахском языке. Он включает аудиозаписи, произнесенные носителями языка, и их текстовые транскрипции. Набор данных полезен для разработки и тестирования систем автоматического распознавания речи, обучения моделей, ориентированных на казахский язык, а также для исследований в области обработки естественного языка и улучшения технологий распознавания речи.

Перейти

EmoReact

EmoReact — это мультимодальный набор данных об эмоциях детей в возрасте от четырех до четырнадцати лет, содержащий 1102 видеоролика; самый большой набор данных в своем роде. Этот набор данных аннотирован для 17 аффективных состояний, включая шесть основных эмоций (счастье, печаль, удивление, страх, отвращение и гнев), нейтральные, валентные и девять сложных эмоций, включая любопытство, неуверенность, волнение, внимательность, исследование, замешательство, тревогу, смущение и разочарование.

Перейти

Common Voice 17.0

Common Voice 17.0 — это открытый набор данных для обучения моделей распознавания речи, собранный сообществом Mozilla. Он включает аудиозаписи, произнесенные добровольцами на различных языках, и соответствующие транскрипции. Набор данных полезен для разработки и тестирования систем автоматического распознавания речи, а также для улучшения качества технологий обработки естественного языка и голосовых интерфейсов.

Перейти

Аудио-речевые данные Наборы данных с аудиозаписями, размеченные речевые данные, аудиоклипы с разными акцентами и языками.

Common Voice

Google Speech Commands

OpenSLR 96

VoxCeleb 1

OpenSLR 12

TEDLIUM

Urban Sound 8K

DARPA TIMIT

FMA (Free Music Archive)

Google Audioset

VoxForge

REVERB Challenge

RAVDESS

NSynth (Neural Synth)

ESC 50

IEMOCAP (Interactive Emotional Dyadic Motion Capture)

VoxConverse

AVSpeech

Kazakh ASR Dataset

Kazakh Speech Corpus

EmoReact

Common Voice 17.0

Аудио-речевые данные

Наборы данных с аудиозаписями, размеченные речевые данные, аудиоклипы с разными акцентами и языками.