Astanahub Logo
Astanahub Logo
Басты бет
Қауымдастық
Салық жеңілдіктері
Бағдарламалар
Hub Market
Вакансиялар
Технологиялық тапсырмалар
Басқа ұсыныстар
Іс-шаралар
Онлайн курстар
Tech Orda
Қоныс аудару
Бізбен хабарласыңыз
Қосымша
Қосылу Кіру
Артқа
Жариялау

Постты

Іс-шараны

Вакансияны

Бастаманы

Технологиялық тапсырманы

  • Лента
  • Бағдарламалар
  • Салықтық жеңілдіктер
    • Қатысушы болу
    • Технопарк қатысушылары
  • Технологиялық тапсырмалар
  • Іс-шаралар
  • Нетворкинг
  • Tech Orda
  • Вакансиялар
  • Инфраструктура
    • Зертханалар мен жабдықтар
    • Astana Hub павильондары
    • Аймақтық Хабтар
  • Маркетплейс
  • Қоныс аудару
    • IT-компаниясын ашу
    • Expat Centre
  • Astanahub.com туралы
  • Бізбен хабарласу
  • Әлеуметтік желілер

astanahub.com © 2020-2025. Барлық құқықтар қорғалған

Құпиялылық саясаты Қолдану ережелері Қосымша F.A.Q.

Аудио-сөйлеу деректері

Аудио жазбалары бар деректер жиыны, таңбаланған сөйлеу деректері, әртүрлі екпіндері мен тілдері бар аудиоклиптер.

Common Voice

Common Voice — бұл әлемнің түкпір-түкпірінен келген волонтерлер тарапынан берілген көптілді дауыс жазбаларының деректер жинағы. Ол сөйлеу тану жүйелерін дамыту және оқыту үшін әртүрлі сөйлеу деректерін қамтамасыз етуге бағытталған. Деректер жинағы әр түрлі акценттерді, диалектілерді және тілдерді қамтиды, бұл оны дауыс технологиясы мен табиғи тілдерді өңдеу саласында жұмыс істейтін зерттеушілер мен әзірлеушілер үшін құнды ресурс етеді.

Ақпарат алу

Google Speech Commands

Google Speech Commands — бұл сөйлеу командаларының жазбаларынан тұратын мыңдаған белгіленген аудио жазбаларын қамтитын деректер жинағы, ол сөйлеуді тану тапсырмаларында машинамен оқыту модельдерін оқыту үшін арналған. Деректер жинағы әр түрлі сөйлеушілер тарапынан айтылған командалардың әр түрлілігін қамтиды, бұл дауыспен басқарылатын қосымшалар мен жүйелерді дамытуға мүмкіндік береді. Ол сөйлеуді тану жүйелерін тиімді әрі дәл жасау үшін зерттеу мен дамытуда кеңінен қолданылады.

Ақпарат алу

OpenSLR 96

OpenSLR 96 — бұл автоматты сөйлеу тану жүйелерін оқыту және бағалау үшін арналған сөйлеу жазбаларының жинағы. Ол әр түрлі сөйлеушілер мен акустикалық ортадан тұрады, бұл оны нақты әлемдік жағдайларда жақсы жұмыс істейтін мықты модельдерді дамытуға жарамды етеді. Деректер жинағы зерттеу мен дамыту мақсатында ашық түрде қолжетімді, сөйлеу технологиясындағы жетістіктерді қолдайды.

Ақпарат алу

VoxCeleb 1

VoxCeleb 1 — бұл YouTube видеоларынан алынған мыңдаған аудио клиптерден тұратын ауқымды сөйлеушіні тану деректер жинағы. Ол әр түрлі фон мен тілдерден келген сөйлеушілердің әр түрлі жиынтығын қамтиды, бұл оны сөйлеушіні анықтау және верификациялау тапсырмаларында модельдерді оқыту мен бағалауға жарамды етеді. Деректер жинағы акустикалық шарттардағы өзгерістерді қамтиды, дауыс тану технологиясы саласындағы зерттеулер үшін кешенді ресурс ұсынады.

Ақпарат алу

OpenSLR 12

OpenSLR 12 — автоматты сөйлеу тану зерттеулері үшін арналған, оқылған сөйлеудің жоғары сапалы аудио жазбаларынан тұратын деректер жинағы. Ол бірнеше тілдер мен әр түрлі сөйлеу стильдерінде жазбаларды қамтиды, сөйлеу тану модельдерін дамыту және тестілеу үшін бай ресурс ұсынады. Деректер жинағы сөйлеу технологиясы саласындағы зерттеу мен дамуды жеңілдету үшін ашық түрде қолжетімді.

Ақпарат алу

TEDLIUM 

TEDLIUM — бұл TED Talks-тен алынған деректер жинағы, аудио жазбалары мен оларға сәйкес транскрипцияларды қамтиды. Бұл деректер жинағы автоматты сөйлеу тану жүйелерін оқыту және бағалау үшін арналған және әр түрлі сөйлеушілер, тақырыптар мен сөйлеу стильдерімен сипатталады. TED Talks-тың бай мазмұны сөйлеу технологиясы мен табиғи тілдерді өңдеу саласындағы зерттеулер үшін құнды ресурс ұсынады.

Ақпарат алу

Urban Sound 8K

Urban Sound 8K — бұл қалалық дыбыстардың 8,732 белгіленген аудио жазбасынан тұратын деректер жинағы, оның ішінде көшелер, парктер және қоғамдық көліктер бар. Ол дыбысты жіктеу және қоршаған орта дыбысын тану бойынша модельдерді дамыту мен бағалау үшін арналған. Деректер жинағы дыбыс категорияларының кең ауқымын қамтиды, бұл оны қалалық ортаға қатысты аудио өңдеу және машинамен оқыту қосымшаларындағы зерттеулер үшін құнды ресурс етеді.

Ақпарат алу

DARPA TIMIT

DARPA TIMIT — бұл акустикалық-фонетикалық зерттеулер мен автоматты сөйлеу тану үшін кеңінен қолданылатын деректер жинағы. Ол американдық ағылшын тілінің 630 сөйлеушісінен алынған сөйлеу жазбаларын қамтиды, олардың ішінде әр түрлі диалектілер мен акценттер бар. Деректер жинағы фонетикалық тұрғыдан теңдестірілген сөйлемдер мен олардың сәйкес транскрипцияларын қамтиды, сөйлеу тану модельдерін оқыту мен бағалауға және лингвистикалық талдаулар жүргізуге арналған құнды ресурстар ұсынады.

Ақпарат алу

FMA (Free Music Archive)

FMA (Free Music Archive) — бұл әр түрлі жанрлардағы музыка тректерінің үлкен жинағын ұсынатын деректер жинағы, барлығы тегін және ашық түрде пайдалануға қолжетімді. Ол орындаушылар туралы ақпарат, трек атаулары және жанрлық классификациялар сияқты метадеректерді қамтиды, бұл оны музыка ақпаратын алу, талдау және машинамен оқыту қосымшалары үшін құнды ресурс етеді. Деректер жинағы аудио өңдеу, музыка ұсыныс жүйелері және классификация тапсырмалары саласындағы зерттеулерде кеңінен қолданылады.

Ақпарат алу

Google Audioset

Google Audioset — бұл дыбыс оқиғаларын жіктеу үшін арналған ауқымды деректер жинағы. Ол YouTube видеоларынан алынған 10 секундтық 2 миллионнан астам адаммен белгіленген аудио клиптерді қамтиды, әр түрлі дыбыстық оқиғаларды бірнеше категория бойынша, соның ішінде музыка, сөйлеу, қоршаған орта дыбыстары және жануарлар дыбыстары бар. Бұл әр түрлі деректер жинағы дыбысты тану, аудио классификациясы және машинамен оқыту қосымшалары салаларында машинамен оқыту модельдерін оқыту мен бағалауда өте маңызды ресурс болып табылады.

Ақпарат алу

VoxForge

VoxForge — бұл әлемнің түкпір-түкпірінен волонтерлер тарапынан берілген транскрипцияланған аудио жазбалардан тұратын ашық көздерден алынған сөйлеу корпус. Ол әр түрлі тілдер мен диалектілерде сөйлеу тану жүйелерін дамытуға қолдау көрсету үшін арналған. Деректер жинағы әр түрлі сөйлеу үлгілерін қамтиды, бұл оны сөйлеу технологиясы мен табиғи тілдерді өңдеу қосымшалары бойынша зерттеушілер мен әзірлеушілер үшін құнды ресурс етеді.

Ақпарат алу

REVERB Challenge

REVERB Challenge деректер жинағы реверберация мен дыбыс көзін локализациялау бойынша зерттеулер үшін арналған. Ол әр түрлі реверберация деңгейлерімен әр түрлі акустикалық ортада жазылған аудио үлгілерін қамтиды. Бұл деректер жинағы дереверберация алгоритмдерін бағалау үшін қолданылады және сөйлеу тану жүйелерінің қиын акустикалық жағдайларда тиімділігін арттыруға көмектеседі. REVERB Challenge аудио өңдеу және локализация технологияларындағы жетістіктерді ынталандырады.

Ақпарат алу

RAVDESS

RAVDESS (Radboud Faces Database) — бұл эмоцияларды тану зерттеулері үшін арналған эмоциялық сөйлеу және ән жазбаларының деректер жинағы. Ол әр түрлі актерлердің бақыт, қайғы, ашу және қорқыныш сияқты эмоцияларды айту және ән айту арқылы білдірген әр түрлі жазбаларын қамтиды. Деректер жинағы аудио және видео жазбаларын қамтиды, бұл оны сөйлеу және аудио өңдеу қосымшаларында эмоцияларды анықтау модельдерін дамыту мен бағалауда құнды ресурс етеді.

Ақпарат алу

NSynth (Neural Synth)

NSynth (Neural Synth) — бұл Google жасаған деректер жинағы, ол әр түрлі музыкалық аспаптардан алынған 300,000-нан астам музыкалық ноталарды қамтиды. Әр нота спектрограммамен көрсетілген, бұл бай аудио синтезі мен машинамен оқыту қосымшаларына мүмкіндік береді. NSynth нейрондық желілерді жаңа дыбыстарды жасау және дыбыс синтезінің мүмкіндіктерін зерттеу үшін оқытуға арналған, бұл оны музыка технологиясы мен аудио өңдеу саласындағы зерттеушілер мен әзірлеушілер үшін құнды ресурс етеді.

Ақпарат алу

ESC 50

ESC-50 — бұл қоршаған орта дыбыстарын классификациялау үшін арналған деректер жинағы, ол 50 түрлі дыбыс класынан 2,000 белгіленген аудио жазбаларын қамтиды. Әр класс 40 жазбадан тұрады, онда табиғи дыбыстар, адам әрекеттері және адамның жасаған ортасынан алынған дыбыстар бар. Деректер жинағы дыбысты тану және машинамен оқыту қосымшалары бойынша зерттеулерді жеңілдету үшін арналған, бұл оны қоршаған орта дыбыстарын классификациялауға арналған модельдерді дамыту мен бағалауда құнды ресурс етеді.

Ақпарат алу

IEMOCAP (Interactive Emotional Dyadic Motion Capture)

IEMOCAP (Interactive Emotional Dyadic Motion Capture) — бұл эмоцияларды тану зерттеулері үшін арналған мультимодальды деректер жинағы. Ол актерлердің әр түрлі эмоциялық көріністермен жазылған диалогтарды орындағаны туралы аудио, видео және қозғалыс captura деректерін қамтиды. Деректер жинағы бақыт, қайғы, ашу және күйзеліске ұшырау сияқты эмоцияларды қамтиды, бұл оны сөйлеу және видео өңдеу қосымшаларында эмоциялық талдау модельдерін дамыту мен бағалауда бай ресурс етеді.

Ақпарат алу

VoxConverse

VoxConverse — бұл сөйлеушілердің әр түрлі жағдайларда табиғи диалогтарын қамтитын сөйлесу сөйлеуін зерттеуге арналған деректер жинағы. Ол әр түрлі сөйлесу тақырыптарын және әр түрлі сөйлеу стильдерін қамтиды, бұл оны сөйлеу тану, диалогтық жүйелер және эмоцияларды анықтау сияқты салалардағы зерттеулер үшін жарамды етеді. Деректер жинағы сөйлесу интеракцияларын талдау мен түсінуге арналған модельдерді дамыту мен бағалауда құнды ресурс ұсынады.

Ақпарат алу

AVSpeech

AVSpeech — бұл аудиовизуалды сөйлеу тану зерттеулері үшін арналған деректер жинағы, ол сөйлеушілердің аудио және визуалды жазбаларын жұптастырып қамтиды. Ол әр түрлі сөйлеушілер, тілдер және контексттерді қамтиды, визуалды белгілер, мысалы, ерін қозғалыстарының сөйлеу тану дәлдігін қалай жақсартатынын зерттеуге мүмкіндік береді. Бұл деректер жинағы сөйлеу өңдеу қосымшаларында аудио және визуалды ақпаратты біріктіретін модельдерді дамыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Kazakh ASR Dataset

Kazakh ASR Dataset — бұл қазақ тіліндегі автоматты сөйлеу тану зерттеулері үшін арналған деректер жинағы. Ол әр түрлі сөйлеушілерден алынған аудио жазбалардан тұрады, әр түрлі тақырыптар мен сөйлеу стильдерін қамтиды. Деректер жинағы қазақ тіліне бейімделген сөйлеу тану модельдерін оқыту мен бағалауға арналған құнды ресурстар ұсынуды мақсат етеді, сөйлеу технологиясы мен табиғи тілдерді өңдеу саласындағы жетістіктерге ықпал етеді.

Ақпарат алу

Kazakh Speech Corpus 

Kazakh Speech Corpus — бұл қазақ тіліндегі сөйлеу тану және лингвистикалық зерттеулер үшін арналған жан-жақты деректер жинағы. Ол текті сөйлеушілерден алынған әр түрлі сөйлеу стильдері, диалектілер және тақырыптарды қамтитын аудио жазбалардан тұрады. Бұл корпус автоматты сөйлеу тану жүйелерін, фонетикалық зерттеулерді және табиғи тілдерді өңдеудегі басқа қосымшаларды дамыту мен тестілеу үшін құнды ресурс болып табылады, қазақ тіліндегі технологиялардың дамуына ықпал етеді.

Ақпарат алу

EmoReact

EmoReact — бұл бейнелердегі эмоцияларды тану үшін арналған деректер жинағы, ол әр түрлі эмоциялық жауаптармен аннотацияланған бейне клиптерден тұрады. Ол әр түрлі сценарийлер, эмоциялық көріністер мен контексттерді қамтиды, бұл оны визуалды медиада эмоцияларды анықтау мен талдау үшін модельдерді оқытуға жарамды етеді. Бұл деректер жинағы аффективті есептеу, эмоцияларды талдау және мультимедиа өңдеу бойынша қосымшаларға арналған зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

Common Voice 17.0

Common Voice 17.0 — бұл әлемнің түкпір-түкпірінен волонтерлерден жиналған көптілді дауыс жазбаларының деректер жинағы, сөйлеуді тану технологиясын жақсартуға бағытталған. Ол бірнеше тілде әр түрлі акценттер мен диалектілермен айтылған сөз тіркестерін қамтиды. Бұл деректер жинағы автоматты сөйлеу тану жүйелерін оқыту мен бағалауда құнды ресурс болып табылады, инклюзивті және дәл дауыс технологияларын дамытуға елеулі үлес қосады.

Ақпарат алу
QR

Мобильді қосымша

Unicorn Game ойынына қосылыңыз

© 2025, «Инновациялық технологиялар паркі» Дербес кластерлік қоры

Құпиялылық саясаты Пайдаланушы келісімі F.A.Q.

Кіру

Аккаунт жоқ па? Тіркеу
Құпия сөзді ұмыттыңыз ба?

Авторизация

Сізге ыңғайлы авторизация әдісін таңдаңыз
  • Google тіркеулік жазбасымен жалғастыру
  • ЭЦҚ көмегімен жалғастыру
  • Электрондық пошта арқылы кіру
Аккаунт жоқ па? Тіркеу
Пайдаланушы аты мен парольдің құпиялылығын қамтамасыз етуді сұраймыз! Жалғастыра отырып, сіз Astana Hub шарттары мен ұсыныстарын қабылдайсыз

Тіркеу

Сізге ыңғайлы тіркеу әдісін таңдаңыз
  • Google тіркеулік жазбасымен жалғастыру
  • ЭЦҚ көмегімен жалғастыру
  • Email арқылы тіркелу
Есептік жазба бар ма? Кіру
Пайдаланушы аты мен парольдің құпиялылығын қамтамасыз етуді сұраймыз! Жалғастыра отырып, сіз Astana Hub шарттары мен ұсыныстарын қабылдайсыз

Тіркеу

Есептік жазба бар ма? Кіру

Вход через ЭЦП

У меня уже есть аккаунт. Хочу войти

ИИН:

Регистрация через ЭЦП

У меня уже есть аккаунт. Хочу войти

ИИН:

Продолжая, Вы принимаете условия и предложения AstanaHub

Регистрация

Войти под другим логином

Пройдите по ссылке, которую мы отправили Вам на почту , для завершения регистрации

Восстановление пароля

Смена пароля

Ваш пароль устарел. Пожалуйста, смените пароль в целях безопасности

Құпия сөзді өзгерту

Добавить email

Жүйеге кіру кезінде пайдаланылатын жаңа электрондық пошта мекенжайын енгізіңіз


Телефон нөмірін қосу

Введите новый номер телефона, который будет использоваться при авторизации в системе


Қалпына келтіру

Басқа пайдаланушы атымен кіріңіз

Құпия сөзді қалпына келтіру үшін, сілтеме алатын электрондық пошта мекенжайын енгізіңіз

Басқа пайдаланушы ретінде кіру

Біз сізге жіберген сілтеме бойынша өтіңіз

Успешная регистрация!

Поздравляем, вы успешно зарегистрированы на платформе astanahub.com

Отлично

Сіздің аккаунтыңыз
бұғатталды

Басқа пайдаланушы ретінде кіру

Себебі сіз парольді і реттен артық қате еңгіздіңіз

Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Кіру

Немесе
Gmail арқылы кіру
Пайдаланушы аты мен парольдің құпиялылығын қамтамасыз етуді сұраймыз! Жалғастыра отырып, сіз Astana Hub шарттары мен ұсыныстарын қабылдайсыз
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Құпия сөзді енгізіңіз
Пошта арқылы кіріп жатырсыз

Құпия сөзді ұмыттыңыз ба?
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Құпия сөзді енгізіңіз
Телефон нөмірі арқылы кіріп жатырсыз

Құпия сөзді ұмыттыңыз ба?
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

SMS кодын енгізіңіз
Біз SMS кодын сіздің нөміріңізге жібердік

Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

SMS кодын енгізіңіз
Біз SMS кодын сіздің нөміріңізге жібердік

Кодты қайтадан сұрау 0 секундттан кейін
Кодты қайтадан сұрау
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Құпия сөзді ойлап табыңыз

Кем дегенде 8 таңба

A-Z бас әріптері

Кіші әріптер a-z

Бір Сан

Бір арнайы таңба

Тіркеу аяқталғаннан кейін біз сізді Astana Hub экожүйесіндегі желіге қосылу үшін автоматты түрде «Нетворкинг» бөліміне қосамыз.

Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

SMS кодын енгізіңіз
Біз SMS кодын сіздің нөміріңізге жібердік

Кодты қайтадан сұрау 0 секундттан кейін
Кодты қайтадан сұрау
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Есіміңіз кім?

«Нетворкинг» бөлімі желіні дамытуға, пікірлес адамдарды табуға және іскерлік байланыстарды кеңейтуге арналған.

Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Құпия сөзді енгізіңіз
Пошта арқылы кіріп жатырсыз

Құпия сөзді ұмыттыңыз ба?
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Растау кодын енгізіңіз
Біз кодты сіздің поштаңызға жібердік

Кодты қайтадан сұрау
Стартаптардың, инвесторлар мен сарапшылардың коммуникацияларына арналған цифрлық технопарк

Сіздің аккаунтыңыз
бұғатталды

Себебі сіз парольді і реттен артық қате еңгіздіңіз

Кұпия сөзді қалпына келтіру
Басқа пайдаланушы ретінде кіру