Табиғи тілді өңдеу (NLP)

Мәтіндік корпус, эмоция белгілері бар деректер жиыны, контекстік мәтіндер, диалог жазбалары.

Fineweb

Fineweb — бұл веб-беттерді классификациялау және талдау үшін арналған деректер жинағы, әр түрлі категорияларда белгіленген веб-беттердің үлкен жинағын қамтиды. Ол табиғи тілдерді өңдеу және машинамен оқыту саласындағы зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады, веб мазмұнын түсіну, классификациялау және ақпаратты іздеу үшін модельдерді дамытуға мүмкіндік береді.

Ақпарат алу

OpenOrca

OpenOrca — бұл ашық салалы сөйлесу ИИ модельдерін оқыту мен бағалау үшін арналған деректер жинағы. Ол әр түрлі сөйлесу сценарийлері үшін контекст пен мысалдарды ұсынатын диалогтардың алуан түрлі жинағын қамтиды. Бұл деректер жинағы табиғи тілдерді түсіну, диалогтық жүйелер және AI-драйверлік өзара әрекеттесулерді жақсарту бойынша жұмыс істейтін зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

C4 Colossal

C4 Colossal — бұл тіл модельдерін оқыту үшін арналған ауқымды деректер жинағы, вебтен алынған әр түрлі мәтін деректерін қамтиды. Ол әр түрлі тақырыптар мен салалар бойынша миллиардтаған сөздерді қамтиды, бұл мәтін генерациясы, түсіну және классификация сияқты табиғи тілдерді өңдеу тапсырмалары үшін бай ресурс болып табылады.

Ақпарат алу

Wikipedia

Wikipedia деректер жинағы — бұл әр түрлі тақырыптардағы Wikipedia мақалаларынан алынған мәтін деректерінің ауқымды жиынтығы. Ол құрылымдалған және құрылымдалмаған мазмұнды қамтиды, бұл оны мәтін анализі, қысқарту, сұрақтарға жауап беру және білім алу сияқты табиғи тілдерді өңдеу тапсырмалары үшін құнды ресурс етеді, ИИ саласындағы зерттеулер мен әзірлемелерді қолдайды.

Ақпарат алу

CCMatrix

CCMatrix — бұл машиналық аударма модельдерін оқыту үшін арналған ауқымды көптілді деректер жинағы. Ол Common Crawl корпусынан алынған миллиардтаған сөйлем жұптарын қамтиды, көптеген тілдерді қамтиды. Бұл деректер жинағы аударма сапасын жақсартуға және табиғи тілдерді өңдеудегі мықты көптілді модельдерді дамытуға ниет білдірген зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

The Pile

The Pile — бұл тіл модельдерін оқыту үшін арналған ауқымды, әр түрлі деректер жинағы. Ол кітаптар, веб-сайттар және ғылыми мақалалар сияқты түрлі салалардан алынған 825 ГБ мәтін деректерін қамтиды. Бұл деректер жинағы дамыған табиғи тілдерді өңдеу модельдерін әзірлеуге, мәтін генерациясы, түсіну және диалогтық жүйелер сияқты тапсырмаларды жетілдіруге құнды ресурс болып табылады.

Ақпарат алу

WikiText

WikiText — бұл Wikipedia мақалаларынан алынған деректер жинағы, тіл модельдерін оқыту мен бағалау үшін арналған. Ол 100 миллионнан астам токенмен жоғары сапалы, өңделген мәтін деректерін қамтиды, бұл мәтін генерациясы, тіл моделін жасау және түсіну сияқты табиғи тілдерді өңдеу тапсырмаларында бай ресурс болып табылады.

Ақпарат алу

Topical Chat

Topical Chat — бұл түрлі тақырыптарда диалогтарды қамтитын сөйлесу ИИ модельдерін оқыту үшін арналған деректер жинағы. Ол пайдаланушылар мен чат-бот арасында 162,000-нан астам көп кезеңді әңгімелерді қамтиды, бұл зерттеушілерге табиғи тілдерді өңдеудегі контексті ескеретін өзара әрекеттесулерді дамыту мен бағалауға мүмкіндік береді.

Ақпарат алу

Persona Chat

Persona Chat — бұл тұлғасы бар сөйлесу агенттерін жасауға арналған деректер жинағы. Ол қатысушылардың анықталған персона мен фонды қамтитын әңгімелесулерінде сөйлесетін диалогтардан тұрады. Деректер жинағы 160,000-нан астам әңгімелерді қамтиды, бұл табиғи тілдерді өңдеуде қызықты және жеке өзара әрекеттесулерді жасауға арналған модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Blended Skill RU

Blended Skill RU — бұл орыс тіліндегі сөйлесу ИИ модельдерін дамытуға арналған деректер жинағы. Ол сұрақтарға жауап беру, ұсыныстар беру және әңгімелесу сияқты әр түрлі дағдыларды біріктіретін диалогтарды қамтиды. Бұл деректер жинағы орыс тілінде табиғи және тиімді өзара әрекеттесулерді жасауға арналған модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Blended Skill EN

Blended Skill EN — бұл ағылшын тіліндегі сөйлесу ИИ модельдерін дамытуға арналған деректер жинағы. Ол сұрақтарға жауап беру, ұсыныстар беру және жай әңгімелесу сияқты әр түрлі дағдыларды біріктіретін диалогтарды қамтиды. Бұл деректер жинағы ағылшын тілінде табиғи және қызықты өзара әрекеттесулерді жасауға арналған модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

SQUAD

SQuAD (Стэнфорд Сұрақтарға Жауап Беру Деректер Жинағы) — бұл оқу түсінігі тапсырмаларына арналған деректер жинағы, ол Wikipedia мақалаларына негізделген 100,000-нан астам сұрақты қамтиды. Әр сұрақ сәйкес үзінді мен қысқаша жауаппен жұпталған, бұл оны табиғи тілдерді өңдеу саласындағы модельдерді, әсіресе сұрақтарға жауап беру жүйелерін оқыту мен бағалауда құнды ресурс етеді.

Ақпарат алу

SNLI

SNLI (Стэнфорд Табиғи Тілдер Дәлелдеу Деректер Жинағы) — бұл табиғи тілдердегі дәлелдеу тапсырмалары үшін арналған деректер жинағы, 570,000 белгіленген сөйлем жұптарын қамтиды. Әр жұп үш белгінің бірімен аннотацияланған: дәлелдеу, қарсылау немесе бейтарап. Бұл деректер жинағы табиғи тілдерді өңдеу саласындағы модельдерді, әсіресе сөйлемдер арасындағы қарым-қатынасты түсіну тапсырмаларында оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

MultiNLI

MultiNLI (Көпжанрлы Табиғи Тілдер Дәлелдеу Деректер Жинағы) — бұл табиғи тілдердегі дәлелдеу тапсырмалары үшін арналған деректер жинағы, түрлі жанрларда 433,000 сөйлем жұптарын қамтиды. Әр жұп дәлелдеу, қарсылау немесе бейтарап белгілерімен таңбаланған. Бұл деректер жинағы табиғи тілдерді өңдеу саласындағы модельдерді, әсіресе әр түрлі контексттердегі сөйлемдер арасындағы қарым-қатынасты түсіну үшін оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

MS MARCO

MS MARCO (Microsoft Машиналық Оқу Түсінігі) — бұл машиналық оқу түсінігі тапсырмалары үшін арналған деректер жинағы, 1 миллионнан астам нақты пайдаланушы сұрақтарын және олардың веб құжаттарынан алынған сәйкес үзінділерін қамтиды. Ол сұрақтар, жауаптар және үзінді аннотацияларын қамтиды, бұл ақпаратты іздеу және табиғи тілдерді өңдеу саласындағы модельдерді оқыту мен бағалауда құнды ресурс етеді.

Ақпарат алу

NarrativeQA

NarrativeQA — бұл оқу түсінігі және сұрақтарға жауап беру үшін арналған деректер жинағы, 1,500-нан астам әңгіме мен сәйкес сұрақтарды қамтиды. Әр сұрақ жауап беру үшін әңгіме контекстін түсінуді талап етеді, бұл табиғи тілдерді өңдеу саласындағы модельдерді, әсіресе мәтіндік ақпаратты тереңірек түсінуге байланысты тапсырмаларда оқыту мен бағалауда құнды ресурс етеді.

Ақпарат алу

Kazakh Wiki

Kazakh Wiki — бұл қазақ тіліндегі Википедиядан алынған деректер жинағы, түрлі тақырыптарды қамтитын мақалаларды қамтиды. Ол мәтін анализі, қысқарту және тіл моделін жасау сияқты табиғи тілдерді өңдеу тапсырмаларында зерттеушілер мен әзірлеушілерге қазақ тіліндегі мәтінді түсіну мен өңдеуде құнды ресурс болып табылады.

Ақпарат алу

Kazakh Instruct

Kazakh Instruct — бұл қазақ тіліндегі нұсқаулыққа негізделген тапсырмаларды оқыту мен бағалау үшін арналған деректер жинағы. Ол әр түрлі әрекеттер бойынша пайдаланушыларды бағыттауға арналған тапсырмалар мен сұраныстарды қамтиды. Бұл деректер жинағы қазақ тілінде пайдаланушы интеракциясы мен түсінігін қамтамасыз ететін табиғи тілдерді өңдеу қосымшаларын дамытуға құнды ресурс болып табылады.

Ақпарат алу

Alpaca

Alpaca — бұл сөйлесу ИИ модельдерін оқытуға арналған деректер жинағы, нұсқауларды орындауға арналған диалогтарды қамтиды, олар тілдік модельдерді дәлдеп оқыту арқылы жасалған. Ол әр түрлі сұраныстар мен жауаптарды қамтиды, бұл табиғи және үйлесімді әңгімелерді жүргізетін модельдерді дамыту мен бағалауда құнды ресурс болып табылады, диалогтық жүйелер мен виртуалды көмекшілердегі қосымшаларды жетілдіреді.

Ақпарат алу

MDBKD

MDBKD (Көпсалалы Бенчмарк Білімді Ашу) — бұл көпсалалы білімді ашу және алу тапсырмаларын бағалау үшін арналған деректер жинағы. Ол құрылымдалған және құрылымдалмаған ақпаратты қамтитын түрлі деректер түрлері мен көздерін қамтиды, бұл оны ақпаратты іздеу, деректерді шығару және машинамен оқыту салаларындағы алгоритмдерді әзірлеу мен тестілеу үшін зерттеушілер үшін құнды ресурс етеді.

Ақпарат алу

KazNERD ISSAI

KazNERD ISSAI — бұл қазақ тіліндегі аталған объектілерді тану үшін арналған деректер жинағы. Ол әр түрлі салалардағы аннотацияланған мәтіндерді қамтиды, адамдар, ұйымдар және жерлер сияқты объектілерді анықтауға бағытталған. Бұл деректер жинағы ақпаратты алу және түсіну тапсырмаларында табиғи тілдерді өңдеу модельдерін оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Kaz Ner

KazNER — бұл қазақ тіліндегі аталған объектілерді тану (NER) үшін арналған деректер жинағы. Ол адамдардың, ұйымдардың және жерлердің аттары сияқты түрлі объектілерді қамтитын аннотацияланған мәтін деректерінен тұрады. Бұл деректер жинағы ақпаратты алу тапсырмаларында табиғи тілдерді өңдеу модельдерін оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Kazakh Unsorted NITEC

Kazakh Unsorted NITEC — бұл қазақ тіліндегі табиғи тілдерді өңдеу тапсырмаларына арналған деректер жинағы. Ол әр түрлі көздерден алынған құрылымдалмаған мәтін деректерін қамтиды, бұл оны мәтінді классификациялау, сезімдер анализі және тіл моделін жасау сияқты тапсырмалар үшін жарамды етеді. Бұл деректер жинағы қазақ тіліндегі қосымшалармен жұмыс істейтін зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

Kazakh Literature Collection

Қазақстан әдебиеті жинағы — бұл қазақ тіліндегі поэзия, проза және тарихи мәтіндер сияқты әдеби шығармалардың кең ауқымын қамтитын деректер жинағы. Бұл жинақ мәтін анализі, сезімдер анализі және машинамен оқыту қосымшалары сияқты табиғи тілдерді өңдеу тапсырмаларында құнды ресурс болып табылады, қазақ әдебиетіне бағытталған модельдерді дамыту мен зерттеулерді қолдайды.

Ақпарат алу

Kazakh Dolly

Kazakh Dolly — бұл қазақ тіліндегі диалогтық жүйелерді оқыту мен бағалау үшін арналған деректер жинағы. Ол сұрақ-жауап жұптары мен диалогтар сияқты түрлі сөйлесу деректерін қамтиды, табиғи тілдерді түсіну мен генерациялауды жақсартуға бағытталған. Бұл деректер жинағы қызықты және контексті ескеретін өзара әрекеттесулерді талап ететін ИИ қосымшаларын дамыту үшін құнды ресурс болып табылады.

Ақпарат алу

Alpaca Kazakh TACO

Alpaca Kazakh TACO — бұл қазақ тіліндегі сөйлесу ИИ модельдерін оқытуға арналған деректер жинағы, онда түрлі мақсатты диалогтар бар. Ол әр түрлі тапсырмалар бойынша пайдаланушы өзара әрекеттестігін модельдейтін түрлі сұраныстар мен жауаптарды қамтиды. Бұл деректер жинағы пайдаланушы тәжірибесі мен қатынасын арттыруға бағытталған табиғи тілдерді өңдеу қосымшаларын дамыту үшін құнды ресурс болып табылады.

Ақпарат алу

RuBQ

RuBQ (Орыс Бар Сұрау) — бұл орыс тіліндегі сұрақтарға жауап беру тапсырмалары үшін арналған деректер жинағы. Ол әр түрлі салалардан алынған тиісті жауаптармен жұпталған түрлі сұрақтарды қамтиды. Бұл деректер жинағы ақпаратты іздеу және түсіну мүмкіндіктерін арттыру үшін табиғи тілдерді өңдеу модельдерін оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Gigaword

Gigaword — бұл жаңалық мақалаларының ауқымды деректер жинағы, табиғи тілдерді өңдеу тапсырмалары үшін әр түрлі мәтін деректерін ұсынады. Ол түрлі жаңалық көздерінен миллиардтаған сөздерді қамтиды, бұл мәтінді қысқарту, тіл моделін жасау және ақпаратты іздеу бойынша модельдерді оқытуда құнды ресурс болып табылады, заманауи тіл қолдануын түсінуді арттырады.

Ақпарат алу

XSum (Extreme Summarization)

XSum (Экстремалды Қысқарту) — бұл бір құжатқа арналған экстремалды қысқарту тапсырмалары үшін арналған деректер жинағы. Ол 226,000-нан астам BBC мақалаларын қамтиды, олар бір сөйлемдік қысқартулармен жұпталған, бұл контенттің мәнін көрсетеді. Бұл деректер жинағы табиғи тілдерді өңдеу саласында қысқа және ақпараттық сипаттамаларды жасауға бағытталған модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

RACE (Reading Comprehension Dataset)

RACE (Оқу Түсінігі Деректер Жинағы) — бұл оқу түсінігі тапсырмалары үшін арналған ауқымды деректер жинағы, 28,000-нан астам үзінділер мен 97,000 сұрақты қамтиды. Ол орта мектептің ағылшын емтихандарынан алынған сұрақтарды қамтиды, терең түсінік пен ойлау қабілетін талап етеді. Бұл деректер жинағы табиғи тілдерді өңдеу саласындағы модельдерді, әсіресе сұрақтарға жауап беру үшін оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Winograd WSC (Winograd Schema Challenge)

Winograd WSC (Winograd Схема Шақыруы) деректер жинағы табиғи тілдерді өңдеудегі сілтемелерді шешу үшін бағалау мақсатында арналған. Ол анық емес есімдіктерді шешу үшін контексті түсінуді талап ететін сөйлемдерден тұрады. Бұл деректер жинағы тілдік түсіну мен ойлауға бағытталған модельдерді оқыту мен тестілеуде құнды ресурс болып табылады.

Ақпарат алу

Sentiment140

Sentiment140 — бұл сезімдер анализі үшін арналған деректер жинағы, 1.6 миллион твиттер позитивті және негативті сезімдермен белгіленген. Ол табиғи тілдерді өңдеудегі модельдерді, әсіресе әлеуметтік медиада сезімдерді классификациялау және пікірлерді зерттеу тапсырмаларында оқыту мен бағалауға көмектесу үшін жасалған.

Ақпарат алу

Google Natural Questions

Google Natural Questions — бұл табиғи тілдерді түсіну және сұрақтарға жауап беру модельдерін оқыту мен бағалау үшін арналған деректер жинағы. Ол шынайы пайдаланушылардың сұрақтарын Википедия мақалаларынан алынған ұзын жауаптармен жұптастырады, бұл табиғи тілдегі сұраныстарды тиімді түсініп, жауап беретін жүйелерді дамыту үшін бай ресурс ұсынады.

Ақпарат алу

KK-EN Corpora

KK-EN Corpora — бұл қазақ-ағылшын тілдерін өңдеуге арналған деректер жинағы, аударма және лингвистикалық талдау үшін параллель мәтіндерді қамтиды. Бұл корпус әр түрлі салаларды қамтиды, бұл оны машинамен аударма модельдерін оқыту мен бағалауда және екі тілдік қосымшаларда тілдік түсінуді жақсартуда құнды ресурс етеді.

Ақпарат алу

IMDB Dataset of 50K Movie Reviews

IMDB Dataset of 50K Movie Reviews — бұл 50,000 фильм шолуларынан тұратын жинақ, олар позитивті немесе негативті белгіленген. Бұл сезімдер анализі мен табиғи тілдерді өңдеу тапсырмаларында кеңінен қолданылады, пайдаланушы пікірлерін түсіну және мәтінді классификациялау мүмкіндіктерін арттыруға арналған модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Yelp Dataset

Yelp Dataset — бұл Yelp-те тізімделген түрлі кәсіпорындарға арналған шолулар, рейтингтер және пайдаланушы ақпараттарының бай жинағы. Ол әр түрлі категорияларда миллиондаған шолуларды қамтиды, бұл оны сезімдер анализі, ұсыныс жүйелері және тұтынушылар пікірлері мен мінез-құлқын түсінуге бағытталған табиғи тілдерді өңдеу тапсырмаларында құнды ресурс етеді.

Ақпарат алу

Amazon Reviews

Amazon Reviews деректер жинағы Amazon-дағы өнім шолуларының миллиондаған жазбаларын, соның ішінде рейтингтер, мәтіндік пікірлер және пайдаланушы ақпаратын қамтиды. Ол әр түрлі категориялар мен өнімдерді қамтиды, бұл оны сезімдер анализі, ұсыныс жүйелері және тұтынушы сезімін және мінез-құлқын түсінуге бағытталған табиғи тілдерді өңдеу тапсырмаларында құнды ресурс етеді.

Ақпарат алу

Stanford Sentiment Treebank

Stanford Sentiment Treebank — бұл сезімдер анализі үшін арналған деректер жинағы, 11,000-нан астам фильм шолуларының егжей-тегжейлі сезім аннотацияларын қамтиды. Ол сөйлемдер үшін ағаш құрылымын қамтамасыз етеді, бұл әр түрлі деңгейлерде сезімдерді жіктеуге мүмкіндік береді, бұл табиғи тілдерді өңдеуде модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Book Corpus

Book Corpus — бұл әр түрлі жанрдағы 11,000-нан астам кітаптан тұратын деректер жинағы, табиғи тілдерді өңдеу тапсырмалары үшін әр түрлі мәтіндер ұсынады. Ол тіл модельдерін, мәтін генерациясын және әңгіме құрылымын түсінуді оқыту үшін құнды ресурс болып табылады, бұл NLP саласындағы зерттеушілер мен әзірлеушілер үшін маңызды ресурс болып табылады.

Ақпарат алу

Recipe 2M

Recipe 2M деректер жинағы 2 миллионнан астам аспаздық рецепттерді, соның ішінде ингредиенттер, нұсқаулар және дайындық уақыттарын қамтитын ауқымды жинақ. Ол рецепт генерациясы, ұсыныс жүйелері және аспаздық талдау сияқты табиғи тілдерді өңдеу тапсырмаларына арналған бай ресурс болып табылады, бұл зерттеушілер мен әзірлеушілерге тамақпен байланысты қосымшаларды жетілдіруге көмектеседі.

Ақпарат алу

XNLI (Cross-lingual Natural Language Inference)

XNLI (Көптілді Табиғи Тілдер Дәлелдеу) — бұл бірнеше тілдер бойынша табиғи тілдер дәлелдеу модельдерін бағалау үшін арналған деректер жинағы. Ол 15 тілде сәлемдер жұптарын және дәлелдеу, қарсылау немесе бейтарап белгілерімен белгіленген. Бұл деректер жинағы көптілді қарым-қатынастар мен ойлауды түсінетін модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

OpenCorpora Russian

OpenCorpora Russian — бұл орыс тіліндегі табиғи тілдерді өңдеу тапсырмалары үшін арналған лингвистикалық деректер жинағы. Ол түрлі салалар мен жанрларды қамтитын аннотацияланған мәтіндерден тұрады. Бұл деректер жинағы сөздің бөлшектерін тегтеу, синтаксистік талдау және аталған объектілерді тану сияқты тапсырмаларда модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

RuSentiment

RuSentiment — бұл орыс тіліндегі сезімдер анализі үшін арналған деректер жинағы, әлеуметтік медиа және шолулар сияқты түрлі көздерден алынған аннотацияланған мәтіндерден тұрады. Ол позитивті, негативті және бейтарап сезімдер үшін белгіленген деректерді қамтиды, бұл пайдаланушы пікірлері мен эмоцияларын табиғи тілдерді өңдеуде түсіну үшін модельдерді оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Lenta.Ru News Dataset

Lenta.Ru News Dataset — бұл орыс жаңалықтар агрегаторы Lenta.ru-дан алынған жаңалық мақалаларының жинағы, табиғи тілдерді өңдеу тапсырмалары үшін бай мәтін деректерін ұсынады. Ол бірнеше категорияларда әр түрлі мақалаларды қамтиды, бұл тақырыптық модельдеу, сезімдер анализі және мәтінді классификациялау сияқты тапсырмалар үшін құнды ресурс болып табылады.

Ақпарат алу

RuDReC (Russian Dataset for Relation Extraction and Classification)

RuDReC (Аталған Объектілерді Шығару және Сыныптау үшін Орыс Деректер Жинағы) — бұл орыс мәтіндеріндегі қатынастарды шығару және классификациялау үшін арналған деректер жинағы. Ол түрлі салалардан алынған аннотацияланған мысалдарды қамтиды, бұл қатынастарды шығару, семантикалық түсіну және ақпаратты алу бойынша табиғи тілдерді өңдеу тапсырмаларында модельдерді оқыту мен бағалауға құнды ресурс болып табылады.

Ақпарат алу

OpenSubtitles Parallel Corpora

OpenSubtitles Parallel Corpora — бұл бірнеше тілде үйлестірілген фильмдер мен телешоулардың субтитрлерінен тұратын көптілді деректер жинағы. Ол машинамен аударма модельдерін оқыту мен бағалауға, сондай-ақ лингвистикалық зерттеулерге арналған бай ресурс болып табылады, зерттеушілерге диалог үлгілерін талдауға және тілдер арасында аударма сапасын жақсартуға мүмкіндік береді.

Ақпарат алу

Russian Poetry

Russian Poetry деректер жинағы — бұл орыс тілінде жазылған поэзия шығармаларының жинағы, түрлі стильдер, авторлар және кезеңдерді қамтиды. Ол мәтін анализі, сезімдер анализі және әдебиет зерттеулері мен мәдени түсініктерге бағытталған модельдерді оқыту үшін табиғи тілдерді өңдеу тапсырмаларында құнды ресурс болып табылады.

Ақпарат алу

Kazakh TTS

Kazakh TTS — бұл қазақ тілінде мәтіннен сөйлеуге (TTS) арналған модельдерді оқыту үшін арналған деректер жинағы. Ол мәтінге сәйкес жазылған дыбыстық үлгілерді қамтиды, бұл табиғи және түсінікті қазақ тіліндегі сөйлеуді шығаратын сөйлеу синтезі жүйелерін дамыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

FineWeb EDU

FineWeb EDU — бұл білім беру мақсатында арналған деректер жинағы, оған веб-беттер мен ресурстардың кураторланған жинағы кіреді. Ол түрлі пәндер бойынша аннотацияланған мәтіндер мен материалдарды қамтиды, бұл білім беру құралдарын дамыту, табиғи тілдерді өңдеу модельдерін оқыту және мазмұнға негізделген оқыту қосымшаларын жақсарту үшін құнды ресурс болып табылады.

Ақпарат алу

SmolLM Corpus

SmolLM Corpus — бұл шағын тіл модельдерін оқытуға арналған деректер жинағы, түрлі салалардан алынған әр түрлі мәтін деректерін қамтиды. Ол шектеулі есептеу ресурстарына арналған тиімді және жеңіл модельдерді дамытуға арналған ресурстар ұсынуды мақсат етеді, бұл масштабталатын табиғи тілдерді өңдеуге назар аударатын зерттеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

WildChat

WildChat — бұл сөйлесу ИИ модельдерін оқытуға арналған деректер жинағы, онда түрлі онлайн платформалардан жинақталған әр түрлі диалогтар бар. Ол бейресми және спонтанды әңгімелерді қамтиды, бұл әр түрлі тақырыптар бойынша табиғи, контексті ескеретін өзара әрекеттесулерді жүргізе алатын модельдерді дамыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Dolma (Datasets Optimized for Large Model Applications)

Dolma — бұл үлкен тіл модельдерін оқыту мен бағалауға арналған деректер жинағы. Ол үлкен есептеу ресурстарын талап ететін қосымшалар үшін әзірленген жоғары сапалы мәтін деректерінің әр түрлі жинағын қамтиды. Бұл деректер жинағы табиғи тілдерді өңдеудегі түрлі тапсырмаларда модельдің өнімділігі мен тиімділігін арттыруға арналған зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

PeS2o

PeS2o — бұл жеке көмекші жүйелері контекстінде модельдерді бағалау және оқыту үшін арналған деректер жинағы. Ол жеке көмекшімен өзара әрекеттерді имитациялайтын сөйлесу деректерін қамтиды, бұл табиғи тілдерді түсіну және диалог басқару мүмкіндіктерін дамыту үшін құнды ресурс болып табылады.

Ақпарат алу

Wild Jailbreak

Wild Jailbreak — бұл сөйлесу ИИ модельдерінің қарсылас сұраныстар мен манипулятивті сұрақтарға қарсы беріктігін бағалау үшін арналған деректер жинағы. Ол модельдің шектеулерін "жаруға" немесе айналып өтуге бағытталған түрлі кіріс мысалдарын қамтиды, бұл модель қауіпсіздігін арттыру мен әлеуетті осалдықтарды түсінуге назар аударатын зерттеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

AmberDatasets

AmberDatasets — бұл табиғи тілдерді өңдеудің түрлі тапсырмаларын оқыту мен бағалау үшін арналған деректер жинақтарының жиынтығы. Ол бірнеше салалардан алынған аннотацияланған мәтіндерді қамтиды, сезімдер анализі, мәтінді классификациялау және аталған объектілерді тану сияқты тапсырмалар үшін ресурстар ұсынады. Бұл деректер жинағы NLP қосымшаларымен жұмыс істейтін зерттеушілер мен әзірлеушілер үшін құнды ресурс болып табылады.

Ақпарат алу

Zyda

Zyda — бұл табиғи тілдерді өңдеу тапсырмаларында, сөйлесу жүйелері мен сөйлесу ИИ-да модельдерді оқыту мен бағалау үшін арналған деректер жинағы. Ол аннотацияланған диалогтар мен өзара әрекеттесу үлгілерін қамтиды, бұл табиғи тілдегі сөйлесулерді түсінетін және қатысатын жүйелерді дамыту үшін құнды ресурс болып табылады.

Ақпарат алу

MFAQ (Multilingual Frequently Asked Questions)

MFAQ (Көптілді Жиі Қойылатын Сұрақтар) — бұл бірнеше тілдердегі жиі қойылатын сұрақтардың жинағын қамтитын деректер жинағы. Ол көптілді сұрақтарға жауап беру жүйелерін дамытуға арналған, түрлі тілдерде пайдаланушы сұрауларына жауап беретін модельдерді оқыту үшін құнды ресурстар ұсынады.

Ақпарат алу

UpVoteWeb

UpVoteWeb — бұл ұсыныс жүйелері мен мазмұнды модерациялау алгоритмдерінің өнімділігін бағалау үшін арналған деректер жинағы. Ол веб мазмұнына арналған пайдаланушы өзара әрекеттерін, соның ішінде дауыс беру және қарсы дауыс беру деректерін қамтиды, бұл онлайн платформалардағы пайдаланушы қатысуын және мазмұнның сәйкес келуін жақсартуға арналған модельдерді оқыту үшін құнды ресурс болып табылады.

Ақпарат алу

OSCAR-2301

OSCAR-2301 is a multilingual dataset designed for training language models, comprising 2301 language pairs extracted from web data. It is valuable for natural language processing tasks, including translation and cross-lingual understanding, providing a rich resource for researchers and developers working with multilingual applications.

Ақпарат алу

CrossSum

CrossSum — бұл көптілді қысқарту тапсырмалары үшін арналған деректер жинағы, онда мақалалар мен олардың сәйкес қысқартуларының жұптары бірнеше тілде қамтылған. Ол әр түрлі тілдерде қысқа және үйлесімді қысқартулар жасауға арналған модельдерді оқыту мен бағалауда құнды ресурс болып табылады, көптілді контексте табиғи тілдерді өңдеу қосымшаларын жетілдіруге көмектеседі.

Ақпарат алу

StarcoderData

StarcoderData — бұл бағдарламалық қамтамасыз ету тапсыруларында код көмекшілері мен модельдерді оқыту мен бағалауға арналған деректер жинағы. Ол әр түрлі бағдарламалау тілдерінде код фрагменттерін, бағдарламалау сұрақтарын және құжаттамаларды қамтитын үлкен жинақты қамтиды. Бұл деректер жинағы кодтау мен жөндеу саласындағы табиғи тілдерді өңдеу қосымшаларын жақсарту үшін құнды ресурс болып табылады.

Ақпарат алу

GlotCC-V1

GlotCC-V1 — бұл көптілді код ауыстыру және тілдерді өңдеу тапсырмалары үшін арналған деректер жинағы. Ол түрлі тілдердегі сөйлесулерде код ауыстырудың аннотацияланған мысалдарын қамтиды, бұл көптілді түсіну мен өзара әрекеттесуге бағытталған табиғи тілдерді өңдеу модельдерін оқыту мен бағалауда құнды ресурс болып табылады.

Ақпарат алу

Табиғи тілді өңдеу (NLP) Мәтіндік корпус, эмоция белгілері бар деректер жиыны, контекстік мәтіндер, диалог жазбалары.

Fineweb

OpenOrca

C4 Colossal

Wikipedia

CCMatrix

The Pile

WikiText

Topical Chat

Persona Chat

Blended Skill RU

Blended Skill EN

SQUAD

SNLI

MultiNLI

MS MARCO

NarrativeQA

Kazakh Wiki

Kazakh Instruct

Alpaca

MDBKD

KazNERD ISSAI

Kaz Ner

Kazakh Unsorted NITEC

Kazakh Literature Collection

Kazakh Dolly

Alpaca Kazakh TACO

RuBQ

Gigaword

XSum (Extreme Summarization)

RACE (Reading Comprehension Dataset)

Winograd WSC (Winograd Schema Challenge)

Sentiment140

Google Natural Questions

KK-EN Corpora

IMDB Dataset of 50K Movie Reviews

Yelp Dataset

Amazon Reviews

Stanford Sentiment Treebank

Book Corpus

Recipe 2M

XNLI (Cross-lingual Natural Language Inference)

OpenCorpora Russian

RuSentiment

Lenta.Ru News Dataset

RuDReC (Russian Dataset for Relation Extraction and Classification)

OpenSubtitles Parallel Corpora

Russian Poetry

Kazakh TTS

FineWeb EDU

SmolLM Corpus

WildChat

Dolma (Datasets Optimized for Large Model Applications)

PeS2o

Wild Jailbreak

AmberDatasets

Zyda

MFAQ (Multilingual Frequently Asked Questions)

UpVoteWeb

OSCAR-2301

CrossSum

StarcoderData

GlotCC-V1

Табиғи тілді өңдеу (NLP)

Мәтіндік корпус, эмоция белгілері бар деректер жиыны, контекстік мәтіндер, диалог жазбалары.