Публикация была переведена автоматически. Исходный язык: Русский
Чем похожи и чем отличаются Spark MapReduce и Hadoop MapReduce?

Как минимум у них:
1️⃣ общая парадигма вычислений (Map —> Shuffle —> Reduce), а значит и общая боль в оптимизации Shuffle'ов;
2️⃣ довольно хорошее заимствование Java библиотек из мира Hadoop. В основном — для чтения и записи из внешних источников (распределенные файловые системы, объектные хранилища и NoSQL базы данных).
Что же касается планировщика ресурсов, то здесь не все так однозначно:
3️⃣ В облачных установках все стараются раскатывать Spark поверх K8S, но в 70% on-prem установках до сих преобладает планировщик ресурсов YARN [источник].

Поведение:
4️⃣ [Py]Spark очень дружелюбный и он не отрывает руки за то, что вы не понимаете идеологию MapReduce. Достаточно вспомнить любимый метод начинающих DS разработчиков под Spark — .toPandas().
Именно поэтому, мы рекомендуем научиться сначала мыслить MapReduce, убедившись в правильности реализации приложения, благодаря инструменту, который не дает делать в формате "и так сойдет".
А чтобы было нескучно, то мы расширяем кругозор благодаря плюшкам оптимизации, про которые знают единицы практиков на рынке (3 типа кешей в HDFS и YARN или флаги sort, которые спасут вас от лишнего кода).
Проверьте свой кругозор
1. Приведите пример одной распределенной файловой системы, одного объектного хранилища и одной NoSQL БД?
2. У вас есть практический опыт работы с каждой из них?
Где это разбирается:
// модуль 3. Оптимизация MapReduce вычислений
Последний шанс попасть на курс со скидкой:
🔥 скидка 10% до 23.02
Полезная информация
Прошлые выпуски:
— ч.2 функциональная парадигма и Fault Tolerance
✍️ сохраните и подпишитесь, если хотите быть востребованным в IT
BigData Team: the way you learn best
Чем похожи и чем отличаются Spark MapReduce и Hadoop MapReduce?

Как минимум у них:
1️⃣ общая парадигма вычислений (Map —> Shuffle —> Reduce), а значит и общая боль в оптимизации Shuffle'ов;
2️⃣ довольно хорошее заимствование Java библиотек из мира Hadoop. В основном — для чтения и записи из внешних источников (распределенные файловые системы, объектные хранилища и NoSQL базы данных).
Что же касается планировщика ресурсов, то здесь не все так однозначно:
3️⃣ В облачных установках все стараются раскатывать Spark поверх K8S, но в 70% on-prem установках до сих преобладает планировщик ресурсов YARN [источник].

Поведение:
4️⃣ [Py]Spark очень дружелюбный и он не отрывает руки за то, что вы не понимаете идеологию MapReduce. Достаточно вспомнить любимый метод начинающих DS разработчиков под Spark — .toPandas().
Именно поэтому, мы рекомендуем научиться сначала мыслить MapReduce, убедившись в правильности реализации приложения, благодаря инструменту, который не дает делать в формате "и так сойдет".
А чтобы было нескучно, то мы расширяем кругозор благодаря плюшкам оптимизации, про которые знают единицы практиков на рынке (3 типа кешей в HDFS и YARN или флаги sort, которые спасут вас от лишнего кода).
Проверьте свой кругозор
1. Приведите пример одной распределенной файловой системы, одного объектного хранилища и одной NoSQL БД?
2. У вас есть практический опыт работы с каждой из них?
Где это разбирается:
// модуль 3. Оптимизация MapReduce вычислений
Последний шанс попасть на курс со скидкой:
🔥 скидка 10% до 23.02
Полезная информация
Прошлые выпуски:
— ч.2 функциональная парадигма и Fault Tolerance
✍️ сохраните и подпишитесь, если хотите быть востребованным в IT
BigData Team: the way you learn best