На стажировке рассматриваются: задачи обработки больших объемов данных; экосистема Apache Hadoop; система обработки больших данных Apache Spark; методика преподавания курса "Обработка больших объемов данных"
Содержание модуля
1
Понятие больших данных. Задачи, требующие обработки больших объемов данных. Типы данных: структурированные и неструктурированные. Особенности работы с неструктурированными данными. Последовательность действий для решения задачи анализа данных.
2
Распределенные системы и параллельные вычисления. Экосистема инструментов обработки больших объемов данных Apache Hadoop. Распределенная файловая система HDFS. Архитектура распределенной файловой системы. Загрузка/выгрузка данных в распределенную файловую систему. Технология Map/Reduce. Обработка данных в кластере Apache Hadoop. Управление ресурсами кластера Apache Hadoop. Импорт/экспорт данных в реляционные СУБД с помощью Sqoop. Импорт/экспорт неструктурированных данных с помощью Flume и Kafka. Использование SQL в кластере больших данных с помощью Apache Hive
3
Система обработки больших данных Apache Spark. Интеграция Apache Spark с экосистемой Hadoop. Отличия Spark от Map/Reduce. Трансформации Spark. Действия Spark. Resilient Distributed Datasets (RDD). Разработка программ Spark на Python: PySpark. Spark DataFrame API. Форматы данных в Hadoop и Spark. Использование SQL в Spark. Повышение производительности программ Spark.
4
Методика преподавания курса Обработка больших объемов данных. Проведение практических и лабораторных занятий. Организация проектного обучения.