Мастер-класс посвящён возможностям крупномасштабной распределенной обработки больших данных с помощью Apache Spark. На тренинге участники будут использовать язык Scala для разработки Spark-приложений и познакомятся с различными типами развертывания Spark и интерфейсами Spark API. Также будет рассмотрена основа основ Spark — восстанавливаемые распределенные наборы данных (RDDs), затем использование Spark SQL через DataFrame и DataSet API, а также способы настройки производительности Spark и внутренних компонентов Spark.
БУДУТ РАЗОБРАНЫ ТЕМЫ:
ИТ-ландшафт в области больших данных:
— Hadoop и MapReduce;
— Анатомия кластера;
— Место Spark в экосистеме;
— Процесс выполнения задания Spark по шагам;
— Типы развёртывания Spark: локальное, автономное, Yarn, Mesos.
Ядро Spark:
— Восстанавливаемые распределённые наборы данных (Resilient Distributed Datasets, RDDs);
— Использование RDDs;
— Оболочка Spark;
— Создание и развёртывание приложений Spark.
Дополнительные возможности в ядре Spark:
— Распределение и пересылка данных между узлами;
— Задачи, этапы, задания;
— Пользовательский интерфейс Spark;
— Кэширование RDD;
— Контрольные точки в RDD;
— Рассылка данных на узлы (broadcasting) и аккумуляторы.
Spark SQL:
— Форматы чтения и записи (Json, Parquet);
— Использование SQL для запросов данных в Spark;
— DataFrames API;
— DataSets API;
— Оптимизатор запросов Catalyst: что внутри?
Преподаватель — Юлиан Драгос.
Юлиан Драгос занимается языком Scala с 2004 года, в это же время он начал работать в исследовательской лаборатории Мартина Одерски (Martin Odersky) в Федеральной политехнической школе Лозанны. Им была написана серверная часть (backend) виртуальной машины Java и оптимизатор байткода, а также он работал над различными частями компилятора. Кроме того, Юлиан реализовал для Scala специализацию с помощью типов.
В 2010 году Юлиан получил степень PhD в Федеральной политехнической школе Лозанны. Работал в компании Typesafe с момента ее основания Мартином Одерски, создателем языка Scala, занимаясь созданием средств разработки (в частности, написал плагин Eclipse для Scala). Затем возглавил группу Spark в компании Lightbend (прежнее название — Typesafe) и внёс значительный вклад в развитие этого проекта. Кроме того, он ведёт учебные курсы и помогает клиентам в реализации Spark-проектов.
Мастер-класс платный (26 000 рублей).
Зарегистрироваться можно по ссылке.