Практикум по Data Engineering: сквозной ETL на Spark + Postgres + Airflow + BI

От сырых файлов до витрин и BI. Стек: Postgres, Spark, Airflow, S3/MinIO, Jupyter.

• Старт: 13 апреля
• Стоимость от 30 000 ₽.
• Мест ограничено (личная поддержка)
Оставить заявку
Делаю практику, которую решают
Что у вас будет на выходе
Приватный Git-репозиторий со структурой слоёв RAW/STG/CORE/MARTS
Spark-джобы (spark-submit) с идемпотентностью и инкрементами
витрина + простой BI-дашборд + “история проекта” как рассказывать на интервью
Как выглядит практикум внутри
  • Код и структура лежат в приватном Git-репозитории
  • Стенд поднимается локально через Docker
  • Практика — в ноутбуках и шагах README
Стек как в проде, но на локалке
Поднимаем стенд одной командой и собираем пайплайн от S3-lake до BI.
  • Docker + docker compose
    Стенд поднимается одной командой. Учимся читать логи и чинить “не стартует”.
  • Spark 3.5 (PySpark)
    Пишем трансформации и понимаем, что происходит под капотом: explain, cache, shuffle.
  • PostgreSQL 15
    Собираем DWH-слои: CORE/MARTS, факты/измерения, инкременты. Чтобы было что обсуждать на собесе.
  • Airflow
    Оркестрация raw → stg → core → marts: зависимости, ретраи, расписание.
  • JupyterLab
    Быстрые эксперименты и проверка гипотез. Потом переносим в нормальные джобы.
  • Git + приватный репозиторий
    Работа как в команде: структура проекта, история изменений, понятные артефакты.
  • MinIO (S3)
    Храним RAW/STG как data lake: бакеты, партиции, пути, версии загрузок.
  • Metabase
    Дашборд по витрине. Показываете результат и умеете объяснить “почему так”.
Что вы сделаете и что положите в портфолио
Соберёте мини-кластер и DWH
  • Поднимете Docker-стенд: Spark Master + Workers, Postgres, MinIO (S3), Airflow, Jupyter
  • Научитесь проверять здоровье стенда и понимать “что сломалось” по логам
  • Артефакт: docker-compose + инструкции + скрины сервисов (Spark UI / Airflow UI / MinIO)
Построите сквозной ETL-поток
  • Разложите данные по датам загрузки и заведёте “контракт” слоёв
  • Настроите идемпотентные загрузки и инкременты
  • Будете хранить RAW/STG-артефакты в S3-лейке (MinIO), а модель и витрины — в DWH
  • Артефакт: структура слоёв + код трансформаций + проверки качества
Подключите оркестрацию в Airflow
  • Оформите пайплайн в DAG: зависимости, ретраи, расписание
  • Научитесь читать “почему упало” и чинить без магии
  • Артефакт: DAG-и + скрины графа/ранов + понятное описание пайплайна
Соберёте витрину и отчёт в BI
  • Сделаете витрину под типовые вопросы (продажи/заказы/доставка)
  • Подключите BI и соберёте простой, но честный дашборд
  • Артефакт: витрина + дашборд + “история проекта” для резюме/собеса
Программа потока (8 недель)
Только то, что пройдёте и доведёте до результата.
  • поднимаем стенд docker compose up и проверяем сервисы (Spark UI, Airflow, Postgres, MinIO)
  • учимся читать логи контейнеров и находить причину “не стартует”
  • базовая настройка .env и проверка доступа по портам
  • быстрый чек-лист “диагностика стенда” (типовые поломки)
  • Артефакт: рабочий docker-compose.yml + инструкции + скрины UI сервисов
Формат обучения
Без созвонов и видео-марафонов.
Вы спокойно проходите практикум в своём темпе, я помогаю в чате.
Пошаговые модули: читаешь - делаешь - фиксируешь артефакт
Каждый модуль — README + шаблоны SQL/скриптов + ноутбук. Не смотришь лекции, а собираешь проект.
Всё локально и приватно
Код и данные у вас на машине: Git-репо + Docker-стенд. Никакого шаринга с чужими студентами и “общих ноутбуков”.
Еженедельный план, без дедлайнов по урокам
Темп ваш, но есть маршрут: каждую неделю закрываете один блок пайплайна и двигаетесь к финалу.
Поддержка в чате
Логи контейнеров, ошибки Spark, конфиги S3A/JAR’ы, ревью ключевых решений (grain, контракт, инкремент).
В чате отвечаю в течение дня
Рекомендованный ритм: 6–8 часов в неделю. Сопровождение 8 недель, доступ к репо остаётся.
Для кого этот практикум
Практика для тех, кто хочет не только писать запросы, но и собирать полноценный ETL-поток.
  • Junior / Middle Data Engineer
    SQL уже есть, но на собесе спрашивают: “а где пайплайны, оркестрация, слои, инкременты?”
    Здесь вы соберёте проект, который закрывает этот разрыв.
  • Аналитик, который хочет в Data Engineering
    Вы сильны в SQL, но хочется “инженерной части”: загрузки, слойность, качество, витрины, запуск по расписанию.
    Пройдёте путь от файлов до витрин и поймёте, подходит ли вам роль DE.
  • Инженер, у которого «нехватает Spark»
    Если Spark и оркестрация пока ощущаются как “тёмный лес” — здесь вы разберётесь на практическом проекте, без абстрактных лекций.
Кому НЕ подойдет практикум
Не подойдет, если
  • SQL пока “с нуля”
    Если CTE, JOIN и GROUP BY пока даются с болью, практикум будет слишком быстрым. Тут SQL уже должен быть уверенной базой, иначе вы утонете в деталях.
  • Вы ищете формат “посмотреть видео”
    Здесь упор на практику руками: окружение, запуск пайплайнов, разбор ошибок. Если вы хотите просто смотреть лекции без самостоятельных шагов, не зайдёт.
  • Нет времени на регулярную практику
    Чтобы был результат, нужно стабильно выделять хотя бы 4–6 часов в неделю. Если сейчас нет такого слота, лучше отложить, чем бросить на середине.
Присоединиться к потоку
Старт потока 13 апреля.
Стоимость от 30 000 ₽.

На Stepik: 30+ участников. (страница курса)
Мои курсы на Stepik: ★4.9/5 • 1900+ студентов
Stepik Awards 2025: номинация «Лучшая система практических заданий»

  • Оставляете заявку (2 минуты)
  • Я отвечаю в течение дня, сверяем уровень и окружение
  • Даю доступ к приватному репо + стартовый чек-лист, чтобы быстро стартовать
Оставить заявку
FAQ
Часто задаваемые вопросы