Практикум по Data Engineering: сквозной ETL на Spark + Postgres + Airflow + BI

От сырых файлов до витрин и BI. Стек: Postgres, Spark, Airflow, S3/MinIO, Jupyter.

• Ближайший старт: 23 июня 2026
• Стоимость 35 000 ₽.
• Короткая диагностика на 1-2 минуты. После формы я пишу в Telegram и честно говорю, подходит ли вам этот поток по уровню и технике.
Проверить, подойдёт ли мне практикум
Что нужно на входе
Сильный Spark или Airflow на входе не нужен. Нужна рабочая база SQL, спокойное отношение к Python-коду и техника, на которой поднимется Docker.
  • SQL
    JOIN, GROUP BY, CTE, даты, NULL, базовые оконные функции.
    Не идеал, а рабочая база, чтобы не теряться в витринах и сверках.
  • Python
    Нужно читать код, править простые функции и не теряться в списках, словарях и параметрах.
    Сильный pandas, asyncio или архитектура на входе не требуются.
  • Docker
    Опыт DevOps не нужен.
    Нужно суметь поднять локальный стенд по инструкции, открыть контейнеры и посмотреть логи.
  • Время
    Комфортно 6-8 часов в неделю.
    Если сильно меньше, идти можно, но темп будет тяжёлым.
Если JOIN и CTE пока болезненны, техника еле тянет Docker или вы можете дать только 2-3 часа в неделю, июньский поток будет тяжёлым. В этом случае лучше смотреть на 10 августа или сначала добрать SQL-базу.
Что у вас останется после практикума
Не просто пройденные уроки, а цельный учебный проект, который можно открыть, разобрать по слоям и нормально объяснить на интервью.
mini-DWH
Структура хранилища со слоями RAW / STG / CORE / MARTS, а не просто набор таблиц без логики.
Сквозной ETL
Путь от источника до витрины: загрузка, трансформации, пересчёт и проверка результата.
Spark jobs
Реальные джобы в проекте с понятной ролью в пайплайне.
Airflow DAG
Оркестрация запуска, зависимости, параметры и понимание, как это живёт не только в ноутбуке.
DQ-checks
Проверки, которые оставляют след: дубли, пустые ключи, расхождения по слоям, контроль результата.
Финальный BI-слой
Витрина + простой BI-дашборд + понятная история проекта, которую можно рассказать на интервью.
Как выглядит практикум внутри
  • Код и структура лежат в приватном Git-репозитории
  • Стенд поднимается локально через Docker
  • Практика — в ноутбуках и шагах README
Стек как в проде, но на локалке
Поднимаем стенд одной командой и собираем пайплайн от S3-lake до BI.
  • Docker + docker compose
    Стенд поднимается одной командой. Учимся читать логи и чинить “не стартует”.
  • Spark 3.5 (PySpark)
    Пишем трансформации и понимаем, что происходит под капотом: explain, cache, shuffle.
  • PostgreSQL 15
    Собираем DWH-слои: CORE/MARTS, факты/измерения, инкременты. Чтобы было что обсуждать на собесе.
  • Airflow
    Оркестрация raw → stg → core → marts: зависимости, ретраи, расписание.
  • JupyterLab
    Быстрые эксперименты и проверка гипотез. Потом переносим в нормальные джобы.
  • Git + приватный репозиторий
    Работа как в команде: структура проекта, история изменений, понятные артефакты.
  • MinIO (S3)
    Храним RAW/STG как data lake: бакеты, партиции, пути, версии загрузок.
  • Metabase
    Дашборд по витрине. Показываете результат и умеете объяснить “почему так”.
Программа потока
Только то, что пройдёте и доведёте до результата.
  • поднимаем стенд docker compose up и проверяем сервисы (Spark UI, Airflow, Postgres, MinIO)
  • учимся читать логи контейнеров и находить причину “не стартует”
  • базовая настройка .env и проверка доступа по портам
  • быстрый чек-лист “диагностика стенда” (типовые поломки)
  • Артефакт: рабочий docker-compose.yml + инструкции + скрины UI сервисов
Формат обучения
Без созвонов и видео-марафонов.
Вы спокойно проходите практикум в своём темпе, я помогаю в чате.
Пошаговые модули: читаешь - делаешь - фиксируешь артефакт
Каждый модуль — README + шаблоны SQL/скриптов + ноутбук.
Не смотришь лекции, а собираешь проект.
Всё локально и приватно
Код и данные у вас на машине: Git-репо + Docker-стенд. Никакого шаринга с чужими студентами и “общих ноутбуков”.
Еженедельный план, без дедлайнов по урокам
Темп ваш, но есть маршрут: каждую неделю закрываете один блок пайплайна и двигаетесь к финалу.
Поддержка в чате
Логи контейнеров, ошибки Spark, конфиги S3A/JAR’ы, ревью ключевых решений (grain, контракт, инкремент).
В чате отвечаю в течение дня
Рекомендованный ритм: 6–8 часов в неделю. Сопровождение 8 недель, доступ к репо остаётся.
Для кого этот практикум
Практика для тех, кто хочет не только писать запросы, но и собирать полноценный ETL-поток.
  • Junior / Middle Data Engineer
    SQL уже есть, но на собесе спрашивают: “а где пайплайны, оркестрация, слои, инкременты?”
    Здесь вы соберёте проект, который закрывает этот разрыв.
  • Аналитик, который хочет в Data Engineering
    Вы сильны в SQL, но хочется “инженерной части”: загрузки, слойность, качество, витрины, запуск по расписанию.
    Пройдёте путь от файлов до витрин и поймёте, подходит ли вам роль DE.
  • Инженер, у которого «нехватает Spark»
    Если Spark и оркестрация пока ощущаются как “тёмный лес” — здесь вы разберётесь на практическом проекте, без абстрактных лекций.
Кому НЕ подойдет практикум
Не подойдет, если
  • SQL пока “с нуля”
    Если CTE, JOIN и GROUP BY пока даются с болью, практикум будет слишком быстрым. Тут SQL уже должен быть уверенной базой, иначе вы утонете в деталях.
  • Вы ищете формат “посмотреть видео”
    Здесь упор на практику руками: окружение, запуск пайплайнов, разбор ошибок. Если вы хотите просто смотреть лекции без самостоятельных шагов, не зайдёт.
  • Нет времени на регулярную практику
    Чтобы был результат, нужно стабильно выделять хотя бы 4–6 часов в неделю. Если сейчас нет такого слота, лучше отложить, чем бросить на середине.
Присоединиться к потоку
Старт потока - 23 июня 2026.
Стоимость - 35 000 ₽.

DE-практикум на Stepik: 40+ участников (страница курса)
Другие курсы на Stepik: ★4.9/5 и 2300+ студентов
Stepik Awards 2025: номинация «Лучшая система практических заданий»

  • Оставляете заявку (2 минуты)
  • Я отвечаю в течение дня, сверяем уровень и окружение
  • Даю доступ к приватному репо + стартовый чек-лист, чтобы быстро стартовать
Проверить, подойдёт ли практикум
FAQ
Часто задаваемые вопросы