Senior Data Engineer · AI Agents Engineer

Иван
Шамаев

Data Engineering AI Agents Team Lead

Строю production-grade платформы данных и AI-агенты, которые приносят измеримый бизнес-результат. 15+ лет от BI-консалтинга до архитектуры DWH в e-commerce.

Airflow dbt Trino ClickHouse PySpark RAG AI Agents LLM Vertica Kafka
Иван Шамаев
Data Platform
AI Agents
15+ лет опыта
0+ Лет опыта
0+ Дашбордов
0% Сокращение времени отчётности
0+ Завершенных проектов
01 Обо мне

Инженер данных,
строящий AI-платформы

Senior Data Engineer с опытом 15+ лет в BI, хранилищах данных и прикладном AI. Сейчас — в Ozon Tech, разрабатываю batch-пайплайны на Vertica и Trino, проектирую DWH-домены и строю AI-агентов для автоматизации аналитических процессов.

Мой путь начинался с финансового консалтинга (SAS, Oracle Hyperion) и QlikView-разработки, прошёл через построение крупных BI-платформ на Qlik Sense и Apache Superset, а сегодня фокусируется на современном data-stack: dbt, Airflow, Trino, Iceberg, ClickHouse и практическом применении LLM в инженерии данных.

Глубокая экспертиза в Airflow, dbt, Trino, Iceberg, ClickHouse, Vertica
Production AI-агенты: RAG, LLM-интеграция, автогенерация SQL по метаданным DWH
Тимлид, менторство, найм и развитие команды аналитиков
Домены: eCommerce, Финансы, СМИ, Логистика, Страхование

Data Engineering

Batch- и стриминговые пайплайны, архитектура DWH (Anchor Modeling), data quality, миграции, оптимизация затрат.

Airflow dbt Spark Trino Iceberg

AI Agents

RAG-пайплайны, LLM-интеграция, агенты по базам знаний, SQL-копилоты, автоматизация на метаданных.

RAG LLM AI Agents Python
02Навыки

Технологический стек

Инструменты, с которыми работаю в инженерии данных, AI и инфраструктуре

Платформа данных
Apache Airflow dbt PySpark Trino Apache Iceberg Hadoop / HDFS Apache Kafka Python SQL ETL / ELT Data Quality
Базы данных и DWH
ClickHouse Vertica MSSQL GreenPlum PostgreSQL Якорная модель Data Vault 2.0 Kimball
AI и LLM
RAG AI Agents VectorDB Prompt Engineering Claude, Cursor OpenCode
BI-инструменты
Qlik Sense Apache Superset Yandex DataLens Grafana Metabase
Инфраструктура
Docker Linux (Ubuntu) GitLab CI/CD S3 / Object Storage Yandex Cloud nginx
03Опыт работы

15+ лет в данных

От финансового консалтинга и BI-платформ до DWH-архитектуры и AI-агентов

2024 — сейчас
Сейчас Ozon Tech
Senior DWH Developer
E-commerce · Москва · 1 г 5 мес
Ноябрь 2024
— настоящее время
  • Спроектировал и разработал batch data pipelines на Vertica и Trino; построил витрины данных в DDS-слое по якорной модели
  • Разработал MVP AI-агента по DWH — RAG-система с метаданными хранилища, связями таблиц и автогенерацией SQL; собрал RAG на внутренней базе знаний
  • Создал ETL-monitoring dashboards в Grafana для контроля критических точек отказа и состояния пайплайнов
  • Оптимизировал SQL-запросы и устранил статические дефекты Vertica; настроил параметры сессий Trino
  • Провёл миграцию Vertica → Trino в рамках DWH-домена; ad-hoc выгрузки на PySpark + Hadoop
  • Обучил коллег AI-инструментам (Continue plugin) и новым технологиям (Iceberg, Trino)
Vertica Trino Airflow PySpark Hadoop MSSQL Iceberg HDFS GitLab
2023 1 год
TeamLead BI · и.о. Руководителя DWH
Фармацевтика / Розничная торговля · Москва
Дек 2023
— Ноя 2024
  • Курировал переезд с BigQuery на Yandex Cloud (ClickHouse, Airflow, dbt, AppMetrika, Yandex Metrika); обучил кросс-функциональные команды
  • Провёл аудит BI-среды и устранил проблемы производительности DataLens (columnar-формат, отказ от views)
  • Разработал дашборды для C-Level (метрики продаж, продуктовая аналитика); участвовал в OKR metric tree
  • Стабилизировал DWH после ухода data engineers; нанял и onboard'ил новую команду
ClickHouse DataLens dbt Airflow Python MSSQL GreenPlum Yandex Cloud Grafana
2020 3 г 4 мес
Senior BI Developer
СМИ / Социальные медиа · Кипр
Авг 2020
— Ноя 2023
  • Внедрил Apache Superset с нуля — сократил расходы на Qlik-лицензии, расширил доступ к данным
  • Разработал план-факт инструменты: 90% экономии времени на подготовку performance-отчётности
  • Построил ETL из Facebook API (3 слоя в DataLake); автоматизировал финансовую отчётность (PnL, Balance Statement)
  • Кастомные плагины Superset (React + TypeScript); GitLab CI для сборки Docker-образов; миграция 1.3.2 → 2.1.1
Qlik Sense Apache Superset ClickHouse Python Docker GitLab CI React TypeScript
2017 3 г 3 мес
Ведущий бизнес-аналитик QlikView
FMCG / Алкогольные напитки · Москва
Май 2017
— Июл 2020
  • Аналитика воронки продаж интернет-витрины; расчёт внутригрупповых операций в PnL; оценка маркетинговых акций
  • PHP-экстрактор данных из API (Bitrix24 CRM, Yandex Metrika, Google Analytics, Mango Office)
  • C# Windows Service для NPrinting API; .qvs-архитектура в GIT; апгрейды QV11→12, NP16→2020
  • Грамота «Лучший сотрудник IV квартала 2019»
QlikView NPrinting PHP C# PowerShell Git
2014 2 г 7 мес
Консультант — Oracle Hyperion & QlikView
Розничная торговля · Москва
Ноя 2014
— Май 2017
  • Проект внедрения системы бюджетирования на Hyperion Planning; развёртывание QlikView EPM для ERP GOLD
  • Оптимизация интеграционных решений, постпроектная поддержка
Oracle HyperionQlikView
2013 1 г 3 мес
Системный аналитик — Hyperion Planning & QlikView
Финансовый сектор · Москва
Сен 2013
— Ноя 2014
  • Поддержка и развитие Oracle Hyperion Planning; аналитические модели данных в QlikView
Oracle HyperionQlikView
2011 1 г 11 мес
Консультант — финансовые решения
IT-консалтинг · Москва
Окт 2011
— Авг 2013
  • SAS Base, SAS FM, SAS ABM; консультирование клиентов, пресейлы; Oracle EPM, SAP BO PCM
SASOracle EPMSAP PCM
2010 1 г 1 мес
Март-консалтинг
Консультант по ERP
ERP-консалтинг · Москва
Сен 2010
— Сен 2011
  • Поддержка системы Галактика, проектирование бизнес-процессов, написание ТЗ для разработчиков
Галактика ERP
04Ключевые проекты

Избранные кейсы

Результаты с измеримым бизнес-эффектом

AI Agents
AI-агент по DWH — MVP
Ozon Tech · 2025
Построил RAG-агента, работающего с метаданными DWH, связями таблиц и структурой якорной модели. Агент автоматически генерирует SQL-запросы по описанию на естественном языке. Параллельно собрал RAG-систему на внутренней базе знаний команды.
RAG Архитектура
SQL Автогенерация
MVP Production-ready
PythonRAGLLMVerticaTrino
Data Platform
Переезд BigQuery → Yandex Cloud
еАптека · 2024
Куратор полной облачной миграции. Перестроил пайплайны на ClickHouse, Airflow и dbt. Обучил кросс-функциональные команды новому стеку.
3 Платформы
ClickHouseAirflowdbtYandex Cloud
−90% времени
Автоматизация план-факт отчётности
TheSoul Publishing · 2021
Инструменты план-факт анализа сократили время подготовки performance-отчётности по подразделениям на 90%.
90% Экономия времени
Qlik SenseClickHousePython
Open Source
Внедрение Apache Superset
TheSoul Publishing · 2021
Выбор и запуск Superset как замены Qlik. Кастомные React/TypeScript плагины. GitLab CI автосборка образов. Миграции 1.3.2 → 2.1.1.
Лицензионные затраты
3 Кастомных плагина
SupersetReactTSDockerGitLab CI
Data Quality
ETL Monitoring Dashboard
Ozon Tech · 2025
Grafana-дашборды для мониторинга критических точек отказа и состояния пайплайнов. 100% покрытие DWH-домена.
100% Покрытие
GrafanaAirflowVertica
Facebook API
ETL-пайплайн из Facebook API
TheSoul Publishing · 2020
Трёхслойный DataLake (raw → staging → marts) для данных из Facebook API. Ежедневное обновление.
3 Слоя данных
PythonREST APIClickHouse
05Образование и обучение

Образование и развитие

2006 — 2012
МГТУ им. Н.Э. Баумана
Факультет робототехники и комплексной автоматизации
Инженер · Автоматизация технологических процессов и производств
Курсы и сертификаты с 2018 года · 17 позиций
2026 1 курс
«Поколение Python»: ООП Stepik В процессе
2025 5 курсов
ClickHouse для аналитика Stepik В процессе
Брокеры сообщений. Apache Kafka Stepik
«Поколение Python»: курс для профессионалов Stepik
Профессия Data Engineer с нуля до junior Stepik
pySpark: Spark на Python Stepik
2024 5 курсов
Apache Airflow для аналитика Stepik
dbt Fundamentals getdbt.com
А/Б-тесты с Глебом Михайловым Stepik
Основы статистики (Bioinformatics Institute) Stepik
Внутренний курс для руководителей еАптека
2023 5 курсов
SQL для анализа данных с Глебом Михайловым Stepik
Оконные функции SQL Stepik
Программирование на Python Stepik
«Поколение Python»: курс для продвинутых Stepik
Data Science с Глебом Михайловым Stepik
2018 1 событие
qRUG Конференция по Qlik — Спикер ATK Консалтинг
06 Контакты

Давайте
пообщаемся

Если есть вопросы по моему опыту или интересный проект — напишите удобным способом.