Airbyte Open-Source ELT data pipelines. Docker Compose Install

Что такое Airbyte? Плюсы, минусы решения

Airbyte — это платформа EL(T) с открытым исходным кодом, которая помогает вам реплицировать ваши данные в DWH, Data Lakes и Databases. Основным предназначением этого инструмента является интеграция данных между исходной системой и stage слоем хранилища. Т.е. основная задача выгрузка данных и размещение в целевой таблице (например).

Первое, что хочется выделить в Airbyte — очень простой для понимания интерфейс, очень приятный UI.

Алгоритм работы можно описать в нескольких пунктах:

  • Настройте источник;
  • Настройте место назначения;
  • Сопоставьте потоки (создание соединения);
  • Добавьте таймер (для периодического запуска).

Airbyte стремится сделать конвейеры интеграции данных продуктом:

  • Простая и быстрая работа с коннекторами (авторизация, настройка);
  • Создание новых коннекторов довольно максимально упрощен. Доступные CDK: Python, C#/.NET, TS/JS.
  • Большой каталог существующих коннекторов.
  • Airbyte можно развернуть в своем облаке и иметь полный контроль над настройкой безопасности.
  • Не нужно платить за объем обработанных данных, как это предлагают облачные решения.

Канал в телеграме Airbyte — ETL ELT Data Pipelines:

Airbyte - ETL ELT Data Pipelines. Data Engineering practices. Airbyte – простота и гибкость в интеграции данных

Инсталляция/установка Airbyte с помощью docker-compose на ubuntu 20.04

Рассмотрим развертывание Airbyte с помощью Docker Compose. Установка осуществляется очень просто запуском нескольких команд:

После этого переходим по адресу localhost:8000 — откроется Airbyte:

Установка Airbyte с помощью docker-compose airbyte tutorial учебник книга бесплатно курс обучения

Конфигурация (настройка) docker-compose

Итак, рассмотрим компоненты решения при развертывании через docker-compose:

  • docker-compose.yaml — при развертывании airbyte с помощью команды sudo docker-compose up используется этот файл. В нем описаны сервисы, которые запускаются и их глобальные настройки/переменные (порты, логины, пароли, параметры базы данных и т.д.).
  • .env — файл переменных среды. Compose использует значения переменных из среды оболочки, в которой docker-compose выполняется. Вы можете установить значения по умолчанию для переменных среды, используя .env файл, который Compose автоматически ищет в каталоге проекта.

Списки сервисов, которые поднимаются при установке через docker-compose.yaml:

  • init
  • bootloader
  • db
  • scheduler
  • worker
  • server
  • webapp
  • airbyte-temporal

Из чего состоит Airbyte? Компоненты решения

Компоненты

  • Airbyte Worker— это основная часть стека Airbyte, которая отвечает за 1) инициализацию источника и места назначения и 2) передачу данных из источника в место назначения. Кому-то, кто реализует коннектор, никогда не нужно трогать этот код, но в этой статье мы упоминаем его, чтобы контекстуализировать, как данные проходят через Airbyte.
  • Connector (Коннектор или соединитель) — это код, который позволяет Airbyte взаимодействовать с определенным базовым источником данных (например, Postgres). В Airbyte интеграция является либо источником, либо местом назначения.
  • Source (Источник) — соединитель, который извлекает данные из базового источника данных (например, источник Postgres считывает данные из базы данных Postgres. Источник Stripe считывает данные из Stripe API).
  • Destination (Назначение) — соединитель, который отправляет данные в базовый источник данных (например, пункт назначения Postgres записывает данные в базу данных Postgres).
  • AirbyteSpecification — спецификация, описывающая, как реализовать коннекторы с использованием стандартного интерфейса.
  • AirbyteProtocol — протокол, используемый для межпроцессного взаимодействия.
    Integration Commands (Команды интеграции) — команды, которые реализует контейнер интеграции (например spec, check, discover, read/write).
  • Sync (Синхронизация) — действие по перемещению данных из источника в место назначения.

Архитектура Airbyte при запуске через docker-compose

Концептуально Airbyte состоит из двух частей: платформы и коннекторов.

Платформа предоставляет все службы, необходимые для настройки и выполнения операций перемещения данных, например: пользовательский интерфейс, API конфигурации, планирование заданий, ведение журнала, оповещения и т.д., и структурирована как набор микрослужб.

Коннекторы — это независимые модули, которые передают/извлекают данные из/в источники и целевые таблицы (target sources). Коннекторы построены в соответствии со спецификацией Airbyte, которая описывает интерфейс, с помощью которого данные могут перемещаться между источником и целевой таблицей с помощью Airbyte. Соединители упакованы в виде образов Docker, что обеспечивает полную гибкость технологий, используемых для их реализации.

Подробная схема архектуры Airbyte:

  • UI: простой в использовании графический интерфейс для взаимодействия с Airbyte API.
  • WebApp Server: Обрабатывает связь между пользовательским интерфейсом и API.
    Config Store: Хранит всю информацию о соединениях (учетные данные, частота и т.п.).
  • Scheduler Store: Сохраняет статусы и информацию о заданиях для учета планировщика.
  • Config API: главный модуль управления Airbyte. Все операции в Airbyte, такие как создание источников, пунктов назначения, соединений, управление конфигурациями и т.д., настраиваются и вызываются из API.
  • Scheduler: Планировщик принимает рабочие запросы от API и отправляет их во временную службу для распараллеливания. Он отвечает за отслеживание успеха/неудачи и запуск синхронизации на основе настроенной частоты.
  • Temporal Service: управляет очередью задач и рабочими процессами планировщика.
  • Worker: рабочий процесс подключается к исходному соединителю, извлекает данные и записывает их в место назначения.
  • Temporary Storage: хранилище, которое работники могут использовать всякий раз, когда им нужно перенести данные на диск.

Обзор функционала Airbyte

Постановка учебной задачи

todo

Добавляем Source

todo

Добавляем Destination

todo

Создаем соединение (Set up a Connection)

todo

Введение в Airbyte connectors/integrations. Каталог коннекторов

Этапы выпуска коннектора Airbyte

Airbyte использует систему оценок для соединителей, чтобы помочь вам понять, чего ожидать от соединителя:

  • Общедоступный (Generally Available): общедоступный соединитель считается готовым к использованию в производственной среде и официально поддерживается Airbyte. Его документация считается достаточной для поддержки широкого распространения.
  • Бета-версия (Beta): Бета-коннектор считается стабильным и надежным без изменений, несовместимых с предыдущими версиями, но не был проверен более широкой группой пользователей. Мы ожидаем найти и исправить несколько проблем и ошибок в выпуске до того, как он будет готов для общедоступной версии.
  • Альфа (Alpha): Альфа-коннектор означает, что коннектор находится в стадии разработки и помогает Airbyte собирать отзывы и проблемы, о которых сообщают первые пользователи. Мы настоятельно не рекомендуем использовать альфа-версии для производственных сценариев использования и не предлагаем SLA облачной поддержки для этих продуктов, функций или соединителей.

Полное описание можно найти в каталоге коннекторов Airbyte.

Этапы выпуска описывают жизненный цикл коннектора Airbyte:

Ожидания Альфа Бета Общая доступность (GA)
Доступность для клиентов Альфа-коннекторы доступны для всех пользователей Бета-коннекторы доступны для всех пользователей . Доступно для всех пользователей
Поддержка Облако: нет соглашений об уровне обслуживания

с открытым исходным кодом: поддержка сообщества Slack

Облако: официальная бета-поддержка SLA

с открытым исходным кодом: поддержка сообщества Slack

Облако: официальная поддержка GA SLA

с открытым исходным кодом: поддержка Community Slack

Готовность к производству Нет Да (с оговорками) Да

Разработка кастомных коннекторов Airbyte

Airbyte поддерживает два типа коннекторов: Source и Destination. Connector — это образ Docker, который соответствует спецификации Airbyte.

Для создания нового коннектора на Java или Python Airbyte предоставляет шаблоны, поэтому разработчику не нужно начинать все с нуля. В этой статье будет рассмотрено создание коннектора на Python с использованием Python Connector-Development Kit (CDK).

Спецификация Airbyte

  • Спецификация основана на Docker; это позволяет разработчику писать коннектор на любом языке, который он хочет. Все, что им нужно сделать, — это поместить этот код в контейнер Docker, соответствующий интерфейсу и протоколу, описанным ниже.
  • В настоящее время мы предоставляем шаблоны, чтобы сделать это еще проще для тех, кто предпочитает работать на python или java. Эти шаблоны позволяют разработчику пропустить любую настройку Docker, чтобы он мог просто реализовать код для четко определенных интерфейсов на выбранном им языке.
  • Спецификация предназначена для работы в качестве CLI. Приложение Airbyte построено на основе этого интерфейса командной строки.
  • Спецификация определяет стандартный интерфейс для реализации интеграции данных: Source и Destinatioin.
  • Спецификация предоставляет структурированный стандарт передачи сообщений stdout/stdin для передачи данных.
  • Хотя эта спецификация работает с Airbyte, это независимый стандарт.

Спецификация Airbyte требует, чтобы источник Airbyte поддерживал 4 различные операции:

  • Spec — Требуемая конфигурация для взаимодействия с базовой технической системой, например информация о базе данных, информация об аутентификации и т.д.
  • Check — Валидация, что предоставленная конфигурация корректна с достаточными разрешениями для выполнения всех необходимых операций над источником.
  • Discover — Открытие схемы источника — позволяет пользователям выбирать, какое подмножество данных синхронизировать. Полезно, если пользователям требуется только часть данных.
  • Read — Выполняется фактический процесс синхронизации. Данные считываются из источника, анализируются в AirbyteRecordMessages и отправляются в Airbyte Destination. В зависимости от того, как реализован источник, эта синхронизация может быть инкрементальной или полной (полное обновление всех данных).

Airbyte Source содержит один или несколько потоков (streams) Airbyte.

Stream (поток) — еще один концептуальный ключ к пониманию того, как Airbyte моделирует процесс синхронизации данных. Stream моделирует логические группы данных, составляющие более крупный Source. Если источником является RDMS, каждый поток является таблицей. В настройках REST API каждый поток соответствует одному ресурсу в API. Например, Stripe Source будет иметь один поток для Transactions, один для Charges и так далее.

Обзор Python Connector-Development Kit (CDK) для разработки в Airbyte

Видео How to Build ETL Sources in Under 30 Minutes

Airbyte Python CDK — это платформа для быстрой разработки коннекторов Airbyte производственного уровня. В настоящее время CDK предлагает помощников, специально предназначенных для создания исходного кода коннекторов Airbyte для:

  • HTTP APIs (REST APIs, GraphQL, и др.)
  • Singer Taps
  • Общие исходники Python (все, что не описано выше)

CDK предоставляет базовую структуру реализации и абстрагирует низкоуровневый связующий шаблон.

Зависимости

  • Python >= 3.9
  • Docker
  • NodeJS

Начало работы с Airbyte Python CDK по созданию Connector

Для того, чтобы сгенерировать пустой коннектор с помощью генератора кода, необходимо внутри клонированного репозитория Airbyte запустить следующие команды:

На момент написания статьи доступны следущие генераторы:

  • Python Destination — Generate a destination connector written in Python
  • Python HTTP API Source — Generate a Source that pulls data from a synchronous HTTP API.
  • Python Singer Source — Generate a Singer-tap-based Airbyte Source.
  • Python Source — Generate a minimal Python Airbyte Source Connector that works with any kind of data source. Use this if none of the other Python templates serve your use case.
  • Java JDBC Source — Generate a minimal Java JDBC Airbyte Source Connector.
  • Generic Source — Use if none of the other templates apply to your use case.
    Java Destination — Generate a Java Destination Connector.

Пример разработки Python Source Airbyte Connector

Выбираем Python-Source, в директории airbyte/airbyte-integrations/connectors/ сгенерируется исходный код коннектора:

Краткое описание файлов для кода Python Source:

  • integration_tests
  • secrets
  • source_qvd_files
  • unit_tests
  • acceptance-test-config.yml
  • acceptance-test-docker.sh
  • build.gradle
  • Dockerfile
  • main.py
  • README.md
  • requirements.txt
  • setup.py
  • .dockerignore

todo

0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x