AWS GLUE
0.00

Проблемы которые решает

Отсутствие контроля доступа к информации

Неавтоматизированные бизнес-процессы

Ценности

Бизнес отчетность

Безопасность и непрерывность бизнеса

AWS GLUE

AWS Glue – простой, гибкий и экономичный сервис ETL

Описание

AWS Glue – это полностью управляемый сервис извлечения, преобразования и загрузки данных (ETL), который упрощает подготовку и загрузку пользовательских данных для анализа. Создать и запустить задание ETL можно за пару щелчков мышью в Консоли управления AWS. Достаточно указать AWS Glue на свои данные, хранящиеся на AWS, и AWS Glue обнаружит их и сохранит соответствующие метаданные (например, определение таблицы и схему данных) в каталоге данных AWS Glue. После каталогизации данные немедленно становятся доступны для поиска, выполнения запросов и операций ETL. ВОЗМОЖНОСТИ: AWS Glue можно использовать для классификации, очистки, расширения данных и их надежного перемещения между хранилищами. Сервис позволяет значительно упростить создание ETL‑заданий, ускорить работу и снизить расходы. AWS Glue является бессерверным, поэтому настраивать инфраструктуру и управлять ею не требуется. Плата начисляется только за ресурсы, используемые при выполнении заданий. Интегрированный каталог данных Каталог данных AWS Glue – это постоянное хранилище метаданных по всем наборам данных клиента, независимо от их местонахождения. В каталоге данных содержатся определения таблиц, определения заданий и прочая контрольная информация, позволяющая управлять средой AWS Glue. В нем автоматически рассчитывается статистика и регистрируются разделы, чтобы запросы, обращенные к данным, выполнялись эффективно и экономично. Каталог также поддерживает расширенную историю для версий схем, позволяя оценить, как менялись данные с течением времени. Автоматическое обнаружение схем Сканеры AWS Glue подключаются к исходному или целевому хранилищу данных, проходят по ранжированному списку классификаторов для определения схемы данных, а затем создают метаданные в каталоге данных AWS Glue. Метаданные сохраняются в таблицах каталога данных и используются в процессе подготовки ETL‑заданий. Сканеры сервиса можно запускать по расписанию, по требованию или при наступлении события, чтобы всегда поддерживать метаданные в актуальном состоянии. Генерация кода AWS Glue автоматически генерирует код для извлечения, преобразования и загрузки данных. Просто укажите в AWS Glue исходное и целевое хранилище данных, чтобы AWS Glue создал ETL‑скрипт для преобразования, выравнивания и систематизации данных. Код генерируется на Scala или Python и предназначен для использования в Apache Spark. Адреса для разработчиков Разработчикам, которые предпочитают разрабатывать ETL‑код интерактивно, AWS Glue предоставляет адреса для редактирования, отладки и тестирования сгенерированного кода. Такую работу можно выполнять в привычной IDE или в блокноте. Можно создавать специальные операторы чтения, записи и преобразования и импортировать их в ETL‑задания AWS Glue в виде специальных библиотек. Созданный код можно размещать в нашем репозитории GitHub, который помогает обмениваться наработками с другими разработчиками. Гибкий планировщик заданий Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события. Сервис позволяет запускать множество заданий параллельно или указывать зависимости между заданиями для построения сложных ETL‑конвейеров. AWS Glue обрабатывает зависимости между заданиями, фильтрует ошибочные данные и повторно запускает задания в случае сбоев. Все журналы и оповещения отправляются в Amazon CloudWatch, что позволяет централизованно осуществлять мониторинг и получать уведомления. ПРЕИМУЩЕСТВА: Меньше хлопот AWS Glue интегрирован с широким спектром сервисов AWS, что упрощает начало работы. AWS Glue по умолчанию поддерживает данные, хранящиеся в Amazon Aurora и всех других ядрах Amazon RDS, Amazon Redshift и Amazon S3, а также распространенных ядрах СУБД и базах данных в облаке Virtual Private Cloud (Amazon VPC), работающих на Amazon EC2. Экономичность AWS Glue относится к бессерверным сервисам. Клиентам не требуется выделять инфраструктуру или управлять ею. Все задачи по выделению, настройке и масштабированию ресурсов, необходимых для выполнения заданий ETL в полностью управляемой и масштабируемой среде Apache Spark, AWS Glue выполняет самостоятельно. Клиент платит только за ресурсы, используемые при выполнении заданий. Больше мощности AWS Glue автоматизирует значительную часть работы по созданию и обслуживанию заданий ETL, а также управлению ими. AWS Glue сканирует источники данных, определяет форматы данных, предлагает схемы и преобразования. AWS Glue автоматически генерирует код для выполнения процессов преобразования и загрузки данных.

Схема работы

Схема работы

Особенности пользователей

Роли заинтересованных сотрудников

Исполнительный директор

Организационные особенности

Web-портал для клиентов