Pular para o conteúdo principal

Amazon SageMaker Data Processing

Amazon SageMaker Data Processing

Realize a análise, a preparação e a integração de dados para analytics e IA em qualquer escala

Por que optar pelo SageMaker Data Processing?

Prepare, integre e orquestre seus dados com os recursos de processamento de dados do Amazon Athena, Amazon EMR, AWS Glue e Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Processe e integre os dados, independentemente da localização deles, com conectividade ágil e simples a centenas de fontes de dados.

Use as estruturas de processamento de dados de código aberto, como Apache Spark, Trino e Apache Flink. Realize análises de dados em grande escala com o Trino, sem a necessidade de gerenciar a infraestrutura, e crie analytics em tempo real de maneira integrada com o Apache Flink e o Apache Spark.

Confie que seus dados são precisos e seguros automatizando a qualidade dos dados, a identificação de dados confidenciais, o rastreamento de linhagem e aplicando controles de acesso refinados.

Benefícios

O Amazon SageMaker Data Processing fornece acesso abrangente a estruturas de processamento de dados e de fluxos, mecanismos de consulta SQL distribuídos de código aberto e as ferramentas mais conhecidas, como cadernos, editores de consulta e elementos visuais de extração, transformação e carregamento (ETL).

É possível acessar as estruturas mais utilizadas, como o Apache Spark, para preparar e integrar os dados em qualquer escala. Responda às necessidades de negócios em tempo real com o processamento de fluxos usando o Apache Flink e o Apache Spark Streaming, e analise os dados com as principais estruturas SQL de código aberto, como o Trino. Simplifique a orquestração de fluxos de trabalho sem a necessidade de gerenciar a infraestrutura com a integração nativa ao Amazon MWAA.

O processamento de dados do SageMaker acesse dados do laboratório no Amazon SageMaker, permitindo que você processe e integre usando uma cópia de seus dados para todos os seus casos de uso, incluindo análises, consultas ad hoc, aprendizado de máquina (ML) e IA generativa.

A arquitetura aberta de lakehouse do Amazon SageMaker unifica os dados entre os data lakes do Amazon Simple Storage Service (Amazon S3) e os data warehouses do Amazon Redshift, fornecendo acesso unificado aos seus dados. É possível descobrir e analisar dados unificados no Lakehouse usando centenas de conectores, integrações ETL zero e fontes de dados federadas, que disponibilizam um panorama abrangente do seu negócio. O SageMaker trabalha imediatamente com sua arquitetura de dados existente, sem ser limitado por opções específicas de formato de armazenamento ou mecanismo de consulta.

Aprimore a eficiência com a rápida performance de consultas em tabelas do Apache Iceberg. Obtenha insights até duas vezes mais rápidos quando comparados com os sistemas tradicionais de código aberto, ao usar versões de alta performance e compatíveis com API de código aberto do Apache Spark, Apache Airflow, Apache Flink, Trino e outros.

O SageMaker Data Processing permite que você se concentre na transformação e análise de seus dados, sem a necessidade de gerenciar a capacidade de computação ou as aplicações de código aberto. Isso fornece economia de tempo e reduz os custos. É possível realizar o provisionamento automático da capacidade no Amazon EMR no Amazon Elastic Compute Cloud (Amazon EC2) ou no Amazon EMR no Amazon Elastic Kubernetes Service (Amazon EKS). As regras de escalabilidade gerenciam as alterações nas suas demandas de computação para otimizar a performance e os runtimes.

Obtenha confiança e transparência com a geração de relatórios automatizados de qualidade de dados, a detecção de dados confidenciais e o rastreamento de linhagem para dados e modelos de IA por meio da integração com o Amazon SageMaker Catalog. Aumente a confiança na qualidade dos seus dados com a medição, o monitoramento e as recomendações automáticas para regras de qualidade de dados.

Processe e analise seus dados com segurança aderindo e aplicando controles de acesso refinados definidos em conjuntos de dados no lakehouse, permitindo que você defina permissões uma vez e torne seus dados acessíveis a usuários autorizados em toda a organização. O lakehouse se integra ao AWS Glue Data Quality, reunindo integração de dados sem servidor, gerenciamento de qualidade de dados e recursos avançados de ML em um ambiente unificado.

serviços da AWS

Integração simplificada de dados

O AWS SageMaker fornece integração de dados sem servidor, simplificando a exploração, a preparação e a integração de dados de várias fontes. Conecte-se a diversas fontes de dados, gerencie seus dados em um catálogo de dados centralizado e crie, execute, orquestre e monitore visualmente pipelines e tarefas de ETL para carregar dados em seu lakehouse.  Se as tarefas do Apache Spark falharem, você poderá usar a solução de problemas generativa de IA para identificar as causas e resolver problemas rapidamente. O Amazon SageMaker escala automaticamente sob demanda, para que você possa se concentrar em obter insights de seus dados sem gerenciar a infraestrutura.

Execute e escale o Apache Spark, o Apache Hive, o Trino e outras workloads

O Amazon EMR simplifica e reduz os custos de execução de workloads de processamento de dados, como Apache Spark, Apache Airflow, Apache Flink, Trino e muito mais. Desenvolva e execute pipelines de processamento de dados, bem como realize escalabilidade automática, mais rápido do que em soluções on-premises.

Acompanhe custos

O Athena disponibiliza uma forma simplificada e flexível de analisar seus dados em qualquer escala. O Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 ao usar um SQL padrão. O Athena trata-se de uma solução com tecnologia sem servidor, o que significa que não é necessário configurar ou gerenciar uma infraestrutura, e você pode escolher realizar o pagamento com base nas consultas realizadas ou nos recursos computacionais requeridos por suas consultas. Use o Athena para processar logs, executar data analytics e executar consultas interativas. O Athena realiza a escalabilidade automática, executando consultas em paralelo, de modo que os resultados são rápidos, mesmo em grandes conjuntos de dados e em consultas complexas.

Orquestração de fluxos de trabalho gerenciada, focada em segurança e altamente disponível, para o Apache Airflow

O Amazon MWAA é um serviço gerenciado para o Apache Airflow que permite que você use sua plataforma Apache Airflow atual e familiar para orquestrar seus trabalhos de processamento de dados. Você ganha escalabilidade, disponibilidade e segurança aprimoradas sem a carga operacional de gerenciar a infraestrutura subjacente. O Amazon MWAA orquestra seus fluxos de trabalho usando gráficos acíclicos direcionados (DAGs) escritos em Python ou em um estúdio visual de fluxos de trabalho. Você fornece ao Amazon MWAA um bucket do S3 em que seus DAGs, plug-ins e requisitos do Python estão localizados. Implemente o Apache Airflow em larga escala sem a carga operacional de gerenciamento da infraestrutura subjacente.

Casos de uso

Identifique e acesse rapidamente dados unificados na AWS, em instalações on-premises e em outras nuvens e, em seguida, disponibilize-os instantaneamente para consulta e transformação. Use federação de consultas e ETL zero para simplificar o acesso aos dados nos serviços de banco de dados da AWS e de aplicativos de terceiros.

Processe dados usando estruturas como o Apache Spark, o Apache Flink e o Trino, além de diversas workloads, incluindo lote, microlote e transmissão.

Execute processamento de dados distribuídos e análises de hipóteses em grande escala usando algoritmos estatísticos e modelos preditivos para revelar padrões ocultos, correlações, tendências de mercado e preferências dos clientes.