- Analitik›
- Amazon SageMaker›
- Veri İşleme
Amazon SageMaker Veri İşleme
Her ölçekte analiz ve yapay zeka için verileri analiz edin, hazırlayın ve entegre edin
Neden SageMaker Veri İşleme?
Amazon Athena, Amazon EMR, AWS Glue ve Amazon Managed Workflows for Apache Airflow (Amazon MWAA) veri işleme yetenekleriyle verilerinizi hazırlayın, tümleştirin ve düzenleyin. Yüzlerce veri kaynağına hızlı ve kolay bağlantı ile verilerinizi, nerede olursa olsunlar, işleyin ve entegre edin.
Apache Spark, Trino ve Apache Flink gibi açık kaynaklı veri işleme çerçevelerini kullanın. Altyapıyı yönetmeden Trino ile verileri uygun ölçekte analiz edin, Apache Flink ve Apache Spark ile sorunsuz bir şekilde gerçek zamanlı analiz oluşturun.
Veri kalitesini, hassas veri tanımlamasını, soy takibini otomatikleştirerek ve ince taneli erişim denetimlerini uygulayarak verilerinizin doğru ve güvenli olduğuna güvenin.
Avantajlar
Amazon SageMaker Veri İşleme; veri ve akış işleme çerçevelerine, açık kaynaklı dağıtılmış SQL sorgu altyapılarına ve not defterleri, sorgu düzenleyicileri ve görsel ayıklama, dönüştürme ve yükleme (ETL) gibi en popüler araçlara kapsamlı erişim imkanı sağlar.
Verilerinizi herhangi bir ölçekte hazırlamak ve entegre etmek için Apache Spark gibi en popüler çerçevelere erişebilirsiniz. Apache Flink ve Apache Spark Streaming üzerinden akış işleme ile gerçek zamanlı iş ihtiyaçlarına yanıt verin ve Trino gibi önde gelen açık kaynaklı SQL çerçeveleriyle verileri analiz edin. Amazon MWAA yerel entegrasyonuyla altyapıyı yönetmek zorunda kalmadan iş akışı düzenlemesini basitleştirin.
SageMaker Data Processing, Amazon SageMaker'daki göl evindeki verilere erişerek analitik, geçici sorgulama, makine öğrenimi (ML) ve üretken yapay zeka dahil olmak üzere tüm kullanım durumlarınız için verilerinizin tek bir kopyasını kullanarak işlemenize ve entegre etmenize olanak tanır.
Amazon SageMaker açık göl evi mimarisi, Amazon Simple Storage Service (Amazon S3) veri gölleri ve Amazon Redshift veri ambarları genelinde verileri birleştirerek verilerinize birleşik erişim sağlar. Yüzlerce bağlayıcının ve sıfır ETL entegrasyonunun yanı sıra federe veri kaynakları sayesinde Lakehouse'ta birleştirilmiş verileri keşfedebilir ve analiz edebilir, böylece işletmeniz eksiksiz bir görünümünü elde edebilirsiniz. SageMaker, belirli depolama biçimi veya sorgu altyapısı seçenekleriyle kısıtlanmadan mevcut veri mimarinizle kullanıma hazır çalışır.
Apache Iceberg tabloları üzerinden hızlı sorgu performansıyla verimliliği artırın. Apache Spark, Apache Airflow, Apache Flink, Trino ve daha fazlasının yüksek performanslı ve açık kaynaklı API uyumlu sürümleri sayesinde öngörüleri geleneksel açık kaynaklı sistemlere kıyasla 2 kata daha hızlı elde edin.
SageMaker Veri İşleme, işlem kapasitesini veya açık kaynak uygulamalarını yönetmek zorunda kalmadan verilerinizi dönüştürmeye ve analiz etmeye odaklanmanızı sağlayarak zamandan tasarruf etmenizi ve maliyetleri düşürmenizi sağlar. Kapasitenizi Amazon Elastic Compute Cloud (Amazon EC2) üzerinde Amazon EMR veya Amazon Esnek Kubernetes Hizmeti (Amazon EKS) üzerinde Amazon EMR ile otomatik olarak tedarik edebilirsiniz. Ölçeklendirme kuralları, performansı ve çalışma sürelerini optimize etmek için işlem talebinizdeki değişiklikleri yönetir.
Amazon SageMaker Kataloğu ile entegrasyon kurarak veri ve yapay zeka modelleri için otomatik veri kalitesi raporlaması, hassas verilerin algılanması ve köken takibi ile güven ve şeffaflık kazanın. Otomatik ölçüm ve izlemenin yanında veri kalitesi kuralları önerileriyle verilerinizin kalitesine olan güveninizi artırın.
Göl evindeki veri kümelerinde tanımlanan ince taneli erişim denetimlerine uyarak ve uygulayarak verilerinizi güvenli bir şekilde işleyin ve analiz edin, izinleri bir kez tanımlamanıza ve verilerinizi kuruluşunuzdaki yetkili kullanıcılar tarafından erişilebilir hale getirmenize olanak tanır. Lakehouse, AWS Glue Data Quality ile bütünleşerek sunucusuz veri entegrasyonu, veri kalitesi yönetimi ve gelişmiş ML yeteneklerini birleşik bir ortamda bir araya getirir.
AWS hizmetleri
Basitleştirilmiş veri entegrasyonu
AWS SageMaker, birden çok kaynaktan veri keşfi, hazırlama ve entegrasyonu basitleştiren sunucusuz veri entegrasyonu sağlar. Çeşitli veri kaynaklarına bağlanın, verilerinizi merkezi bir veri kataloğunda yönetin ve göl evinize veri yüklemek için ETL boru hatlarını ve işlerini görsel olarak oluşturun, çalıştırın, düzenleyin ve izleyin. Apache Spark işleri başarısız olursa, temel nedenleri belirlemek ve sorunları hızlı bir şekilde çözmek için üretken yapay zeka sorun giderme özelliğini kullanabilirsiniz. Amazon SageMaker isteğe bağlı olarak otomatik olarak ölçeklenir, böylece altyapıyı yönetmeden verilerinizden içgörüler elde etmeye odaklanabilirsiniz.
Apache Spark, Apache Hive, Trino ve diğer iş yüklerini çalıştırın ve ölçeklendirin
Amazon EMR; Apache Spark, Apache Airflow, Apache Flink ve Trino gibi veri işleme iş yüklerini çalıştırmayı daha kolay ve daha uygun maliyetli hale getirir. Veri işleme işlem hatları oluşturup çalıştırın ve şirket içi çözümlere kıyasla otomatik olarak daha hızlı ölçeklendirin.
Maliyetleri takip edin
Athena, verilerinizi herhangi bir ölçekte analiz etmek için basitleştirilmiş ve esnek bir yol sunar. Athena, standart SQL kullanarak Amazon S3'te veri analizini basitleştiren etkileşimli bir sorgu hizmetidir. Athena, sunucusuzdur. Dolayısıyla, kurulacak veya yönetilecek bir altyapı yoktur ve çalıştırdığınız sorgulara veya sorgularınızın ihtiyaç duyduğu işlem kaynaklarına göre ödeme yapmayı seçebilirsiniz. Günlükleri işlemek, veri analizi gerçekleştirmek ve etkileşimli sorgular çalıştırmak için Athena'yı kullanın. Athena, sorguları paralel olarak yürüterek otomatik olarak ölçeklenir. Bu sayede, büyük veri kümeleri ve karmaşık sorgularla bile hızlı sonuçlar elde edilebilir.
Apache Airflow için güvenlik odaklı ve yüksek oranda erişilebilir, yönetilen iş akışı düzenlemesi
Amazon MWAA, Apache Airflow için, veri işleme işlerinizi düzenlemek için mevcut, tanıdık Apache Airflow platformunuzu kullanmanıza olanak tanıyan yönetilen bir hizmettir. Temel altyapıyı yönetmenin operasyonel yükü olmadan geliştirilmiş ölçeklenebilirlik, erişilebilirlik ve güvenlik elde edersiniz. Amazon MWAA, Python'da yazılmış yönlendirilmiş asiklik grafikleri (DAG) veya görsel bir iş akışları stüdyosu kullanarak iş akışlarınızı düzenler. Amazon MWAA'ya DAG'lerinizin, eklentilerinizin ve Python gereksinimlerinizin bulunduğu bir S3 bucket'ı sağlarsınız. Temel altyapıyı yönetmeyle ilgili operasyonel yük olmadan Apache Airflow'u uygun ölçekte dağıtın.
Kullanım örnekleri
AWS'deki, şirket içindeki ve diğer bulutlardaki birleşik verileri hızla tespit edip bunlara erişin ve ardından sorgulama ve dönüştürme için anında kullanılabilir hale getirin. AWS veritabanı hizmetlerindeki ve 3. taraf uygulamalardaki verilere erişimi basitleştirmek için sorgu federasyonu ve Zero-ETL kullanın.
Apache Spark, Apache Flink ve Trino gibi çerçeveleri ve toplu iş, mikro toplu iş ve akış gibi çeşitli iş yüklerini kullanarak verileri işleyin.
Gizli düzenleri, korelasyonları, pazar eğilimlerini ve müşteri tercihlerini ortaya çıkarmak için istatistiksel algoritmalar ve tahmine dayalı modeller kullanarak büyük ölçekli veri işleme ve olasılık analizi gerçekleştirin.