AWS Athena – 1 (Config)

AWS Athena servisi önceki yazılarda da konu edinilen (bkz. Presto) bir Query Engine hizmetidir. Farklı olarak Athena kaynak sistem olarak AWS S3 servisini kullanan özelleşmiş bir yapıdır.

 

AWS Athena Nedir?

S3 üzerinde yer alan dosyaların (S3 üzerindeki sorgulama arayüzü gibi yalnızca 3 dosya formatı üzerinde değil bir çok dosya formatı üzerinde) SQL kullanılarak sorgulama imkanı sağlayan bir Query Engine hizmetidir. Dosyaların Hive, Iceberg gibi tablo tiplerinde tutma imkanı sunar. Athena’nın gücüyle S3 üzerinde analitik sorgulamalar yapma gücü kazanılmış olunur.

AWS Athena Konfigürasyon Adımları

Athena servis sayfasında sağdan Explore the query editor seçilir. Açılan ekranda Settings tabına girilir. Ardından Manage seçilir. Athena sorgu sonuçlarının tutulacağı yer için buraya ilgili lokasyon tanımı aşağıdaki şekilde yapılır.

Result Location altındaki bilgilerin işletim kuralları için de lifecycle rule girilmelidir. Örnek bir kural tanımı aşağıdaki gibi yapılabilir.

Kural tanımı ve sorgu sonuç konumu tanımlandıktan sonra settings ekranı aşağıdaki gibi görünecektir.

S3 bucket altında önceden Athena içinden sorgulama yapmak için tanımlana bucket altındaki dosyalarımıza erişim için external tablo tanımları yapılması gerekir. Henüz bir DB tanımıda olmadığından öncelikli olarak bir DB create edilerek başlanır.
Kolon sayısı fazla değil ise Column name ve Column type kısımları kullanılarak form doldurulabilir. Ancak tüm kolonları Bulk add columns kullanarak script  şeklinde de tanımlamak mümkündür. Aşağıda örnek bir kullanım gösterilmiştir.Sayfa sonunda yer alan Create table ifadesiyle hazırlanan scripte uygun olarak tablo create edilecektir.

Örnek Sorgu

Son olarakta yine basit bir sorgu ile tablonun içeriği aşaıdaki şekilde sorgulanabilir.

Kaynaklar:

https://www.linkedin.com/pulse/aws-athena-parquet-vs-csv-ahmed-fayed/

__________________________________________________________________________

Ali Mesut Karadeniz

Yorum bırakın