Apache Spark – 1 (Spark SQL w/ Jupyter)

Büyük veri setleri üzerinde performanslı analiz ve uygulamalar geliştirme imkanı sunan in-memory hesaplama yeteneğine sahip merkezi bir analitik işleme motorudur. Kendi sayfasındaki açıklaması da şöyledir; “Apache Spark™ is a unified analytics engine for large-scale data processing.” Okumaya devam et →

Presto – 2 (w/ Postgre & Apache Superset)

Presto’yu cli arayüzünde değil daha yüksek seviyede giydirilmiş bir arayüzde kullanmak çalışma ve anlaşılırlık açısından oldukça değerli olacaktır. Bu noktada önceki yazıda da değindiğim BI araçlarından birini tercih ederek ilerlenebilir. Bu yazıda Apache Superset tercih edilerek ilerlenecektir. Okumaya devam et →

Presto – 1 (Single Node)

Presto‘nun ne olduğunu anlamak için veri üzerinde sorgulama yapma sürecinin karanlık dehlizlerine (evet bu aralar fazla roman okuyorum 🙂 ) inilmesine gerek yok. Kısaca şu söylenebilir; bir veri tutma altyapısının üzerinde en az maliyetle sorgulama yapabilmemizi sağlayan query engine‘lerden biridir. Okumaya devam et →

Apache Airflow – 3 (Multi Task)

Airflow’u yalnızca sequential (sıralı) bir akış (DAG) yaratmak için kullanmak yüksek hacimli iş akışı içeren bir ortamda verimsiz olacaktır. Bu nedenle; “Paralel süreçlerin de tanımlanabildiği bir yapının kurulması ve işletilmesi nasıl olur?” sorusu oldukça önemlidir. Bu noktada Airflow executor çeşitleri ile farklı alternatifler sunmaktadır. Okumaya devam et →

Apache Airflow – 2 (Single Task)

Airflow’da bir akış tanımlamak için Python dilinin tercih edilmiş olması veri özelinde oldukça değerli bir durum. Python projesinin içine apache-airflow modülünü install edip ardından kullanılacak dosyaya import edilmesi DAG tanımlamaya başlamak için yeterli olacaktır. Okumaya devam et →

Apache Airflow – 1 (Quickstart)

Airflow’un kendi sayfasında da yaptığı tanım konuyu anlamak adına oldukça yeterli: “Airflow bir data streaming ürünü değildir. Task’lar verileri birinden diğerine taşımaz (ancak meta veri alışverişinde bulunabilir!). Airflow’u; Spark Streaming veya Storm ile değil, Oozie veya Azkaban ile karşılaştırmak daha doğru olacaktır.”. Ne olduğunu bilmek kadar ne olmadığını bilmekte önemlidir. 😉 Okumaya devam et →

Kafka Quickstart (Confluent)

Verinin aktarımı ve büyük verilerin gerçek zamanlı işlenmesi için güzel yetenekler sunan Kafka ekosistemine girmenin vakti geldi. 🙂 Confluent firmasının farklı boyutlara taşıdığı Kafka ile; veri işleme, veri aktarma, sorgulama ve depolama gibi bir çok şey yapabilmekteyiz. İlk adımı atmak adına Confluent’in quickstart dökümanıyla başlayalım. Okumaya devam et →

Docker-Compose ile ELK Stack Oluşturma

Tek container oluşturma işlemi basitken birden fazla ve birbiriyle ilişkili containerlar oluşturmak oldukça zor olabilir. Bu zorluğu aşmak ve ilişkilerini bir konfigürasyon dosyası olarak tanımlayıp onu docker’a okutmak mümkün. Bunu yapmak için docker-compose.yml isimli bir dosyaya ilişkilerimizi ve koşullarımızı tanımlayıp okutmamız yeterli olacaktır.

Okumaya devam et →

Docker Image ile Container Oluşturma

Sanallaştırma konusunda detaylı bilgiye sahip olunmasa da sanal makine kavramı az çok bilinen bir kavramdır. Docker mevcut sanallaştırma yapılarında sistemin kaynak kullanımını minimize eden bir çözümdür. Peki içinde elasticsearch yer alan bir container nasıl oluşturulur?