Presto’yu cli arayüzünde değil daha yüksek seviyede giydirilmiş bir arayüzde kullanmak çalışma ve anlaşılırlık açısından oldukça değerli olacaktır. Bu noktada önceki yazıda da değindiğim BI araçlarından birini tercih ederek ilerlenebilir. Bu yazıda Apache Superset tercih edilerek ilerlenecektir. Okumaya devam et
postgre
Presto – 1 (Single Node)
Presto‘nun ne olduğunu anlamak için veri üzerinde sorgulama yapma sürecinin karanlık dehlizlerine (evet bu aralar fazla roman okuyorum 🙂 ) inilmesine gerek yok. Kısaca şu söylenebilir; bir veri tutma altyapısının üzerinde en az maliyetle sorgulama yapabilmemizi sağlayan query engine‘lerden biridir. Okumaya devam et
Apache Airflow – 3 (Multi Task)
Airflow’u yalnızca sequential (sıralı) bir akış (DAG) yaratmak için kullanmak yüksek hacimli iş akışı içeren bir ortamda verimsiz olacaktır. Bu nedenle; “Paralel süreçlerin de tanımlanabildiği bir yapının kurulması ve işletilmesi nasıl olur?” sorusu oldukça önemlidir. Bu noktada Airflow executor çeşitleri ile farklı alternatifler sunmaktadır. Okumaya devam et
Apache Airflow – 2 (Single Task)
Airflow’da bir akış tanımlamak için Python dilinin tercih edilmiş olması veri özelinde oldukça değerli bir durum. Python projesinin içine apache-airflow modülünü install edip ardından kullanılacak dosyaya import edilmesi DAG tanımlamaya başlamak için yeterli olacaktır. Okumaya devam et
Apache Airflow – 1 (Quickstart)
Airflow’un kendi sayfasında da yaptığı tanım konuyu anlamak adına oldukça yeterli: “Airflow bir data streaming ürünü değildir. Task’lar verileri birinden diğerine taşımaz (ancak meta veri alışverişinde bulunabilir!). Airflow’u; Spark Streaming veya Storm ile değil, Oozie veya Azkaban ile karşılaştırmak daha doğru olacaktır.”. Ne olduğunu bilmek kadar ne olmadığını bilmekte önemlidir. 😉 Okumaya devam et
Apache Superset
Veriyi ilk bakışta anlamlandırmak her zaman mümkün olmayabilir özellikle hacimli boyutlara ulaşınca bunu kolaylaştırmanın tek yolu onu anlamlı bir görsele dönüştürmektir. Veri görselleştirme için açık kaynak kodlu olarak sunulan Apache Superset‘te v1 duyurusuyla birlikte oldukça iyi bir alternatife dönüşmüş durumda, peki nasıl kurulur ve kullanılır? Okumaya devam et
Rest in Python – 5 (ORM with SQLAlchemy)
Veri tabanı üzerinde çalışan kod parçalarında sql sorguları bulunması bir çok açıdan doğru olmayan bir yaklaşımdır. SQL Injection dahil fazlaca açık kapı bırakmak bir yana nesne tabanlı geliştirme yapmak noktasında da sorunlu bir durum yaratır. Bu sorunsalı aşmak için bir çok dilde veri tabanı işlemlerinde erişim yöntemi olarak ORM (Object Relational Mapping) kullanılır. Python’da da bu mantığı kullanmak için en yaygın kütüphane SQLAlchemy kütüphanesidir. Okumaya devam et
Rest in Python – 3 (Rest to Postgre)
REST API‘den çekilen verinin PostgreDB‘ye nasıl aktarılabileceğine dair örnek bir Python uygulaması nasıl yazılır? Bu soru cevaplanırken bir önceki yazıda öğrenilen requests kütüphanesi ve PostgreDB bağlantısı içinde psycopg2 kütüphanesi kullanılacaktır. Okumaya devam et