Apache Arrow IPC (Bellek İçi Sütunlu)
Apache Arrow IPC, aynı makinedeki süreçler arasında sütunlu veriyi sıfır kopyalama ile paylaşmak için tasarlanmış bir bellek içi veri formatıdır. Arrow; Pandas, Spark, DuckDB ve diğer veri araçları arasında verimli veri değişimi sağlar.
MIME Tipi
application/vnd.apache.arrow.file
Tip
Ikili
Sikistirma
Kayipsiz
Avantajlar
- + Zero-copy data sharing between languages and processes
- + Optimized for SIMD and vectorized computation
- + Standard memory layout for modern data tools (DuckDB, Polars, Pandas)
Dezavantajlar
- − Not designed for persistent storage — use Parquet for that
- − Files are larger than compressed Parquet or CSV
- − More complex than CSV for simple data exchange
.ARROW Ne Zaman Kullanilir
Analiz motorları arasında yüksek hızlı bellek içi veri değişimi, serileştirme yükünü azaltma ve sütunlu işlem boru hatları için Arrow IPC kullanın.
Teknik Detaylar
Arrow IPC, FlatBuffers meta verisi ile sütunlu bellek düzeni kullanır. Akış ve dosya formatlarını destekler. Sabit genişlikli ve değişken genişlikli veri türleri, iç içe yapılar ve sözlük kodlamasını içerir.
Gecmis
Apache Arrow projesi, 2016 yılında Wes McKinney ve birçok veri topluluğu işbirliğiyle başlatıldı. Veri çerçeveleri ve analiz motorları arasında evrensel bir bellek içi standart oluşturmayı amaçlamaktadır.