Apache Arrow IPC (Bellek İçi Sütunlu)

Apache Arrow IPC, aynı makinedeki süreçler arasında sütunlu veriyi sıfır kopyalama ile paylaşmak için tasarlanmış bir bellek içi veri formatıdır. Arrow; Pandas, Spark, DuckDB ve diğer veri araçları arasında verimli veri değişimi sağlar.

MIME Tipi

application/vnd.apache.arrow.file

Tip

Ikili

Sikistirma

Kayipsiz

Avantajlar

+ Zero-copy data sharing between languages and processes
+ Optimized for SIMD and vectorized computation
+ Standard memory layout for modern data tools (DuckDB, Polars, Pandas)

Dezavantajlar

− Not designed for persistent storage — use Parquet for that
− Files are larger than compressed Parquet or CSV
− More complex than CSV for simple data exchange

.ARROW Ne Zaman Kullanilir

Analiz motorları arasında yüksek hızlı bellek içi veri değişimi, serileştirme yükünü azaltma ve sütunlu işlem boru hatları için Arrow IPC kullanın.

Teknik Detaylar

Arrow IPC, FlatBuffers meta verisi ile sütunlu bellek düzeni kullanır. Akış ve dosya formatlarını destekler. Sabit genişlikli ve değişken genişlikli veri türleri, iç içe yapılar ve sözlük kodlamasını içerir.

Gecmis

Apache Arrow projesi, 2016 yılında Wes McKinney ve birçok veri topluluğu işbirliğiyle başlatıldı. Veri çerçeveleri ve analiz motorları arasında evrensel bir bellek içi standart oluşturmayı amaçlamaktadır.

.ARROW formatindan donustur

.arrow → .avro .arrow → .csv .arrow → .json .arrow → .ndjson .arrow → .parquet .arrow → .xlsx

.ARROW formatina donustur

.avro → .arrow .csv → .arrow .json → .arrow .ndjson → .arrow .parquet → .arrow .xlsx → .arrow

Ilgili Formatlar

.avro .bson .geojson .hdf5 .msgpack .ndjson .parquet .protobuf .sqlite

Ilgili Terimler

Arrow