跳转至

Datafusion apache

apache datafusion GitHub Repo stars

Apache DataFusion 是一个用 Rust 编写的可扩展查询引擎,采用 Apache Arrow 作为内存格式。它提供 SQL 和 DataFrame API,支持 CSV、Parquet、JSON 和 Avro 等多种数据格式,具备列式、流式、多线程及向量化的高性能执行引擎。该项目支持深度定制,允许添加自定义数据源、函数及算子,适用于构建查询引擎、数据库平台及数据管道。此外,还包含 Python 接口和 Spark 加速器 (Comet) 等生态项目。