LEANN
项目核心内容总结:
功能
LEANN 是一个低存储向量索引工具,通过图结构优化存储效率,支持高效搜索、元数据过滤、精确文本匹配(Grep)等功能,适用于大规模数据集的语义检索与分析。
使用方法
- CLI 命令:通过
leann build构建索引,leann search进行语义搜索,leann ask启动交互式问答。 - Python API:支持添加文本与元数据、带条件的搜索(如按文件类型、代码行数过滤)。
主要特性
- 存储优化:相比传统向量数据库(如 FAISS),存储节省达 90% 以上(如 DPR 数据集节省 91%)。
- 高效搜索:采用图结构选择性重新计算、动态批处理技术,支持 HNSW 和 DiskANN 两种后端,兼顾速度与精度。
- 灵活过滤:支持元数据条件筛选(如
file_extension == ".py")、精确文本匹配(Grep)。 - 跨平台兼容:提供 CLI 工具与 Python 接口,适配不同使用场景。
适用场景
大规模文本/代码检索、语义相似度分析、需要高效存储与快速查询的 AI 应用。