minimind
项目核心内容总结:
MiniMind 是一个用于训练和评估小型语言模型(LLM)的开源项目,提供从零开始构建模型的完整方案。其核心功能包括:
- 模型训练与评估:支持使用中文数据集训练模型,并通过
lm_eval等工具评估模型在多个基准测试(如ceval、cmmlu)中的性能,指标包括准确率和推理速度。 - 多框架部署:提供多种推理框架的集成方案,包括 Ollama(支持一键启动模型)、MNN(端侧推理引擎)及第三方工具(如 vllm、transformers),适配不同场景需求。
- 轻量化与高效性:模型参数量从百万级到十亿级可选,支持 4-bit 量化和 MoE(混合专家)架构,兼顾性能与部署效率。
- 完整工具链:包含数据预处理、训练脚本、模型导出及部署示例,支持从训练到推理的全流程。
使用方法:
- 训练:通过
train.py脚本配置数据路径、模型规模及训练参数,支持中文预训练和指令调优。 - 评估:运行
lm_eval命令,指定模型路径和测试集,输出准确率等指标。 - 部署:使用 Ollama 一键启动模型(如
ollama run minimind2),或通过 MNN 导出量化模型并运行于端侧设备。
主要特性:
- 支持多种模型架构(如 MoE、小型化 Transformer)。
- 提供中文优化方案,适配国内数据集与应用场景。
- 开源且文档详实,包含训练步骤、推理示例及社区贡献内容。