跳转至

Evals openai

openai evals GitHub Repo stars

OpenAI Evals 是一个用于评估大语言模型(LLM)及基于 LLM 系统的框架。它提供预定义的评估注册表以测试 OpenAI 模型的不同维度,并允许用户编写自定义评估以满足特定用例。用户可使用私有数据构建不对外公开的评估,或直接在 OpenAI Dashboard 中配置运行评估。项目基于 Python 3.9+,需配置 API Key,支持通过 pip 安装、使用评估模板及将结果记录至 Snowflake 数据库。