Evals openai

openai evals ¶

OpenAI Evals 是一个用于评估大语言模型（LLM）及基于 LLM 系统的框架。它提供预定义的评估注册表以测试 OpenAI 模型的不同维度，并允许用户编写自定义评估以满足特定用例。用户可使用私有数据构建不对外公开的评估，或直接在 OpenAI Dashboard 中配置运行评估。项目基于 Python 3.9+，需配置 API Key，支持通过 pip 安装、使用评估模板及将结果记录至 Snowflake 数据库。