Skip to content

langextract

google langextract

项目核心内容总结：

功能
LangExtract 是一个信息提取工具，支持从文本中提取结构化数据（如医学信息、长文档内容），兼容多种模型（如 Gemini、OpenAI、本地 Ollama 模型），并提供自定义模型插件扩展功能。

使用方法

安装：通过 pip 安装基础包或 Docker 镜像。
配置 API 密钥（如 Gemini、OpenAI）或本地模型（如 Ollama）。
调用 lx.extract() 方法，指定文本、提取规则（prompt）、示例数据及模型参数。

主要特性

支持长文档处理（如《罗密欧与朱丽叶》全文提取）。
结构化输出（如医学信息提取）。
多模型兼容：云模型（Gemini/OpenAI）与本地模型（Ollama）。
可扩展：通过插件系统添加自定义模型提供者。
社区支持：提供社区插件库（如 RadExtract 医学报告结构化示例）。

注意事项

医疗相关功能仅用于演示，不可用于实际医疗诊断。
需遵守 Apache 2.0 许可证及健康 AI 开发条款。