skyvern
Skyvern 是一个开源的网页任务自动化工具,支持通过自然语言指令完成网页交互操作(如表单填写、数据提取等)。其核心功能包括:
- 多模型支持:集成多种大语言模型(如 Gemini、Claude、Mistral 等)及本地模型(如 Ollama),支持自定义 API 接入。
- 工作流构建:提供可视化 UI 工具,支持链式任务编排与自动化流程设计。
- 实时交互:支持 Chrome 浏览器实时画面流功能,可监控任务执行过程。
- 开源与扩展:核心代码开源(AGPL-3.0 许可证),支持社区贡献与 LangChain 集成。
使用方法:
- 安装依赖并配置环境变量(如 LLM_KEY、API 密钥等)。
- 通过命令行或 UI 界面启动任务,输入自然语言指令(如“在电商网站搜索‘手机’并加入购物车”)。
- 支持缓存机制降低模型调用成本,提供历史任务回溯与分析功能。
主要特性:
- 支持复杂网页交互与多步骤任务自动化。
- 提供调试模式与观察者模式(自动生成工作流)。
- 集成遥测统计功能(可选择关闭)。
- 未来计划增加 Chrome 插件、语音交互及实时干预功能。