UI TARS bytedance
bytedance UI-TARS
¶
UI-TARS 是由字节跳动开源的自动化 GUI 交互智能体项目,基于视觉语言模型(如 Qwen 2.5VL)构建。
主要功能: 1. 全场景 GUI 操作:支持 Windows、Linux、macOS 桌面环境、Android 移动端及 Web 浏览器,可执行点击、拖拽、输入、导航等原生操作。 2. 复杂任务与游戏:具备玩游戏(Poki、Minecraft)、代码编写、工具使用及跨应用任务编排能力,是全能型 Agent 模型。 3. 强化学习推理:通过强化学习实现“思考后行动”,在 OSWorld、WebVoyager、ScreenSpot 等基准测试中达到业界领先水平(SOTA)。 4. 开源与部署:提供 UI-TARS-1.5 及 UI-TARS-2 模型(含 7B 版本),支持本地及云端部署,配有坐标处理工具及针对桌面、移动端的提示词模板。
该项目致力于实现高效、智能的自动化人机交互。