字节跳动TARS系列技术详解

1. 定义与名词解释

TARS 系列

TARS 是字节跳动推出的一系列多模态视觉语言模型（Vision-Language Model），专注于图形用户界面（GUI）自动化交互和复杂任务推理。其核心目标是通过自然语言指令，实现跨平台（桌面、移动、网页）的智能操作，如订票、改PPT、代码编辑等。

关键版本：

UI-TARS：面向 GUI 自动化的代理模型，支持视觉感知与行动。

Agent-TARS：桌面版应用，直接控制电脑操作。Tarsier2：专注于视频内容理解的视觉语言模型（LVLM）。

开源地址：

GitHub：https://github.com/bytedance/UI-TARS-desktop/tree/main/apps/agent-tars

核心术语

术语

解释

多模态感知

通过视觉（截图）和文本（指令）理解界面内容。

系统化推理

将复杂任务分解为多步操作，支持错误纠正与反思机制。

跨平台操作

统一行动空间，支持 Windows、macOS、Android、iOS 及网页环境。

在线学习

通过虚拟机生成新数据，持续优化模型性能。

2. 背景与需求

背景

问题：传统自动化工具（如 RPA）依赖 API 或代码解析，易受界面变动影响，且难以处理复杂推理任务。

解决方案： TARS 系列通过纯视觉感知和端到端推理，

实现：

抗界面变动：直接通过截图识别元素，无需依赖底层代码。

多模态交互：结合文本指令与视觉信息，完成多步骤任务。

跨平台兼容性：标准化行动定义，覆盖桌面、移动、网页场景。

典型场景

场景

TARS 的应用

办公自动化

修改 PPT 背景色、批量处理文档、自动化填写表单。

开发辅助

安装 VS Code 插件、自动 fork GitHub 项目、调试代码。

生活服务

订机票、查询天气、发送社交媒体消息（如推特、微信朋友圈）。

3. 核心原理

技术架构

3.1 多模态感知

视觉编码器：通过截图实时提取界面元素（按钮、文本、图标）的视觉特征，如颜色、位置、文本内容。示例：识别屏幕上的“发送”按钮并定位其坐标。

3.2 系统化推理

任务分解：将复杂指令拆解为子任务。

例如：

用户指令：“订一张西雅图到纽约的最便宜机票。”

分解步骤：打开浏览器搜索机票。解析搜索结果并筛选价格。定位“预订”按钮并点击。

反思机制：若操作失败（如点击错误位置），模型分析错误原因并调整策略（如重新定位元素）。

3.3 跨平台行动

标准化行动空间：定义统一的行动指令（如点击、输入、拖拽），适配不同平台的操作逻辑。

示例：Windows：通过鼠标坐标点击按钮。

网页：模拟键盘输入搜索关键词。

4. 核心技术与方法

关键技术

4.1 纯视觉交互

优势：无需依赖 HTML 或 API，直接通过截图识别界面元素。抗界面变动能力强（如网页改版、图标更新）。

示例：

用户指令：“把桌面上第三个文件拖到回收站。” TARS 通过截图识别文件图标位置，执行拖拽操作。

4.2 在线学习与迭代

数据生成：通过数百台虚拟机模拟真实交互场景，自动收集新数据（如用户操作轨迹）。

反思优化：模型分析错误案例，生成修正策略（如调整点击位置算法）。

效果： UI-TARS-72B 在 OSWorld 动态环境测试中，15步预算下性能超越 GPT-4o。

4.3 多模态推理引擎

系统1推理（快速响应）：处理简单任务（如点击登录按钮）。

系统2推理（复杂规划）：处理多步骤任务（如订机票需筛选价格、填写表单）。

记忆能力：短期记忆保存当前任务上下文，长期记忆记录用户偏好（如常用机票查询网站）。

5. 组件与架构

核心组件

组件

功能

视觉模块

截取屏幕内容，识别界面元素（按钮、文本、图标）的视觉特征。

推理模块

将自然语言指令分解为子任务，规划行动路径。

行动模块

执行鼠标点击、键盘输入、拖拽等操作，支持跨平台执行。

记忆模块

存储任务上下文和用户偏好，提升连续任务效率。

架构示例

6. 集成步骤与示例

步骤：部署 UI-TARS Desktop

环境要求

系统：Windows 或 macOS。

依赖：Python 3.8+，安装 vLLM 或 Ollama 加速推理。

安装流程（macOS）

下载应用：

从 GitHub 下载 UI-TARS Desktop：

<https://github.com/bytedance/UI-TARS>

授权设置：

允许应用控制电脑：

‬sudo xattr -dr com.apple.quarantine /Applications/UI\\ TARS.app

启动应用：

双击 UI TARS.app，输入指令测试：

使用网页浏览器获取旧金山的当前天气

示例交互

用户指令

TARS 执行流程

订一张西雅图到纽约的机票

1. 打开浏览器搜索机票 → 2. 解析价格 → 3. 点击“预订”按钮 → 4. 填写表单并确认。

修改 PPT 背景为蓝色

1. 打开 PowerPoint → 2. 识别背景元素 → 3. 调整颜色参数为蓝色。

7. 性能对比与数据

关键测试结果

模型

基准测试

得分

对比对象

优势

UI-TARS-7B

WebSRC

93.6

GPT-4o, Claude3.5

静态网页操作精准度最高。

UI-TARS-72B

VisualWebBench

92.4

UGround-V1-7B

视觉理解能力领先。

Tarsier2-7B

DREAM-1K (F1 分数)

85.2

GPT-4o (82.4)

视频描述与问答能力更强。

跨平台操作支持

平台

支持功能

典型任务

Windows/macOS

文件管理、应用操作、浏览器控制

拖拽文件、安装插件、发送邮件

Android/iOS

手机截图识别、应用内操作

在微信朋友圈发帖、小红书发图文

Web

网页元素定位、表单填写、动态内容处理

机票预订、在线支付、信息搜索

8. 技术优势与局限性

优势

抗界面变动：纯视觉交互无需依赖 API，适应界面改版。

多模态融合：结合文本、视觉、历史操作，推理更精准。

跨平台统一：一套模型适配多种操作系统与应用。

局限性

实时性要求高：复杂任务需多次截图与推理，可能延迟。

安全风险：需严格权限控制，防止恶意指令执行。

部署成本：大模型（如 UI-TARS-72B）需高性能 GPU 支持。

9. 最佳实践

关键建议

指令设计：

使用具体、分步的指令，避免模糊描述。示例：

"打开 Chrome 浏览器 → 访问 <https://www.weather.com> → 输入 'San Francisco' → 截取天气预报截图。"

权限管理：

限制 TARS 对敏感操作（如支付、文件删除）的权限。

监控与日志：

记录操作日志，便于排查错误（如点击位置偏移）。

结合其他工具：

与数据库、API 集成，扩展功能（如自动发送邮件）。

10. 实际应用案例

案例 1：自动化办公

需求：批量修改 PPT 格式并发送邮件。

TARS 流程：打开 PowerPoint → 识别所有幻灯片 → 统一背景色。导出 PDF → 打开邮箱 → 填写收件人并附件发送。

案例 2：开发辅助

需求：自动化 fork GitHub 项目并安装插件。

TARS 流程：打开浏览器 → 访问 GitHub 项目页面 → 点击“Fork”按钮。打开 VS Code → 安装指定插件（如 ESLint）。

玩酷网

花间影清欢课程