Browser Use

让 AI 像人类一样操控浏览器，实现自然语言驱动的网页自动化任务

新品推荐 Browser Use

访问网站

目前 AI Agent / Web Agent 领域最热门的开源项目之一，它让大型语言模型（LLM）能够像人类一样真正“读懂”和操作浏览器，实现自动化网页任务。

核心定位

Browser Use 是一个让 AI 代理控制真实浏览器 的基础设施和生态系统，主要解决两大痛点：

传统爬虫/自动化脚本容易因为网站改版而失效
普通 LLM 很难可靠地理解和操作动态网页（尤其是带大量 JS 的现代网站）

它被视为 OpenAI Operator 的开源最强替代品之一，许多人用它构建自主网页 Agent。

主要产品形态

开源核心库（browser-use / browser-use-sdk）
- 完全免费，MIT 许可
- 基于 Playwright（支持 Chrome/Edge/Firefox/Safari）
- 通过注入 JS 脚本，把页面上所有可交互元素（按钮、输入框、链接、下拉菜单等）打上编号 + 自然语言描述，喂给 LLM，让模型用自然语言决策而不是 XPath 或坐标
- 支持自然语言操作示例：
  “登录 Gmail，搜索主题含‘发票’的邮件，下载附件”
  “对比 Amazon、BestBuy 同款显卡价格”
  “在 Notion 新建页面并写入今天的会议纪要”
Browser Use Cloud（云端托管版）
- 像 OpenAI Operator 一样的托管体验
- 主要功能：
  - Stealth 模式：自动代理轮换、指纹伪装、绕过 CAPTCHA、Cloudflare 等反爬
  - 持久会话：一次登录，永久保持 cookies 和登录状态（非常适合需要反复登录的场景，如邮箱、CRM、后台管理系统）
  - 并行执行：轻松跑几十/几百个浏览器实例，无需自己管理 headless Chrome
  - 托管 Agent：直接发自然语言任务给云端，系统自动完成
  - 持久存储：文件、下载内容、截图等都托管在云端
  - 自定义 LLM：支持接入 Groq、DeepSeek、Claude、GPT 等任意模型，甚至有他们自研的超高效定制模型（号称 53 tasks / dollar）
Web UI / Chat 界面
- 类似 ChatGPT 的聊天框，直接输入中文/英文指令即可让 AI 操作浏览器
- 支持实时看浏览器画面、操作过程、截图

典型使用场景

电商比价、下单、监控库存
自动投递简历、筛选职位
批量下载发票、处理邮箱
自动化测试 / QA（网页端）
金融/CRM 数据采集 & 更新
实时竞品监测、舆情收集
任何需要“登录后才能看到”的后台自动化