目前 AI Agent / Web Agent 领域最热门的开源项目之一,它让大型语言模型(LLM)能够像人类一样真正“读懂”和操作浏览器,实现自动化网页任务。
核心定位
Browser Use 是一个让 AI 代理控制真实浏览器 的基础设施和生态系统,主要解决两大痛点:
- 传统爬虫/自动化脚本容易因为网站改版而失效
- 普通 LLM 很难可靠地理解和操作动态网页(尤其是带大量 JS 的现代网站)
它被视为 OpenAI Operator 的开源最强替代品之一,许多人用它构建自主网页 Agent。
主要产品形态
-
开源核心库(browser-use / browser-use-sdk)
- 完全免费,MIT 许可
- 基于 Playwright(支持 Chrome/Edge/Firefox/Safari)
- 通过注入 JS 脚本,把页面上所有可交互元素(按钮、输入框、链接、下拉菜单等)打上编号 + 自然语言描述,喂给 LLM,让模型用自然语言决策而不是 XPath 或坐标
- 支持自然语言操作示例:
“登录 Gmail,搜索主题含‘发票’的邮件,下载附件”
“对比 Amazon、BestBuy 同款显卡价格”
“在 Notion 新建页面并写入今天的会议纪要”
-
Browser Use Cloud(云端托管版)
- 像 OpenAI Operator 一样的托管体验
- 主要功能:
- Stealth 模式:自动代理轮换、指纹伪装、绕过 CAPTCHA、Cloudflare 等反爬
- 持久会话:一次登录,永久保持 cookies 和登录状态(非常适合需要反复登录的场景,如邮箱、CRM、后台管理系统)
- 并行执行:轻松跑几十/几百个浏览器实例,无需自己管理 headless Chrome
- 托管 Agent:直接发自然语言任务给云端,系统自动完成
- 持久存储:文件、下载内容、截图等都托管在云端
- 自定义 LLM:支持接入 Groq、DeepSeek、Claude、GPT 等任意模型,甚至有他们自研的超高效定制模型(号称 53 tasks / dollar)
-
Web UI / Chat 界面
- 类似 ChatGPT 的聊天框,直接输入中文/英文指令即可让 AI 操作浏览器
- 支持实时看浏览器画面、操作过程、截图
典型使用场景
- 电商比价、下单、监控库存
- 自动投递简历、筛选职位
- 批量下载发票、处理邮箱
- 自动化测试 / QA(网页端)
- 金融/CRM 数据采集 & 更新
- 实时竞品监测、舆情收集
- 任何需要“登录后才能看到”的后台自动化