Browser Use

让 AI 像人类一样操控浏览器,实现自然语言驱动的网页自动化任务

目前 AI Agent / Web Agent 领域最热门的开源项目之一,它让大型语言模型(LLM)能够像人类一样真正“读懂”和操作浏览器,实现自动化网页任务。

核心定位

Browser Use 是一个让 AI 代理控制真实浏览器 的基础设施和生态系统,主要解决两大痛点:

  • 传统爬虫/自动化脚本容易因为网站改版而失效
  • 普通 LLM 很难可靠地理解和操作动态网页(尤其是带大量 JS 的现代网站)

它被视为 OpenAI Operator 的开源最强替代品之一,许多人用它构建自主网页 Agent。

主要产品形态

  1. 开源核心库(browser-use / browser-use-sdk)

    • 完全免费,MIT 许可
    • 基于 Playwright(支持 Chrome/Edge/Firefox/Safari)
    • 通过注入 JS 脚本,把页面上所有可交互元素(按钮、输入框、链接、下拉菜单等)打上编号 + 自然语言描述,喂给 LLM,让模型用自然语言决策而不是 XPath 或坐标
    • 支持自然语言操作示例:
      “登录 Gmail,搜索主题含‘发票’的邮件,下载附件”
      “对比 Amazon、BestBuy 同款显卡价格”
      “在 Notion 新建页面并写入今天的会议纪要”
  2. Browser Use Cloud(云端托管版)

    • 像 OpenAI Operator 一样的托管体验
    • 主要功能:
      • Stealth 模式:自动代理轮换、指纹伪装、绕过 CAPTCHA、Cloudflare 等反爬
      • 持久会话:一次登录,永久保持 cookies 和登录状态(非常适合需要反复登录的场景,如邮箱、CRM、后台管理系统)
      • 并行执行:轻松跑几十/几百个浏览器实例,无需自己管理 headless Chrome
      • 托管 Agent:直接发自然语言任务给云端,系统自动完成
      • 持久存储:文件、下载内容、截图等都托管在云端
      • 自定义 LLM:支持接入 Groq、DeepSeek、Claude、GPT 等任意模型,甚至有他们自研的超高效定制模型(号称 53 tasks / dollar)
  3. Web UI / Chat 界面

    • 类似 ChatGPT 的聊天框,直接输入中文/英文指令即可让 AI 操作浏览器
    • 支持实时看浏览器画面、操作过程、截图

典型使用场景

  • 电商比价、下单、监控库存
  • 自动投递简历、筛选职位
  • 批量下载发票、处理邮箱
  • 自动化测试 / QA(网页端)
  • 金融/CRM 数据采集 & 更新
  • 实时竞品监测、舆情收集
  • 任何需要“登录后才能看到”的后台自动化