浏览器自动化能干活，但别把网页当 API

普通网友A

Selenium 也能做，别被新旧工具带偏。关键是定位策略和等待条件。

melo

LLM 负责“看懂页面”，程序负责“可重复动作”。让模型每次自由点页面，会有很多随机失败。

小吴

我们把常用动作封装成工具：open_customer、filter_date、export_csv。模型不要直接点 CSS selector。

林小北

对。浏览器 agent 最大坑是无限补救。点错以后它又点，又返回，又刷新，最后状态更脏。

nora

加预算。最多几步、最多几次重试、遇到二次确认就停。特别是后台有删除和发布按钮。

陈小舟

浏览器自动化和 RPA 的边界在哪？

阿航

RPA 偏确定流程，浏览器 agent 适合半结构化页面和临时任务。稳定高频流程还是尽量走 API。

小满满

我用 browser-use 做过网站资料采集，原型快。但生产里一定要加域名白名单和下载目录隔离。

小高

下载文件也要验 hash 或文件名规则。agent 说下载成功不算，目录里有正确文件才算。

momo

表单提交前最好截一张“确认页”给人看。尤其是营销后台，错一次就是事故。

小满

这样看不是“让 agent 上网点点点”，而是浏览器只是工具层，流程还得我们控。

阿远

是这个意思。网页自动化能省人力，但不能把脆弱性全交给模型兜底。

LocalAIHub 中文社区