让AI学会“上网冲浪”：Explorer如何通过海量模拟训练成为网页操作高手

现代网页就像由文字、图片、按钮组成的立体迷宫，人类可以凭直觉点击滑动，但对AI而言却需要同时处理视觉信息（如界面布局）、文本理解（如菜单选项）和动作规划（如先登录再购物）。现有开源AI在模拟测试中表现尚可，但面对真实网络环境时仍像刚学车的驾驶学员——理论满分，实操手忙脚乱。

训练这类“网页操作AI”需要大量轨迹数据（trajectory data），即记录人类完成某个网页任务（如订机票）的所有步骤：截图、点击位置、输入内容等。传统方法依赖真人演示录制，成本高且规模有限。研究者另辟蹊径，开发出自动化数据合成技术：

基于这套方法构建的Explorer数据集，研究者训练出同名的多模态网页代理（multimodal web agent）。就像驾校学员通过模拟器积累经验，Explorer通过反复练习：

在Mind2Web-Live等三项测试中，Explorer展现出接近人类水平的网页任务完成能力。有趣的是，实验证明AI的表现与训练数据量直接相关——这就像语言学习，沉浸式环境下的海量输入才能培养出真正的语感。

该研究的突破性不仅在于性能提升，更在于降低了技术门槛：

这种“合成数据+规模化训练”的模式，为开发订票助手、自动填表工具等实用AI提供了新思路。未来，结合更强大的多模态大模型（LMMs），或许会出现能自主学习任何网站操作的通用数字助手。