让AI学会“上网冲浪”:Explorer如何通过海量模拟训练成为网页操作高手

发布日期:June 10, 2025, 4:02 a.m.
摘要:

当你在电商网站比价或填写复杂表格时,是否幻想过有个智能助手能代劳?微软与俄亥俄州立大学的研究团队用9.4万次“虚拟上网”训练出的Explorer模型,正让这个想象接近现实。

网页操作的“自动驾驶”难题

现代网页就像由文字、图片、按钮组成的立体迷宫,人类可以凭直觉点击滑动,但对AI而言却需要同时处理视觉信息(如界面布局)、文本理解(如菜单选项)和动作规划(如先登录再购物)。现有开源AI在模拟测试中表现尚可,但面对真实网络环境时仍像刚学车的驾驶学员——理论满分,实操手忙脚乱。

数据饥渴的破解之道

训练这类“网页操作AI”需要大量轨迹数据(trajectory data),即记录人类完成某个网页任务(如订机票)的所有步骤:截图、点击位置、输入内容等。传统方法依赖真人演示录制,成本高且规模有限。研究者另辟蹊径,开发出自动化数据合成技术:

  • 智能探索:让AI自主浏览7.2万张网页截图,分析3300万个网页元素(如输入框、下拉菜单)

  • 任务提炼:从海量操作中提取4.9万种真实需求场景

  • 成本控制:每条成功轨迹仅耗资0.28美元,相当于用一杯咖啡的钱获取200次完整操作记录

Explorer的“特训课程”

基于这套方法构建的Explorer数据集,研究者训练出同名的多模态网页代理(multimodal web agent)。就像驾校学员通过模拟器积累经验,Explorer通过反复练习:

  1. 视觉 grounding:将屏幕截图与可操作元素(如“立即购买”按钮)关联

  2. 长程规划:理解多步骤任务逻辑(例如先筛选商品再比价)

  3. 环境适应:处理不同网站的设计差异

在Mind2Web-Live等三项测试中,Explorer展现出接近人类水平的网页任务完成能力。有趣的是,实验证明AI的表现与训练数据量直接相关——这就像语言学习,沉浸式环境下的海量输入才能培养出真正的语感。

技术普惠的新可能

该研究的突破性不仅在于性能提升,更在于降低了技术门槛:

  • 规模效应:94,000条轨迹数据是目前最大规模的公开资源

  • 多样性覆盖:涵盖电商、政务、社交等各类网站

  • 开源共享:所有数据和代码已公开,普通开发者也能利用

这种“合成数据+规模化训练”的模式,为开发订票助手、自动填表工具等实用AI提供了新思路。未来,结合更强大的多模态大模型(LMMs),或许会出现能自主学习任何网站操作的通用数字助手。