当你在电商网站比价或填写复杂表格时,是否幻想过有个智能助手能代劳?微软与俄亥俄州立大学的研究团队用9.4万次“虚拟上网”训练出的Explorer模型,正让这个想象接近现实。
现代网页就像由文字、图片、按钮组成的立体迷宫,人类可以凭直觉点击滑动,但对AI而言却需要同时处理视觉信息(如界面布局)、文本理解(如菜单选项)和动作规划(如先登录再购物)。现有开源AI在模拟测试中表现尚可,但面对真实网络环境时仍像刚学车的驾驶学员——理论满分,实操手忙脚乱。
训练这类“网页操作AI”需要大量轨迹数据(trajectory data),即记录人类完成某个网页任务(如订机票)的所有步骤:截图、点击位置、输入内容等。传统方法依赖真人演示录制,成本高且规模有限。研究者另辟蹊径,开发出自动化数据合成技术:
智能探索:让AI自主浏览7.2万张网页截图,分析3300万个网页元素(如输入框、下拉菜单)
任务提炼:从海量操作中提取4.9万种真实需求场景
成本控制:每条成功轨迹仅耗资0.28美元,相当于用一杯咖啡的钱获取200次完整操作记录
基于这套方法构建的Explorer数据集,研究者训练出同名的多模态网页代理(multimodal web agent)。就像驾校学员通过模拟器积累经验,Explorer通过反复练习:
视觉 grounding:将屏幕截图与可操作元素(如“立即购买”按钮)关联
长程规划:理解多步骤任务逻辑(例如先筛选商品再比价)
环境适应:处理不同网站的设计差异
在Mind2Web-Live等三项测试中,Explorer展现出接近人类水平的网页任务完成能力。有趣的是,实验证明AI的表现与训练数据量直接相关——这就像语言学习,沉浸式环境下的海量输入才能培养出真正的语感。
该研究的突破性不仅在于性能提升,更在于降低了技术门槛:
规模效应:94,000条轨迹数据是目前最大规模的公开资源
多样性覆盖:涵盖电商、政务、社交等各类网站
开源共享:所有数据和代码已公开,普通开发者也能利用
这种“合成数据+规模化训练”的模式,为开发订票助手、自动填表工具等实用AI提供了新思路。未来,结合更强大的多模态大模型(LMMs),或许会出现能自主学习任何网站操作的通用数字助手。