当面对需要综合多段信息才能回答的复杂问题时,大语言模型常常表现不佳。一项名为AgenticLU的新方法通过让AI自主生成追问线索,显著提升了长文本推理能力——这或许揭示了人类思维中"提问艺术"的机器学习版本。
当前最先进的大语言模型虽然能处理数十万字的输入,但实际使用时往往只能有效利用其中小部分信息。就像一个人虽然能"读完"整本书,却无法准确回答需要串联多个章节内容的问題。研究表明,这种"名义上下文"与"有效上下文"之间的差距,是阻碍AI深度理解长文本的关键瓶颈。
AMD与加州大学圣地亚哥分校联合团队提出的AgenticLU框架,其核心创新在于"链式澄清"(Chain-of-Clarifications,简称CoC)机制。不同于传统模型被动接受问题,该方法让AI像侦探破案般主动生成一系列追问:先拆解复杂问题为若干子问题,再通过检索长文本中的相关片段逐步构建答案。例如面对"分析主人公性格转变原因"这类问题,AI会自动提出"初始性格表现是什么?""关键转折事件有哪些?"等子问题。
为实现系统化推理,研究者将这个过程设计为树状搜索:每个节点代表一个子问题及其相关文本片段,通过最多3层深度、每层8个分支的搜索,在NarrativeQA数据集上达到97.8%的答案召回率。但这种方法计算成本高昂,为此团队开发了两阶段训练方案:先用标准监督学习教AI拆解问题的策略,再通过偏好优化提升推理质量。最终模型能在单次推理中高效完成原本需要多次搜索的工作。
在7项长文本任务测试中,AgenticLU的表现显著优于两类主流方案:一类是依赖精心设计提示词的交互方法,另一类是专门优化的长文本模型。更值得注意的是,随着文本长度增加,其性能下降幅度远小于对比模型——在处理20万字级别的材料时,仍能保持稳定的多跳推理(即需要串联多个信息片段的复杂推理)能力。
这项研究揭示了两个重要方向:首先,主动提问能力可能是提升AI理解深度的关键;其次,通过将昂贵推理过程转化为训练信号,能有效平衡性能与计算成本。就像人类专家通过不断自我质疑来深化思考,AI的"自我教学"机制或许会成为下一代语言模型的标配能力。