当扩散模型学会“回头看”:非马尔可夫框架如何提升文本生成质量

发布日期:June 10, 2025, 4:02 a.m.
摘要:

在人工智能生成文本的竞技场上,自回归模型长期占据主导地位,而扩散模型因其灵活的生成方式备受期待。耶鲁大学团队提出的CaDDi模型,通过打破传统扩散模型的“记忆限制”,让生成过程拥有了自我修正的能力。

文本生成的两大流派

当前结构化序列生成主要有两种技术路径:自回归模型(如GPT系列)像一位按部就班的作家,从左到右逐字书写,每个新词都基于前面所有内容;而离散扩散模型(Discrete Diffusion)更像一位反复修改画作的艺术家,通过多轮“噪声添加-去噪”的迭代过程生成文本。后者虽然在文本补全、局部编辑等场景更灵活,但生成质量长期落后于自回归模型。

马尔可夫假设的局限

传统扩散模型遵循马尔可夫假设(Markovian assumption)——每次去噪时只能参考当前状态,就像一个人失忆般只记得上一步操作。这种设定容易导致错误累积:如果在中间步骤产生偏差,后续修正将变得困难。论文作者比喻这如同“蒙着眼睛走迷宫”,一旦偏离路线就很难回到正轨。

CaDDi的核心突破

研究团队提出的CaDDi(Causal Discrete Diffusion)模型创新性地解除了马尔可夫约束。其核心在于:

  1. 全轨迹记忆:每个去噪步骤都能查看整个生成历史,相当于给模型配备了“后悔药”,允许回看并修正早期决定

  2. 架构统一:通过特殊设计的Transformer结构,同时处理序列顺序(因果推理)和时间步长(扩散过程),甚至可以直接复用预训练语言模型的参数

  3. 双向兼容:既保留了扩散模型的灵活生成特性,又将自回归模型作为特例包含其中

技术实现的关键细节

模型通过两种机制实现非马尔可夫(Non-Markovian)特性:

  • 时空双重注意力:在标准Transformer的自注意力机制上,增加对时间维度的建模,使模型能区分不同扩散步骤的中间状态

  • 轨迹编码:将历史生成状态编码为可查询的记忆单元,类似人类写作时的“草稿本”功能

值得注意的是,这种设计避免了传统非马尔可夫方法对连续核函数的依赖,更适合离散文本数据。

实际性能表现

在自然语言基准测试中,CaDDi相比主流离散扩散模型展现出显著优势:

  • 文本连贯性提升:通过历史轨迹参考,长程依赖关系处理更优

  • 错误率降低:单步错误可通过后续步骤纠正,抗干扰能力增强

  • 生成灵活性保留:依然支持从任意位置编辑文本等扩散模型特色功能

虽然尚未完全超越顶尖自回归模型,但已将性能差距缩小到可比较范围。

潜在应用前景

这项技术的价值不仅在于性能提升,更在于拓展了生成模型的适用场景:

  • 可控编辑:更适合需要反复调整的创意写作场景

  • 专业领域生成:在化学分子式、编程代码等结构化文本中,纠错能力尤为重要

  • 教育应用:可开发交互式写作助手,实时提供多版本修改建议

研究团队特别指出,直接复用现有大模型参数的能力,大幅降低了实际部署门槛。

待解决的挑战

尽管取得进展,CaDDi仍面临一些开放性问题:

  • 计算开销:记忆整个轨迹需要更多内存资源

  • 训练复杂度:同时优化时空两个维度的注意力机制需要精心设计

  • 长文本稳定性:超过一定长度后,历史信息的有效利用率可能下降