当扩散模型学会“回头看”：非马尔可夫框架如何提升文本生成质量

文本生成的两大流派

当前结构化序列生成主要有两种技术路径：自回归模型（如GPT系列）像一位按部就班的作家，从左到右逐字书写，每个新词都基于前面所有内容；而离散扩散模型（Discrete Diffusion）更像一位反复修改画作的艺术家，通过多轮“噪声添加-去噪”的迭代过程生成文本。后者虽然在文本补全、局部编辑等场景更灵活，但生成质量长期落后于自回归模型。

马尔可夫假设的局限

传统扩散模型遵循马尔可夫假设（Markovian assumption）——每次去噪时只能参考当前状态，就像一个人失忆般只记得上一步操作。这种设定容易导致错误累积：如果在中间步骤产生偏差，后续修正将变得困难。论文作者比喻这如同“蒙着眼睛走迷宫”，一旦偏离路线就很难回到正轨。

CaDDi的核心突破

研究团队提出的CaDDi（Causal Discrete Diffusion）模型创新性地解除了马尔可夫约束。其核心在于：

全轨迹记忆：每个去噪步骤都能查看整个生成历史，相当于给模型配备了“后悔药”，允许回看并修正早期决定
架构统一：通过特殊设计的Transformer结构，同时处理序列顺序（因果推理）和时间步长（扩散过程），甚至可以直接复用预训练语言模型的参数
双向兼容：既保留了扩散模型的灵活生成特性，又将自回归模型作为特例包含其中

技术实现的关键细节

模型通过两种机制实现非马尔可夫（Non-Markovian）特性：

时空双重注意力：在标准Transformer的自注意力机制上，增加对时间维度的建模，使模型能区分不同扩散步骤的中间状态
轨迹编码：将历史生成状态编码为可查询的记忆单元，类似人类写作时的“草稿本”功能

值得注意的是，这种设计避免了传统非马尔可夫方法对连续核函数的依赖，更适合离散文本数据。

实际性能表现

在自然语言基准测试中，CaDDi相比主流离散扩散模型展现出显著优势：

文本连贯性提升：通过历史轨迹参考，长程依赖关系处理更优
错误率降低：单步错误可通过后续步骤纠正，抗干扰能力增强
生成灵活性保留：依然支持从任意位置编辑文本等扩散模型特色功能

虽然尚未完全超越顶尖自回归模型，但已将性能差距缩小到可比较范围。

潜在应用前景

这项技术的价值不仅在于性能提升，更在于拓展了生成模型的适用场景：

可控编辑：更适合需要反复调整的创意写作场景
专业领域生成：在化学分子式、编程代码等结构化文本中，纠错能力尤为重要
教育应用：可开发交互式写作助手，实时提供多版本修改建议

研究团队特别指出，直接复用现有大模型参数的能力，大幅降低了实际部署门槛。

待解决的挑战

尽管取得进展，CaDDi仍面临一些开放性问题：

计算开销：记忆整个轨迹需要更多内存资源
训练复杂度：同时优化时空两个维度的注意力机制需要精心设计
长文本稳定性：超过一定长度后，历史信息的有效利用率可能下降