从 VAE 到 RBM-DVAE：航空异常检测的模型创新

Jack小新 · 发表于 1755539366

本帖最后由 Jack小新于 2025-8-19 09:27 编辑

《Anomaly detection in aeronautics data with quantum-compatible discrete deep generative model》探索三种变分自编码器在航空数据异常检测中的表现。研究表明，RBM先验离散VAE性能媲美高斯VAE（F1分数0.666 vs 0.663），显著优于伯努利DVAE（0.495）。该模型对异常类型和飞行阶段变化鲁棒，在襟翼延迟检测中F1达0.618，跨数据集经后训练F1从0.35提升至0.41，为量子增强检测奠定基础。

01 航空异常检测的技术瓶颈与突破方向

在航空运营中，及时识别飞行数据中的异常模式是保障航班安全的关键。商业航班产生的多变量时间序列数据（如空速、 altitude、迎角等）包含大量潜在风险信息，然而传统异常检测方法存在两大局限：一是依赖人工定义的阈值（如超差检测），难以捕捉多因素交互的非线性异常；二是监督学习方法需要大量标注数据，而航空领域的异常样本稀缺且标注成本极高17。

深度生成模型的兴起为无监督异常检测提供了新思路。变分自编码器（VAE）通过学习正常数据的概率分布，以重建误差区分异常样本，但其主流设计采用连续高斯分布作为潜在空间先验，存在两方面问题：

· 难以建模离散特征（如二进制的自动驾驶模式状态）与复杂多模态分布；

· 与量子计算设备（基于二能级量子系统的离散变量）不兼容，限制了未来利用量子优势的可能1。

在此背景下，研究团队聚焦于离散潜在空间的 VAE 模型，探索其在航空异常检测中的性能，为量子增强的机器学习奠定基础。

02 离散 VAE 模型的三大突破性进展

2.1 首次将离散变分自编码器（DVAE）应用于航空异常检测

研究开创性地提出了两种离散潜在空间模型，即伯努利先验 DVAE 和受限玻尔兹曼机（RBM）先验 DVAE，成功填补了离散生成模型在航空领域应用的空白。这一创新举措为航空数据异常检测带来了全新的视角和方法。

图1 RBM 先验模型架构对比

其中，RBM 先验模型在架构设计上展现出独特之处。它采用了新颖的正相架构，摒弃了传统平分潜在变量的方式，而是通过添加真实隐藏层。这种创新设计极大地提升了模型对复杂关联的捕捉能力。在航空数据中，各个参数之间存在着错综复杂的关系，RBM 先验模型的这一架构能够更有效地挖掘这些潜在联系，从而更精准地识别出异常数据。

2.2 解决离散变量的梯度传播难题

在离散 VAE 模型的训练过程中，离散变量的梯度传播一直是困扰研究人员的难题。为了解决这一问题，研究团队采用了 Gumbel-softmax 技巧，将离散潜在变量巧妙地松弛为连续变量。通过这一转换，成功推导得到了可微的损失函数，使得 DVAE 能够顺利通过反向传播进行端到端的训练。

针对 RBM 先验模型的特殊性，研究团队进一步设计了基于持续对比散度（PCD）的负相采样算法。该算法有效避免了对难以处理的配分函数的计算，大大提高了模型训练的效率和稳定性。这一算法的提出，为 RBM 先验 DVAE 的实际应用提供了有力的技术支持，使得模型能够在大规模航空数据上进行高效训练。

2.3 系统验证离散模型的性能与实用性

研究团队通过在三类航空数据集上进行广泛而深入的实验，有力地证明了 RBM 先验 DVAE 的卓越性能。实验结果表明，RBM 先验 DVAE 的异常检测性能与连续高斯 VAE 相当，甚至在某些方面表现更为出色。同时，该模型展现出了良好的量子兼容性，为未来结合量子计算技术进一步提升性能提供了可能。

此外，模型在面对不同异常类型和飞行阶段变化时，表现出了显著的鲁棒性。无论是起飞阶段的空速骤降异常，还是着陆阶段的襟翼延迟异常，RBM 先验 DVAE 都能够准确地检测出来。这一特性为其在实际航空运营中的应用提供了关键依据，确保了模型在复杂多变的飞行场景下都能稳定可靠地运行，为航空安全保驾护航。

03 具体思路：从经典 VAE 到量子兼容离散模型的设计细节

3.1 经典 VAE 的核心原理

图2 生成模型概率图模型

VAE 通过变分推断近似数据的真实分布，其目标是最大化证据下界（ELBO）：

其中第一项为重建损失（要求解码器从潜在变量还原输入），它的作用是要求解码器能够从潜在变量z尽可能准确地还原出输入数据x。重建损失反映了模型对数据的拟合能力，重建误差越小，说明模型对正常数据分布的学习越准确。第二项为 KL 散度，主要功能是约束近似后验与先验的差异。KL 散度衡量了两个分布之间的相似程度，通过最小化 KL 散度，可以使近似后验分布尽可能接近先验分布，从而保证模型的稳定性和泛化能力。

对于高斯 VAE，先验分布为因子化正态分布 p_θ(z)=N(z;0,I) 。在这种情况下，KL 散度可以通过解析计算得到，这一特性使得高斯 VAE 在实际应用中成为主流选择。解析计算 KL 散度大大简化了模型的训练过程，提高了计算效率，使得模型能够快速收敛到较好的解。

3.2 离散 VAE 的改进与挑战

3.2.1 伯努利先验 DVAE

采用离散伯努利分布作为先验，其表达式为：

其 KL 散度为：

为了实现离散变量的梯度传播，从而能够使用反向传播算法进行模型训练，研究团队采用了 Gumbel-softmax 松弛方法。通过这一方法，将离散变量z^d近似为：

其中λ为温度参数。

3.2.2 RBM 先验 DVAE

RBM 先验 DVAE 引入了能量模型作为先验。RBM 的联合分布由下式定义：

其中 z_v^d 为可见单元（VAE 潜在变量），z_h^d 为隐藏单元，通过一步吉布斯采样生成。其 KL 散度梯度通过正相（后验样本能量）与负相（幻想态能量）的差异计算：

为了提高计算效率，避免每次迭代都重新初始化，研究团队采用了 PCD 算法来维持负相采样链。PCD 算法通过在每次迭代中保留上一次的采样结果，使得采样过程能够更加稳定和高效，减少了计算量，同时也提高了模型对复杂分布的建模能力。

3.3 β-VAE 的引入与调优

在 VAE 模型中，重建质量与潜在空间规整性之间往往需要进行平衡。为了实现这一目标，研究团队引入了 β-ELBO，其表达式为：

通过调节 β 控制 KL 项权重，当 β 较大时，模型更加注重潜在空间的规整性，使得潜在变量的分布更加接近先验分布，有助于提高模型的泛化能力，但可能会牺牲一定的重建质量；当 β 较小时，模型更侧重于重建质量，能够更好地拟合输入数据，但可能导致潜在空间的表示不够紧凑和规整。

实验表明，β=60 时，在航空数据上能够取得最优的异常检测性能。这一参数设置在平衡重建质量和潜在空间规整性方面达到了较好的效果，使得模型在航空数据异常检测任务中能够准确地识别出异常样本，同时保持良好的稳定性和泛化能力。

04 实验验证：数据驱动的性能对比

4.1 基线实验：起飞阶段空速骤降检测

图3 基线实验性能对比

本次实验采用了包含 27346 条起飞数据的数据集，这些数据记录了飞机起飞前 60 秒内的飞行状态，涵盖了 7 个关键参数。其中，异常数据的比例为 2.4%，异常情况定义为空速骤降超过 20 节。这个数据集模拟了飞机起飞阶段可能出现的实际异常情况，具有较高的真实性和代表性。

实验对比了高斯 VAE、伯努利 DVAE 和 RBM DVAE 三种模型在该数据集上的性能，具体结果如下表所示：

从结果中可以清晰地看出，RBM 模型的召回率显著高于高斯模型。召回率反映了模型能够正确识别出的异常样本在所有实际异常样本中的比例，RBM 模型更高的召回率意味着它能够捕捉到更多潜在的危险情况，在保障航空安全方面具有重要意义。同时，RBM 模型的 F1 分数也略高于高斯模型，且其性能远超伯努利模型，这充分证明了能量模型先验在复杂数据建模和异常检测中的优势。

4.2 迁移性实验：跨数据集性能

本次迁移性实验的任务是将在基线数据集上训练好的模型直接应用于 DASHlink 数据集。DASHlink 数据集与基线数据集具有相同的异常类型，但它是独立采集的，具有不同的数据分布特征。通过这一实验，可以检验模型在面对新的数据分布时的适应能力和泛化性能。

实验结果显示，在无后训练的情况下，模型的平均 F1 分数仅为 0.35，相较于在基线数据集上的表现下降了约 47%。这表明模型在直接应用于新数据集时，由于数据分布的差异，性能受到了较大影响。

图4 模型迁移性实验结果

当对模型进行 300 个 epoch 的后训练后，平均 F1 分数提升至 0.41，恢复了约 17% 的性能。这一结果表明，虽然模型需要一定的调整来适应新数据分布，但通过微调可以有效地提升其在新数据集上的性能，增强了模型的实用性和适应性。

4.3 鲁棒性实验：着陆阶段襟翼延迟检测

本次鲁棒性实验使用的数据集包含 21302 条着陆数据，记录了飞机着陆前 160 秒内的飞行状态，涉及 10 个参数。其中，异常率为 4.48%，异常情况为襟翼延迟展开。这个数据集模拟了飞机着陆阶段的异常情况，与起飞阶段的异常类型和数据特征有所不同，用于检验模型对不同异常类型和飞行阶段的鲁棒性。

在该数据集上，RBM 模型的精确率为 0.591，召回率为 0.647，F1 分数为 0.618。这些结果与起飞阶段空速骤降检测实验中的性能接近，充分证明了 RBM 模型对异常类型和飞行阶段变化具有较强的鲁棒性。无论是在起飞阶段还是着陆阶段，无论是面对空速骤降还是襟翼延迟展开等不同类型的异常，RBM 模型都能够保持相对稳定的检测性能，为航空安全提供了可靠的保障。

05 总结与展望

研究通过严格实验证明：

· 性能竞争力：RBM 先验 DVAE 在航空异常检测中性能媲美高斯 VAE（F1≈0.66），且显著优于简单伯努利模型，解决了离散模型表示能力不足的问题；

· 实用特性：模型对异常类型和飞行阶段变化具有鲁棒性，后训练可缓解跨数据集性能下降；

· 量子兼容性：RBM 的负相采样可直接替换为量子采样，为量子增强的异常检测铺平道路1819。

展望未来，通过引入量子玻尔兹曼机（QBM）和并行回火等高级采样算法，有望进一步挖掘离散模型在处理大规模航空数据方面的潜力。这些先进技术的应用将有可能显著提升模型的处理效率，使其能够更快速、准确地识别出航空数据中的异常情况，为航空安全提供更加有力的保障。在未来的研究中，还可以进一步探索离散模型与其他量子计算技术的深度融合，以及在更多复杂航空场景中的应用，推动航空安全技术不断向前发展。

论文链接：Anomaly detection in aeronautics data with quantum-compatible discrete deep generative model - IOPscience