对比GAN 与 VAE :两大生成模型如何各显神通,又为何要 “联手”?

薛定谔了么
2025-09-10 15:52:04
人工智能
论文精读与讲座笔记
本帖最后由 薛定谔了么 于 2025-9-10 15:53 编辑


Comparative Study of GAN and VAE 》发表于 International Journal of Computer Applications 2018 年第 182 卷第 22 期。文章对比 VAE 与 GAN(以 DCGAN 为例),在 MNIST 数据集实验中,VAE 最终 MSE 34.66,生成图较模糊但多样性高;DCGAN MSE 36.3,生成图更清晰却易模式崩溃。VAE 支持半监督与无监督学习,训练稳定;DCGAN 仅无监督,训练波动大。二者融合模型(如 VAE-GAN)可兼顾清晰度与多样性,为生成模型优化提供方向。




在 21 世纪 10 年代深度学习浪潮中,无监督学习因 “无需人工标注即可挖掘数据规律” 的特性,成为突破监督学习数据依赖瓶颈的关键方向,而生成模型正是这一领域的核心探索成果 —— 它让机器从 “识别数据” 迈向 “创造数据”,为图像生成、语音合成、数据增强等应用提供了技术基石。


在众多生成模型中,2013 年提出的变分自动编码器(VAE)与 2014 年诞生的生成对抗网络(GAN),迅速成为两大 “明星架构”:VAE 以概率建模为核心,首次实现了对数据分布的可解释性建模;GAN 则凭借 “对抗博弈” 思路,刷新了生成样本的逼真度上限。


在这样的技术背景下,《 Comparative Study of GAN and VAE 》通过实验系统对比了生成对抗网络(GAN)与变分自动编码器(VAE)的核心差异。这两种模型作为无监督学习领域的 “明星选手”,虽同为生成数据而生,却因设计思路不同,在图像生成、数据分布建模等场景中表现出截然不同的优势与局限,而二者的融合更开启了生成模型的新可能。


一、从 “目标” 看 GAN 与 VAE 的本质不同



图1 生成模型分类图谱


在机器学习中,生成模型的核心目标是 “学习数据分布,生成新样本”,但 GAN 与 VAE 实现这一目标的路径完全不同,可类比为 “艺术家创作” 的两种思路:


VAE:精准建模的 “数据分析师”VAE 更像 “先搞懂数据规律,再按规律创作”。它通过 “编码器 - 解码器” 结构,先将输入数据(如 MNIST 手写数字)压缩成低维潜在空间的概率分布(而非固定向量),再从这个分布中采样并重构出原始数据。比如生成手写数字 “3” 时,VAE 会先学习 “数字 3 的轮廓、笔触粗细” 等特征的概率范围,再按这个范围生成新样本,确保生成结果符合数据的整体规律。


GAN:对抗博弈的 “艺术家与评论家”GAN 则是 “在竞争中迭代优化”。它包含两个网络:生成器(艺术家)负责从随机噪声中生成样本,判别器(评论家)负责判断样本是 “真实数据” 还是 “生成伪造数据”。二者如同 “猫鼠游戏”—— 生成器努力让作品骗过判别器,判别器则努力提升辨别能力,最终生成器能产出以假乱真的样本。比如生成 “3” 时,GAN 不会刻意建模 “3 的特征规律”,而是通过一次次 “被判别、被修正”,逐渐优化生成效果。


二、GAN 与 VAE 如何实现 “数据生成”?


2.1 VAE:用 “概率与重构” 生成数据


VAE 的核心是 “变分推断”,通过两个关键步骤实现数据生成:



图2 变分自动编码器(VAE)架构图


步骤 1:编码器 —— 将数据压缩成概率分布


编码器接收原始数据(如 28×28 的 MNIST 图像),输出潜在变量Z的概率分布(通常是正态分布),即Q(Z|X)。比如输入数字 “3”,编码器会输出 “Z的均值为 [0.2, -0.5]、方差为 [0.1, 0.08]” 的分布,这个分布包含了 “3” 的关键特征信息。


步骤 2:解码器 —— 从分布中采样并重构


解码器从编码器输出的分布中随机采样一个Z,再将其还原为原始数据维度(如 28×28 图像),即P(X|Z)。为确保生成质量,VAE 的损失函数包含两部分:



第一部分是 “重构损失”:确保解码器能从Z中精准还原原始数据,比如生成的 “3” 与真实 “3” 的像素差异要小;


第二部分是 “KL 散度”:约束编码器输出的分布Q(Z|X)接近预设的先验分布P(Z)(通常是标准正态分布),避免潜在空间数据分布混乱,确保生成样本的多样性。


实验中,VAE 在 MNIST 数据集上的表现可直观体现其特点:训练初期(1-5 个 epoch)生成的数字模糊且边缘粗糙,但随着 epoch 增加(至 100 个),图像逐渐清晰;若仅优化重构损失,生成样本会缺乏多样性(比如只生成少数几种 “3”);若仅优化 KL 散度,生成样本则会模糊不清 —— 只有平衡两者,才能既保证清晰度又兼顾多样性。



图3 VAE 在 MNIST 数据集上不同训练 epoch 的生成图像对比图


2.2 GAN:用 “对抗博弈” 生成数据


以实验中使用的 DCGAN(深度卷积 GAN)为例,其核心是 “minimax 博弈”,通过生成器与判别器的交替训练实现数据生成:



图4 生成对抗网络(GAN)架构图


生成器(G):从噪声到样本的 “创作者”


生成器接收随机噪声Z(如 100 维向量),通过反卷积层将其逐步放大为目标数据维度(如 28×28 图像),即G(Z)。比如输入噪声向量,生成器会输出一张类似手写数字的 “伪造图像”。


判别器(D):真假样本的 “裁判”


判别器接收样本(真实数据X或生成器输出的G(Z)),输出样本为 “真实数据” 的概率(0-1 之间),即D(X)或D(G(Z))。比如输入真实 “3”,判别器输出概率接近 1;输入生成的模糊 “3”,输出概率接近 0。


对抗训练:目标函数的 “猫鼠游戏”


GAN 的训练目标是求解以下 minimax 问题:



判别器D的目标:最大化V(D,G),即让真实样本的log D(X)尽可能大(接近 1),让生成样本的log(1-D(G(Z)))尽可能大(D(G(Z))接近 0);


生成器G的目标:最小化V(D,G),即让生成样本的log(1-D(G(Z)))尽可能小(D(G(Z))接近 1,骗过判别器)。


实验中,DCGAN 的生成效果呈现典型特点——训练初期(1-2 个 epoch)生成的几乎是 “乱码”,随着判别器与生成器的博弈(至 100 个 epoch),图像逐渐清晰;且 DCGAN 生成的数字边缘更锐利,细节比 VAE 更丰富 —— 但代价是训练不稳定,损失值会频繁波动,甚至出现 “模式崩溃”(比如只生成数字 “3” 和 “7”,忽略其他数字)。


三、GAN 与 VAE 的核心差异与适用场景


通过实验数据与可视化结果,可从 5 个关键维度对比 GAN(以 DCGAN 为例)与 VAE 的差异:



3.1 生成质量:GAN 更清晰,VAE 更均衡


VAE实验中 VAE 的最终 MSE 为 34.66,生成的图像虽能识别,但整体偏模糊(比如数字边缘有 “毛边”),这是因为解码器输出的是 “分布均值”,相当于 “平均化” 了所有可能的样本特征;


GANDCGAN 的 MSE 为 36.3(略高于 VAE),但生成的图像更清晰锐利,细节更丰富(比如数字 “3” 的弯曲弧度更自然),这是因为对抗训练迫使生成器不断优化细节以骗过判别器。


3.2 多样性与稳定性:VAE 更可靠,GAN 易 “翻车”


VAE由于 KL 散度约束,潜在空间数据分布更均匀,生成样本的多样性更高(能覆盖 MNIST 的 10 个数字),且训练过程稳定,损失持续下降;


GAN容易出现 “模式崩溃”—— 实验中曾出现生成器反复生成 “1” 和 “9”,忽略其他数字,这是因为判别器过于强大时,生成器会 “投机取巧”,只生成能骗过判别器的少数样本;同时,GAN 的损失值波动大,难以判断训练是否收敛。


3.3 适用场景:按需选择


选 VAE若需要稳定生成、保证样本多样性,或需半监督学习(如少量标签数据辅助训练),优先选 VAE。比如生成多种风格的手绘草图(Google 的 SketchRNN)、合成音乐(Google 的 Magenta MusicVAE)。


选 GAN若追求高清晰度的生成样本,且能接受一定的训练不稳定性,优先选 GAN。比如生成逼真的卡通角色、超分辨率图像(SRGAN)、跨域图像转换(如马变斑马的 CycleGAN)。


四、突破局限:GAN 与 VAE 的 “强强联合”


既然 GAN 与 VAE 各有优劣,研究者自然想到 “融合二者优势”,其中最经典的是VAE-GAN。它的结构如图 6 所示:


· 保留 VAE 的编码器,将解码器替换为 GAN 的生成器;


· 用 GAN 的判别器计算损失,同时保留 VAE 的 KL 散度约束;


· 最终生成的样本既具备 GAN 的清晰度,又拥有 VAE 的多样性,实验中其生成效果远超单一模型。


此外,还有 “对抗自编码器(AAE)”“自注意力 GAN(SAGAN)” 等融合模型,它们的核心思路都是 “用 VAE 的概率建模解决 GAN 的稳定性问题,用 GAN 的对抗训练提升 VAE 的生成质量”,推动生成模型向 “更清晰、更多样、更稳定” 的方向发展。


五、总结与展望


GAN 与 VAE 作为生成模型的两大支柱,分别代表了 “对抗博弈” 与 “概率建模” 两种思路:VAE 如同 “稳扎稳打的工程师”,用严谨的概率分布保证生成的可靠性与多样性;GAN 则像 “敢闯敢试的艺术家”,在对抗中突破细节极限,生成更逼真的样本。


如今,二者的融合已成为主流方向 —— 不再纠结 “选 GAN 还是选 VAE”,而是通过组合创新解决单一模型的局限。未来,随着注意力机制、扩散模型等技术的融入,生成模型将在更广阔的领域发挥作用:从生成个性化医疗影像辅助诊断,到创造虚拟世界的场景与角色,再到为 AI 绘画提供更丰富的创意素材,持续为无监督学习开辟新的可能性。


 




文献链接:https://www.ijcaonline.org/archives/volume182/number22/30062-2018918039/

35
0
0
0
关于作者
相关文章
  • AI 助力揭示蟾毒灵作为 ERα 分子胶降解剂逆转他莫昔芬耐药乳腺 ...
    《 Harnessing artificial intelligence to identify Bufalin as a molecular glue degrader of ...
    了解详情 
  • 汽车测试数据的 “解码器”——TeVAE 与多变量时序异常检测的突 ...
    在汽车智能化发展进程中,动力系统测试的异常检测至关重要。由奔驰团队研究的《 TeVAE: A Variat ...
    了解详情 
  • 量子变分自编码器(QVAE):量子玻尔兹曼机解锁生成模型新潜力 ...
    《Quantum Variational Autoencoder》一文提出量子变分自编码器(QVAE),将量子玻尔兹曼机(QBM ...
    了解详情 
  • 【论文精读】量子退火启发的时空编码超表面优化 ...
    概要:本研究提出量子退火启发的时空编码超表面优化算法,将散射问题转化为二进制自旋模型,用模 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看