用稀疏伊辛机训练深度玻尔兹曼网络：3 万参数实现 90% MNIST 精度

宇宙微尘 · 发表于 1761101082

本帖最后由宇宙微尘于 2025-10-22 10:44 编辑

《 Training deep Boltzmann networks with sparse Ising machines 》发表于 Nature Electronics 期刊。文章提出稀疏伊辛机混合计算框架，以 FPGA 实现稀疏伊辛机，采用 Pegasus/Zephyr 拓扑，4264 个 p-bit、3 万参数的稀疏 DBM，在全 MNIST 数据集达 90% 分类精度，与 325 万参数 RBM 持平，还能生成RBM 无法实现的手写数字。其采样速度 50-64 十亿次翻转 / 秒，比 GPU/TPU 快至少一个量级，为深度生成模型提供轻量化方案。

当深度学习还在依赖 GPU/TPU 处理海量参数时，加州大学圣塔芭芭拉分校等团队开辟了新路径 ——2024 年在相关研究中提出基于稀疏伊辛机的混合计算框架，用仅 4264 个概率位（p-bit）、3 万参数的稀疏深度玻尔兹曼网络（DBM），在全 MNIST 数据集上实现 90% 分类精度，与 325 万参数的优化限制玻尔兹曼机（RBM）持平，且能生成新手写数字。更关键的是，其采样速度达 50-64 十亿次概率翻转 / 秒，比 GPU/TPU 实现快至少一个量级，为深度生成模型训练提供了 “轻量化 + 高速化” 新方案。

一、深度玻尔兹曼网络的 “训练困境”

深度玻尔兹曼网络（DBM）作为强大的生成式模型，能学习数据深层分布，却因两大难题淡出主流：

计算成本极高：传统 DBM 依赖吉布斯采样实现概率分布学习，密集连接的网络需串行更新节点，训练全 MNIST 数据集时，CPU 需数天才能完成 10 轮迭代，GPU 也难以突破采样效率瓶颈；

参数冗余严重：优化后的 RBM 需 325 万参数才能达到 90% MNIST 精度，参数过多不仅增加计算负担，还会导致模型过拟合，且无法完成图像生成等核心生成任务；

硬件适配性差：现有硬件多为深度学习定制，DBM 的概率采样逻辑难以充分利用硬件性能，出现 “硬件算力浪费” 与 “模型训练缓慢” 的矛盾。

以某实验室为例，用 CPU 训练传统 DBM，仅处理 MNIST 的 1/10 数据就耗时 72 小时，且精度不足 85%，远无法满足工程需求。

二、稀疏伊辛机的 “破局思路”

研究团队以 “稀疏网络 + 混合计算” 为核心，打造适配 DBM 的专用硬件框架，从三个维度突破困境：

2.1 稀疏网络拓扑：减少连接，释放并行性

团队摒弃传统 DBM 的全连接结构，采用 D-Wave 量子退火器的 Pegasus/Zephyr 稀疏拓扑（图 1），让每个 p-bit 仅连接 15-20 个邻居。这种设计带来两大优势：

图一 Pegasus/Zephyr 稀疏拓扑图

并行更新可行：稀疏连接使无关联的 p-bit 可同时更新，突破串行更新限制。例如 Pegasus 拓扑（4264 p-bit）仅需 4 个相位偏移时钟，就能实现所有 p-bit 的并行采样；

参数大幅减少：稀疏 DBM 仅需 30404 个参数，是传统 RBM 的 1/108，却能达到相同精度，从根源降低计算负担。

2.2 混合计算架构：概率采样 + 经典优化分工

构建 “概率计算机（伊辛机）+ 经典计算机（CPU）” 的混合框架，让两者各司其职：

概率计算机（FPGA 实现）

负责快速生成符合玻尔兹曼分布的样本，核心是 p-bit 的异步更新逻辑。p-bit 状态更新遵循公式：

其中I_i(t)是 p-bit 的有效场，通过随机数与双曲正切函数的对比，实现概率性状态翻转，每秒可完成 640 亿次翻转，比 CPU 快 6 个量级；

经典计算机（CPU）

基于概率计算机生成的样本，计算梯度并更新权重 / 偏置，更新规则为：

通过数据分布与模型分布的差异调整参数，确保模型逐步逼近真实数据规律。

2.3 索引随机化：解决稀疏网络的 “连接偏见”

稀疏网络中，节点连接具有拓扑依赖性，若 visible 层（图像像素）、hidden 层（特征提取）、label 层（类别标签）的节点集中分布，会导致 “像素 - 标签” 关联减弱，精度骤降。团队通过 “索引随机化” 将三类节点随机分散在稀疏拓扑中，使任意两类节点的图距离均匀，精度从 50% 提升至 90%，彻底解决稀疏网络的连接偏见问题。

三、实验验证

团队在 FPGA 上实现稀疏伊辛机，用全 MNIST、Fashion MNIST、简化 CIFAR-10 数据集测试，结果显著：

3.1 精度与参数：3 万参数媲美 325 万参数 RBM

在6 万训练图，1 万测试图的全 MNIST 数据集上：

稀疏 DBM：4264 p-bit，30404 参数，100 轮迭代后测试精度达 90%，与 325 万参数的优化 RBM 持平；

参数效率：稀疏 DBM 的 “精度 / 参数比” 是传统 RBM 的 108 倍，且训练过程无过拟合，验证集与测试集精度差异小于 2%；

泛化能力：将模型迁移至 Fashion MNIST，仅需微调超参数，精度达 80%，而同等参数的 RBM 精度仅 72%。

3.2 速度与效率：超 GPU 一个量级

对比不同硬件的采样效率（表 1）：

表一不同硬件的概率翻转效率对比表

稀疏伊辛机（FPGA）：每秒 50-64 十亿次概率翻转，完成 10 万次吉布斯采样仅需 1.56 毫秒；

GPU（Tesla V100）：传统采样实现每秒约 11 十亿次操作，且仅支持规则晶格拓扑，稀疏拓扑下效率骤降 40%；

CPU（i7-11700）：每秒仅 8.5 千次翻转，是 FPGA 的 1/75000，完全无法满足大规模采样需求。

更关键的是，稀疏 DBM 训练全 MNIST 仅需 20 小时（FPGA+CPU），而传统 RBM（CPU）需 24 天，效率提升 28 倍。

3.3 生成能力：RBM 做不到的，它能做到

传统 RBM 虽能分类，却无法生成图像；而稀疏 DBM 通过 “标签钳位 + 温度退火”（从 β=0 到 β=5 逐步升温），可生成清晰的手写数字（图2）：

图2 稀疏 DBM 生成 MNIST 图像

生成逻辑：固定某类标签 p-bit，如 “0” 的标签 p-bit 设为 1，其余为 0，让图像 p-bit 自由演化，退火过程中噪声逐渐减少，最终形成目标数字；

生成质量：生成的 “0”“7” 等数字边缘清晰，与真实手写体相似度达 95%，而 RBM 生成的图像模糊且无明确数字形态，证明稀疏 DBM 真正学习到了数据分布。

四、落地价值

这套技术不仅解决 DBM 的训练难题，还为多个领域提供新工具：

低资源场景建模：在医疗影像、小样本工业检测等数据稀缺的领域，稀疏 DBM 的轻量化特性可快速构建模型，且生成能力能辅助数据增强；

边缘设备部署：FPGA 实现的稀疏伊辛机体积小、功耗低，可部署在风电预测、海洋监测等边缘场景，实时处理传感器数据；

量子 / 类量子计算衔接：稀疏拓扑与量子退火器天然适配，未来若用纳米器件实现 p-bit，可进一步提升速度至百万次翻转 / 纳秒，推动量子生成模型发展。

五、总结

稀疏伊辛机训练 DBM 的核心价值，在于跳出 “参数越多越好”“硬件通用化” 的固有思维，通过 “网络稀疏化”“硬件专用化”“计算分工化”，让深度生成模型重新具备实用价值。其 3 万参数实现 90% 精度、速度超 GPU 一个量级的成果，不仅为 DBM 复兴提供可能，更指明了 “算法 - 硬件协同设计” 的深度学习新方向 —— 未来或许会有更多专用硬件涌现，让每个模型都能找到最适配的 “算力载体”。

论文链接：https://arxiv.org/pdf/2303.10728