玻尔兹曼机|Geoffrey Hinton获诺贝尔物理学奖的源起

离子
2024-12-11 11:26:14
本帖最后由 离子 于 2025-1-21 16:02 编辑

‌Geoffrey Hinton的玻尔兹曼机(Boltzmann Machine)是Geoffrey Hinton在深度学习领域的重要贡献之一,也是他获得2024年诺贝尔物理学奖的重要原因之一。‌玻尔兹曼机是一种基于统计物理学的神经网络模型,由Hinton在1985年提出。这种模型使用统计物理学中的工具来模拟神经网络的行为,通过模拟退火算法来训练网络,从而找到最优解。玻尔兹曼机在深度学习中起到了重要作用,推动了深度学习的发展‌。

Hinton的另一项重要贡献是反向传播算法(Backpropagation),这项算法在1986年与David Rumelhart和Ronald J. Williams共同发表的论文中首次提出,并被广泛引用。该算法极大地推动了多层神经网络的训练,对深度学习的发展产生了深远影响‌。

此外,Hinton还发明了受限玻尔兹曼机(Restricted Boltzmann Machine,RBM),这是一种简化的玻尔兹曼机,更容易训练且在特征学习方面表现出色。受限玻尔兹曼机在深度学习中被广泛应用,成为深度学习模型的基础之一‌。

这些贡献使得Hinton被誉为深度学习领域的领军人物,并最终获得了2024年诺贝尔物理学奖,以表彰他在机器学习和人工神经网络领域的奠基性发现和发明‌。

玻尔兹曼机

玻尔兹曼机(Boltzmann Machine,BM)是一种受统计物理启发的神经网络模型,最初由Geoffrey Hinton、Terrence Sejnowski和David Ackley在1985年提出。它是一类随机神经网络,属于反馈神经网络类型。玻尔兹曼机的命名来源于Ludwig Boltzmann在统计热力学中的早期工作,以及网络本身的动态分布行为。

玻尔兹曼机的特点包括:

1.  它是第一个受统计力学启发的多层学习机,结合了多层前馈神经网络和离散Hopfield网络的优点。

2.  网络的平衡状态服从Boltzmann分布,运行机制基于模拟退火算法。

3.  它在神经元状态变化中引入了统计概率,通过模拟退火过程寻求最优解。

4.  训练时间比BP网络要长,但对于某些问题,它能够找到更好的解决方案。

玻尔兹曼机的局限性在于,每个单元的概率必须是周围单元的线性可分函数。为了解决这个问题,可以通过增加隐藏层来让隐藏单元学习一些隐藏的特征或者潜在的变量,从而帮助系统去对输入进行建模。

受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)是玻尔兹曼机的一种特殊拓扑结构,它由一个可见神经元层和一个隐神经元层组成,这两个层之间完全连接,但同一层内的神经元之间没有连接。

这种结构限制使得RBM的训练算法比普通玻尔兹曼机更高效,尤其是基于梯度的对比分歧(contrastive divergence)算法。

RBM可以看作是一个编码解码的过程,从可见层到隐藏层是编码,而从隐藏层到可见层是解码。在实际应用中,例如推荐系统,RBM可以用来预测用户对物品的评分,通过编码用户的历史评分到隐藏层,然后解码预测用户对未评分物品的评分。

深度玻尔兹曼机(Deep Boltzmann Machine, DBM)是由多个RBM堆叠而成,可以看作是RBM的推广。DBM可以用于更复杂的数据建模,例如图像和音频数据。

玻尔兹曼机和其变体在机器学习领域有着广泛的应用,包括降维、分类、回归、协同过滤、特征学习和主题建模等。尽管玻尔兹曼机在理论上非常有趣,但在实际应用中,受限玻尔兹曼机和深度玻尔兹曼机由于其高效的训练算法和强大的建模能力,更受到研究者的青睐。

最新应用和研究进展

1.  理论研究与模型改进:近年来,受限玻尔兹曼机(RBMs)在理论研究和模型改进方面取得了显著进展。例如,研究者们提出了多种变体以提高RBMs在特定应用中的性能,包括模糊受限玻尔兹曼机和高阶玻尔兹曼机等。这些变体通过引入新的学习算法和结构优化,增强了模型在处理复杂数据关系和判别性任务上的能力。

2.  无监督与监督学习结合:传统的高阶玻尔兹曼机多用于无监督学习任务,但为了应对一些判别性较强的任务,如人脸验证和行为关系分类,研究者们提出了有监督的条件高阶玻尔兹曼机模型。这种模型通过结合监督信息和特征学习,能够更有效地处理复杂非线性数据关系。

3.  量子计算中的应用:玻尔兹曼机也在量子计算领域得到了应用。例如,模糊受限玻尔兹曼机被用于基于模糊数的学习算法中,展示了量子玻尔兹曼机在推进机器学习新范式方面的潜力。

4.  解决NP难问题:玻尔兹曼机还被应用于解决NP难问题,如旅行商问题。通过结合玻尔兹曼机的局部搜索能力和协作神经动态优化的全局重新定位能力,提出了一种新的协作神经动态优化算法,有效地解决了旅行商问题的多个基准实例。

RBM与DBM的比较

从结构上来看,受限玻尔兹曼机是一种浅层神经网络,由一个可见层和一个隐藏层组成,主要用于特征提取和降维。而深度玻尔兹曼机则是一种多层神经网络,能够处理更复杂的任务。

在性能方面,受限玻尔兹曼机由于其浅层结构,通常用于简单的特征学习和降维任务。它在推荐系统、降维、分类、协同过滤和主题建模等领域有广泛应用。相比之下,深度玻尔兹曼机由于其多层结构,能够处理更复杂的任务,如图像处理、自然语言处理和多模态处理。它在生成模型、图像生成和自然语言处理等新领域也有应用。此外,DBM在工业机器人齿轮箱故障诊断等复杂工况下也表现出色。

CD算法

玻尔兹曼机的训练算法“对比散度”(Contrastive Divergence, CD)是一种高效的非线性优化方法,用于训练受限玻尔兹曼机(RBM)。该算法通过模拟对比散度梯度来更新模型参数,而不需要系统运行到稳态分布,从而显著提高了训练效率。

CD算法的工作流程如下:首先,对于每个训练样本,将其输入到网络中,并根据当前的可见层状态计算隐藏层的状态。然后,通过吉布斯采样交替对可观测向量和隐藏向量进行采样,但不需要等待系统收敛,只需进行k步吉布斯采样即可。通常情况下,k=1就足够了。在完成这些步骤后,可以使用得到的样本对权重和偏差进行更新。CD算法之所以能有效提高训练效率,是因为它避免了传统方法中需要长时间等待系统达到热平衡的步骤。传统方法需要多次采样以确保样本符合真实分布,而CD算法仅需几步即可获得近似的梯度信息,从而大大减少了计算时间。此外,尽管CD算法提供的梯度是近似值,但随着迭代次数的增加,这种偏差会逐渐消失,使得模型参数能够逐步接近最优解。

玻尔兹曼机(Boltzmann Machine,BM)及其变种受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)在无监督学习中具有显著的优势和局限性。优势包括强大的表达能力、灵活性、处理缺失/不规则数据的能力以及无需标签信息。局限性包括训练速度慢、数学上的挑战以及训练困难。为了解决玻尔兹曼机训练过程中的计算复杂度问题,可以采用对比散度算法、稀疏受限玻尔兹曼机、因子分解技巧和分布式学习框架等方法。

前馈神经网络

前馈神经网络(Feedforward Neural Network,简称FNN)是一种最基础且广泛使用的人工神经网络结构。其特点在于信息从输入层开始,通过一系列隐藏层传递到输出层,整个过程是单向的,没有反馈连接。这种网络结构简单,易于理解和实现,因此在许多实际应用场景中得到了广泛应用。

前馈神经网络通常由输入层、一个或多个隐藏层以及输出层组成。每一层包含若干个神经元,每个神经元只与前一层的神经元相连,接收前一层的输出并输出给下一层。这种结构使得前馈神经网络能够形成复杂的决策边界,处理现实世界中的非线性问题。

图  前馈型神经网络结构

在工作原理上,前馈神经网络通过前向传播和反向传播算法进行训练。前向传播是指输入数据经过各层的计算,最终得到输出结果;反向传播则是用于调整网络参数以最小化损失函数的过程。然而,由于其结构的限制,前馈神经网络在处理高维输入时容易受到局部极小值的影响,并且需要大量的训练数据来避免过拟合。

此外,前馈神经网络在图像识别、自然语言处理、推荐系统和医疗诊断等领域有广泛应用。例如,在Transformer模型中,前馈神经网络层被用于编码器和解码器中,以增强模型的表达能力。

尽管前馈神经网络具有强大的模式识别能力和灵活的非线性建模能力,但其在某些情况下可能不如其他类型的神经网络表现优异,特别是在处理复杂的图像数据时。因此,在选择网络结构时,需要根据具体任务的需求进行权衡。

离散Hopfield网络

离散Hopfield网络(Discrete Hopfield Neural Network,DHNN)是一种由美国加州理工生物物理学家John J. Hopfield于1982年提出的反馈型神经网络模型。这种网络主要用于模拟大脑的联想记忆功能,并且在模式识别和优化问题中也有广泛应用。

离散Hopfield网络是一种单层网络,包含n个神经元节点,每个神经元的输出连接到其他所有神经元的输入,但没有自反馈。每个神经元的状态可以是二值的,通常表示为-1或1,分别对应于神经元的抑制和激活状态。这种网络通过学习特定模式的权重矩阵来存储信息,并能够在输入部分或失真数据时恢复完整数据。

在离散Hopfield网络中,网络的状态变化是通过能量函数来控制的,该能量函数随着网络状态的变化而单调递减,从而保证了网络的稳定性。 网络可以采用异步或同步更新方式运行。在异步方式中,每次只有一个神经元根据转移函数调整状态,而在同步方式中,所有神经元同时进行状态调整。

此外,离散Hopfield网络具有权重对称性,即权重矩阵是对称的,这有助于确保网络的稳定性和避免周期性振荡。 这种网络的稳定状态称为吸引点,当网络达到稳态时,每个神经元的状态不再改变。

离散Hopfield网络因其独特的结构和功能,在联想记忆、模式识别以及组合优化等领域得到了广泛的应用。

模拟退火算法

模拟退火算法(Simulated Annealing, SA)是一种基于物理学中固体退火原理的随机优化算法,广泛应用于组合优化问题中。其核心思想是通过模拟固体在高温下逐渐冷却的过程,在解空间中寻找全局最优解。

模拟退火算法来源于固体退火过程,将固体加温至高温,使其内部粒子无序,内能增大;然后徐徐冷却,粒子渐趋有序,最终在常温时达到基态,内能减为最小。根据Metropolis准则,粒子在温度T时趋于平衡的概率为e-ΔE/ (kT),其中E为温度T时的内能,ΔE为其改变量,k为Boltzmann常数。通过这种概率接受更差解的方式,算法能够在较大范围内探索解空间,避免陷入局部最优解。

模拟退火算法的基本步骤

初始化:设定初始解和控制参数初值。

产生新解:对当前解进行随机扰动,生成新解。

计算目标函数差:计算新解与当前解的目标函数差值。

接受或舍弃:根据Metropolis准则,以一定概率接受新解,否则舍弃。

迭代:重复上述步骤,逐步衰减控制参数值。

终止条件:当控制参数达到预设值或满足终止条件时,算法终止,当前解即为所得近似最优解。

优点与缺点

全局搜索能力:模拟退火算法能够在解空间中进行全局搜索,避免陷入局部最优解。

简单易实现:相比其他全局优化算法,模拟退火算法的实现较为简单,不需要对目标函数进行求导等复杂操作。

初值鲁棒性强:对初始解的选择不敏感,具有较强的鲁棒性。

可并行化:可通过多次执行并行进程来提高求解效率。

参数选择困难:模拟退火算法的性能依赖于初始温度、冷却速率等参数的选择,参数选择不当可能导致算法效率低下或陷入局部最优。

收敛速度慢:由于算法需要逐步降低温度并进行多次迭代,因此收敛速度相对较慢。

执行时间长:对于大规模问题,模拟退火算法可能需要较长时间才能运行完毕。

模拟退火算法在机器学习、组合优化、神经网络训练、集群调度、旅行商问题等领域有广泛应用。例如,在地震波形反演中的叠前储层参数反演中,改进的模拟退火算法能够有效提高收敛速度和精度。

为了提高模拟退火算法的效率和精度,研究者们提出了多种改进方法。例如,结合禁忌搜索算法、粒子群算法、遗传算法等,通过优化扰动过程和参数选择,提高了算法的收敛速度和精度。此外,自适应模拟退火算法通过继承上一个时间片的优秀解,提高了算法的运行效率。

模拟退火算法是一种强大的优化工具,能够在复杂优化问题中找到全局最优解。然而,其性能依赖于参数的选择和算法的优化。通过不断改进和优化,模拟退火算法在实际应用中的效果和效率得到了显著提升。

对比分歧算法

对比分歧算法(Contrastive Divergence, CD)是一种用于训练受限玻尔兹曼机(RBM)的快速梯度优化算法。该算法由杰弗里·辛顿(Geoffrey Hinton)提出,其核心思想是通过Gibbs采样来近似计算梯度,从而加速RBM模型的收敛和训练速度。

CD算法利用了两种并行属性:一是马尔科夫采样的天然并行性,即多个sampler同时采样一个样本,与一个sampler多次迭代采样多个样本在数学上是等价的;二是Gibbs采样的异步属性,每次只更新一个信息单元。这种方法使得CD算法在每次迭代时只需进行一次Gibbs采样步骤,从而提高了效率。

CD算法通过采样样本与隐藏样本获取正梯度与负梯度,而正负梯度之差即为目标梯度。这种方法避免了显式计算梯度的复杂性,并且通过采样的方式近似求解梯度。然而,研究表明CD算法对目标梯度的估计是有偏估计,并且每次迭代都需要重新启动Gibbs采样链,这降低了CD算法的训练性能。

为了克服这些问题,Tieleman等人提出了持续对比散度(Persistent Contrastive Divergence, PCD)算法。PCD算法在每次权重更新后保持多个链(假粒子),并在每次更新后继续进行吉布斯步骤,从而更彻底地探索空间。这种方法允许粒子在能量表面的整个区域游走,探索远离训练数据的模式,从而构建比CD更优的数据密度模型。

总之,对比分歧算法通过采样方法近似计算梯度,提高了RBM模型的训练效率,但存在一定的偏差和局限性。持续对比散度算法进一步改进了这一方法,通过保持多个链来提高模型的探索能力。

量子玻尔兹曼机

量子玻尔兹曼机(Quantum Boltzmann Machine, QBM)是一种基于量子计算的机器学习模型,它利用量子比特替代传统的经典比特或节点来构建概率生成网络。这种模型最早由加拿大的D-wave团队在2016年提出。

量子玻尔兹曼机的目标是根据哈密顿量的玻尔兹曼分布采样状态,通过调整模型中的权重以匹配任何概率分布。与传统的玻尔兹曼机相比,量子玻尔兹曼机需要专用的量子计算机,如量子退火机,以实现高效的训练和优化过程。

量子玻尔兹曼机在训练效率和模型质量方面被认为优于经典的深度学习算法。它能够更有效地加速训练过程,并且在自旋相互作用模型的选择上具有更大的灵活性。此外,量子玻尔兹曼机还可以用于生成概率分布、进行鉴别学习以及实现部分量子态层析等任务。

然而,尽管量子玻尔兹曼机在理论上具有显著的优势,但由于缺乏相应的特殊硬件支持,目前很难在标准测试集上进行实验验证。此外,相较于其他量子生成模型,量子玻尔兹曼机带来的近似误差是难以避免的,这也使得其相较于经典版本的优势难以明确说明。

量子玻尔兹曼机作为一种新兴的量子机器学习模型,展示了量子计算在加速深度学习训练方面的潜力,但其实际应用仍面临许多技术和硬件上的挑战。


本文转载自微信公众号:深观启元

1011
0
0
0
关于作者
相关文章
  • 诺奖背后的物理基因:玻尔兹曼机、伊辛模型与人工智能的跨世纪联 ...
    本文通过探讨Hinton和Hopfield获得诺贝尔物理学奖的事件,深入剖析了人工神经网络与物理学的紧密 ...
    了解详情 
  • 量子人工智能:推动行业变革的算法与应用前景 ...
    计算领域的进步正在重塑行业格局,并释放出前所未有的潜力。本文探讨了量子人工智能(QAI),即 ...
    了解详情 
  • 人工智能之Hopfield神经网络(HNN)
    了解详情 
  • 超强总结,支持向量机!!
    了解详情 
  • 量子计算赋能AI?量子机器学习,量子强化学习诞生强大的交叉学科 ...
    了解详情 
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看