2.2 基于光量子计算的序列生成模型

随着数据生成需求的不断升级，图像、生物信息学序列、自然语言文本等复杂数据的生成任务对模型的效率、精度和资源消耗提出了更高要求。现有技术中，数据生成多依赖经典计算机构建的神经网络模型，其中，基于能量网络的模型（如玻尔兹曼机、受限玻尔兹曼机）因参数量小、可解释性强，在小样本数据生成场景中具备显著优势。

然而，基于能量网络的无条件约束数据生成模型存在一个核心技术瓶颈：模型的待采样变量采样问题属于NP-Hard问题，采用经典计算机进行采样（如Gibbs采样）时，存在计算复杂度高、采样效率低、样本偏差大等缺陷，导致模型训练收敛慢、生成数据质量差，难以适配大规模、高精度的数据生成需求。

序列生成模型的构建

本案例可广泛应用于能够转换为Ising模型的生成模型，包括但不限于玻尔兹曼机、受限玻尔兹曼机等经典生成模型。

本例以玻尔兹曼机（BM）举例，其具有对称的连接权重，且每个单元与自己无连接，每个神经元有两种状态: $s_{i} \in 0, 1$ ，玻尔兹曼机网络的能量函数为：

E = - \sum_{i = 1}^{N} \sum_{j = 1, i \neq j}^{N} W_{i j} S_{i} S_{j} - \sum_{i = 1}^{N} θ_{i} S_{i}

其中， $E$ 是由 $N$ 个节点状态组成的全连接系统的能量， $w_{i j}$ 是神经元 $i$ 和 $j$ 之间的权重， $θ_{i}$ 为神经元的系数， $s_{i}$ 为神经元的状态。该能量函数是模型映射至伊辛模型的核心依据，也是量子采样的能量计算基础。

玻尔兹曼机的神经元通常分为可见节点和隐藏节点，可见节点表示可观察的数据，隐藏节点表示数据之间的高维特征。玻尔兹曼机的模型分布（全局概率分布） $p (v)$ 由可见节点 $v$ 和隐藏节点 $h$ 的联合分布求和得到，计算公式为：

p (v) \sum_{h} p (v, h) = \frac{1}{Z} \sum_{h} e^{- β E (v, h)}

其中， $Z$ 为归一化常数，用于确保所有状态的概率之和为1， $β$ 为玻尔兹曼常数， $E (v, h)$ 为可见节点状态 $v$ 和隐藏节点状态 $h$ 共同构成的系统能量，该全局概率分布是训练阶段采样的核心依据。

考虑一组数据集 $D = {v_{1}, v_{2}, \dots, v_{N}}$ ，每个数据状态以 $q (v_{k}) for all k \in {1, \dots, N}$ 的概率存在，通过比较模型分布和数据分布之间的差别衡量模型性能：

D_{K L} (q ∥ p; θ, β) = - \sum_{v \in {v_{1}, . . ., v_{N}}} q (v) \ln \frac{p (v; θ, β)}{q (v)}

采样的实现

由于从给定玻尔兹曼机权重下采样数据为NP-Hard问题，可用多种采样方法进行近似采样，如Gibbs采样。

本案例将采样问题转化为伊辛矩阵的求解问题，并使用相干光量子计算机完成。具体来说，对于具有 $m$ 个节点的玻尔兹曼机网络，构建一个权重矩阵 $M$ ，该矩阵为 $m + 1 \times m + 1$ 的对称矩阵，基于该矩阵将模型的待采样变量的采样问题映射为伊辛模型的求解问题。该转化过程可以由数字计算机中的训练器执行，是量子采样的前置步骤，确保相干光量子计算机可对采样问题进行高效求解。

转化后的伊辛模型的能量函数为：

E_{θ} (z) = \sum_{i} z_{i} h_{i} + \sum_{i < j} J_{i j} z_{i} z_{j}

其中 $z$ 表示 $N$ 个变量的二值组合状态， $E_{θ} (z)$ 表示在参数 $θ$ 下状态 $z$ 的能量， $z_{i}$ 和 $z_{j}$ 分别取值1或者-1，对应变量 $i$ 和 $j$ 的状态，并借助相干光量子计算机进行基于能量的玻尔兹曼采样。

生成模型的训练

生成模型的参数优化采用基于梯度的技术来执行，梯度估计为：

\frac{\partial D_{(} q ∥ p)}{\partial θ_{j}}

其中 $D$ 为相似度度量， $q (v)$ 为数据分布，是已知量， $p (v)$ 为模型分布。以 $D$ 为 $D_{K L}$ （KL散度，Kullback-Leibler Divergence）为例：

\frac{\partial D_{KL} (q ∥ p)}{\partial θ_{j}} = - \sum_{v \in {v^{1}, \dots, v^{N}}} q (v) \frac{\partial}{\partial θ_{i}} (\ln \frac{p (v)}{q (v)})

使用该方式，可得到 $p (v)$ ，从而按照梯度更新参数。

具体场景实现

本案例在5’端非翻译区（5’Untranslated Regions，以下简称5’UTR）序列的生成这一真实场景进行。

5’UTR从信使核糖核酸（message Ribonucleic Acid，以下简称mRNA）起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子，其设计直接影响mRNA的翻译效率及稳定性。这就要求科学家们在设计新mRNA时，确保5’UTR的优化，以达到最佳表达状态。

替代文本

生物序列生成示意图

使用 $N$ 将不等长的序列全部补齐至100长度，然后使用One-hot编码序列，如：{'A': 00001, 'T': 00010, 'G': 00100, 'C': 01000, 'N': 10000}，最终将每条序列表示为500维的二值向量。

本案例使用9131条长度100及以内的5’UTR、使用one-hot编码（训练包含500个可见节点和100个隐藏节点的玻尔兹曼机（总参数量为180300，0.18M）。

新生成序列示例：

'TTGTCCGTCGCGAGGCGGCAGCAGGAACACAGTTTGCAAGAGTCGCGTGGAGCAAAAGCGGTGCTTTCTAGAAAAAAGCCAAAACGCCAGCGGAAATAAA',

'AAGTGCGCGGCTCGGGGGAGTCACGACAGTGCAGGGAAAGGTGAGCAGATGAGAGACAGGCGGGGCTGTGACGAGCCACTCCAGAGCCGTTGCATCTTTC',

'CAGTCGGAAGGTGCAGGGGCCTCTGAACCTGGTGTCCTCCCCGTCAGTAGGGGTCCCGGGCTCCCCTCGAGCAAGGTGCGAAAAATTCCACGCCAATACA',

'CTGTGCCGCTCGAGAGGGGGCGAGCAGCGGACTGTGCGCGGGTGGCGTAGGGGCAGAGCGGTGGTGTCTAGAAAAGTACGCAACACTCAGAAAAAGAAAC',

'CCCTCGGAGGGTCCTGAGCCCTAGCATCTCATTTACCGCCGAGTCAGTGTTGATCTCAGGGTGCCATCTTGTTAGGAACCAAAAATCCCGAGACTTAACC',

'GCCCCGCCCTTTCCTCCCCCCCAGCCCTTCACCCTCCGCCGGGCCTGTGGGCCTCCGCCGCGGCCCGCCTGCAGCGCCCGAGCCGGCCCCTCCGGGCACT',

'TTCTCCGCGGCTGCGCTGGCCCAGGACGGCGTTTTACTCTCTGCGGCTCCGCCGAGGACGGAGCTGTGTTCAGGAAAACCCAGAAGCCAGCTGAAATCGC',

'CAGTCCCCGGCTGAGGCGGACGAGGAAGGTCTTTTGTTCTGAGCCCTGCTTGCGTGAAAGGTCCTGTGCTCTGGAATAGTCAAACAACTGAAGCAAAAAA',

'CTGTCTGGGGAGCGGCCGCGCTGGGACCACGGTGGTCGCGGCGCCAGGCGTCCGAAAAAGATGAGCCGTAGAAGAAGGTCAAGATGCAAGCGAAAATAAA',

'CCCTCGCGCGGTTCTGACGCCCCGCAGCCCCTCGGCCCCCAAGCCCGTGGAGCTCTGGCAGTGCTTTCTTGGAACGCCCGAGACTTCCCCCGGTGACACC',

'GCCTCGGCCGCTGCCGCGGCCCAGGCACATGGATGCCCAGAGGCCCTGGCAGCGACAAAACCGAGTCCCTCACCAGTGCCAGAACCGCAGCTGCAACAAG',

'CCCTCGGAGGGTGCAGCGGCCTAGGAACTGCGTTTGCTCCGAGCCAGAGGTGGTCCAGCGGTGCGGTGAACCAAGTTGCTAAAAGCTCTGAGACAATACA',

'CTTTGGGAAGGTTGTGTGCCTTAACAACTCAATAATCGAGAAGTCAGTGTTGATCTAAGAGTCGCATCTTGCGAAGTGCCAGAAATCCAAAGGTATAACC',

'CCGTACGCCGGTGCCGCGAGCAAACACTGTGCTGTTGACAGCGGCCTTTTGACTTGCTCGTTCCTCTCTTCCGGACTGGTCAAAGTTCTGAAAGTTTGTA',

'CCGTCCCCGGCGGGGGCGGCCGCGGACCGGGCTTTGCGCCGGGGCCCACGTCCCTCGGCGGTGCTGTCTTCTCGACTCGCCAAAGCTCAGAAAAAATGAA',

'CCTTCCGGGGCGGGGGAGGCCGAGGACCGGGTTTGGAGTGGAGGCAGGAGCGGAAAAGAGGTGCGGTGTGCTCAAGTGCCCAAACCAAAGAAAAAGAACC'。

优势：

（1）参数量小、所需训练数据少：采用玻尔兹曼机/受限玻尔兹曼机作为无条件约束数据生成模型，相较于传统多层深度学习模型，参数量大幅减少，进而降低了模型训练所需的训练数据量，减少了数据采集和标注成本；

（2）可解释性强：模型基于能量函数建模，通过可见节点和隐藏节点的关联可清晰追溯生成结果的逻辑来源，解决了传统深度学习模型可解释性差的痛点，便于技术优化和问题排查；

（3）资源消耗低、训练效率高：通过量子-经典混合计算框架，将高复杂度的采样问题交由相干光量子计算机执行，突破了经典采样的NP-Hard复杂度瓶颈，无需消耗大量GPU资源，同时提升采样效率和训练效率，缩短模型训练周期；

（4）生成速度快、生成质量高：相干光量子计算机的高效采样能力，可实现快速靶向采样，推理阶段可快速生成无条件约束的全新样本；同时，通过训练阶段的迭代优化，模型全局概率分布可充分逼近真实数据分布，结合推理阶段的样本筛选逻辑，确保生成样本的合理性和高质量。

案例代码可参考：https://github.com/qboson/kaiwu-pytorch-plugin/tree/main/example/bm_generation

1.1 量子计算介绍

1.2 相干光量子计算机

1.3 Ising（伊辛）模型＆QUBO模型

1.4 Kaiwu SDK使用指南

1.5 云服务&经典求解器

组合优化

2.1 TSP实例建模教学

2.2 新手教程

案例解析合集

2.3 QUBO建模处理约束问题

2.4 QUBO建模调整惩罚系数

2.5 QUBO建模处理降次问题

量子采样

2.1 量子采样基础

2.2 使用指南

3.1 适配参数精度（8bit整数）

4.1 组合优化论文解读

量子＋运筹优化

生物制药

电力

4.2 量子采样论文解读

4.3 优秀论文库

2.2 基于光量子计算的序列生成模型

序列生成模型的构建

采样的实现

生成模型的训练

具体场景实现

优势：

2.1 TSP实例建模教学

2.2 新手教程

案例解析合集

2.3 QUBO建模处理约束问题

2.4 QUBO建模调整惩罚系数

2.5 QUBO建模处理降次问题

2.1 量子采样基础

2.2 使用指南

量子＋运筹优化

生物制药

电力

2.2 基于光量子计算的序列生成模型 ​

序列生成模型的构建 ​

采样的实现 ​

生成模型的训练 ​

具体场景实现 ​

优势： ​

2.2 基于光量子计算的序列生成模型

序列生成模型的构建

采样的实现

生成模型的训练

具体场景实现

优势：