开发量子 Transformer 分为三个步骤。
首先,在接触任何量子硬件之前,他们需要为 Transformer 设计一个量子电路,即一个量子程序的“代码”。
他们制作了三个版本,理论上讲,每个版本都可以像数学所证明的那样,能够比经典 Transformer 更有效地集中注意力。
接下来,借助数学层面的理论支撑,研究者在量子模拟器(一种在经典硬件上运行的量子比特模拟器)上测试了他们的设计。模拟器能够规避干扰当下量子计算机的真实因素,比如热、电磁波等其他干扰,不至于使量子比特出现混乱或失效。
在模拟器上,每个量子 Transformer 对一组视网膜图像进行分类,准确度在 50% 到 55% 之间,高于将视网膜图像随机分为五个类别之一所达到的 20% 准确度。这与具有更复杂网络的两个经典 Transformer 所达到的精度水平(53% 到 56%)大致相同。
在此之后,科学家们才能进行第三步:在 IBM 量子计算机真机上运行他们的 Transformer,每次使用 6 个量子比特。结果显示,三个量子 Transformer 仍然呈现出 45% 到 55% 的准确度。
六个量子比特并不多,所以一些研究人员认为,要让一个可行的量子 Transformer 足以与谷歌的 Gemini 或 OpenAI 的 ChatGPT 等聊天机器人巨头相媲美,计算机科学家就必须创建出一个使用数百量子比特的代码。尽管这种规模的量子计算机已经存在,但由于涉及干扰和其他潜在错误,故而设计一个相对规模巨大的量子 Transformer 还不切实际。(尽管研究人员尝试了更多的量子比特数量,但没有看到同样的成功。)
Jonas Landman 并不是唯一从事 Transformer 研究的团队。去年,IBM Thomas J. Watson 研究中心的研究人员,提出了一种量子版本的 Transformer,称为图 Transformer。在澳大利亚,Ferrie 团队也设计出一种 Transformer 量子电路概念。该团队仍致力于研究 QC Ware 通过的第一步:在试验之前对设计进行数学测试。
但话又说回来,假设真的存在一台具有 1000+ 量子比特的可用量子计算机,并且能以某种方式将干扰保持在最低水平。那么,量子 Transformer 是否总是具有优势?
也许不是。将量子 Transformer 和经典 Transformer 直接对比并不明智,因为二者可能各有各的优势。
一方面,经典计算机成熟度高,且易于吸引投资。量子计算公司 Xanadu 的软件主管 Nathan Killoran 表示:“即使量子计算技术日趋成熟,但量子计算机也还需要很多年才能扩展到成熟可用的程度,而经典计算机在此期间也不会停止发展。经典机器学习是如此强大且资金充足,以至于在我们的有生之年,用量子计算等新兴技术完全取代它,可能并不是一件值得的事。”
另一方面,量子计算机和经典机器学习都有各自擅长处理的问题类型:现代深度学习算法可以检测其训练数据中的模式,量子比特则有可能学习编码相同的模式,只是目前尚不清楚它们是否最适合这项任务。
这是因为当一个问题是“非结构化”的时候,意味着数据一开始就没有明确的模式使其被查找到,就好比在电话簿中查找一个未参照字母排序及其他任何排序方法的名字,而量子计算机可以在经典计算机所需时间的平方根内找到该单词。
在“量子计算+人工智能”这一竞争激烈的前沿领域,中国研究人员也取得了突破。清华大学李升波教授在不久前就提出了多层神经网络的伊辛训练算法,使用北京玻色量子科技有限公司自研的“天工量子大脑”量子计算机真机,完成了算法验证并取得了训练成功。这也是国际上首个使用相干伊辛机 (CIM) 的深度学习训练算法,是量子计算设备用于神经训练领域的一大突破,为 AI 时代的模型训练提供了另一种可能路径。
尽管经典计算机和量子计算机各有优势,但好的一点是,他们并不互斥。
许多量子研究人员认为,量子 Transformer 的理想位置是作为经典-量子混合系统的一部分。比如量子计算机能够处理如化学和材料科学领域中更为棘手的问题,而经典系统可以处理大量数据。
此外,在生成数据方面,量子系统也被证明是有价值的,例如解密的密钥,或者尚未被发现材料的属性。这两者对经典计算机来说很难实现,但它们反过来却可以帮助训练经典 Transformer 执行当下很难完成的任务。
不仅如此,量子 Transformer 还可能会带来更多好处,比如节能。
以目前的使用规模来看,传统 Transformer 的能源消耗量过大,以至于美国公用事业公司维持碳排放燃煤电厂的正常运行,仅仅是为了满足新数据中心的电力需求。相比之下,量子 Transformer 更为精简、高效,可以显著减轻能源负荷。