从“经验驱动”到“数据驱动”：QuBench 重构 QUBO 求解器 Benchmark 标准

QuBench · 发表于 1767077638

本帖最后由 QuBench 于 2025-12-30 14:53 编辑

量子计算与经典计算协同优化的浪潮下，QUBO（二次无约束二元优化问题）凭借简洁强大的数学结构，成为连接物流规划、金融组合、生物医药等领域组合优化问题的 “通用语言”，各类求解器应运而生。

但行业核心困境凸显：不同技术路线的求解器性能如何客观对比？求解表现如何量化？企业选型与研究者迭代均缺乏统一依据。关键症结在于现有 QUBO 求解器 Benchmark 工具存在明显短板 —— 经典问题集仅提供数据，无标准流程与指标；专项测试框架存在诸多局限性，如缺乏整体性能分析；厂商测试框架自带产品导向属性，没有统一测试规范，导致评估流于表面、各说各话。

而 QUBO 求解器 Benchmark 的核心价值，正是以标准化流程、量化指标与多维度场景，为这些问题提供 “科学答案”。新一代综合评测体系 QuBench，更精准补齐现有工具短板，以全面、公开、可验证、贴合产业需求的特性，成为破解行业乱象的关键，推动优化技术从 “经验驱动” 迈向 “数据驱动”。

行业现状与痛点：QUBO Benchmark 生态的多元性与局限性

当前 QUBO 求解器 Benchmark 领域已形成多类型工具共存的生态格局，不同工具基于定位差异，分别承担着基础数据支撑、全流程性能评估、产品特性展示等核心功能，但各自的局限性也成为行业发展的瓶颈。

（一）经典基础问题集：Benchmark 的 “底层数据基石”，缺乏评估流程

这类工具以标准化问题库为核心，为求解器性能测试提供了统一的 “测试素材”，是行业内应用最广泛的基础基准工具，构成了所有性能对比的前提。

1. 核心代表工具

2. 核心特点与局限

这类工具的核心优势在于问题定义清晰、数据格式统一，降低了基础性能对比的技术门槛，且多为开源免费、社区支持成熟。但短板也十分明显 —— 仅提供问题数据，缺乏统一的测试流程、核心评估指标以及系统的分析方案，无法直接输出量化的性能对比结果，需用户自行搭建测试框架。

（二）专项测试框架：聚焦多维度分析，缺乏综合对比能力

这类工具在基础问题集的基础上，进一步完善了测试流程、指标计算和结果分析功能，更侧重 “全流程性能评估”，是当前行业内性能对比的核心工具类型。

1. 核心代表工具

● Fixstars Amplify Benchmark：专为 QUBO 求解器设计的专项测试框架，支持量子退火机、伊辛机、数学优化求解器等多种类型工具的测试。框架内预设了 TSP、QAP、Max-Cut 等多种经典问题集，实现从测试执行到结果分析的全流程自动化。同时提供网页版结果可视化工具，能直观展示求解概率、TTS等关键指标，让性能表现一目了然。

图1：Fixstar Amplify Benchmark可视化

● IBM QOBLIB：由IBM联合其他机构发起的开源量子优化基准测试库，核心定位是为量子和经典优化算法提供测试框架，聚焦推动组合优化领域的量子优势探索。测试集包含十类优化问题，覆盖市场分割，网络拓扑，路径规划等场景，支持任意量子或经典优化技术接入测试，配套开源仓库和结果提交模板，支持全球研究者提交、追踪、和对比测试结果；

图2：QOBLIB测试集问题实例分布可视化

2. 核心特点与局限

Fixstar Amplify Benchmark 和 QOBLIB 提供了标准化的测试流程及丰富的指标体系，是连接经典与量子求解器的重要评估桥梁。但不足在于，这两个Benchmark的结果呈现均以单问题指标为主，缺乏对不同求解器的直接对比指标以及整体系统性能的分析框架，难以全面衡量求解器的综合表现。

（三）厂商专属测试方案：服务于产品展示的定制化方案，无统一标准及结果校验

这类测评框架由求解器厂商自主设计，核心定位是围绕自家产品特性设计针对性测试，专门用于凸显自身技术优势、佐证产品竞争力，是厂商向市场传递技术实力的核心展示载体。

1. 核心代表工具

● D-Wave Performance Benchmark：测试场景聚焦 Flow-Shop 调度、二次分配问题（QAP）、卫星部署等实际优化应用，核心通过 “优化差距（optimality gap）” 等指标，将其混合求解器与其他相关求解器进行定向对比，重点凸显量子退火技术在全局搜索效率、大规模组合优化问题适配等方面的核心优势，测试结果在其官方文档中公开呈现。

图3：D-Wave Benchmark 测试结果

● Fujitsu 数字退火器配套 Benchmark：专为富士通 Digital Annealer（DA）定制的测试方案，通过学术论文等形式公开测试成果。测试覆盖标准 QUBO 基准问题，系统评测 DA 的求解速度与解质量，并与经典求解器 Gurobi 进行直接对比，场景贴合工业级应用需求，为企业用户提供直观的性能参考依据。

图4：Fujitsu Benchmark 测试结果

2. 核心特点与局限

深度适配自家技术路线，测试场景贴近实际应用，能精准展示产品竞争力。但最大问题在于缺乏行业统一的测试标准与校验规则。各厂商的 Benchmark 测试方案往往偏向自身产品优势，难以客观反映不同技术路线的真实差距。同时，这类框架仅服务于自身产品展示，测试细节不公开、结果难以被第三方验证，无法满足行业对统一、公平评估标准的需求。

QuBench：破解行业痛点的新一代综合评测体系

面对现有工具的短板，QuBench 应运而生。它并非对现有工具的简单补充，而是一套全面、可验证、可落地的 QUBO 求解器综合评测体系，旨在填补行业标准化评测体系的空白。

（一）为什么要做 QuBench？

● 填补行业空白：解决现有工具 “缺统一标准、缺直接对比、缺公开可验证性” 的核心痛点，为整个 QUBO 求解器领域建立统一的性能评价基准，让性能对比从 “主观判断” 变为 “客观数据”。

● 推动技术迭代：让优化技术从 “经验驱动” 转向 “数据驱动”，帮助研究者明确优化方向，企业快速选型，加速量子计算技术在工业、金融等产业场景的可靠落地。

（二）QuBench 解决了什么问题？

● 统一标准，实现公平对比：构建了涵盖测试流程、指标定义、场景覆盖的标准化体系，让不同技术路线、不同厂商的求解器在同一 “赛道” 竞争，彻底改变 “各说各话” 的行业现状。

● 完善指标，全面量化性能：弥补了现有工具指标单一、缺乏对比性的不足，建立了 “单问题性能指标 + 整体性能指标 + 稳定性指标” 的三维体系，既关注单问题的解质量与效率，也重视求解器的综合表现与稳定性。

● 场景多元，贴合产业实际：测试集源于真实场景，覆盖无约束 / 有约束优化、玻尔兹曼机训练等多类型任务，且在比特规模、耦合密度、耦合精度等维度实现全覆盖，确保测试结果的实用性与代表性。

● 公开可验，保障通用适配：核心测试规则、流程与数据逻辑全公开，支持第三方重复验证与结果追溯，同时兼容各类 QUBO 求解器，满足行业对通用、可信评估工具的需求。

（三）QuBench 是什么？—— 全维度、标准化的综合评测方案

QuBench 是一套以 “客观定量评估 QUBO 求解器性能” 为核心目标的完整体系，具备以下核心部分：

1. 科学完善的指标体系

QuBench 构建了多层次、全覆盖的指标体系，既满足单问题的精准评估，也支持整体性能与稳定性的综合衡量：

单问题性能指标：

● 最优解耗时加速比：被测求解器相对于基准求解器的最优解耗时加速倍率，适用于追求最优解的场景。

● 目标解耗时加速比：被测求解器相对于基准求解器的目标解耗时加速倍率，适用于允许一定误差的场景。

整体性能指标：

● 成功率：求到目标解的矩阵占比。

● 成功矩阵几何平均加速比：针对求到目标解的矩阵，计算加速比的几何平均。

稳定性指标：

● 成功率变异系数：反映多次测试中成功率的波动程度，系数越小说明求解器越稳定。

● 几何平均加速比变异系数：反映多次测试中加速比的波动程度，系数越小说明求解器越稳定。

2. 多维度覆盖的测试集

● 测试集构建遵循 “选难题、可建模、源于真实场景、多维度覆盖、开源迭代” 五大原则，确保测试的全面性与实用性：

● 类型丰富：涵盖无约束优化（如 Max Cut）、有约束优化（如 TSP、CVRP、QAP、金融投资组合）、玻尔兹曼机训练问题等，均源于真实场景或权威 Benchmark 库。

● 维度覆盖全面：在比特规模、耦合密度、耦合精度三个核心维度实现全档位覆盖。

3. 评测结果示例

● 整体性能打分示例：

QUBO 求解器 Benchmark 是优化领域的核心基础设施，而 QuBench 则通过解决现有工具的核心短板，构建了更全面、公平、贴合产业需求的标准化体系，推动整个行业建立起统一的性能度量标准，让优化技术从 “经验驱动” 彻底转向 “数据驱动”。后续，QuBench 完整评测方案将随配套 SDK 正式发布，进一步降低使用门槛。

未来，随着测试集的持续丰富，QuBench 将进一步成为连接求解器研发、企业选型、产业落地的关键桥梁，降低行业适配成本，规范市场竞争秩序，加速 QUBO 技术在物流、金融、生物医药、芯片等领域的规模化应用，释放优化技术的巨大商业价值。

参考文献

【1】Fixstar Amplify BenchmarkGitHub - fixstars/amplify-benchmark: Benchmark framework for quantum annealing machines, Ising machines, and mathematical optimization solvers.

【2】Koch, Thorsten, et al. “Quantum Optimization Benchmarking Library: The Intractable Decathlon”, arXiv preprint arXiv:2504.03832v2, Aug. 2025, https://arxiv.org/pdf/2504.03832v2.

【3】D-Wave Performance BenchmarkPerformance Benchmarks — Project name not set documentation

【4】H. Kameyama, Y. Takita, M. Parizy, S. Sazawa, and P. Caballero, “Benchmarks for Digital Annealer with Quadratic Constrained Binary Optimization Problems,” in Proc. Genetic Evol. Comput. Conf. Companion, Jul. 2024, pp. 1954–1957, doi: 10.1145/3638530.3664114.https://doi.org/10.1145/3638530.3664114.