量子计算与经典计算协同优化的浪潮下,QUBO(二次无约束二元优化问题)凭借简洁强大的数学结构,成为连接物流规划、金融组合、生物医药等领域组合优化问题的 “通用语言”,各类求解器应运而生。
但行业核心困境凸显:不同技术路线的求解器性能如何客观对比?求解表现如何量化?企业选型与研究者迭代均缺乏统一依据。关键症结在于现有 QUBO 求解器 Benchmark 工具存在明显短板 —— 经典问题集仅提供数据,无标准流程与指标;专项测试框架存在诸多局限性,如缺乏整体性能分析;厂商测试框架自带产品导向属性,没有统一测试规范,导致评估流于表面、各说各话。
而 QUBO 求解器 Benchmark 的核心价值,正是以标准化流程、量化指标与多维度场景,为这些问题提供 “科学答案”。新一代综合评测体系 QuBench,更精准补齐现有工具短板,以全面、公开、可验证、贴合产业需求的特性,成为破解行业乱象的关键,推动优化技术从 “经验驱动” 迈向 “数据驱动”。
行业现状与痛点:QUBO Benchmark 生态的多元性与局限性
当前 QUBO 求解器 Benchmark 领域已形成多类型工具共存的生态格局,不同工具基于定位差异,分别承担着基础数据支撑、全流程性能评估、产品特性展示等核心功能,但各自的局限性也成为行业发展的瓶颈。
(一)经典基础问题集:Benchmark 的 “底层数据基石”,缺乏评估流程
这类工具以标准化问题库为核心,为求解器性能测试提供了统一的 “测试素材”,是行业内应用最广泛的基础基准工具,构成了所有性能对比的前提。
1. 核心代表工具
2. 核心特点与局限
这类工具的核心优势在于问题定义清晰、数据格式统一,降低了基础性能对比的技术门槛,且多为开源免费、社区支持成熟。但短板也十分明显 —— 仅提供问题数据,缺乏统一的测试流程、核心评估指标以及系统的分析方案,无法直接输出量化的性能对比结果,需用户自行搭建测试框架。
(二)专项测试框架:聚焦多维度分析,缺乏综合对比能力
这类工具在基础问题集的基础上,进一步完善了测试流程、指标计算和结果分析功能,更侧重 “全流程性能评估”,是当前行业内性能对比的核心工具类型。
1. 核心代表工具
● Fixstars Amplify Benchmark:专为 QUBO 求解器设计的专项测试框架,支持量子退火机、伊辛机、数学优化求解器等多种类型工具的测试。框架内预设了 TSP、QAP、Max-Cut 等多种经典问题集,实现从测试执行到结果分析的全流程自动化。同时提供网页版结果可视化工具,能直观展示求解概率、TTS等关键指标,让性能表现一目了然。

图1:Fixstar Amplify Benchmark可视化
● IBM QOBLIB:由IBM联合其他机构发起的开源量子优化基准测试库,核心定位是为量子和经典优化算法提供测试框架,聚焦推动组合优化领域的量子优势探索。测试集包含十类优化问题,覆盖市场分割,网络拓扑,路径规划等场景,支持任意量子或经典优化技术接入测试,配套开源仓库和结果提交模板,支持全球研究者提交、追踪、和对比测试结果;

图2:QOBLIB测试集问题实例分布可视化
2. 核心特点与局限
Fixstar Amplify Benchmark 和 QOBLIB 提供了标准化的测试流程及丰富的指标体系,是连接经典与量子求解器的重要评估桥梁。但不足在于,这两个Benchmark的结果呈现均以单问题指标为主,缺乏对不同求解器的直接对比指标以及整体系统性能的分析框架,难以全面衡量求解器的综合表现。
(三)厂商专属测试方案:服务于产品展示的定制化方案,无统一标准及结果校验
这类测评框架由求解器厂商自主设计,核心定位是围绕自家产品特性设计针对性测试,专门用于凸显自身技术优势、佐证产品竞争力,是厂商向市场传递技术实力的核心展示载体。
1. 核心代表工具
● D-Wave Performance Benchmark:测试场景聚焦 Flow-Shop 调度、二次分配问题(QAP)、卫星部署等实际优化应用,核心通过 “优化差距(optimality gap)” 等指标,将其混合求解器与其他相关求解器进行定向对比,重点凸显量子退火技术在全局搜索效率、大规模组合优化问题适配等方面的核心优势,测试结果在其官方文档中公开呈现。

图3:D-Wave Benchmark 测试结果
● Fujitsu 数字退火器配套 Benchmark:专为富士通 Digital Annealer(DA)定制的测试方案,通过学术论文等形式公开测试成果。测试覆盖标准 QUBO 基准问题,系统评测 DA 的求解速度与解质量,并与经典求解器 Gurobi 进行直接对比,场景贴合工业级应用需求,为企业用户提供直观的性能参考依据。

图4:Fujitsu Benchmark 测试结果
2. 核心特点与局限
深度适配自家技术路线,测试场景贴近实际应用,能精准展示产品竞争力。但最大问题在于缺乏行业统一的测试标准与校验规则。各厂商的 Benchmark 测试方案往往偏向自身产品优势,难以客观反映不同技术路线的真实差距。同时,这类框架仅服务于自身产品展示,测试细节不公开、结果难以被第三方验证,无法满足行业对统一、公平评估标准的需求。
QuBench:破解行业痛点的新一代综合评测体系
面对现有工具的短板,QuBench 应运而生。它并非对现有工具的简单补充,而是一套全面、可验证、可落地的 QUBO 求解器综合评测体系,旨在填补行业标准化评测体系的空白。
(一)为什么要做 QuBench?
● 填补行业空白:解决现有工具 “缺统一标准、缺直接对比、缺公开可验证性” 的核心痛点,为整个 QUBO 求解器领域建立统一的性能评价基准,让性能对比从 “主观判断” 变为 “客观数据”。
● 推动技术迭代:让优化技术从 “经验驱动” 转向 “数据驱动”,帮助研究者明确优化方向,企业快速选型,加速量子计算技术在工业、金融等产业场景的可靠落地。
(二)QuBench 解决了什么问题?
● 统一标准,实现公平对比:构建了涵盖测试流程、指标定义、场景覆盖的标准化体系,让不同技术路线、不同厂商的求解器在同一 “赛道” 竞争,彻底改变 “各说各话” 的行业现状。
● 完善指标,全面量化性能:弥补了现有工具指标单一、缺乏对比性的不足,建立了 “单问题性能指标 + 整体性能指标 + 稳定性指标” 的三维体系,既关注单问题的解质量与效率,也重视求解器的综合表现与稳定性。
● 场景多元,贴合产业实际:测试集源于真实场景,覆盖无约束 / 有约束优化、玻尔兹曼机训练等多类型任务,且在比特规模、耦合密度、耦合精度等维度实现全覆盖,确保测试结果的实用性与代表性。
● 公开可验,保障通用适配:核心测试规则、流程与数据逻辑全公开,支持第三方重复验证与结果追溯,同时兼容各类 QUBO 求解器,满足行业对通用、可信评估工具的需求。
(三)QuBench 是什么?—— 全维度、标准化的综合评测方案
QuBench 是一套以 “客观定量评估 QUBO 求解器性能” 为核心目标的完整体系,具备以下核心部分:
1. 科学完善的指标体系
QuBench 构建了多层次、全覆盖的指标体系,既满足单问题的精准评估,也支持整体性能与稳定性的综合衡量:
单问题性能指标:
● 最优解耗时加速比:被测求解器相对于基准求解器的最优解耗时加速倍率,适用于追求最优解的场景。
● 目标解耗时加速比:被测求解器相对于基准求解器的目标解耗时加速倍率,适用于允许一定误差的场景。
整体性能指标:
● 成功率:求到目标解的矩阵占比。
● 成功矩阵几何平均加速比:针对求到目标解的矩阵,计算加速比的几何平均。
稳定性指标:
● 成功率变异系数:反映多次测试中成功率的波动程度,系数越小说明求解器越稳定。
● 几何平均加速比变异系数:反映多次测试中加速比的波动程度,系数越小说明求解器越稳定。
2. 多维度覆盖的测试集
● 测试集构建遵循 “选难题、可建模、源于真实场景、多维度覆盖、开源迭代” 五大原则,确保测试的全面性与实用性:
● 类型丰富:涵盖无约束优化(如 Max Cut)、有约束优化(如 TSP、CVRP、QAP、金融投资组合)、玻尔兹曼机训练问题等,均源于真实场景或权威 Benchmark 库。
● 维度覆盖全面:在比特规模、耦合密度、耦合精度三个核心维度实现全档位覆盖。
3. 评测结果示例
● 整体性能打分示例: