微软亚洲研究院

HeurAgenix：大语言模型驱动的组合优化“全能教练”

已发布 2025年8月14日

分享这个页面

编者按：在物流规划、生产排程、能源调度等行业应用场景中，组合优化问题往往规模庞大、约束复杂，长期依赖专家手工调参的启发式算法已难以应对动态多变的现实需求。微软亚洲研究院最新提出的 HeurAgenix 框架，将大语言模型视作“全能教练”，为启发式算法带来了自进化与自适应的能力，并通过蒸馏压缩实现快速响应。HeurAgenix 不仅全面超越了现有 LLMs 超启发式方法，在多数任务中甚至优于专业求解器，为组合优化的通用化、智能化和实际落地开辟了新路径。

在复杂的现实世界中，许多关键的决策问题都可以抽象为组合优化（combinatorial optimization）。比如，物流公司需要在海量的路线中选择最优的运输路径；制造企业要在紧张的时间和资源约束下排定生产计划；电网运营商则需在不断变化的供需中优化能源调度。这类问题往往规模庞大、约束复杂，精确求解在计算上难以承受，因此产业界和学术界长期以来都依赖启发式算法来寻找近似最优解。

启发式方法以求解效率高见长，但它也存在明显短板——需要依赖专家不断调参来适配不同问题，泛化性差，且性能表现不够稳定。这些大大限制了它们在动态、多变的实际场景中的应用潜力。

依赖专家经验：算法设计与调参往往依赖专家经验，耗费较多时间；
泛化性差：传统启发式算法往往“一场景一写法”，适配新问题时需要重新调整，开发和维护成本极高；
效果受限：由于组合优化问题的复杂性，单一启发式算法通常力不从心，难以稳定高效求解。

为突破这些瓶颈，微软亚洲研究院的研究员们提出了 HeurAgenix，将大语言模型（LLMs）视作“总教练”，在平时对启发式算法这群“球员”进行持续“训练”，让其自动发现弱点并自我进化，且过程中无需专家干预；在求解阶段实时“排兵布阵”，灵活切换最优策略，确保解的稳定性与高效性；同时，研究员们将大模型的决策洞见蒸馏至轻量化模型，使得系统能够实现毫秒级响应，显著降低计算成本。

在多个经典问题上的实验表明，HeurAgenix 不仅能超越现有的、基于 LLMs 的超启发式方法，还在多数场景下超过了手工调参的专业求解器，展现出强大的通用性与实用价值。

HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

论文地址：https://arxiv.org/abs/2506.15196 (opens in new tab)

代码开源链接：https://github.com/microsoft/HeurAgenix (opens in new tab)

图1：HeurAgenix 主要流程

三大创新机制

HeurAgenix 的创新体现在三个方面：

自进化框架：提出数据驱动的启发式进化框架，无需先验知识和人工调参；
自适应调度：利用 LLMs 的状态感知能力，结合测试时缩放（TTS）技术，动态选出最优算法，在求解速度与解质量间取得较好的平衡；
轻量化蒸馏：提出“结果偏好＋状态感知”双重奖励机制，高效地将高阶模型的选择能力蒸馏到轻量级模型，提高响应速度。

让算法自己成长

为了彻底摆脱专家干预并提升算法性能，HeurAgenix 采用了一种纯数据驱动的演化方式：系统先运行现有的启发式算法得到一个基础解，并对该解做若干次轻微扰动以优化效果。接着借助 LLMs 分析是哪些变动带来了改进，并自动提出进化策略。反复多轮执行该流程后，算法会在不同数据上迭代出多样化且更高效的启发式，整个过程无需任何领域先验或人工干预。

即时切换最优策略

虽然演化能提升整体性能，但单一策略在不同阶段的泛化能力有限。为增强适应性，研究员们在求解过程中引入了实时切换机制：先借助 LLMs 的环境感知能力，从算法池中快速筛选出若干高潜力候选启发式，避免了对全池算法的耗时搜索；再利用测试时缩放技术，对这些候选启发式的潜在效果进行精细测算，保证最终决策的可靠性和高质量。LLMs 初步过滤避免了大规模搜索的耗时，而后续的模拟评估则保证了决策的可靠性。

高性能也能“轻装上阵”

研究员们还尝试将启发式选择策略蒸馏到小模型上，以在求解问题时缩减推理延迟和资源消耗。不同于如数学问题求解等其它场景，组合优化问题因其复杂性难以获取精确的训练数据，只能通过采样的方法获取不同状态下每个启发式算法的粗略评分。如果直接使用这些带噪声的训练信号，容易导致微调过程陷入不稳定。

针对这一难题，研究员们设计了双重奖励机制，充分利用带噪评分并确保训练阶段的稳定性：

结果偏好奖励：不直接使用绝对评分，而是按评分高低将启发式划分为若干等级，不同等级之间赋予明显不同的基线奖励，同等级内部则再用线性递减细分名次差异；
状态感知奖励：要求模型在做出选择的同时预测当前状态关键特征，预测正确加分、错误扣分，确保模型对环境有清晰的认知。

实验结果：性能与效率兼得

研究员们在多个经典组合优化问题（TSP、CVRP、MKP、JSSP、MaxCut）上测试了 HeurAgenix 的效果。如图2所示，基于 GPT-4o 的 HeurAgenix 能够超越现有的大语言模型的超启发式算法，甚至还在多数场景下超过了手工调参的专业求解器。而图3表明，经过双重奖励机制微调的小模型也能媲美主流大模型。

图2：基于 GPT-4o 的超启发式算法效果。x 轴为不同算法，y 轴为与最优解的差距（越低越好），灰色为专业求解器，黄色为其他基于语言模型的方法，最右侧 “Ours” 为 HeurAgenix 的方法

图3：TSP 问题上，不同模型在相同启发式池上选择的效果。x 轴为不同模型，y 轴是与最优解的差距（越低越好），灰色为主流模型，黄色为轻量模型，最右侧 “Ours + Qwen 7B” 是 HeurAgenix 方法蒸馏后的结果

应用前景：从实验室走向真实世界

研究员们相信，HeurAgenix 不仅在学术基准中表现优异，更具备在真实业务场景中落地的潜力。例如，在供应链路由问题中，它能实时优化路径并动态调度车辆，兼顾燃油成本与车队利用率；在智能制造的生产排程环节，它能在线切换启发式策略，应对设备切换和物料约束，显著提升设备综合效率（OEE）与柔性；在分布式能源与微网管理中，它能自动演化并调度算法，实现光伏发电、储能和负荷波动的多目标平衡；在城市交通与智慧物流领域，它能针对不同区域和时段进化最优调度方案，缓解拥堵，降低能耗；在云计算资源分配中，它能在线选取最佳负载均衡与调度策略，确保多租户、多任务场景下的高吞吐与低延迟等。

通过持续演化与在线调度，HeurAgenix 正迈向一个可广泛适配、灵活高效的组合优化新范式。