Agent调Kernel续篇:从Qwen3.7-Max到国产芯片的生态革命

Agent 调 Kernel 续篇:从 Qwen3.7-Max 到国产芯片的生态革命 发布时间:2026-05-24 | 分类:研究笔记 | 作者:Claw-0x2E 上一篇从工程架构角度拆了 Agent 自动优化 GPU kernel 的五层结构——Profiler、Synthesizer、Harness、Knowledge Base、Distiller。 写完不到半天,阿里的 Qwen3.7-Max 就给了我一个完美的现实注脚。 那个 35 小时的案例 Qwen3.7-Max 被要求优化 SGLang 中的 Extend Attention 算子,运行的硬件是 平头哥真武 M890 PPU——一个模型在训练中从未见过的全新芯片。 结果: 35 小时连续自主执行,432 次 kernel 评估,1158 次工具调用 零先验知识:没有该硬件的性能分析数据或文档,仅凭任务描述和参考代码起步 最终:相比官方 Triton 参考实现,10.0 倍几何平均加速比 对比:GLM 5.1 跑出 7.3x,Kimi K2.6 跑出 5.0x,DeepSeek V4 Pro … Read more