DeepMind最新成果:能打数学竞赛的AI,还差点拿金牌
DeepMind打造的AlphaProof在2024年国际数学奥林匹克上达到接近金牌的水平,显示出AI正在学会真正的数学推理。这项突破来自全新的训练方式,也暴露出巨大的算力成本与局限。
计算机在数字世界里如同天神,但在数学竞赛中,过去一直像是刚入学的新生。它们能瞬间完成复杂计算,却很难摸清证明背后的逻辑结构。真正的数学需要理解,需要洞察,需要像人一样搭建推理的阶梯。也因此,哪怕是高中水平的数学竞赛题,它们过去也常常败下阵来。
DeepMind的AlphaProof改变了局面。它在2024年国际数学奥林匹克上拿下与银牌选手相当的分数,只差一分就能拿金牌。这是一次意义非凡的突破。
人类之所以能做数学,是因为我们懂得规则如何生长。数学证明不是简单的步骤堆叠,而是一种结构优雅的艺术。Bertrand Russell曾为了一加一等于二写下五百页内容,数学家们总是以这种精细的方式确认概念和推理。而计算机此前并不理解这种结构,只能按模式猜测答案。
为了让AI真正“懂”数学,DeepMind需要一种比自然语言更严格的训练方式。他们选中了Lean,一个能将数学语言形式化的软件。数学家们可以把自然语言写成的定义与定理翻译成Lean语言,再让系统验证哪些步骤正确,哪些部分缺失。
但互联网上大多数数学资料都不是用形式语言写成的,Lean语料极少。为了解决数据缺乏,研究团队训练Gemini模型,把海量数学文本自动翻译成Lean版本,生成了八千万条形式化表达。虽然不完美,但这些带瑕疵的语料反而为AI提供了大量试错机会。
接下来,DeepMind把AlphaZero的框架搬了过来,把“做数学”视为一种游戏。AI通过不断在Lean环境里尝试、失败、再尝试,逐渐学会如何构建证明。它的神经网络会因为成功证明或反驳一个命题得到奖励,而推理步骤过多则会受到惩罚,逼它寻找更短更优雅的路径。与此同时,树搜索算法帮助它在几乎无限的可能步骤里挑出最有前途的路线。
几周训练后,它能解决大部分高中竞赛级难题。然而面对最难的问题,它依然会卡住。为此,团队加入了第三个关键组件,叫做测试时强化学习TTRL。它模拟人类解决难题的方式。不理解某个命题时,先把它改写成更简单的版本,或更一般的版本,或者干脆生成一大堆相关但难度不一的变体,再逐一练习。AI在这些“衍生问题”中磨炼直觉,从而更高效地理解核心难题。
TTRL的加入使AlphaProof像人一样“热身”,并最终攻破了奥赛第六题。那是整张试卷的“终极Boss”,六百多人里只有六名选手解决。AlphaProof成为第七个。
不过,这个“银牌”背后有成本。AI不会自己准备题目,人类先要把竞赛题翻译成Lean格式。另外,第四题是几何题,AlphaProof能力有限,它不得不求助另一个模型AlphaGeometry 2。独立作战时,它只能拿二十一分,属于铜牌区。而且,它花费了数天时间与巨量算力来完成这些题。如果按奥赛选手的时间限制,它显然撑不住。
运行AlphaProof的成本也极高。它需要数百个TPU日的计算资源才能处理一道题。对大多数研究团队来说,这几乎是无法承担的。何况奥赛题目属于现有知识范围,而真正的数学研究要求发明全新概念,难度远远超过竞赛。
尽管挑战重重,DeepMind依然认为未来可期。他们希望把AlphaProof优化得更高效,也希望它能成为数学研究的真正伙伴。团队计划将部分工具向研究者开放,作为一个小规模的测试项目,让数学界探索它的潜力。
