AI的“创意”是假象?生成模型背后的秘密
AI生成图像的创意并非奇迹,而是数学公式的副产品。
图像生成器看似拥有“创造力”,但它们的设计初衷只是模仿训练图像。那么,这些看起来像“即兴创作”的内容究竟从哪儿来?一项新研究表明,这种“创意”其实是它们架构中不可避免的副产品。
过去我们曾幻想自动驾驶汽车和机器人管家,如今却是AI能下围棋、分析海量文本、甚至写出莎士比亚风格的十四行诗。事实证明,对人类来说轻而易举的体力活,对机器人却异常困难;而复杂的思维任务,算法却逐步掌握。
研究人员一直困惑的一点是:这些算法展现出的奇特创造力从何而来?
像DALL·E、Imagen、Stable Diffusion这样的图像生成工具背后,是被称为“扩散模型”的算法,它们本该只是重复生成训练图像的副本。但在实际应用中,它们经常“即兴发挥”,将图像元素混搭,生成看似原创、具备语义的全新图像。正如巴黎高等师范学院的AI研究者兼物理学家Giulio Biroli所说:“如果这些模型运转完美,它们只会记住数据。但实际上,它们能产生新内容。”
扩散模型通过一种叫“去噪”的过程生成图像。这个过程先将图像打散成杂乱像素(相当于变成数字噪声),再一点点重构回来。你可以想象是把一幅画反复碎纸机处理,直到只剩尘埃,然后再拼回去。问题来了:如果只是在还原原图,那这些新图像的“新意”又从何而来?为何能把碎纸拼成完全不同的艺术品?
现在,两位物理学家提出了一个惊人观点:扩散模型中的技术“不完美”恰恰是“创意”的来源。在即将于2025年国际机器学习大会上发表的一篇论文中,他们构建了一个数学模型,证明这种所谓的创造力,其实是架构决定的必然结果。
这项研究不仅揭示了扩散模型的“黑箱”,也可能为未来AI发展,甚至我们自身的创造力提供新视角。荷兰拉德堡德大学的计算机科学家Luca Ambrogioni认为:“论文真正的强项在于,它能精确预测一个极为复杂的现象。”
创意源于混乱
Stanford大学应用物理博士生、论文第一作者Mason Kamb,从小就对“形态生成”(morphogenesis)着迷,这是一种解释生物体如何从无序细胞中自动长出器官与四肢的理论。
比如,人类胚胎如何长出五根手指?答案之一是“图灵图案”——由数学家Alan Turing提出的模型。它描述了一种没有中央指挥的局部协调机制:每个细胞并不掌握完整蓝图,而是靠邻近细胞信号做出微调。大多数时候,这种“自底向上”的协调系统运作顺畅,但偶尔也会出错,比如长出六根手指。
当最早的AI图像出现时,其中不少看起来就像失败的超现实主义作品,比如长了多根手指的人类形象,这立刻让Kamb联想到形态生成。“那种错误的气息,像极了自底向上系统的失控。”
AI研究人员早就知道,扩散模型生成图像时使用了两个关键“捷径”:其一是“局部性”原则——每次只关注图像中的一个像素小块;其二是“平移等变性”——哪怕输入图像移动几个像素,输出图像也会自动调整以匹配这一变化。这两种特性让模型能保持图像的整体连贯结构,是生成真实感图像的关键。
然而,这种生成机制有个盲点:模型不在意某个像素块最终会放在图像的哪个位置,它只关心如何逐块生成,再用一个被称作“评分函数”的数学机制将它们拼合起来。这个评分函数,其实就像一种数字版的图灵图案。
长期以来,这种局部性和平移等变性被当作扩散模型的“缺陷”,认为它们阻碍了模型生成完美副本。没人曾将它们与“创意”联系起来,因为创造力被视为更高层次的现象。
但这一次,他们又错了。
AI的灵感从哪里来?
2022年,Kamb进入Stanford物理学家Surya Ganguli的实验室,同时也是ChatGPT发布的那一年。生成式AI迅速爆红,研究人员却仍执着于理解AI的“内在机制”。
Kamb逐渐形成一个大胆的猜想:局部性和平移等变性,正是创造力的源头。于是他设计了一个实验模型,只保留这两个特性,看看是否能模仿扩散模型的行为。这项实验最终成为新论文的核心。
他与Ganguli将这一系统命名为“等变局部评分机”(ELS machine)。它不是传统的训练模型,而是一套纯数学方程,可以仅凭局部性和平移规则预测去噪图像的组成。他们用一组被转化为噪声的图像,分别通过ELS和一些强大的扩散模型(如ResNet、UNet)进行处理。
结果令人震惊。Ganguli表示,ELS与训练模型输出图像之间的相似度高达90%,这种准确率在机器学习领域几乎前所未见。
这验证了Kamb的假设:“只要强加局部性,‘创造力’就会自然而然地涌现出来。”模型之所以生成怪异图像,比如多根手指,就是因为它们在“只看局部”的机制下缺乏全局把控力。
尽管如此,专家们也指出,这项研究只是揭示了扩散模型创造力的一部分。比如,大型语言模型也展示出创造力,但它们并不使用局部性和平移等变性。
Biroli说:“这当然是故事的重要组成,但远不是全部。”
人类与AI的共同盲区
这是第一次,研究者用数学方式解释了扩散模型中的创造力,甚至可以精准预测它何时出现。这种机制就像让一群艺术家进了核磁共振仪,最终发现他们大脑中的共同“灵感公式”。
这个类比不仅仅是比喻。Kamb与Ganguli的工作,也许还能帮助我们理解人类大脑的“黑箱”。Georgia理工学院的机器学习研究者Ben Hoover指出,人类和AI的创造力可能并没有那么不同。
“我们创造东西,靠的是经历、梦想、所见所闻和欲望。AI也是根据它‘见过’的东西来组装新的内容。”他认为,人类和AI的创造力,可能都源自对世界的“认知不完整”。我们拼拼凑凑,只是试图填补那些空白,而偶尔,这些拼贴正好成了一件有价值的新作品。
或许,这正是所谓的“创造力”。