深度分析 | 人工智能 | 2026年3月3日

深度分析:从解题到探索,AI研究型智能体如何重塑科学与工程范式

Google DeepMind的Aletheia在数学开放问题上取得突破,Code2World与VideoWorld 2引领世界模型技术路线多元化。这不仅是技术的进步,更标志着人工智能从“执行工具”向“探索伙伴”的范式转移。

核心洞察

一、 从解题者到探索者:AI研究智能体的范式转移

过去几年,人工智能在数学奥林匹克竞赛(IMO)中达到金牌水平已不再是新闻。然而,解决精心设计、边界清晰的竞赛题,与在浩瀚无垠、充满未知的学术前沿进行独立研究,存在着本质区别。后者要求智能体具备文献检索与理解、长链条逻辑推理、在假设空间中进行创造性探索,以及最重要的——对“未知的未知”保持敏感并制定探索策略的能力。

Google DeepMind近期推出的数学研究智能体Aletheia,正是这一范式转移的里程碑。它并非仅仅优化了某个已知算法的性能,而是将目标直接对准了数学界的“圣杯”之一——Erdős猜想数据库中的开放问题。该数据库收录了数百个由传奇数学家保罗·埃尔德什提出或相关的未解猜想,是纯数学研究的前沿阵地。Aletheia在其中自主解决了四道开放问题,这并非在标准测试集上刷分,而是产出了经得起学术共同体审视的真实研究成果。

分析视角一:自主性与新颖性的量化——科研管理学的AI启示

一个容易被忽略但极具深意的细节是,Aletheia团队同步提出了一个用于量化“AI辅助数学成果的自主性和新颖性”的框架。这绝非技术附录,而是一份面向未来的“宣言”。它预示着,由AI参与甚至主导的科研产出将变得如此频繁,以至于学术界需要一套新的评价体系来界定贡献。这类似于开源软件中的贡献度统计,但应用于知识生产的最核心领域。这套框架可能引发连锁反应:未来学术论文的作者署名规范、基金项目的成果认定、甚至诺贝尔奖级别的发现中如何界定AI的“贡献”,都将成为亟待讨论的新议题。

Aletheia的技术内核,被概括为“生成-验证-修正”的端到端循环与密集的工具调用。这听起来简洁,实则是对传统AI推理范式的升级。它不再是一次性生成答案,而是构建了一个可以自我迭代、自我纠正的探索系统。工具调用使其能够接入符号计算系统、定理证明器、学术数据库,将自然语言的模糊指令转化为精确的数学操作。这种“工具增强型推理”正是实现从“解题”到“研究”跨越的技术桥梁。

二、 世界模型的技术路线大爆发:从感知模仿到结构生成

当研究型智能体在抽象数学空间探索时,另一条技术主线——世界模型——则在具象的物理和数字世界预测中蓬勃发展。然而,当前的技术生态呈现出一个显著特征:方法论的高度多元化,标志着该领域已走出早期模仿学习的单一路径。

Code2World:放弃像素,拥抱代码——GUI理解的范式创新

让AI智能体操作图形用户界面(GUI),一个核心挑战是预测交互后的界面状态。传统方法要么依赖文本描述丢失细节,要么试图直接生成像素图像导致结构混乱且不可控。Code2World项目提出了一个革命性的思路转换:将“预测下一个界面画面”重新定义为“生成能渲染出该界面的前端代码(如HTML)”。

这一转变的深刻之处在于,它将一个感知问题转化为了一个结构生成问题。界面本质上是代码规则的视觉呈现,代码才是其确定性的根源。通过将数万组GUI交互轨迹反编译为高保真的HTML训练数据,并采用渲染结果作为强化学习的奖励信号,一个仅80亿参数的模型就能在界面预测任务上媲美GPT-5等巨型多模态模型。更关键的是,这种结构化预测能直接提升下游任务性能,例如将Android设备导航成功率提升近10%。这为开发轻量、高效且可解释的GUI智能体开辟了新道路。

分析视角二:仿真成本与数据效率——世界模型落地的隐形战场

Code2World和VideoWorld 2的进展,共同指向了AI系统开发中一个日益尖锐的矛盾:对高保真仿真环境或海量现实数据的需求与高昂成本之间的矛盾。Code2World通过代码生成规避了对像素级仿真渲染的依赖,VideoWorld 2则试图从现有视频中“榨取”控制策略,减少对昂贵机器人试错的依赖。这反映出一个趋势:下一代AI系统的竞争力,不仅取决于模型架构的先进性,更取决于其“数据利用效率”和“仿真成本控制能力”。能够用更廉价、更丰富的数据形式(如代码、网络视频)进行训练的体系,将在规模化部署中占据巨大优势。

VideoWorld 2:从观察中直接学习行动哲学

与此同时,VideoWorld 2代表了另一条颇具野心的路径:跳过对物理世界的显式建模,直接从海量人类活动视频中学习控制策略。其核心理念是,视频中不仅记录了视觉变化,更隐含着达成目标的行动序列与物理约束。该项目在真实世界的手工任务上实现了70%的成功率提升,并且能迁移到机器人操作中,这表明其学习到的策略具备一定的泛化性和物理合理性。

这种方法与Code2World的“结构化”思路形成有趣对比:一个追求可解释、确定性的代码抽象,另一个则拥抱从复杂数据中直接涌现出的隐式策略。两者并存,说明“世界模型”并非一个有待攻克的单一目标,而是一个工具箱,不同工具适用于不同场景。未来,最强大的智能体或许能根据任务上下文,在“代码推理”、“物理仿真”和“视频隐式学习”等多种世界理解模式间自由切换。

三、 未来影响与挑战:增强型科学与人机共生

这些进展汇聚在一起,描绘出一幅清晰的图景:通用人工智能(AGI)的前进路径,正日益依赖于“专业化研究智能体”和“多元化世界模型”的协同进化。其影响将层层外溢:

首先,基础科研将进入“增强时代”。数学家、物理学家、生物学家将拥有一个不知疲倦、能遍历巨大假设空间的“副脑”。AI不会立即取代科学家,但会彻底改变科研的工作流。人类科学家将更多地扮演“战略制定者”、“灵感提供者”和“成果评审者”的角色,而将大量繁琐的假设验证、文献梳理、计算实验交给智能体。这可能会加速一些长期停滞领域的突破,也可能催生出全新的、人类独自难以想象的交叉学科。

其次,软件工程与机器人自动化将迎来新革命。像Code2World这样的技术成熟后,自动化测试、UI自动化生成、甚至根据自然语言描述自动构建应用程序都将成为可能。VideoWorld 2的技术路径则让机器人更容易通过观察人类来学习复杂技能,降低机器人编程和训练的门槛。

分析视角三:智能体的“价值观对齐”问题从社会层面向认知层面延伸

当AI智能体开始进行前沿探索时,一个更深层的挑战浮现出来:如何确保其探索方向和价值判断与人类一致?这不仅仅是防止生成有害内容那么简单。在数学研究中,智能体可能偏爱某种优雅但冷僻的证明路径,而忽略更具应用潜力的方向;在科学探索中,它可能因数据偏差而走向伦理上有争议的领域(如某些生物武器研究)。这意味着,AI对齐(Alignment)的研究必须从输出结果的过滤,前置到对智能体探索过程、好奇心驱动机制乃至“科学品味”的引导与塑造上。为研究型智能体注入负责任的“科研伦理”,将是下一个关键课题。

最后,挑战同样严峻。如何评估和信任AI产生的新知识?如何防止智能体在探索中陷入“幻觉”或无意义的循环?如何设计人机交互界面,让人类科学家能够有效理解和引导智能体的复杂推理过程?此外,这些强大工具可能进一步加剧科研资源分配的马太效应,以及引发关于知识产权和成果归属的法律与伦理争论。

总而言之,Aletheia解决数学猜想、Code2World重构GUI预测,这些都不是孤立的技术突破。它们共同标志着人工智能发展进入了“深水区”——从在人类划定的赛道中竞赛,转向与人类并肩,向未知的黑暗地带投射探照灯。这趟旅程的终点,或许不是取代人类的超级智能,而是一个由“增强型人类”与“专业化智能体”紧密协作、共同拓展认知边界的全新文明图景。